Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Corso di Laurea Specialistica in Ingegneria Informatica
Approssimazione semantica
per routing di interrogazioni
in un PDMS
Simona Sassatelli
Relatore:
Dott. Federica Mandreoli
Correlatore:
Ing. Riccardo Martoglia
Anno Accademico 2004/2005
Ambito di ricerca:
Progetto nazionale WISDOM
(Web Intelligent Search based on DOMain ontologies)
Obiettivo
definizione di tecniche e strumenti per la ricerca, la localizzazione e la
fruizione personalizzata di risorse informative disponibili su Web
Architettura di riferimento
Peer Data Management System (PDMS)
Ambito di indagine della tesi:
Processo di routing delle interrogazioni
Obiettivo
Sviluppo di tecniche che permettono di operare sulla base di
informazioni semantiche
Q’’
Peer Data Management
System
CiteSeer
(PDMS) Stanford
UW
Q’
Q’’
 Rete di peer indipendenti ed autonomi
Q’’
 Architettura decentralizzata e facilmente estensibile
DBLP
(Peer-to-Peer)
 I peer
Q decidono liberamente di condividere i propri dati
 nessuno schema logico mediato globale
Q’’
 relazioni semantiche stabilite localmente tra i singoli peer (mapping)
Paris
Roma
Vienna Q’
 I peer collaborano nel risolvere le interrogazioni poste
dagli utenti
 query poste usando lo schema del peer
 risposte provenienti da tutto il sistema
Problematiche affrontate
nella tesi
 Gestione dell’eterogeneità delle sorgenti
coinvolte
 Indici di Routing Semantici (SRI)
 Gestione dell’ambiente P2P
 Simulazione
Gestione dell’eterogeneità
dei peer
 Peer indipendenti
 eterogenei negli schemi adottati per
rappresentare i dati
 Mapping semantici locali
 approccio basato sul concetto di
approssimazione semantica
 Sistema XML S3MART
 sviluppato presso l’Università di Modena e
Reggio Emilia
 riscrittura di interrogazioni su insiemi di
documenti eterogenei
XML S3MART
Schema A
Schema B
musicstore
B
location
cdstore
storage
address
signboard
name
A
B
cd
state
vocalist cdtitle tracklist
stock
town
country
colorsign namesign
compactDisk
city street
A
D
passage
songlist
albumTitle
title
D
track
C
C
songtitle singer
2.
REWRITING
1. QUERY
SCHEMA
MATCHING
FOR $x IN /musicstore
A
WHERE $x//compactDisk/songlist/track/singer
=
"elisa"
/cdstore/cd
…/stock/compactDisk
AND $x//compactDisk/songlist/track/songtitle = "gift"
B
FOR $x
IN /cdstore
/musicstore/location
/cdstore/address
RETURN $x/signboard/namesign
C
WHERE $x/cd/vocalist = "elisa"
…/track/songtitle
…/passage/title
AND
$x/cd/tracklist/passage/title
= "gift"
D
…/compactDisk/albumTitle
…/cd/cdtitle
RETURN
$x/name
…
Limiti di XML S3MART
 Progettato per un contesto centralizzato (digital library eterogenee)
 per ogni coppia di schemi individua le migliori corrispondenze tra i concetti
 Ambiente distribuito P2P
Q
 routing delle query
E
D
Q
Q
Q
F
Q
Q
G
C
A
H
Q

Non è sempre conveniente
propagare una query verso
altri nodi
 traffico di rete
 dati inutili per l’utente
Q
B
Q
J
I
Q
Modifiche a XML S3MART
 XML S3MART processa gli schemi a coppie
 punteggi di mapping non utilizzabili per eseguire il routing
 Reingegnerizzazione:
 modifica della struttura
concettuale da uno-a-uno
a uno-a-molti
 correzione del calcolo
iterativo di fixpoint
 adattamento
dell’operazione di
normalizzazione
D
Q
?
A
C
Q
 Punteggi comparabili
 Calcolo dei punteggi efficiente
e incrementale
B
Problematiche affrontate
nella tesi
 Gestione dell’eterogeneità delle sorgenti
coinvolte
 Indici di Routing Semantici (SRI)
 Gestione dell’ambiente P2P
 Simulazione
Routing by mapping
 query propagate solo ai peer con un elevato
punteggio per i concetti richiesti
 Necessità di considerare le intere sottoreti che
hanno origine dai peer vicini.
E
D
 Non è possibile che
F
ogni peer calcoli i
mapping con tutti
gli altri
C
A
Q
H
Informazioni
riassuntive
B
I
G
J
Indici di Routing Semantici (SRI)
 Strutture dati locali ad ogni peer
 Informazioni riassuntive di come ogni elemento dello schema di
un peer viene approssimato semanticamente nelle sottoreti che
hanno origine dai vicini

B
Esempio:
A
SRIA
a1
a2
…
a5
A
0.8
0.9
…
0.7
B
0.6
0.0
…
0.5
C
0.4
0.5
…
0.6
I
C
J
Costruzione delle informazioni riassuntive
Calcolate a partire dai punteggi di mapping determinati con XML S3MART:
1. AGGREGAZIONE:
informazione riassuntiva per punteggi di mapping che hanno lo stesso schema source
SRIA
a1
a2
…
an
A
0.8
0.9
…
0.7
B
0.6
0.6
…
0.5
C
0.4
0.5
…
0.6
D
0.7
0.7
…
0.3
…
…
…
…
…
B
C
A
D
2. COMPOSIZIONE:
informazione riassuntiva per due punteggi di mapping in cui lo schema target del primo
corrisponde allo schema source del secondo.
A
C
SRIB
b1
b2
…
bm
B
0.8
0.9
…
0.7
C
0.6
0.6
…
0.5
0.5
A
0.4
0.7
…
…
…
…
SRIA
a1
a2
…
an
A
0.8
0.9
…
0.7
B
0.6
0.6
…
…
…
…
…
B
0.3
…
…
Costruzione delle informazioni riassuntive
 Modello matematico ispirato alla logica fuzzy
 mapping  relazione fuzzy
 punteggio  grado di membership
M(SA,SB)  SA SB
μM: SA SB → [0,1]
 AGGREGAZIONE  unione tra fuzzy set
 COMPOSIZIONE  composizione tra relazioni fuzzy rappresentate dai
corrispondenti fuzzy set
Funzioni matematiche da impiegare:
AGGREGAZIONE
Proprietà:
Esempi:
Funzioni matematiche da impiegare:
COMPOSIZIONE
Proprietà:
Esempi:
Problematiche affrontate
nella tesi
 Gestione dell’eterogeneità delle sorgenti
coinvolte
 Indici di Routing Semantici (SRI)
 Gestione dell’ambiente P2P
 Simulazione
Gestione dell’ambiente P2P

Ambiente P2P: entità autonome e indipendenti
 libera scelta degli istanti di connessione
 libera scelta dei vicini

Nuovo modulo che gestisce l’ambiente P2P
 Strutture dati
 Protocollo di interazione tra i peer
 Algoritmi per la connessione di nuovi nodi e
l’aggiornamento degli indici
Esempio di connessione e
aggiornamento
SRIA
a1
a2
…
aann
A
B
B
SRIB
b2
…
bm
B
C
A
D
4.3 RISPOSTA
AGGIORNAMENTO
4.1
RISPOSTA
3.
RICHIESTA
1. 2.
RICHIESTA
RISPOSTA
AGGIORNAMENTO
AGGIORNAMENTO
CONNESSIONE
CONNESSIONE
4.2
RISPOSTA
AGGIORNAMENTO
d1
d2
…
SRIC
C
A
SRID
b1
dj
c1
c2
…
e1
e2
…
cr
C
A
SRIE
D
E
ek
E
D
D
E
F
A
SRIF
F
F
D
f1
f2
…
fi
Problematiche affrontate
nella tesi
 Gestione dell’eterogeneità delle sorgenti
coinvolte
 Indici di Routing Semantici (SRI)
 Gestione dell’ambiente P2P
 Simulazione
Prove sperimentali
 Carenza di PDMS liberamente impiegabili e
modificabili a scopo di test
 simulazione
 Ambiente di simulazione a eventi discreti
 definizione di un modello per il sistema
 utilizzo di SimJava 2.0
 Scenario per la simulazione
 rete di peer
 schemi di argomento diverso
 due tipi di test:
1. Confrontabilità tra i punteggi di mapping
2. Efficacia degli indici di routing semantici
Risultati: Confrontabilità dei mapping
1
Risultati:
Efficacia degli indici di routing semantici
(b) Situazione finale
(a) Situazione iniziale
Efficacia degli indici di routing semantici
Conclusioni
 Studio delle problematiche dei PDMS
 Gestione dell’eterogeneità dei peer
 Mapping semantici locali
 Modifiche a XML S3MART
 Indici di routing semantici
 Routing by mapping
 Creazione delle informazioni riassuntive
 Modello matematico fuzzy
 Gestione dell’ambiente P2P
 Nuovo modulo
 Strutture dati e protocollo
 Simulazione
 Ambiente di esecuzione P2P
 Prove sperimentali
Sviluppi futuri
 Informazioni quantitative
 dati  indici di routing quantitativi
 valori  content summary
 Simulazione con reti più complesse e query reali
 Introdurre metriche di valutazione proprie dei sistemi di
information retrieval
Scarica

Presentazione - ISGroup - Università degli studi di Modena e