Università Degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di Modena
Corso di Laurea in Ingegneria Informatica
Nuovo Ordinamento Didattico
TESI DI LAUREA DI PRIMO LIVELLO
Anno accademico 2003 – 2004
Sistema Momis: analisi sperimentale
dell’integrazione di una nuova sorgente
materiale disponibile all’url http://www.dbgroup.unimo.it/tesi/indexNod.html
Candidato:
Relatore:
Matteo Generali
Prof. Sonia Bergamaschi
Sistema MOMIS: Mediator envirOnment for
Multiple Information Sources
WRAPPING
COMMON THESAURUS
GENERATION
SCHEMA DERIVED
RELATIONSHIPS
ODLI3
LOCAL SCHEMA 1
GVV GENERATION
GLOBAL
CLASSES
LEXICON DERIVED
RELATIONSHIPS
<XML>
<DATA>
clusters
generation
Semi-Structured
Source
Common
Thesaurus
…
ODLI3
LOCAL SCHEMA N
USER SUPPLIED
RELATIONSHIPS
RDB
MAPPING
TABLES
INFERRED
RELATIONSHIPS
Structured
source
MANUAL
ANNOTATION
SYNSET#
SYNSET4
SYNSET2
SYNSET1
SEMI-AUTOMATIC
ANNOTATION
Estrazione delle sorgenti locali
Sorgente
relazionale
Wrapper
relazionale
ODLi3
Sorgente
XML DTD
Wrapper
DTD
ODLi3
Wrapper
HTML (Lixto)
Sorgente
HTML
Annotazione delle sorgenti locali
Elemento
(Classe o Attributo)
WordNet
Annotazione:
• Word form
• Significato
Generazione del Common
Thesaurus
Tipi di relazione
•
•
•
•
SYN (Synonim)
BT (Broader Term)
NT (Narrower Term)
RT (Related Term)
Origini delle relazioni
•
•
•
•
Schema
Lessico
Aggiunte del progettista
ODB-Tools (chiusura
transitiva)
Generazione della GVV
• Naming Affinity Coefficient (NA)
Calcolato considerando i cammini che legano i nomi di due classi
NA(c, c) 0 12 23 ( m1) m 1
NA(c, c) 0 negli altri casi
se
nc m nc
AND
NA(c, c)
• Structural Affinity Coefficient (SA)
Affinità strutturale fra le descrizioni di due classi
SA(c, c )
l
a | a A(c), a
t
t
q
A(c l ), nt ~ nq aq | at A(c), aq A(c l ), nt ~ nq
A(c) A(c )
C (at , aq ) | at A(c), aq A(cl ), nt ~ nq
•
l
Global Affinity Coefficient (GA)
GA = (NA x wNA) + (SA x wSA)
x C | flag ( x) 1
C
Valori suggeriti
wNA = 0,5
wSA = 0,5
Soglia = 0,5
Annotazione della GVV
G= {CS.Class, UNI.Course, UNI.Teaching}
Classi Locali annotate
Relazioni del Common Thesaurus
CS.Class=<class, {class#3}>
UNI.Course=<course,{course#1}>
UNI.Teaching=<teaching,{teaching#3}>
UNI.COURSE
UNI.COURSE
CS.CLASS
SYN
NT
NT
CS.CLASS
UNI.TEACHING
UNI.TEACHING
significati
Classe Globale annotata
G = <{ class, teaching,course},{class#3,teaching#3, course#1}>
nomi
nome più generale
Significati
WordNet
significato più generale
class#3 = course#1 = education imparted in a series of
lessons or class meetings
teaching#3 = activities that impart knowledge
Integrazione di una nuova sorgente
Secondo
Primo approccio
approccio
GVVold
oldSource1
newGVV
oldSource1
oldSource2
oldSource1
oldSource2
oldSource3
oldSource3
newSource
newSource
oldSource2
oldSource3
newSource
Ricalcolo della GVV sfruttando la
GVV precedente
• Caso 1
GCnew
GCold
LCnew
LCnew
• Caso 2
GCnew
LCnew
LCnew
LCnew
• Caso 3
GCnew
GCold
GCold
LCnew
Sperimentazione
Esperimento 1
• Sperimentazione Caso 1 e Caso 2
• Confronto tra le GVV ottenute
Esperimento 2
• Sperimentazione Caso 3
• Analisi teorica del Caso 3
Esperimento 1: esempio
GVVold.Indirizzo
Ind irizzo
Via
CAP
Regione
Comune
subfor.Indirizzo
Ind irizzo( pronto comune)
Via
CAP
Regione
Comune
+
Ind irizzo (address, 2)
CAP (string)
zip_code (1)
POSTA-ELETTRONICA (set <str ing>)
e-mail (1)
FAX (set <str ing>)
fax (1)
Via (string)
street (1)
Regione (string)
region (3)
TEL (set <str ing>)
telehpone (1)
Comune (string)
town (1)
GVVnew.Indirizzo
Ind irizzo
Via
TEL
POSTA-ELETTRONICA
CAP
FAX
Regione
Comune
=
Ind irizzo(s ubfor)
Via
TEL
POSTA-ELETTRONICA
CAP
FAX
Regione
Comune
Ind irizzo( pronto comune)
Via
CAP
Regione
Comune
Confronto tra i due approcci
• Risultati finali confrontabili
• Il primo approccio è più oneroso nel numero
delle relazioni
• Il secondo approccio ha un potere espressivo
inferiore
• Il secondo approccio si presta a procedure con
intervento minimo del progettista, il primo
approccio consente maggiore interazione
Esperimento 2
Il terzo caso di integrazione è più complesso:
• La sua presenza può compromettere la struttura
della GVV come vista da applicazioni che
svolgono query su di essa
Esperimento 2: esempio
NT
NA = 0,4
SA ≥ 0,1
NT
NA = 0,4
SA ≥ 0,1
C
A
RT
NA = 0,32
SA < 0,25
B
Riepilogo
Caso
1
2
3-a
3-b
4-a
4-b
5-a
5-b
6
7-a
7-b
8
Rel A-C
SYN
RT
RT
NT
NT
SYN
SYN
RT
RT
Rel B-C
SYN
RT
RT
NT
NT
RT
NT
NT
NT
RT
Rel A-B
*
SYN
RT
NT/BT
RT
NT
RT
NT
NT
RT
NA(A,B)
*
0,5
0,25
0,4
0,32
0,4
0,25
0,4
0,4
0
0
0,25
SA(A,B)
0,5
*
< 0,25
< 0,1
< 0,25
< 0,1
< 0,25
< 0,1
< 0,1
0,5
0,1
0
NA(A, C)
0
0,5
0,25
0,25
0,4
0,4
0,5
0,5
0,25
0
0
0,25
SA(A,C)
0,5
0
³ 0,25
³ 0,25
³ 0,1
³ 0,1
*
*
³ 0,25
0,5
0,5
0,25
NA(B,C)
0
0,5
0,25
0,25
0,4
0,4
0,25
0,4
0,4
0
0,4
0,25
SA(B,C)
0,5
0
³ 0,25
³ 0,25
³ 0,1
³ 0,1
< 0,25
³ 0,1
³ 0,1
0,5
³ 0,1
0,25
Possibile
NO
NO
SI
SI
SI
SI
SI
SI
SI
NO
SI
SI
Esperimento 2: conclusioni
• Il terzo caso di integrazione introduce una
possibile inefficacia della GVV
• Solamente casi limite sono impossibili, molti altri
sono realizzabili in teoria
• Talvolta è conveniente affrontare il terzo caso
come estensione di uno degli altri due