Università Degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria – Sede di Modena
Corso di Laurea in Ingegneria Informatica
Nuovo Ordinamento Didattico
TESI DI LAUREA DI PRIMO LIVELLO
Anno accademico 2003 – 2004
Sistema Momis: analisi sperimentale
dell’integrazione di una nuova sorgente
materiale disponibile all’url http://www.dbgroup.unimo.it/tesi/indexNod.html
Candidato:
Relatore:
Matteo Generali
Prof. Sonia Bergamaschi
Sistema MOMIS: Mediator envirOnment for
Multiple Information Sources
WRAPPING
COMMON THESAURUS
GENERATION
SCHEMA DERIVED
RELATIONSHIPS
ODLI3
LOCAL SCHEMA 1
GVV GENERATION
GLOBAL
CLASSES
LEXICON DERIVED
RELATIONSHIPS
<XML>
<DATA>
clusters
generation
Semi-Structured
Source
Common
Thesaurus
…
ODLI3
LOCAL SCHEMA N
USER SUPPLIED
RELATIONSHIPS
RDB
MAPPING
TABLES
INFERRED
RELATIONSHIPS
Structured
source
MANUAL
ANNOTATION
SYNSET#
SYNSET4
SYNSET2
SYNSET1
SEMI-AUTOMATIC
ANNOTATION
Estrazione delle sorgenti locali
Sorgente
relazionale
Wrapper
relazionale
ODLi3
Sorgente
XML DTD
Wrapper
DTD
ODLi3
Wrapper
HTML (Lixto)
Sorgente
HTML
Annotazione delle sorgenti locali
Elemento
(Classe o Attributo)
WordNet
Annotazione:
• Word form
• Significato
Generazione del Common
Thesaurus
Tipi di relazione
•
•
•
•
SYN (Synonim)
BT (Broader Term)
NT (Narrower Term)
RT (Related Term)
Origini delle relazioni
•
•
•
•
Schema
Lessico
Aggiunte del progettista
ODB-Tools (chiusura
transitiva)
Generazione della GVV
• Naming Affinity Coefficient (NA)
Calcolato considerando i cammini che legano i nomi di due classi
NA(c, c)  0   12   23     ( m1) m  1
NA(c, c)  0 negli altri casi
se
nc  m nc
AND
NA(c, c)  
• Structural Affinity Coefficient (SA)
Affinità strutturale fra le descrizioni di due classi
SA(c, c ) 
l
a | a  A(c), a
t
t
q

 A(c l ), nt ~ nq  aq | at  A(c), aq  A(c l ), nt ~ nq
A(c)  A(c )

C  (at , aq ) | at  A(c), aq  A(cl ), nt ~ nq
•
l

Global Affinity Coefficient (GA)
GA = (NA x wNA) + (SA x wSA)
 x  C | flag ( x)  1

C
Valori suggeriti
wNA = 0,5
wSA = 0,5
Soglia = 0,5
Annotazione della GVV
G= {CS.Class, UNI.Course, UNI.Teaching}
Classi Locali annotate
Relazioni del Common Thesaurus
CS.Class=<class, {class#3}>
UNI.Course=<course,{course#1}>
UNI.Teaching=<teaching,{teaching#3}>
UNI.COURSE
UNI.COURSE
CS.CLASS
SYN
NT
NT
CS.CLASS
UNI.TEACHING
UNI.TEACHING
significati
Classe Globale annotata
G = <{ class, teaching,course},{class#3,teaching#3, course#1}>
nomi
nome più generale
Significati
WordNet
significato più generale
class#3 = course#1 = education imparted in a series of
lessons or class meetings
teaching#3 = activities that impart knowledge
Integrazione di una nuova sorgente
Secondo
Primo approccio
approccio
GVVold
oldSource1
newGVV
oldSource1
oldSource2
oldSource1
oldSource2
oldSource3
oldSource3
newSource
newSource

oldSource2
oldSource3
newSource
Ricalcolo della GVV sfruttando la
GVV precedente
• Caso 1
GCnew
GCold
LCnew
LCnew
• Caso 2
GCnew
LCnew
LCnew
LCnew
• Caso 3
GCnew
GCold
GCold
LCnew
Sperimentazione
Esperimento 1
• Sperimentazione Caso 1 e Caso 2
• Confronto tra le GVV ottenute
Esperimento 2
• Sperimentazione Caso 3
• Analisi teorica del Caso 3
Esperimento 1: esempio
GVVold.Indirizzo
Ind irizzo
Via
CAP
Regione
Comune
subfor.Indirizzo
Ind irizzo( pronto comune)
Via
CAP
Regione
Comune
+
Ind irizzo (address, 2)
CAP (string)
zip_code (1)
POSTA-ELETTRONICA (set <str ing>)
e-mail (1)
FAX (set <str ing>)
fax (1)
Via (string)
street (1)
Regione (string)
region (3)
TEL (set <str ing>)
telehpone (1)
Comune (string)
town (1)
GVVnew.Indirizzo
Ind irizzo
Via
TEL
POSTA-ELETTRONICA
CAP
FAX
Regione
Comune
=
Ind irizzo(s ubfor)
Via
TEL
POSTA-ELETTRONICA
CAP
FAX
Regione
Comune
Ind irizzo( pronto comune)
Via
CAP
Regione
Comune
Confronto tra i due approcci
• Risultati finali confrontabili
• Il primo approccio è più oneroso nel numero
delle relazioni
• Il secondo approccio ha un potere espressivo
inferiore
• Il secondo approccio si presta a procedure con
intervento minimo del progettista, il primo
approccio consente maggiore interazione
Esperimento 2
Il terzo caso di integrazione è più complesso:
• La sua presenza può compromettere la struttura
della GVV come vista da applicazioni che
svolgono query su di essa
Esperimento 2: esempio
NT
NA = 0,4
SA ≥ 0,1
NT
NA = 0,4
SA ≥ 0,1
C
A
RT
NA = 0,32
SA < 0,25
B
Riepilogo
Caso
1
2
3-a
3-b
4-a
4-b
5-a
5-b
6
7-a
7-b
8
Rel A-C
SYN
RT
RT
NT
NT
SYN
SYN
RT
RT
Rel B-C
SYN
RT
RT
NT
NT
RT
NT
NT
NT
RT
Rel A-B
*
SYN
RT
NT/BT
RT
NT
RT
NT
NT
RT
NA(A,B)
*
0,5
0,25
0,4
0,32
0,4
0,25
0,4
0,4
0
0
0,25
SA(A,B)
0,5
*
< 0,25
< 0,1
< 0,25
< 0,1
< 0,25
< 0,1
< 0,1
0,5
0,1
0
NA(A, C)
0
0,5
0,25
0,25
0,4
0,4
0,5
0,5
0,25
0
0
0,25
SA(A,C)
0,5
0
³ 0,25
³ 0,25
³ 0,1
³ 0,1
*
*
³ 0,25
0,5
0,5
0,25
NA(B,C)
0
0,5
0,25
0,25
0,4
0,4
0,25
0,4
0,4
0
0,4
0,25
SA(B,C)
0,5
0
³ 0,25
³ 0,25
³ 0,1
³ 0,1
< 0,25
³ 0,1
³ 0,1
0,5
³ 0,1
0,25
Possibile
NO
NO
SI
SI
SI
SI
SI
SI
SI
NO
SI
SI
Esperimento 2: conclusioni
• Il terzo caso di integrazione introduce una
possibile inefficacia della GVV
• Solamente casi limite sono impossibili, molti altri
sono realizzabili in teoria
• Talvolta è conveniente affrontare il terzo caso
come estensione di uno degli altri due
Scarica

- DBGroup - Università degli studi di Modena e Reggio