Università Degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Nuovo Ordinamento Didattico TESI DI LAUREA DI PRIMO LIVELLO Anno accademico 2003 – 2004 Sistema Momis: analisi sperimentale dell’integrazione di una nuova sorgente materiale disponibile all’url http://www.dbgroup.unimo.it/tesi/indexNod.html Candidato: Relatore: Matteo Generali Prof. Sonia Bergamaschi Sistema MOMIS: Mediator envirOnment for Multiple Information Sources WRAPPING COMMON THESAURUS GENERATION SCHEMA DERIVED RELATIONSHIPS ODLI3 LOCAL SCHEMA 1 GVV GENERATION GLOBAL CLASSES LEXICON DERIVED RELATIONSHIPS <XML> <DATA> clusters generation Semi-Structured Source Common Thesaurus … ODLI3 LOCAL SCHEMA N USER SUPPLIED RELATIONSHIPS RDB MAPPING TABLES INFERRED RELATIONSHIPS Structured source MANUAL ANNOTATION SYNSET# SYNSET4 SYNSET2 SYNSET1 SEMI-AUTOMATIC ANNOTATION Estrazione delle sorgenti locali Sorgente relazionale Wrapper relazionale ODLi3 Sorgente XML DTD Wrapper DTD ODLi3 Wrapper HTML (Lixto) Sorgente HTML Annotazione delle sorgenti locali Elemento (Classe o Attributo) WordNet Annotazione: • Word form • Significato Generazione del Common Thesaurus Tipi di relazione • • • • SYN (Synonim) BT (Broader Term) NT (Narrower Term) RT (Related Term) Origini delle relazioni • • • • Schema Lessico Aggiunte del progettista ODB-Tools (chiusura transitiva) Generazione della GVV • Naming Affinity Coefficient (NA) Calcolato considerando i cammini che legano i nomi di due classi NA(c, c) 0 12 23 ( m1) m 1 NA(c, c) 0 negli altri casi se nc m nc AND NA(c, c) • Structural Affinity Coefficient (SA) Affinità strutturale fra le descrizioni di due classi SA(c, c ) l a | a A(c), a t t q A(c l ), nt ~ nq aq | at A(c), aq A(c l ), nt ~ nq A(c) A(c ) C (at , aq ) | at A(c), aq A(cl ), nt ~ nq • l Global Affinity Coefficient (GA) GA = (NA x wNA) + (SA x wSA) x C | flag ( x) 1 C Valori suggeriti wNA = 0,5 wSA = 0,5 Soglia = 0,5 Annotazione della GVV G= {CS.Class, UNI.Course, UNI.Teaching} Classi Locali annotate Relazioni del Common Thesaurus CS.Class=<class, {class#3}> UNI.Course=<course,{course#1}> UNI.Teaching=<teaching,{teaching#3}> UNI.COURSE UNI.COURSE CS.CLASS SYN NT NT CS.CLASS UNI.TEACHING UNI.TEACHING significati Classe Globale annotata G = <{ class, teaching,course},{class#3,teaching#3, course#1}> nomi nome più generale Significati WordNet significato più generale class#3 = course#1 = education imparted in a series of lessons or class meetings teaching#3 = activities that impart knowledge Integrazione di una nuova sorgente Secondo Primo approccio approccio GVVold oldSource1 newGVV oldSource1 oldSource2 oldSource1 oldSource2 oldSource3 oldSource3 newSource newSource oldSource2 oldSource3 newSource Ricalcolo della GVV sfruttando la GVV precedente • Caso 1 GCnew GCold LCnew LCnew • Caso 2 GCnew LCnew LCnew LCnew • Caso 3 GCnew GCold GCold LCnew Sperimentazione Esperimento 1 • Sperimentazione Caso 1 e Caso 2 • Confronto tra le GVV ottenute Esperimento 2 • Sperimentazione Caso 3 • Analisi teorica del Caso 3 Esperimento 1: esempio GVVold.Indirizzo Ind irizzo Via CAP Regione Comune subfor.Indirizzo Ind irizzo( pronto comune) Via CAP Regione Comune + Ind irizzo (address, 2) CAP (string) zip_code (1) POSTA-ELETTRONICA (set <str ing>) e-mail (1) FAX (set <str ing>) fax (1) Via (string) street (1) Regione (string) region (3) TEL (set <str ing>) telehpone (1) Comune (string) town (1) GVVnew.Indirizzo Ind irizzo Via TEL POSTA-ELETTRONICA CAP FAX Regione Comune = Ind irizzo(s ubfor) Via TEL POSTA-ELETTRONICA CAP FAX Regione Comune Ind irizzo( pronto comune) Via CAP Regione Comune Confronto tra i due approcci • Risultati finali confrontabili • Il primo approccio è più oneroso nel numero delle relazioni • Il secondo approccio ha un potere espressivo inferiore • Il secondo approccio si presta a procedure con intervento minimo del progettista, il primo approccio consente maggiore interazione Esperimento 2 Il terzo caso di integrazione è più complesso: • La sua presenza può compromettere la struttura della GVV come vista da applicazioni che svolgono query su di essa Esperimento 2: esempio NT NA = 0,4 SA ≥ 0,1 NT NA = 0,4 SA ≥ 0,1 C A RT NA = 0,32 SA < 0,25 B Riepilogo Caso 1 2 3-a 3-b 4-a 4-b 5-a 5-b 6 7-a 7-b 8 Rel A-C SYN RT RT NT NT SYN SYN RT RT Rel B-C SYN RT RT NT NT RT NT NT NT RT Rel A-B * SYN RT NT/BT RT NT RT NT NT RT NA(A,B) * 0,5 0,25 0,4 0,32 0,4 0,25 0,4 0,4 0 0 0,25 SA(A,B) 0,5 * < 0,25 < 0,1 < 0,25 < 0,1 < 0,25 < 0,1 < 0,1 0,5 0,1 0 NA(A, C) 0 0,5 0,25 0,25 0,4 0,4 0,5 0,5 0,25 0 0 0,25 SA(A,C) 0,5 0 ³ 0,25 ³ 0,25 ³ 0,1 ³ 0,1 * * ³ 0,25 0,5 0,5 0,25 NA(B,C) 0 0,5 0,25 0,25 0,4 0,4 0,25 0,4 0,4 0 0,4 0,25 SA(B,C) 0,5 0 ³ 0,25 ³ 0,25 ³ 0,1 ³ 0,1 < 0,25 ³ 0,1 ³ 0,1 0,5 ³ 0,1 0,25 Possibile NO NO SI SI SI SI SI SI SI NO SI SI Esperimento 2: conclusioni • Il terzo caso di integrazione introduce una possibile inefficacia della GVV • Solamente casi limite sono impossibili, molti altri sono realizzabili in teoria • Talvolta è conveniente affrontare il terzo caso come estensione di uno degli altri due