Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains all'interno del sistema MOMIS Relatore: Chiar.mo Prof. Sonia Bergamaschi Anno Accademico 2007/2008 Candidato: Sawzar Rashid MOMIS (Mediator EnvirOment for Multiple Information Sources) Data Level : forniscono la descrizione dei sorgente in ODLI3 e traducono le query OQLI3 Mediatore: il cuore del sistema, integra nella GV i dati e genera le query per i wrapper Livello utente: il progettista interagisce per creare la vista e formulare le interrogazioni sullo schema globale Momis e WordNet Sorgente 1 Sorgente 2 Common Thesaurus Cluster Global Schema Sorgente n Estrazione relazioni terminologiche - ODB-Tool - WordNet Raggruppamento per affinità - Artemis Costruzione Schema globale WordNet come strumento di disambiguazione dei termini (fase di annotazione) WordNet e disambiguazione •Sistema lessicale •Divisione per categoria sintattica (nome,verbo,aggettivo e avverbio) •Termini organizzati per significato (sinonimia) Terminologia usata: -Lemma -Synset -Glossa -Relazione (semantica e lessicale) Es: Il termine ‘agriculture’ associato a 4 diversi significati WordNet e disambiguazione Limiti di polisemia: verbi con più di 40 significati Scarse relazioni tra categorie sintattiche diverse Mancanza di un lessico specifico per determinati settori di applicazione WordNet Domains Estensione di WN Raccoglie i synset (anche di categorie diverse) in domini di appartenenza Copertura dello scibile umano (allineamento alla DDC) Utilizzo del dominio ‘Factotum’ per indicare synset generici Struttura di gerarchia ad albero e algoritmi di disambiguazione basati sui domini prevalenti in contesto WordNet Domains Obiettivo: Importare le informazioni di dominio in MOMIS, integrandole con quelle di WordNet Lasciando integro lo schema del DB di WordNet esistente (momiswn) Implementazione (Java) più semplice possibile ..e possibilmente Rappresentando anche le proprietà gerarchiche dei domini WordNet Domains: Importazione Utilizzo dello schema di momiswn esistente: •Definizione di una nuova categoria per i domini •Creazione di una nuova estensione WordNet Domains •Dominio come coppia synset-lemma della nuova categoria •Utilizzo dei tipi di relazione ‘Domain of synset’ e ‘Member of this Domain’ tra synset e domini •Creazione dei tipi di relazione ‘WordNet Domain Domain of synset’ e ‘WordNet Domain Member of this Domain’ di gerarchia tra i domini •Importazione delle relazioni dai file del package WordNet Domains WordNet Domains: Implementazione Utilizzo dei metodi e delle classi di accesso al database di MOMIS mediante JDBC Creazione della classe loader per importare nelle tabelle i dati WordNetDomainLoader WnSynset BaseWnSynset WnSynsetPeer BaseWnSynsetPeer Creazione di due semplici classi di supporto per: •Importare la struttura gerarchica di WordNet Domains (WordNetDomainLoaderHierarchy) •Fornire un supporto al parsing del file contenente le relazioni tra synset e domini (WordNetDomainLoaderRecord) Wn_synset WordNet Domains: conclusioni sull’importazione Si sono importate tutte le 168 etichette di dominio previste da WordNet Domains Si sono create le relazioni tra synset e domini e quelle tra domini in momiswn, importandole da file di testo L’architettura implementativa di MOMIS per quel che riguarda l’accesso ai dati non è stata modificata, ma anzi profittevolmente utilizzata per l’importazione …e inoltre Si è riusciti a mantenere una distinzione logica tra i dati originali di WordNet e l’importazione di WordNet Domains, grazie all’utilizzo di categoria sintattica e estensione apposite In futuro, utilizzando questa metodologia si potrebbe pensare all’importazione di gerarchie di dominio ‘specializzate’ in determinati settori. Grazie per l’attenzione http://www.dbgroup.unimo.it