Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria di Modena
Corso di Laurea in Ingegneria Informatica
Integrazione di WordNet Domains
all'interno del sistema MOMIS
Relatore:
Chiar.mo Prof. Sonia Bergamaschi
Anno Accademico 2007/2008
Candidato:
Sawzar Rashid
MOMIS
(Mediator EnvirOment for Multiple Information Sources)
Data Level : forniscono la
descrizione dei sorgente in ODLI3
e traducono le query OQLI3
Mediatore: il cuore del sistema,
integra nella GV i dati e genera le
query per i wrapper
Livello utente: il progettista interagisce per creare la
vista e formulare le interrogazioni sullo schema
globale
Momis e WordNet
Sorgente 1
Sorgente 2
Common
Thesaurus
Cluster
Global
Schema
Sorgente n
Estrazione relazioni terminologiche
- ODB-Tool
- WordNet
Raggruppamento
per affinità
- Artemis
Costruzione
Schema globale
WordNet come strumento di disambiguazione dei termini (fase di annotazione)
WordNet e disambiguazione
•Sistema lessicale
•Divisione per categoria sintattica (nome,verbo,aggettivo e avverbio)
•Termini organizzati per significato (sinonimia)
Terminologia usata:
-Lemma
-Synset
-Glossa
-Relazione (semantica e lessicale)
Es: Il termine ‘agriculture’ associato
a 4 diversi significati
WordNet e disambiguazione
Limiti di polisemia: verbi con più di 40 significati
Scarse relazioni tra categorie sintattiche diverse
Mancanza di un lessico specifico per determinati settori di applicazione
WordNet Domains
Estensione di WN
Raccoglie i synset (anche di categorie diverse) in domini di appartenenza
Copertura dello scibile umano (allineamento alla DDC)
Utilizzo del dominio ‘Factotum’ per indicare synset generici
Struttura di gerarchia ad albero
e algoritmi di disambiguazione basati sui domini prevalenti in contesto
WordNet Domains
Obiettivo: Importare le informazioni di dominio in MOMIS,
integrandole con quelle di WordNet
Lasciando integro lo schema del DB di WordNet esistente
(momiswn)
Implementazione (Java) più semplice possibile
..e possibilmente
Rappresentando anche le proprietà gerarchiche dei domini
WordNet Domains: Importazione
Utilizzo dello schema di momiswn esistente:
•Definizione di una nuova categoria per i
domini
•Creazione di una nuova estensione
WordNet Domains
•Dominio come coppia synset-lemma
della nuova categoria
•Utilizzo dei tipi di relazione ‘Domain of
synset’ e ‘Member of this Domain’ tra
synset e domini
•Creazione dei tipi di relazione ‘WordNet
Domain Domain of synset’ e ‘WordNet
Domain Member of this Domain’ di
gerarchia tra i domini
•Importazione delle relazioni dai file del
package WordNet Domains
WordNet Domains: Implementazione
Utilizzo dei metodi e delle classi di accesso al database di
MOMIS mediante JDBC
Creazione della classe loader per
importare nelle tabelle i dati
WordNetDomainLoader
WnSynset
BaseWnSynset
WnSynsetPeer
BaseWnSynsetPeer
Creazione di due semplici classi di supporto per:
•Importare la struttura gerarchica di WordNet Domains
(WordNetDomainLoaderHierarchy)
•Fornire un supporto al parsing del file contenente le relazioni
tra synset e domini (WordNetDomainLoaderRecord)
Wn_synset
WordNet Domains: conclusioni sull’importazione
Si sono importate tutte le 168 etichette di dominio previste da
WordNet Domains
Si sono create le relazioni tra synset e domini e quelle tra domini
in momiswn, importandole da file di testo
L’architettura implementativa di MOMIS per quel che riguarda
l’accesso ai dati non è stata modificata, ma anzi profittevolmente
utilizzata per l’importazione
…e inoltre
Si è riusciti a mantenere una distinzione logica tra i dati originali
di WordNet e l’importazione di WordNet Domains, grazie
all’utilizzo di categoria sintattica e estensione apposite
In futuro, utilizzando questa metodologia si potrebbe pensare
all’importazione di gerarchie di dominio ‘specializzate’ in
determinati settori.
Grazie per l’attenzione
http://www.dbgroup.unimo.it
Scarica

Questa è una tesi - DBGroup - Università degli studi di Modena e