Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica METODI DI DISAMBIGUAZIONE DEL TESTO ED ESTENSIONI DI WORDNET NEL SISTEMA MOMIS Relatore: Prof.ssa Sonia Bergamaschi Correlatore: Ing. Laura Po Candidato: Serena Sorrentino Anno Accademico 2005/2006 MOMIS (Mediator EnvirOment for Multiple Information Sources) Sistema per l’integrazione intelligente di sorgenti di dati eterogenee strutturate e semi-strutturate. Obbiettivo: Integrare le informazioni fornendo uno schema concettuale globale che consenta all’utente di sottomettere una query e di ricevere una risposta unificata. Tra i problemi da affrontare Eterogeneità ontologica: Eterogeneità Semantica: differenze fra l’insieme dei termini e delle relazioni, attraverso i quali è possibile denotare i concetti e gli oggetti appartenenti ad un particolare dominio di conoscenza possibilità che diverse persone forniscano descrizioni, anche molto diverse tra loro, della stessa porzione di mondo, anche se si possiede un insieme di conoscenze comuni WordNet Disambiguazione del testo WordNet Database lessicale di riferimento che definisce i concetti della conoscenza e le relazioni che intercorrono fra di essi. Caratteristiche: Categoria sintattica: categorie in cui sono suddivisi i termini. Le categorie sintattiche trattate sono: nomi, verbi, avverbi ed aggettivi. Lemma: è la parola/termine a cui vengono associati uno o più significati Synset (set of synonym): insieme di termini associati al medesimo significato ed appartenenti alla stessa categoria sintattica Glossa: descrizione a parole di un significato specifico; ogni synset possiede anche una glossa. Relazione Semantica: relazione che lega due synset appartenenti alla stessa categoria sintattica (es. iponimia ipernimia) Relazione lessicale: relazione tra due lemmi appartenenti a synset distinti (ma sempre alla stessa categoria sintattica) (es.sinonimia) Metodi e Algoritmi di Disambiguazione del Testo Il processo di disambiguazione del testo, consiste nell’identificazione dei concetti associati ai vari lemmi, ovvero nell’assegnare, ad ogni parola, il senso più corretto in base al contesto nel quale è utilizzato. In MOMIS processo di disambiguazione consente di realizzare l’annotazione dei nomi delle classi e degli attributi delle sorgenti di dati, sfruttando i synset e le relazioni fra questi, fornite da WordNet. !Problema Il processo di annotazione, essendo attualmente, realizzato in maniera completamente manuale, è altamente costoso. Obiettivo della tesi: Delineare un meccanismo di disambiguazione del testo basato su WordNet e sulle sue estensioni, che consenta di disambiguare i termini in maniera automatica o semi-automatica al fine di poter realizzare l’annotazione automatica dei termini Classificazione dei Metodi e Algoritmi di disambiguazione del testo In letteratura è possibile incontrare diverse tecniche e metodologie di disambiguazione le quali sfruttano l’informazione contenuta all’interno di una risorsa lessicale di conoscenza. Non esiste un criterio di classificazione univoco. Due approcci possono differire tra loro per vari aspetti: Categorie sintattiche disambiguate. Struttura di memorizzazione delle informazioni. Disambiguazione locale vs disambiguazione globale Tipologia e numero di relazioni tra i termini considerate Risorsa di conoscenza utilizzata. Algoritmi Supervisionati vs Algoritmi non Supervisionati Algoritmi Non Supervisionati Non richiedonom supervisione da parte dell’utente. Si basano sull’utilizzo di ontologie o dizionari come risorsa di conoscenza. Tra i principali citati in letteratura: Algoritmi basati sulle Catene lessicali Algoritmi di Gloss Overlap Rappresentanti i differenti processi di coesione del testo (es. Galley e McKeown …) Confrontano le parole contenute all’interno delle glosse dei termini appartenenti del contesto.(es. Lesk) Algoritmi basati su misure di relazione semantica fra i termini Misure di similarità basate sul path tra i termini Misure basate sul contenuto informativo dei concetti Misure basate sul vettore di contesto Algoritmi basati sui grafi Algoritmi Supervisionati Richiedono la supervisione dell’utente e utilizzano collezioni di testi di riferimento disambiguati manualmente. !Svantaggio Sforzo notevole per produrre manualmente le collezioni di testi di riferimento. Algoritmi Completamente Supervisionati Algoritmi Minimamente Supervisionati Tentativo di realizzare algoritmi minimamente supervisionati. • Liste di Decisione • Naive Bayes • AdaBoost • Funzioni di Kernel • Sistema SenseLearn (Mihalcea) • Algoritmo Structural Semantic Interconnection (Navigli) Algoritmi Composti Combinano due o più approcci al problema della disambiguazione del testo. Ottengono prestazioni migliori, rispetto a quelle ottenibili dall’uso dei singoli algoritmi. Rappresentano la via più promettente nell’ambito della disambiguazione. •Gloss Overlap Extended •Metodo del senso più frequente Novischi: WordNet •Parallelismo lessicale … •Catene Lessicali •Gloss Overlap Brody, Navigli e •Structural Semantic Interconnection •Misure di Similarità Lapata: Mandreoli, Martoglia e Ronchetti: •Misure di Similarità •Gloss Overlap •Metodo del Senso più frequente Limitazioni di WordNet Nonostante WordNet abbia riscosso un ampio successo come risorsa di conoscenza nell’ambito della disambiguazione del testo, durante il suo utilizzo si sono evidenziate alcune lacune significative: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità dei synset,spesso eccessivo per le applicazioni comuni (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet Estensioni di WordNet Estensioni di WordNet Tentativo di colmare le lacune di WordNet, attraverso l’inserimento di nuove relazioni, nuovi synset, ecc… eXtended WordNet (XWN): •Introdotto nel 2001 da Modovan e Mihalcea dell’Università di Dallas (USA). •Disambigua i termini delle glosse in maniera semi-automatica. •Realizza la trasformazione in forma logica delle glosse. •Consente di inferire nuove relazioni tra i termini indipendentemente dalla categoria sintattica. WordNet Domains (WND): •Introdotto nel 2002 da Magnini e Strapparava dell’ITC-irst di Trento. •Associa, a ciascun synset di WordNet, uno o più domini di appartenenza. •Si basa sulla considerazione che i domini costituiscono una fondamentale proprietà semantica sulla quale si basa la coerenza del testo. • Utilizza l’etichetta “factotum” per indicare i synset generici. Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare all’interno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet Integrazione di WordNet Domains in MOMIS-Motivazioni Allo scopo di realizzare un meccanismo automatico o semi-automatico di disambiguazione del testo, si è scelto di integrare all’interno del database lessicale di MOMIS, il sistema WordNet Domains. Le motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una potenziale soluzione a molte delle lacune di WordNet precedentemente delineate. In particolare: Mancanza di un lessico specifico per determinati settori di applicazione. Assenza di relazioni esplicitamente rappresentate fra synset relativi allo stesso dominio ma appartenenti a categorie sintattiche differenti. Numero insufficiente di interconnessioni fra termini utilizzati nello stesso dominio. Insieme limitato di relazioni lessico-semantiche rappresentate. Livello di granularità spesso eccessivo per le applicazioni comuni, di distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili). Mancanza di completezza per quanto riguarda i termini composti, i quali risultano difficili da annotare, con gli strumenti forniti da WordNet Integrazione di WordNet Domains in MOMIS-Modifiche al DataBase WordNet Domains, è stato intergrato in MOMIS senza compromettere l’integrità delle informazioni già contenute nel suo database lessicale. Il processo di integrazione può essere riassunto nelle seguenti fasi: Modifiche alle tabelle del database “momiswn” Creazione di nuove tabelle Inserimento dei dati •Inserimento dei nomi di dominio non presenti in WordNet. •Inserimento di due nuove relazioni: “Member of this domain”, “Domain of synset” (relazione inversa). •Creazione della tabella wn_domain contenente tutti i lemmi dei domini ed i synset associati. •Creazione della tabella wn_relationship_wnd, la quale conterrà le nuove relazioni introdotte. Inserimento delle relazioni semantiche “Domain of synset” e “Member of this domains” tra i synset all’interno della tabella wn_relationship_wnd. Disambiguazione attraverso WordNet Domains Il processo di disambiguazione realizzato si basa sull’esclusivo utilizzo della sorgente di dominio WordNet Domains. Consiste, nell’individuazione dei domini prevalenti all’interno della sorgente dati e nell’assegnare ai vari termini il synset corrispondente ai domini prevalenti. Esempio: Match (Team_1, Team_2, Score, Stadio) Match: person, play, sport, factotum Team (Name, Coach, Championship) Team: biology, sport, animals Team_1: biology, sport, animals Nome: person, sociology, factotum… Team_2: biology, sport, animals Coach: military, sport, pedagogy… Score: Championship: sport, politics sport, play, numeber, factotum… Stadium: sport, town_planning, buildings Test e Risultati Ottenuti Il precedente meccanismo di disambiguazione è stato testato su due tipologie di sorgenti di dati: 1. Dati provenienti dal progetto WISDOM: lemmi provenienti da pagine web di attività commerciali, come hotel, ristoranti, campeggi ecc… 2. Dati provenienti dalle directory dei motori di ricerca GOOGLE e YAHOO Risultati dati Risultati dati Risultati dati di WISDOM 1,20 Risultati 1,00 0,80 Precision 0,60 Recall 0,40 0,20 0,00 1 2 3 Numero Domini 4 5 Risultati di YAHOO e GOOGLE 0,90 0,80 0,70 Risultati 0,60 0,50 Precision 0,40 Recall 0,30 0,20 0,10 0,00 1 2 3 4 5 6 Num ero Dom ini 7 8 9 10 Conclusioni e sviluppi futuri In questa tesi è stato proposto un algoritmo di disambiguazione dei termini, automatico e non supervisionato, che consente di disambiguare circa il 30% dei termini con un’accuratezza media intorno al 85-90%. Il numero limitato di termini disambiguati è dovuto, in parte, all’esigenza di ottenere risultati con un’elevata accuratezza. Tale copertura potrebbe essere incrementata, estendendo ulteriormente il database lessicale di MOMIS, per esempio, attraverso eXtended WordNet. Inoltre, si sono individuate alcune esigenze legate al problema della disambiguazione: Precision vs Recall: esigenza di definire un’iniziale priorità fra correttezza e completezza dei risultati. Tipologia di sorgente: la metodologia da applicare è legata al tipo di sorgente (documento di testo, documento XML…) da disambiguare. Conclusioni e Sviluppi Futuri Metodi Composti: consentono di ottenere prestazioni migliori rispetto all’uso dei singoli algoritmi. Estensioni di WordNet: esigenza di arricchire WordNet di nuovi termini, nuove relazioni e informazioni di dominio. Il problema della disambiguazione del testo, deve, quindi, essere inteso come un processo incrementale e composto, all’interno del quale l’estensione di WordNet con WordNet Domains, rappresenta solo un primo, ma significativo, passo. Inoltre, in futuro, si potrebbe considerare la realizzazione di un algoritmo parametrizzabile, che consenta, in base a determinate caratteristiche della sorgente di dati (es: tipologia di dati, dimensione ecc…) , di selezionare il metodo di disambiguazione più opportuno.