Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria di Modena
Corso di Laurea Specialistica in Ingegneria Informatica
METODI DI DISAMBIGUAZIONE
DEL TESTO
ED ESTENSIONI DI WORDNET
NEL SISTEMA MOMIS
Relatore: Prof.ssa Sonia Bergamaschi
Correlatore: Ing. Laura Po
Candidato: Serena Sorrentino
Anno Accademico 2005/2006
MOMIS
(Mediator EnvirOment for Multiple Information Sources)
Sistema per l’integrazione intelligente di sorgenti di dati
eterogenee strutturate e semi-strutturate.
Obbiettivo: Integrare le informazioni fornendo uno
schema concettuale globale che consenta all’utente di
sottomettere una query e di ricevere una risposta
unificata.
Tra i problemi da affrontare
Eterogeneità ontologica:
Eterogeneità Semantica:
differenze fra l’insieme dei termini e
delle relazioni, attraverso i quali è
possibile denotare i concetti e gli
oggetti appartenenti ad un
particolare dominio di conoscenza
possibilità che diverse persone
forniscano descrizioni, anche molto
diverse tra loro, della stessa porzione
di mondo, anche se si possiede un
insieme di conoscenze comuni
WordNet
Disambiguazione del testo
WordNet
Database lessicale di riferimento che definisce i concetti della
conoscenza e le relazioni che intercorrono fra di essi.
Caratteristiche:
 Categoria sintattica: categorie in cui sono suddivisi i termini. Le categorie
sintattiche trattate sono: nomi, verbi, avverbi ed aggettivi.
Lemma: è la parola/termine a cui vengono associati uno o più significati
 Synset (set of synonym): insieme di termini associati al medesimo significato
ed appartenenti alla stessa categoria sintattica
 Glossa: descrizione a parole di un significato specifico; ogni synset possiede
anche una glossa.
 Relazione Semantica: relazione che lega due synset appartenenti alla
stessa categoria sintattica (es. iponimia ipernimia)
 Relazione lessicale: relazione tra due lemmi appartenenti a synset distinti
(ma sempre alla stessa categoria sintattica) (es.sinonimia)
Metodi e Algoritmi di Disambiguazione
del Testo
Il processo di disambiguazione del testo, consiste nell’identificazione dei
concetti associati ai vari lemmi, ovvero nell’assegnare, ad ogni parola, il
senso più corretto in base al contesto nel quale è utilizzato.
In MOMIS processo di disambiguazione consente di realizzare
l’annotazione dei nomi delle classi e degli attributi delle sorgenti di
dati, sfruttando i synset e le relazioni fra questi, fornite da WordNet.
!Problema
Il processo di annotazione, essendo attualmente,
realizzato in maniera completamente manuale, è
altamente costoso.
Obiettivo della tesi:
Delineare un meccanismo di disambiguazione del testo basato su
WordNet e sulle sue estensioni, che consenta di disambiguare i
termini in maniera automatica o semi-automatica al fine di poter
realizzare l’annotazione automatica dei termini
Classificazione dei Metodi e Algoritmi
di disambiguazione del testo
In letteratura è possibile incontrare diverse tecniche e metodologie di
disambiguazione le quali sfruttano l’informazione contenuta all’interno di
una risorsa lessicale di conoscenza.
Non esiste un criterio di classificazione univoco.
Due approcci possono differire tra loro per vari aspetti:
 Categorie sintattiche disambiguate.
 Struttura di memorizzazione delle informazioni.
 Disambiguazione locale vs disambiguazione globale
 Tipologia e numero di relazioni tra i termini considerate
 Risorsa di conoscenza utilizzata.
 Algoritmi Supervisionati vs Algoritmi non Supervisionati
Algoritmi Non Supervisionati
Non richiedonom supervisione da parte dell’utente. Si basano
sull’utilizzo di ontologie o dizionari come risorsa di conoscenza.
Tra i principali citati in letteratura:
Algoritmi basati sulle Catene lessicali
Algoritmi di Gloss Overlap
Rappresentanti i differenti
processi di coesione del testo
(es. Galley e McKeown …)
Confrontano le parole contenute
all’interno delle glosse dei termini
appartenenti del contesto.(es. Lesk)
Algoritmi basati su misure di relazione semantica fra i termini
Misure di similarità basate sul path tra i termini
Misure basate sul contenuto informativo dei concetti
Misure basate sul vettore di contesto
Algoritmi basati sui grafi
Algoritmi Supervisionati
Richiedono la supervisione dell’utente e utilizzano collezioni di testi di
riferimento disambiguati manualmente.
!Svantaggio
Sforzo notevole per
produrre manualmente le
collezioni di testi di
riferimento.
Algoritmi Completamente
Supervisionati
Algoritmi Minimamente
Supervisionati
Tentativo di realizzare
algoritmi
minimamente
supervisionati.
• Liste di Decisione
• Naive Bayes
• AdaBoost
• Funzioni di Kernel
• Sistema SenseLearn (Mihalcea)
• Algoritmo Structural Semantic
Interconnection (Navigli)
Algoritmi Composti
Combinano due o più approcci al problema della disambiguazione del
testo. Ottengono prestazioni migliori, rispetto a quelle ottenibili
dall’uso dei singoli algoritmi. Rappresentano la via più promettente
nell’ambito della disambiguazione.
•Gloss Overlap
Extended
•Metodo del senso più frequente
Novischi:
WordNet
•Parallelismo lessicale
…
•Catene Lessicali
•Gloss Overlap
Brody, Navigli e
•Structural Semantic Interconnection
•Misure di Similarità
Lapata:
Mandreoli, Martoglia
e Ronchetti:
•Misure di Similarità
•Gloss Overlap
•Metodo del Senso più frequente
Limitazioni di WordNet
Nonostante WordNet abbia riscosso un ampio successo come risorsa di
conoscenza nell’ambito della disambiguazione del testo, durante il suo
utilizzo si sono evidenziate alcune lacune significative:
 Mancanza di un lessico specifico per determinati settori di applicazione.
 Assenza di relazioni esplicitamente rappresentate fra synset relativi
allo stesso dominio ma appartenenti a categorie sintattiche differenti.
 Numero insufficiente di interconnessioni fra termini utilizzati nello stesso
dominio.
 Insieme limitato di relazioni lessico-semantiche rappresentate.
 Livello di granularità dei synset,spesso eccessivo per le applicazioni comuni
(es. alcuni verbi posseggono più di 40 sensi possibili).
 Mancanza di completezza per quanto riguarda i termini
composti, i quali risultano difficili da annotare, con gli strumenti
forniti da WordNet
Estensioni di WordNet
Estensioni di WordNet
Tentativo di colmare le lacune di WordNet, attraverso l’inserimento di
nuove relazioni, nuovi synset, ecc…
eXtended WordNet (XWN):
•Introdotto nel 2001 da Modovan e Mihalcea dell’Università di Dallas (USA).
•Disambigua i termini delle glosse in maniera semi-automatica.
•Realizza la trasformazione in forma logica delle glosse.
•Consente di inferire nuove relazioni tra i termini indipendentemente dalla
categoria sintattica.
WordNet Domains (WND):
•Introdotto nel 2002 da Magnini e Strapparava dell’ITC-irst di Trento.
•Associa, a ciascun synset di WordNet, uno o più domini di appartenenza.
•Si basa sulla considerazione che i domini costituiscono una fondamentale
proprietà semantica sulla quale si basa la coerenza del testo.
• Utilizza l’etichetta “factotum” per indicare i synset generici.
Integrazione di WordNet
Domains in MOMIS-Motivazioni
Allo scopo di realizzare un meccanismo automatico o semi-automatico
di disambiguazione del testo, si è scelto di integrare all’interno del
database lessicale di MOMIS, il sistema WordNet Domains. Le
motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una
potenziale soluzione a molte delle lacune di WordNet
precedentemente delineate. In particolare:
 Mancanza di un lessico specifico per determinati settori di applicazione.
 Assenza di relazioni esplicitamente rappresentate fra synset relativi
allo stesso dominio ma appartenenti a categorie sintattiche differenti.
 Numero insufficiente di interconnessioni fra termini utilizzati nello stesso
dominio.
 Insieme limitato di relazioni lessico-semantiche rappresentate.
 Livello di granularità spesso eccessivo per le applicazioni comuni, di
distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili).
 Mancanza di completezza per quanto riguarda i termini
composti, i quali risultano difficili da annotare, con gli strumenti
forniti da WordNet
Integrazione di WordNet
Domains in MOMIS-Motivazioni
Allo scopo di realizzare un meccanismo automatico o semi-automatico
di disambiguazione del testo, si è scelto di integrare all’interno del
database lessicale di MOMIS, il sistema WordNet Domains. Le
motivazioni si ritrovano nel fatto che quest’ultimo rappresenta una
potenziale soluzione a molte delle lacune di WordNet
precedentemente delineate. In particolare:
 Mancanza di un lessico specifico per determinati settori di applicazione.
 Assenza di relazioni esplicitamente rappresentate fra synset relativi
allo stesso dominio ma appartenenti a categorie sintattiche differenti.
 Numero insufficiente di interconnessioni fra termini utilizzati nello stesso
dominio.
 Insieme limitato di relazioni lessico-semantiche rappresentate.
 Livello di granularità spesso eccessivo per le applicazioni comuni, di
distinzione fra synset (es. alcuni verbi posseggono più di 40 sensi possibili).
 Mancanza di completezza per quanto riguarda i termini
composti, i quali risultano difficili da annotare, con gli strumenti
forniti da WordNet
Integrazione di WordNet Domains in
MOMIS-Modifiche al DataBase
WordNet Domains, è stato intergrato in MOMIS senza compromettere
l’integrità delle informazioni già contenute nel suo database lessicale. Il
processo di integrazione può essere riassunto nelle seguenti fasi:
Modifiche alle tabelle
del database
“momiswn”
Creazione di nuove
tabelle
Inserimento dei dati
•Inserimento dei nomi di dominio non
presenti in WordNet.
•Inserimento di due nuove relazioni:
“Member of this domain”, “Domain of
synset” (relazione inversa).
•Creazione della tabella wn_domain
contenente tutti i lemmi dei domini ed i
synset associati.
•Creazione della tabella
wn_relationship_wnd, la quale conterrà le
nuove relazioni introdotte.
Inserimento delle relazioni semantiche
“Domain of synset” e “Member of this
domains” tra i synset all’interno della
tabella wn_relationship_wnd.
Disambiguazione attraverso WordNet
Domains
Il processo di disambiguazione realizzato si basa sull’esclusivo utilizzo della
sorgente di dominio WordNet Domains. Consiste, nell’individuazione dei domini
prevalenti all’interno della sorgente dati e nell’assegnare ai vari termini il synset
corrispondente ai domini prevalenti.
Esempio:
Match (Team_1, Team_2, Score, Stadio)
Match:
person, play, sport, factotum
Team (Name, Coach, Championship)
Team: biology, sport, animals
Team_1: biology, sport, animals
Nome: person, sociology, factotum…
Team_2: biology, sport, animals
Coach: military, sport, pedagogy…
Score:
Championship: sport, politics
sport, play, numeber, factotum…
Stadium: sport, town_planning, buildings
Test e Risultati Ottenuti
Il precedente meccanismo di disambiguazione è stato testato
su due tipologie di sorgenti di dati:
1. Dati provenienti dal progetto WISDOM: lemmi
provenienti da pagine web di attività commerciali, come
hotel, ristoranti, campeggi ecc…
2. Dati provenienti dalle directory dei motori di ricerca
GOOGLE e YAHOO
Risultati dati
Risultati dati
Risultati dati di WISDOM
1,20
Risultati
1,00
0,80
Precision
0,60
Recall
0,40
0,20
0,00
1
2
3
Numero Domini
4
5
Risultati di YAHOO e GOOGLE
0,90
0,80
0,70
Risultati
0,60
0,50
Precision
0,40
Recall
0,30
0,20
0,10
0,00
1
2
3
4
5
6
Num ero Dom ini
7
8
9
10
Conclusioni e sviluppi futuri
In questa tesi è stato proposto un algoritmo di disambiguazione dei
termini, automatico e non supervisionato, che consente di
disambiguare circa il 30% dei termini con un’accuratezza media
intorno al 85-90%.
Il numero limitato di termini disambiguati è dovuto, in parte,
all’esigenza di ottenere risultati con un’elevata accuratezza.
Tale copertura potrebbe essere incrementata, estendendo
ulteriormente il database lessicale di MOMIS, per esempio,
attraverso eXtended WordNet.
Inoltre, si sono individuate alcune esigenze legate al problema della
disambiguazione:
Precision vs Recall: esigenza di definire un’iniziale priorità fra
correttezza e completezza dei risultati.
Tipologia di sorgente: la metodologia da applicare è legata al
tipo di sorgente (documento di testo, documento XML…) da
disambiguare.
Conclusioni e Sviluppi Futuri
Metodi Composti: consentono di ottenere prestazioni migliori
rispetto all’uso dei singoli algoritmi.
Estensioni di WordNet: esigenza di arricchire WordNet di
nuovi termini, nuove relazioni e informazioni di dominio.
Il problema della disambiguazione del testo, deve, quindi, essere
inteso come un processo incrementale e composto, all’interno del
quale l’estensione di WordNet con WordNet Domains, rappresenta solo
un primo, ma significativo, passo.
Inoltre, in futuro, si potrebbe considerare la realizzazione di un
algoritmo parametrizzabile, che consenta, in base a determinate
caratteristiche della sorgente di dati (es: tipologia di dati,
dimensione ecc…) , di selezionare il metodo di disambiguazione più
opportuno.
Scarica

Categoria sintattica - DBGroup - Università degli studi di Modena e