Sistemi basati su conoscenza
Interazioni tra ontologie e lessici
Prof. M.T. PAZIENZA
a.a. 2006-2007
Lessici computazionali e
tecnologia del linguaggio naturale
I lessici computazionali forniscono una
conoscenza delle parole comprensibile alla
macchina
La rappresentazione è esplicita
Il significato è collegato alla morfologia e alla
sintassi della parola
E’ possibile creare collegamenti lessicali
multilingua
Lessici computazionali e
tecnologia del linguaggio naturale
I lessici computazionali sono collezioni di entrate
lessicali di una data lingua
Un entrata lessicale può corrispondere a
lemma: mangiare, cane, bello
forma flessa: mangio, mangiate, cani, belli
Supponendo di riferirsi a lessici basati su lemmi, ogni
entrata lessicale può contenere una quantità
variabile di informazioni
Lessici computazionali e
tecnologia del linguaggio naturale
Forma ortografica (mang-; mangiare; can-; cane)
Informazioni categoriali (parti del discorso): N, V, P,
….
Tratti morfologici rilevanti, se del caso: genere, numero,
persona, definitezza,
Informazioni sulle proprietà di selezione
(sottocategorizzazione)
Informazioni sul significato del lemma (semantica
lessicale)
Lessici computazionali e
tecnologia del linguaggio naturale
Un sistema di analisi, quindi, ha, almeno, la seguente
struttura
Frase/testo
analizzatore
morfologico
Analizzatore
sintattico/parser
lessico
risultato
Ontologie e lessici
computazionali
Semantic Web
Ontologies
Access to
Content
?
HLT
Computational
Lexicons
Ontologie
• “la specifica esplicita di una
concettualizzazione” (Gruber, 1993)
• “includono il vocabolario, le
interconnessioni semantiche e alcune
semplici regole di inferenza e logica”
(Hendler, 2001)
Ontologie “linguistiche”
Sistemi di simboli che rappresentano i concetti
codificati da espressioni in linguaggio naturale
(unità lessicali, termini, ecc.)
– Specificano le classi semantiche raggruppando termini
simili a livello semantico
– Usano un linguaggio di rappresentazione semantica
car, van, truck
dog, cat, horse
VEHICLE
ARTIFACT
MAMMAL
ANIMAL
beach
spiaggia
piano concert, rock concert
OBJECT
BEACH
LOCATION
CONCERT
EVENT
ENTITY
Tipologie di lessici computazionali
• Monolingua vs multilingua
• General purpose vs domain specific
• Tipo di contenuto
–
–
–
–
(Morfo)sintattico
Semantico
Misto
Terminologico
Lessici computazionali sintattici
• Le informazioni lessicali sono contenute in frame di
sottocategorizzazione (ComLex, PAROLE ecc.)
• I frame sintattici includono:
– Un certo numero di argomenti
– Le rispettive categorie sintattiche (PP, NP, ecc.)
– Vincoli lessicali sugli argomenti (es. PP deve avere in testa
una preposizione)
– Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.)
hit
answer
[V: (Subj: NP) (Objd: NP)]
[N: (Obji: PP_to)]
Lessici computazionali semantici
Rappresentano il significato di una parola
– Distinguono differenti sensi di una parola
– Catturano le inferenze (essere umano  essere
animato)
– Rappresentano similarità, relatedness ecc. (es.
banca, conto, denaro sono concetti tra loro
collegabili in un ambito finanziario)
Lessici computazionali semantici
Basati su reti concettuali
– WordNet (Miller, Fellbaum et al.)
– EuroWordNet (Vossen et al.)
Basati su frame
– Mikrokosmos (Nirenburg, Mahesh et al.)
– FrameNet (Fillmore et al.)
Ibridi
– SIMPLE (Calzolari, Lenci et al.)
Lessici semantici - WordNet
• I lessici sono in genere organizzati alfabeticamente.
• In sostanza, riproducono la struttura dei normali
dizionari, in quanto rendono disponibili informazioni
a partire dalle parole (dai lemmi, ecc.)
• E’ possibile organizzare un lessico su base diversa,
per esempio, concettuale
Parole e concetti
Le parole, es. ‘cane’, ‘mangiare’, ecc. esprimono concetti.
Il cane è un mammifero
La frase ha tra i suoi costituenti ‘il’ ‘cane’ ‘mammifero’…
La proposizione ha tra i suoi costituenti i concetti di cane e
mammifero
I concetti sono, in un certo senso, i costituenti del significato
(ovvero di ciò che vogliamo comunicare).
Per comprendere la proposizione dobbiamo comprendere i
concetti espressi dai suoi costituenti
Polisemia e sinonimia
Un certa parola, (es. ‘cane’, “radice”) può avere sensi differenti,
cioè può esprimere più concetti a seconda del contesto; si dice in
tal caso polisemica
• cane = mammifero, amico dell’uomo, ecc..
• cane = parte metallica di arma da fuoco che percuotendo la
polvere da sparo, dà luogo all’esplosione
• radice = parte da cui origina una pianta, in genere sotterranea …
• radice =operazione matematica, inversa dell’elevamento a
potenza…
Polisemia e sinonimia
Al contrario, uno stesso concetto può essere espresso da
parole diverse (sinonimi)
casa, abitazione, magione, domicilio…
calcolatore, elaboratore
ruotare, girare
Sia la sinonimia che la polisemia, non sono proprietà
assolute, ma dipendono dal contesto
Inferenze basate su sinonimia
Supponiamo di cercare, all’interno di vari documenti,
quelli in cui compare il concetto di casa/abitazione
•
•
•
•
La casa era in fondo alla strada………
L’architetto ha progettato l’abitazione in modo che…..
L’edificio si trova………
Il giudice si recò al suo domicilio…..
Iperonimia e iponimia
Un pettirosso è (is-a) un uccello, un uccello è (is-a) un
animale, un animale è (is-a) un essere vivente…
Pettirosso is-a uccello is-a animale is-a essere vivente…
Il concetto pettirosso è subordinato al concetto uccello.
Il concetto uccello è superordinato al concetto pettirosso.
• Il nome ‘pettirosso’ è un iponimo del nome ‘uccello’
• Il nome ‘uccello’ è un iperonimo del nome ‘pettirosso’.
Inferenze basate su ipo/iperonimia
Ho visto un pettirosso
Ho visto un uccello
Ho visto un animale
Ho visto un essere vivente
………….
Ereditarietà
Gli hanno regalato un libro di più di cinquecento
pagine ed una bicicletta. Carlo ha letto il romanzo
in meno di una settimana.
Mario comprò un chilo di filetto.
Anafora e riferimenti
• Gli ho regalato un romanzo, ma il libro lo ha
annoiato.
Gli ho regalato un romanzo, ma il film lo ha
annoiato.
• Carlo ha comprato un pappagallo. Il povero animale
era denutrito.
• Carlo ha comprato un pappagallo. Il pesce era
denutrito.
Rappresentare concetti lessicali
Per concetto lessicale si intende un concetto
per il quale, in una data lingua, esiste un
modo semplice (parola semplice, parola
composta, ecc.) per esprimerlo.
• casa è un concetto lessicale
• casa di mattoni, casa bianca non lo sono
Rappresentare concetti lessicali
Si può rappresentare un concetto lessicale come
l’insieme delle parole sinonime (synset) che esprimono
quel dato concetto.
{automobile, macchina}
{babbo_natale, papà_natale, santa, santa_claus}
e mettere in relazione synsets (rappresentazioni di
concetti lessicali) tramite le relazioni di iponimia ed
iperonimia.
{automobile, macchina} is-a
{veicolo} is-a
{mezzo di trasporto }
……………..
{mezzo di trasporto}
Is-a
{veicolo}
Is-a
{automobile,macchina}
Rappresentare concetti lessicali
Criterio di massima per includere due parole nello
stesso synset:
Una persona di lingua madre deve poter sostituire
l’una con l’altra nella maggior parte dei contesti
• La casa di Mario è bella
• L’abitazione di Mario è bella
L’edificio di Mario è bello
Il domicilio di Mario è bello
WordNet (WN)-1980 in poi
WordNet (WN) è stato sviluppato presso
l’università di Princeton da George Miller e dai
suoi collaboratori come modello del lessico
mentale
È una rete semantica in cui i concetti sono definiti
in termini di relazioni con altri concetti
WordNet (WN)
In WordNet, i nomi sono suddivisi in 15 gerarchie
tra di loro separate.
La radice di ognuna di esse corrisponde ad una sorta
di primitivo semantico.
{attività}, {animale}, {artefatto}, {attributo},
{corpo}, {cognizione, conoscenza},
{comunicazione}, {evento, avvenimento}, ……
Ereditarietà e gerarchie
attività
comunicazione
…………………………………………………………………………
WordNet (WN)
WordNet (WN) è un database lessicale per l’inglese
• con un’alta copertura di entries lessicali inglesi (N, V,
Agg, Avv) e
• informazioni su relazioni lessicali e semantiche tra le
entries, tra cui
1.
2.
3.
4.
Sinonimia (automobile, macchina)
Iponimia - a kind of - (ambulanza, automobile)
Meronimia – has part – (mano, dita)
Antonimia (giorno, notte)
WordNet (WN) organizzazione
L’elemento fondamentale è il
synset = synonym set
Un synset è equivalente ad un concetto
Un concetto viene espresso tramite un synset
Es. sensi di “car” (synset a cui “car” appartiene)
{car, auto, automobile, machine, motorcar}
{car, railcar, railway car, railroad car}
{cable car, car}
{car, gondola}
{car, elevator car}
WordNet (WN) organizzazione
Tabelle (files) separate per le diverse categorie
sintattiche (N, V, Agg, Avv)
Links tra parole e synset ed anche tra synset (che
rappresentino relazioni sintattiche)
Es.{persone, individui, mortale, umano }
a kind of {organism, being}
a kind of {living thing, animate thing}
a kind of {object, physical object}
a kind of {entity, physical thing}
Struttura di WordNet
{conveyance; transport}
hyperonym
{vehicle}
{bumper}
hyperonym
{motor vehicle; automotive vehicle}
meronym
{car door}
hyperonym
meronym
{car; auto; automobile; machine; motorcar}
meronym
hyperonym
{doorlock}
meronym
{car window}
{car mirror}
hyperonym
{cruiser; squad car; patrol car; police car; prowl car}
{hinge; flexible joint}
{cab; taxi; hack; taxicab; }
{armrest}
Architettura di SIMPLE
Lexical
Templates
Greek lexicon
Ontology
Italian lexicon
Catalan lexicon
Language Independent Module
Italian lexicon
PAROLE Syntax
SemU
Semantic Frame
(semantic roles, etc.)
Semantic
Relations
Event
Structure
Polysemy
etc.
SIMPLE
relazioni semantiche
Top
Formal
Constitutive
Is_a Is_a_part_of Property
...
Contains
Telic
Agentive
Created_by
...
Agentive_cause Indirect_telic Activity
Instrumental
Used_for
Used_as
Is_the_habit_of
SIMPLE
una rete semantica
Ala (wing)
SemU: 3232
Type: [Part]
Part of an airplane
<fabbricare>
make
Agentive
Agentive
Used_for
<volare>
fly
Is_a_part_of
Isa
SemU: 3268
Type: [Part]
Part of a building
SemU: D358
Type: [Body_part]
Organ of birds for flying
Isa
<parte>
part
<aeroplano>
airplane
Used_for
Isa
<edificio>
building
Is_a_part_of
Is_a_part_of
SemU: 3467
Type: [Role]
Role in football
Isa
<giocatore>
player
<uccello>
bird
SIMPLE
Frame semantici
il difensore di Berlusconi (Berlusconi's defender)
il difensore del Milan (the Milan fullback)
Difensore N
SemU: 4125
agent
nominalization
Type: [Role]
PREDDifendere#1
<Arg1>, <Arg2>
Defender
SemU: 3526
Type: [Role]
Fullback
Is_a_member_of
<squadra>
team
Frame disambiguation
L’identificazione del contributo semantico di un NP
richiede l’accesso alla rappresentazione del
contenuto semantico delle teste nominali
La “struttura semantica” della testa nominale
determina la relazione semantica espressa da un
PP che modifica l’NP:
–
–
–
–
La pagina del libro (part-of)
Il difensore del Milan (member-of)
Il suonatore di liuto (telic)
Il tavolo di legno (made-of)
SIMPLE
esempi
semantic relations
ontology
semantic frame
Scarica

11OntologieLessico