Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007 Lessici computazionali e tecnologia del linguaggio naturale I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina La rappresentazione è esplicita Il significato è collegato alla morfologia e alla sintassi della parola E’ possibile creare collegamenti lessicali multilingua Lessici computazionali e tecnologia del linguaggio naturale I lessici computazionali sono collezioni di entrate lessicali di una data lingua Un entrata lessicale può corrispondere a lemma: mangiare, cane, bello forma flessa: mangio, mangiate, cani, belli Supponendo di riferirsi a lessici basati su lemmi, ogni entrata lessicale può contenere una quantità variabile di informazioni Lessici computazionali e tecnologia del linguaggio naturale Forma ortografica (mang-; mangiare; can-; cane) Informazioni categoriali (parti del discorso): N, V, P, …. Tratti morfologici rilevanti, se del caso: genere, numero, persona, definitezza, Informazioni sulle proprietà di selezione (sottocategorizzazione) Informazioni sul significato del lemma (semantica lessicale) Lessici computazionali e tecnologia del linguaggio naturale Un sistema di analisi, quindi, ha, almeno, la seguente struttura Frase/testo analizzatore morfologico Analizzatore sintattico/parser lessico risultato Ontologie e lessici computazionali Semantic Web Ontologies Access to Content ? HLT Computational Lexicons Ontologie • “la specifica esplicita di una concettualizzazione” (Gruber, 1993) • “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001) Ontologie “linguistiche” Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) – Specificano le classi semantiche raggruppando termini simili a livello semantico – Usano un linguaggio di rappresentazione semantica car, van, truck dog, cat, horse VEHICLE ARTIFACT MAMMAL ANIMAL beach spiaggia piano concert, rock concert OBJECT BEACH LOCATION CONCERT EVENT ENTITY Tipologie di lessici computazionali • Monolingua vs multilingua • General purpose vs domain specific • Tipo di contenuto – – – – (Morfo)sintattico Semantico Misto Terminologico Lessici computazionali sintattici • Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.) • I frame sintattici includono: – Un certo numero di argomenti – Le rispettive categorie sintattiche (PP, NP, ecc.) – Vincoli lessicali sugli argomenti (es. PP deve avere in testa una preposizione) – Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.) hit answer [V: (Subj: NP) (Objd: NP)] [N: (Obji: PP_to)] Lessici computazionali semantici Rappresentano il significato di una parola – Distinguono differenti sensi di una parola – Catturano le inferenze (essere umano essere animato) – Rappresentano similarità, relatedness ecc. (es. banca, conto, denaro sono concetti tra loro collegabili in un ambito finanziario) Lessici computazionali semantici Basati su reti concettuali – WordNet (Miller, Fellbaum et al.) – EuroWordNet (Vossen et al.) Basati su frame – Mikrokosmos (Nirenburg, Mahesh et al.) – FrameNet (Fillmore et al.) Ibridi – SIMPLE (Calzolari, Lenci et al.) Lessici semantici - WordNet • I lessici sono in genere organizzati alfabeticamente. • In sostanza, riproducono la struttura dei normali dizionari, in quanto rendono disponibili informazioni a partire dalle parole (dai lemmi, ecc.) • E’ possibile organizzare un lessico su base diversa, per esempio, concettuale Parole e concetti Le parole, es. ‘cane’, ‘mangiare’, ecc. esprimono concetti. Il cane è un mammifero La frase ha tra i suoi costituenti ‘il’ ‘cane’ ‘mammifero’… La proposizione ha tra i suoi costituenti i concetti di cane e mammifero I concetti sono, in un certo senso, i costituenti del significato (ovvero di ciò che vogliamo comunicare). Per comprendere la proposizione dobbiamo comprendere i concetti espressi dai suoi costituenti Polisemia e sinonimia Un certa parola, (es. ‘cane’, “radice”) può avere sensi differenti, cioè può esprimere più concetti a seconda del contesto; si dice in tal caso polisemica • cane = mammifero, amico dell’uomo, ecc.. • cane = parte metallica di arma da fuoco che percuotendo la polvere da sparo, dà luogo all’esplosione • radice = parte da cui origina una pianta, in genere sotterranea … • radice =operazione matematica, inversa dell’elevamento a potenza… Polisemia e sinonimia Al contrario, uno stesso concetto può essere espresso da parole diverse (sinonimi) casa, abitazione, magione, domicilio… calcolatore, elaboratore ruotare, girare Sia la sinonimia che la polisemia, non sono proprietà assolute, ma dipendono dal contesto Inferenze basate su sinonimia Supponiamo di cercare, all’interno di vari documenti, quelli in cui compare il concetto di casa/abitazione • • • • La casa era in fondo alla strada……… L’architetto ha progettato l’abitazione in modo che….. L’edificio si trova……… Il giudice si recò al suo domicilio….. Iperonimia e iponimia Un pettirosso è (is-a) un uccello, un uccello è (is-a) un animale, un animale è (is-a) un essere vivente… Pettirosso is-a uccello is-a animale is-a essere vivente… Il concetto pettirosso è subordinato al concetto uccello. Il concetto uccello è superordinato al concetto pettirosso. • Il nome ‘pettirosso’ è un iponimo del nome ‘uccello’ • Il nome ‘uccello’ è un iperonimo del nome ‘pettirosso’. Inferenze basate su ipo/iperonimia Ho visto un pettirosso Ho visto un uccello Ho visto un animale Ho visto un essere vivente …………. Ereditarietà Gli hanno regalato un libro di più di cinquecento pagine ed una bicicletta. Carlo ha letto il romanzo in meno di una settimana. Mario comprò un chilo di filetto. Anafora e riferimenti • Gli ho regalato un romanzo, ma il libro lo ha annoiato. Gli ho regalato un romanzo, ma il film lo ha annoiato. • Carlo ha comprato un pappagallo. Il povero animale era denutrito. • Carlo ha comprato un pappagallo. Il pesce era denutrito. Rappresentare concetti lessicali Per concetto lessicale si intende un concetto per il quale, in una data lingua, esiste un modo semplice (parola semplice, parola composta, ecc.) per esprimerlo. • casa è un concetto lessicale • casa di mattoni, casa bianca non lo sono Rappresentare concetti lessicali Si può rappresentare un concetto lessicale come l’insieme delle parole sinonime (synset) che esprimono quel dato concetto. {automobile, macchina} {babbo_natale, papà_natale, santa, santa_claus} e mettere in relazione synsets (rappresentazioni di concetti lessicali) tramite le relazioni di iponimia ed iperonimia. {automobile, macchina} is-a {veicolo} is-a {mezzo di trasporto } …………….. {mezzo di trasporto} Is-a {veicolo} Is-a {automobile,macchina} Rappresentare concetti lessicali Criterio di massima per includere due parole nello stesso synset: Una persona di lingua madre deve poter sostituire l’una con l’altra nella maggior parte dei contesti • La casa di Mario è bella • L’abitazione di Mario è bella L’edificio di Mario è bello Il domicilio di Mario è bello WordNet (WN)-1980 in poi WordNet (WN) è stato sviluppato presso l’università di Princeton da George Miller e dai suoi collaboratori come modello del lessico mentale È una rete semantica in cui i concetti sono definiti in termini di relazioni con altri concetti WordNet (WN) In WordNet, i nomi sono suddivisi in 15 gerarchie tra di loro separate. La radice di ognuna di esse corrisponde ad una sorta di primitivo semantico. {attività}, {animale}, {artefatto}, {attributo}, {corpo}, {cognizione, conoscenza}, {comunicazione}, {evento, avvenimento}, …… Ereditarietà e gerarchie attività comunicazione ………………………………………………………………………… WordNet (WN) WordNet (WN) è un database lessicale per l’inglese • con un’alta copertura di entries lessicali inglesi (N, V, Agg, Avv) e • informazioni su relazioni lessicali e semantiche tra le entries, tra cui 1. 2. 3. 4. Sinonimia (automobile, macchina) Iponimia - a kind of - (ambulanza, automobile) Meronimia – has part – (mano, dita) Antonimia (giorno, notte) WordNet (WN) organizzazione L’elemento fondamentale è il synset = synonym set Un synset è equivalente ad un concetto Un concetto viene espresso tramite un synset Es. sensi di “car” (synset a cui “car” appartiene) {car, auto, automobile, machine, motorcar} {car, railcar, railway car, railroad car} {cable car, car} {car, gondola} {car, elevator car} WordNet (WN) organizzazione Tabelle (files) separate per le diverse categorie sintattiche (N, V, Agg, Avv) Links tra parole e synset ed anche tra synset (che rappresentino relazioni sintattiche) Es.{persone, individui, mortale, umano } a kind of {organism, being} a kind of {living thing, animate thing} a kind of {object, physical object} a kind of {entity, physical thing} Struttura di WordNet {conveyance; transport} hyperonym {vehicle} {bumper} hyperonym {motor vehicle; automotive vehicle} meronym {car door} hyperonym meronym {car; auto; automobile; machine; motorcar} meronym hyperonym {doorlock} meronym {car window} {car mirror} hyperonym {cruiser; squad car; patrol car; police car; prowl car} {hinge; flexible joint} {cab; taxi; hack; taxicab; } {armrest} Architettura di SIMPLE Lexical Templates Greek lexicon Ontology Italian lexicon Catalan lexicon Language Independent Module Italian lexicon PAROLE Syntax SemU Semantic Frame (semantic roles, etc.) Semantic Relations Event Structure Polysemy etc. SIMPLE relazioni semantiche Top Formal Constitutive Is_a Is_a_part_of Property ... Contains Telic Agentive Created_by ... Agentive_cause Indirect_telic Activity Instrumental Used_for Used_as Is_the_habit_of SIMPLE una rete semantica Ala (wing) SemU: 3232 Type: [Part] Part of an airplane <fabbricare> make Agentive Agentive Used_for <volare> fly Is_a_part_of Isa SemU: 3268 Type: [Part] Part of a building SemU: D358 Type: [Body_part] Organ of birds for flying Isa <parte> part <aeroplano> airplane Used_for Isa <edificio> building Is_a_part_of Is_a_part_of SemU: 3467 Type: [Role] Role in football Isa <giocatore> player <uccello> bird SIMPLE Frame semantici il difensore di Berlusconi (Berlusconi's defender) il difensore del Milan (the Milan fullback) Difensore N SemU: 4125 agent nominalization Type: [Role] PREDDifendere#1 <Arg1>, <Arg2> Defender SemU: 3526 Type: [Role] Fullback Is_a_member_of <squadra> team Frame disambiguation L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: – – – – La pagina del libro (part-of) Il difensore del Milan (member-of) Il suonatore di liuto (telic) Il tavolo di legno (made-of) SIMPLE esempi semantic relations ontology semantic frame