Semantica
approcci computazionali
Maria Teresa PAZIENZA
a.a. 2005-06
Analisi semantica robusta
Le grammatiche tradizionali generalmente non riflettono i
contenuti semantici in maniera diretta ed esplicita; le
strutture sintattiche prodotte spesso non sono utili per
effettuare l’analisi semantica utilizzando il principio della
composizionalità; infatti:
– elementi con un ruolo semantico chiave sono spesso distribuiti
all’interno dell’albero sintattico rendendo molto complessa la
composizionalità
– gli alberi sintattici contengono molti costituenti sintattici che non
hanno alcun ruolo nell’elaborazione semantica
– la generalità informativa di molti costituenti sintattici produce
attchment semantici che possono creare rappresentazioni
semantiche prive o quasi di significato
Analisi semantica robusta
Per risolvere questo problema si può agire in
modi diversi per migliorare l’efficienza delle
operazioni:
• estendendo il ruolo delle grammatiche (con
l’introduzione delle espressioni lambda e dei termini
complessi,)
• riscrivendo la grammatica per riflettere la semantica
Esempio
-distribuzione di elementi con significato all’interno dell’albero
-molti nodi non rilevanti per il significato della frase
Esempio
-costituenti sintattici troppo
ad un giusto livello di generalità per la sintassi, ma
vaghi semanticamente
Si consideri la regola per il termine complesso (some)
Italian food
Nominal->Adj Nominal
{λx Nominal.sem(x)^AM(x,Adj.sem)}
l’applicazione di un tale attachment produce questa
rappresentazione:
x Isa(x,Food)AM(x,Italian)
che non sta ad indicare
cibo preparato in un modo particolare e speciale
Grammatiche semantiche
Le grammatiche semantiche (sviluppate per l’analisi del dialogo in
sistemi di Q/A con un vocabolario ristretto e complessità
grammaticale limitata) vanno nella direzione di supportare l’analisi
composizionale; (regole CFG con un set di terminali).
Le regole (scritte per soddisfare le necessità della semantica piuttosto
che della sintassi) ed i costituenti della grammatica corrispondono
esattamente alle entità ed alle relazioni del dominio analizzato
Il termine grammatica semantica si riferisce alla motivazione delle
regole della grammatica
+ si generano esattamente le regole semantiche che servono
- è necessario sviluppare una nuova grammatica per ciascun nuovo
dominio
Grammatiche semantiche
Esempio
Si consideri una possibile regola per rispondere ad una
richiesta di informazione del tipo
Request → I want to go to eat FoodType TimeExpr
{ some attachment }
Per Italian food potremmo usare la regola
FoodType -> Nationality FoodType
che stabilisce che il tipo di cibo deve essere collegato alla
caratteristica nazionale
Grammatiche semantiche
Regole difficilmente riusabili in contesti diversi
Possibile overgenerazione; per esempio il
termine
Canadian restaurant
non viene usato nella stessa accezione di Italian
food, bensì nel senso di ristorante in Canada
La motivazione del significato è al di là delle parole,
è nel dominio culturale dei cibi
Estrazione di informazione da testi
IE
Nei sistemi per l’estrazione di informazione da testi
siamo interessati a riconoscere solo informazioni
specifiche: si richiede un approccio diverso
Tali sistemi devono gestire
– Frasi reali (e quindi arbitrariamente lunghe e
complesse)
– Una semantica superficiale
• Liste piatte di coppie attributo-valore
• XML/SGML
Esempi
Analisi di articoli di quotidiani, notizie di agenzia
per l’identificazione di uno specifico insieme di
eventi di interesse
Analisi di siti web alla ricerca di prodotti, prezzi, etc
Questi testi hanno caratteristiche peculiari:
Frasi lunghe, sintassi complessa (e talvolta incorretta)
autori diversi, …
Sistemi di IE
I sistemi di IE sono in genere basati su una cascata di
automi per riconoscere fenomeni specifici e
tralawsciare parti non rilevanti del testo anlizzato
Vengono riconosciuti elementi di sintassi/semantica
isolati dal contesto e quindi usati in una fase
successiva di processing fino ad ottenere il risultaqto
finale
Il risultato finale dell’elaborazione è un insieme di
relazioni e valori che vengono successivamnete
memorizzati in una base di dati
Esempio (MUC)
Bridgestone Sports Co. said Friday it has set up
a joint venture in Taiwan with a local concern
and a Japanese trading house to produce golf
clubs to be shipped to Japan.
The joint venture, Bridgestone Sports Taiwan
Co., capitalized at 20 million new Taiwan
dollars, will start production in January 1990
with production of 20,000 iron and “metal
wood” clubs a month.
Esempio
Bridgestone Sports Co. said Friday it has set up
a joint venture in Taiwan with a local concern
and a Japanese trading house to produce golf
clubs to be shipped to Japan.
The joint venture, Bridgestone Sports Taiwan
Co., capitalized at 20 million new Taiwan
dollars, will start production in January 1990
with production of 20,000 iron and “metal
wood” clubs a month.
Esempio
Bridgestone Sports Co. said Friday it has set up
a joint venture in Taiwan with a local concern
and a Japanese trading house to produce golf
clubs to be shipped to Japan.
The joint venture, Bridgestone Sports Taiwan
Co., capitalized at 20 million new Taiwan
dollars, will start production in January 1990
with production of 20,000 iron and “metal
wood” clubs a month.
Esempio
Bridgestone Sports Co. said Friday it has set up
a joint venture in Taiwan with a local concern
and a Japanese trading house to produce golf
clubs to be shipped to Japan.
The joint venture, Bridgestone Sports Taiwan
Co., capitalized at 20 million new Taiwan
dollars, will start production in January 1990
with production of 20,000 iron and “metal
wood” clubs a month.
FASTUS Output (Hobbs 1997)
Cascata di processi
Punti rilevanti
Il riconoscimento delle named entities di un
testo permette di riconoscere nomi di
persone, organizzazioni, luoghi, etc.
Le named entities vengono riconosciute in
modo robusto con metodi riutilizzabili in
applicazioni diverse
Punti rilevanti
E tutte le altre componenti del testo?
Possono essere ignorate!
– Non servono per le successive fasi di
processing e quindi non è necessario elaborarle
Punti rilevanti
L’approccio metodologico dei sistemi di IE
funziona in quanto ci si pone in un contesto
applicativo limitato
– Si ricerca solo un insieme limitato di item
che può quindi apparire in un insieme
limitato di regole
Esempio reale
The White House said President Bush has
approved duty-free treatment for imports of
certain types of watches that aren’t
produced in significant quantities in the
U.S., the Virgin Islands and other U.S.
possessions.
WSJ Markup Example
Demo del sistema di IE
CROSSMARC
Riferimenti
La presentazione utilizza alcune informazioni
esemplificative tratte dal libro:
D.Jurafsky, J. H. Martin:
Speech and Language Processing,
Prentice Hall, 2000, cap.14,15,16
Scarica

Semantica3