Metodi per il trattamento avanzato di
documenti
Quanta analisi del testo nei sistemi di accesso a
documenti?
• Motori di ricerca, sistemi di IR classici (parole chiave)
– Query: un elenco di parole
– Risposta: un elenco di documenti contenenti le parole
• Sistemi di Document Classification & Retrieval
– Query: un elenco di parole con operatori booleani
– Risposta:un elenco di documenti pertinenti
• Sistemi di Information Extraction
– Query: una specifica formale del “tipo” di informazioni di interesse
– Risposta:una base di dati strutturata
• Sistemi di “Open-Domain” Question Answering
– Query: una domanda qualsiasi in linguaggio naturale
– Risposta:una risposta in linguaggio naturale
Influenza delle metodologie di AI
nei sistemi di reperimento di
informazioni
Document
Classification:
NLP(+) Classif.
Algorithms (++)
Information Extraction :
NLP(++) KR&Inference (+)
Query Answering: NLP (+++) KR&Inference (++)
Metodi di Classificazione di
Documenti (1)
• Obiettivo:
– A partire da:
• Un insieme di categorie C: {C1,..Cn}(es: articoli di sport,
finanza, medicina..) eventualmente strutturate in una
tassonomia
• Un insieme di documenti appartenenti a ciascuna classe
Di1.. Din.(learning set)
– Apprendi un modello formale hi di ciascuna classe
tale che hi(Dik)= Ci(Dik)
Metodi di Classificazione di
Documenti (2)
• Metodo
– Rappresenta ogni D mediante un vettore di
caratteristiche f(D)=(<w1,p1>…<wm,pm>)
– Le caratteristiche sono coppie parola/peso
– Vari metodi (statistici+NLP) per selezionare le
parole rilevanti e determinare i pesi
– Per ogni classe Ci e set di documenti Dik genera
insieme di esempi S: x = <f(Djk), Ci(Djk)>
doveCi(Djk)=1 se Djk  Ci
Esempio:
Documento (Reuter’s collection): Colombia opened coffee
export registrations for April and May with the National
Coffee Growers' Federation setting no limit, Gilberto
Arango, president of the private exporters' association, said.
Vettore delle caratteristiche: (Colombia, open, coffee,
export, registr, April/date, May/date,
National_Coffee_Growers’_Federation/org,
president_Gilberto_Arango/pers, exporter_association)
(in realtà il vettore contiene V attributi binari ai, dove V è la
taglia del vocabolario, ai=1 se la parola i-esima di V è
presente, inoltre gli attributi possono essere “pesati”, come
abbiamo visto nei modelli IR classici)
Metodi di Classificazione di
Documenti (3)
• Per ogni classe Ci ed ogni set di esempi D si apprende un
modello della classe h(Ci)
• Metodi di apprendimento/ classificazione:
– Modello “bag of words” o vector space model h (Ci) è
un cluster di vettori, centr(Ci) è il “centroide” del
cluster
– Le parole sono pesate con tf-idf, la similarità fra un
nuovo documento e i modelli delle classi è la cosine
similarity già vista per IR
Metodi di Classificazione di
Documenti (4)
• Metodi di apprendimento/ classificazione
(cont’d)
– Funzioni lineari
h(Ci )  a1w1  a 2 w 2  .....a m w m
– Alberi di decisione
pij<valk
pin>valn
Ci
Metodi di Classificazione di
Documenti (5)
• Utilizzo di tecniche di NLP per migliorare la
classificazione:
– Rimpiazzare i termini con la radice (categorizzare, categorizziamo,
categorizzazione)
– Disambiguazione morfologica (es: piano/agg o piano/nome)
– Identificare termini complessi: nomi propri (president Bill Clinton)
terminologia ( real estate) espressioni regolari (date, numeri,
espressioni monetarie)
– Espansione semantica: rimpiazzare (alcuni) termini con liste di
sinonimi o categorie semantiche (es: money (money,currency,monetary
system))
Estrazione di Informazioni (1)
•Obiettivo: creazione di una rappresentazione
strutturata (template) da informazioni
“selezionate” estratte da archivi di testi
Es: Sam Swartz retired as executive vice president of the
famous hot dog manifacturer, Hupplewhite Inc.
He will be succeeded by Harry Himmelfarb.
EVENT
PERSON
POSITION
COMPANY
leave job
Sam Swartz
Executive vice president
Hupplewhite Inc
EVENT
PERSON
POSITION
COMPANY
start job
Harry Himmelfarb
Executive vice president
Hupplewhite Inc
Architettura di un sistema di IE
documenti
Analisi locale
analisi lessicale
riconoscimento di nomi propri
analisi sintattica parziale
pattern matching
Analisi del discorso
analisi di co-referenze
inferenze
generazione di templates
informazioni
strutturate
Analisi del testo nei sistemi di IE (1)
• Identificazione dei costituenti : il testo viene
segmentato in costrituenti sintattici semplici (vp e np)
cui possono eventualmente essere aggiunte
informazioni morfo-sintattiche
np e1: Sam Swartz  vp: retired  as np e2:executive vice
president  of np e3: the famous hot-dog manifacturer  np e4:
Hupplewhite Inc.. np e5:He vp: will be succeeded by np e6:
Harry Himmelfab 
Analisi del testo nei sistemi di IE (2)
• Classificazione dei segmenti:
e1
e2
e3
e4
e5
e6
type: person name "Sam Schartz"
type: human role "executive vice
president"
type: human org "manifacturer"
type: company name : "Hupplewhite Inc."
type: person "He"
type: person name "Harry Himmelfarb"
Analisi del testo nei sistemi di IE (3)
•Pattern matching: L'obiettivo di questa fase è di
identificare segmenti di frase che siano istanze di
segmenti generalizzati, o patterns.
person retires as position
person is succeded by person
….
•I patterns possono essere definiti mediante
espressioni regolari, equivalenti ad automi a stati
finiti.
Analisi del testo nei sistemi di IE (4)
•Coreference resolution L'obiettivo di questa fase
è identificare istanze dello stesso concetto,
espresse con forme superficiali diverse nel testo.
Ad esempio, nella frase di esempio fin qui
analizzata, i gruppi nominali e1 (Sam Swartz) e
e5 (He) si riferiscono alla stessa entità.
•I modelli di risoluzione di co-referenze fanno uso
di informazioni sintattiche (ad esempio, "He" deve
corrispondere ad una persona maschile singolare)
e semantiche.
KR & reasoning nei sistemi di IE (1)
•Inferenze e riempimento dei templates
L'obiettivo di questa fase è di riempire i templates
con porzioni di testo rilevanti.
Perché ciò sia possibile, è necessario effettuare
alcune inferenze il cui obiettivo è stabilire un
collegamento -altrimenti non evidente - fra
patterns e "slot-fillers" dei templates (o valori
degli attributi, se si vuol vedere un template come
un vettore di attributi)
KR & reasoning nei sistemi di IE (2)
Ad esempio se il template è:
e se i patterns catturati sono:
Sam Schwartz]person retires as
IN:
executive vice president]position
EVENT leave job
Harry Himmelfarb]person succeeds Sam
PERSON
leave-job person
Schwartz]person
POSITION
leave-job position
COMPANY
leave-job companyuna necessaria regola di inferenza è:
leave_job(X-person,YOUT:
position)succeed(Z-person,XEVENT start job
person)  start-job(Z-person, YPERSON
start-job person
position)
POSITION
start-job position
COMPANY
start-job company
e simmetricamente:
start_job(X-person,Yposition)succeed(X-person,Zperson)  leave-job(Z-person, Yposition)
Valutazione dei Sistemi di IE
• Uno dei vantaggi dei sistemi di IE consiste nell'esistenza di
procedure consolidate di valutazione, rappresentate dalle
Message Understanding Conferences (MUC)
• http://www.muc.saic.com/proceedings/muc_7_toc.html
• Queste conferenze sono in realtà "gare" di prestazione di
sistemi di IE, in cui le prestazioni vengono valutate sulla
base di:
- Test set comuni
- Indici di prestazione pre-stabiliti dagli organizzatori
- Procedure di valutazione comuni, preventivamente
predisposte
Sistemi di “Open-Domain” Question
Answering
•Obiettivo: rispondere in LN a domande in LN
di argomento qualsiasi
Es (le prime due da TREC-9
http://trec.nist.gov/pubs.html):
What tourist attractions are there in Reims?
When was the Brandeburg gate in Berlin built?
I would like to know if ACE has in its DB candidates in the financial area,
with 10 years of experience and fluency in English?
•La tecnologia dei sistemi di QA è ancora in
fase di definizione/assestamento
Architettura del “miglior” sistema:
“FALCON”, della SMU (1)
Knowledge-based Question
Processing
Shallow Document Processing
Knowledge-based Answer generation
Fase 1: analisi e trasformazione della
domanda
Query
Query
Taxonomy
Query Parsing &
Logic Form
Transformation
Lexico-semantic
patterns
Query Class
Recognition
Expanded Query 1
Word-sense
Taxonomy
Query
Expansion
Expanded Query n
Alcuni metodi utilizzati in questa
fase in FALCON
•Identificare riformulazioni di domande simili e mantenere una
“cache” di risposte (es: What are tourist attractions in Reims?
What can one see in Reims?)
•Dettagliata tassonomia delle Domande( e tipi di Risposta) (es.
di “top” classes: DATE, TIME, REASON, MANNER…),
collegata con una tassonomia generale (WordNet)
•Stabilire collegamenti fra i termini nella domanda e
tassonomia (es: What is the wingspan of a condor?(wingspan
 QUANTITY)
•Rappresentazione semantica e logica della domanda
Wingspan
QUANTITY
condor
wingspan(x)condor(y) QUANTITY(x)
Esempio:
Question: why did David Koresh ask the FBI for a
word processor?
Logic representation:
[REASON(x)&David(y)&Koresh(y)&ask(e,x,y,z,p)
&FBI(z)&processor(p)&word(p)]
Semantic expansion:
ask  ask, enquire, request,make a request
word processor  word processor , word processing
system
Fase 2: Estrazione di porzioni
rilevanti dai documenti
Classified
Documents
Expandeded
Queries
Document
Retrieval Engine
Answer 1
Answer
Extraction
Answer m
Metodi utilizzati in questa fase in
FALCON
• Espansione della query:
– Espansioni morfologiche: invent:
inventORinventorOR invent
– Espansioni lessicali e semantiche (killer:
assassinORkiller, like: likeORprefer)
Fase 3: generazione della risposta
Answer set
Parser
Semantic &
Logic Form
Transformation
false?
World Knowledge
Axioms
Theorem
Prover
True?
ANSWER
relax
Abductive
Rules
Metodi usati in questa fase in
FALCON
• Generazione di una forma semantica per il testo della
risposta
• Dapprima tenta di unificare domanda e risposta
• IF fail, applica espansioni lessicali finché
l’unificazione non ha successo
• Infine, genera una prova abduttiva dalla risposta alla
domanda, eventualmente applicando ulteriori
espansioni semantiche.
Esempio
•Testo estratto: “Over the week-end Mr Koresh sent a request
for a word processor to enable him to record his revelations”
•Forma logica ottenuta:
Mr(71)&Koresh(71)&word(72)&processor(72)&&revelati
ons(74)&record(73 74 75)&enable(75 73
76)&request(76)&sent(77 76 78
71)&weekend(78)&_PERSON(71)&DATE(78)
•Esempio di dimostrazione ( e assiomi utilizzati):
Proving:David(1)&Koresh(1)&word(2)&processor(2)&
FBI(4)&ask(34215)&_REASON(5)&_PERSON(1)&ORG(4)
unifying axioms: David(1):=Mr(1)..
ask(12345):=sent(1674)&request(6)
_ORG(1):=FBI(1)…..
•Se la dimostrazione fallisce, alcune regole di abduzione
consentono di unificare costanti che sono differenti ma che
sono argomenti dello stesso predicato
Performance di FALCON a TREC-9
• 79% risposte corrette
• Il secondo miglior sistema intorno al 55%
• I moduli di abduzione e espansione semantica hanno
avuto un ruolo determinante nel 25% dei casi
• I progettisti di FALCON sostengono che il ruolo di una
“open-domain linguistic ontology such as WordNet” è
stato determinante
Per concludere (sulle tecniche di
elaborazione dei testi)
• L’uso di tecniche di AI-intensive è fortemente crescente nei
sistemi di accesso a informazioni testuali
• Comunità Europea e DARPA spingono progetti orientati al
reperimento, manipolazione, presentazione di contenuti sulla
rete (e-content, Semantic web., Open-domain question
answering..)
• La disponibilità di “open-domain” Ontologies e linguaggi di
formattazione “intermedia” di documenti (XML etc.) potrà
avere un forte impatto sulle prestazioni dei sistemi di DC/IE/QA
Scarica

4 - Analisi del testo