Estrazione di terminologia da
corpora
Maria Teresa PAZIENZA
a.a. 2005-06
Termine
Un termine (o unità terminologica) è:
• una parola (termine semplice),
• una espressione composta da più parole (termine
composto),
• un simbolo
• una formula
che indica un particolare concetto all’interno di un
dato dominio cognitivo
Estrazione di terminologia
Approccio classico
Termine è una etichetta linguistica per un concetto;
la conoscenza è organizzata in domini, laddove
ciascun dominio è equivalente ad una rete di
concetti
Approccio computazionale
Termine è l’output di una procedura di analisi
terminologica (-> termini, concetti, ontologia)
Estrazione di terminologia
Può essere realizzata:
• manualmente
• automaticamente
Nel secondo caso un tool di estrazione identifica una lista
di tutti i termini candidati in base ad un’analisi
statistica, o mista (statistica e linguistica); un esperto
terminologo e con competenze di dominio può
eventualmente essere utilizzato per rivedere i risultati e
scegliere i candidati che ritiene termini.
In ogni caso necessaria l’adozione di un corpus
(collezione di testi scritti realizzata con lo scopo
precipuo di supportare un’analisi terminologica).
Estrazione di terminologia
Database terminologico
Consiste di item lessicali stabili e dipendenti
dal dominio
Contiene unità che siano utili per la specifica
applicazione
Necessità di aggiornamenti continui
Estrazione di terminologia
Compito non completamente definito
• termini possono essere solo parole note
• l’identificazione di un termine richiede una
consapevolezza del compito da parte di chi lo esegue
• nessun criterio formale per distinguere i termini dai
non termini
• la frequenza non è sempre un indicatore significativo
Estrazione di terminologia
Ambiguità
Esistono molti modi in cui un termine può risultare
ambiguo
Sintattica {noun/verb, adjective/noun}
POS taggers sono ragionevolmente accurati (95%-99% ):
l’identificazione sintattica può essere non problematica
ove segua una fase opportuna di training
Estrazione di terminologia
Ambiguità
Semantica
polisemia: la stessa forma terminologica si
riferisce a molti concetti collegati nel
significato
omonimia: uguale forma linguistica superficiale
con significati assolutamente non correlati
Estrazione di terminologia
Problemi con i termini
• La maggioranza dei termini sono composti (multiword unit): qual è l’elemento trainante (come
significato) nella composizione?
• Multidimensionalità di un termine: ereditarietà
multipla all’interno di una gerarchia (es.:
tubercolosi polmonare è sia una malattia
respiratoria che una infezione)
Variabilità di un termine
Un concetto può essere rappresentato da più di
un termine (sinonimi o varianti del termine)
La variabilità di un termine costituisce un serio
problema per applicazioni di IR, IE, MT…
limitandone le performance.
Variabilità di un termine
Come variano i termini?
Morfologicamente acqua stagnante / acque stagnanti
Sintatticamente attività degli enzimi / attività enzimatica
vaccino HIV / vaccino contro l’HIV
Semanticamente assicurazione medica
Compressione o accorciamento di un termine,
acronimi od altre abbreviazioni vagone letto / WL / VL
Metodi per l’estrazione di terminologia
1.
2.
3.
4.
Tecniche di IR
Approcci linguistici
Approcci statistici
Metodi ibridi
Metodi per l’estrazione di terminologia
Tecniche di IR
Una parola in un documento può essere un utile termine per
indicizzare il documento stesso
Una parola frequente in un documento può essere un utile termine per
indicizzare il documento stesso
Una parola che appare in un numero limitato di documenti è non in un
documento può essere un utile termine per indicizzare quei
documenti
Una parola che appare frequentemente in un solo documento e non nel
resto del corpus in un documento può essere un utile termine per
indicizzare il documento stesso
Misure di distribuzione delle parole in un corpus possono essere più
utili della frequenza
Metodi per l’estrazione di terminologia
Tecniche di IR (procedura classica)
Elaborazione del testo alla ricerca di termini complessi
Analisi morfologica
Identificazione di NP
Applicazione di euristiche (su basi statistiche) per la
riduzione del numero dei termini composti
•
•
Se esiste una relazione tra gli elementi di un termine composto e
questi si comportano come una parola sola (lessicalizzazione)
Non è possibile inserire parole tra gli elementi del composto
senza alterarne il significato
Metodi per l’estrazione di terminologia
Tecniche di IR
(termini indice / termini tecnici)
L’obiettivo dell’indicizzazione è quello di trovare termini
utili alla indicizzazione, ovvero capaci di discriminare
un documento da un altro
L’obiettivo dell’estrazione di terminologia è quello di
trovare termini tecnici che indichino concetti di un
dominio specifico
Termini indice non sono necessariamente termini tecnici
Termini tecnici non sono necessariamente termini indice per
alcune collezioni di documenti
Metodi per l’estrazione di terminologia
Approcci linguistici
Basati su preprocessing linguistico ed annotazioni
Si riconoscono pattern sintattici ricorrenti nella
formazione di un termine (in genere frasi
nominali)
Problemi con punteggiatura (virgole, trattini,
virgolette, spazi,…)
Nomi composti scritti in modi diversi (database,
data base, data-base)
Metodi per l’estrazione di terminologia
Approcci statistici
Le misure usate più frequentemente sono:
• Frequenza delle occorrenze
• Mutua informazione
Metodi per l’estrazione di terminologia
Approcci statistici Frequenza delle occorrenze
La più usata
Indipendente dal dominio, non richiede alcuna
competenza ulteriore
ma
Termini con bassa frequenza possono essere buoni
termini
La frequenza è una utile misura solo con frasi che
si ripetono allo stesso modo
Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione
Usata per l’estrazione di collocation (espressioni
consistenti di due o più parole corrispondenti
ad un modo convenzionale di dire qualcosa
word cooccurrences)
Sovrapposizione tra collocation e termini tecnici
Metodi per l’estrazione di terminologia
Approcci statistici Mutua informazione (Fano,1961)
L’ammontare di informazione fornita dall’occorrenza di un
evento y rispetto all’occorrenza di un evento x è
definita come:
I(x y)=log P(x y) / P(x) P(y)
Ovvero fornisce l’informazione di quanto una parola si
relazioni con un’altra
Problemi: data sparseness, bigrammi composti da parole a
bassa frequenza vengono sovrastimati
Va bene per estrarre termini candidati composti da due
parole
Metodi per l’estrazione di terminologia
Metodi ibridi
Combinazione di informazioni linguistiche, shallow
parser e statistica
Si aggiunge informazione di contesto (clustering
contestuale, informazione su parole sconosciute,
accesso ad ontologia, …) (es. dipartimento di,
bibliografia su, studio di, informazioni su, ..)
Informazione intrinseca sui termini (pattern di
formazione) più estrinseca (contesto)
Metodi per l’estrazione di terminologia
approccio di Tor Vergata
• First task: extract and validate Terms
A Term is a surface representation of a key domain concept.
“launch vehicle”
Ex: Spacecraft Design
Domain
“Magnetic field”
“Entity#ne# mission”
• A term can be formed by one or more words and Named Entities
(generalization of important entities of a specific domain)
Ex: “Entity#ne#_mission”
“ESA mission”
“Voyager mission”
“SOHO mission” ......
Metodi per l’estrazione di terminologia
• Second task: extract and validate Verb Relations
A Verb Relation (or Surface Form) is a surface
representation of a key domain “relational concept”
Operatively:
A relational concept can be intended as a semantic relation among
domain concepts
A verb relation is a semantically generalized lexical fragment of text
governed by a verb
Ex:
Relational Concept
satellite reaching
celestial body
Surface Form
approach((SUBJ,satellite),(OBJ,celestial_body#ne#))
get_close((SUBJ,satellite),(OBJ,celestial_body#ne#))
Text Fragments
“the satellite
approached the
Moon in 1974.”
Metodi per l’estrazione di terminologia
Validazione:
• 7821/58267 (14%) retained terms
• 482/1814 (38%) retained terms with freq>5
Discarded terms as “part”, “level”,
“table”, while expressing domain
concepts are too generic to be
accepted
10 MOST RELEVANT TERMS
Metodi per l’estrazione di terminologia
• Compound terms have
been devided into groups
of same length
• Most interesting terms usually are
those of 2/3-words length:
Launch_vehicle
Magnetic_field
Solar system
Entity#ne#_mission
Microwave Radio Frequency
Trajectory correction manoueuvre
10 MOST RELEVANT 2-WORDS TERMS
Metodi per l’estrazione di terminologia
Difficulties in validation:
– Hardness in comprehension of semantic meaning of the
forms, due to lack of information:
Ex.
approach((SUBJ,null),(OBJ,orbit))
leave((SUBJ,mission#ne#))
Who is the subject??
What is the object of “leave”??
– Overgeneration: every sentence in corpus can create many
surface forms
“Voyager 2 leaves Earth
at about 36 km/s relative to
the sun”
leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#'))
leave((dirobj,'celestial_corp#ne#'))
leave((dirobj,'celestial_corp#ne#'),(subj,null))
leave((dirobj,'celestial_corp#ne#'),(dirobj2,null))
leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null))
leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#'))
Metodi per l’estrazione di terminologia
• It could be possible to create a domain syntacticsemantic subcategorization frame for each verb,
using semantic resources, such as WordNet
Ex.
absorb,((subj,'x-rays'))
absorb,((subj,dust))
absorb,((subj,gas))
absorb,((subj,radiation))
absorb,((subj,substrate))
absorb,((subj,atmosphere))
absorb,((subj,ENTITY))
absorb,((subj,PHYS_ELEMENT))
absorb,((subj,'x-rays'))
absorb,((subj,dust))
absorb,((subj,gas))
absorb,((subj,radiation))
absorb,((subj,PHYS_ENTITY))
absorb,((subj,substrate))
absorb,((subj,atmosphere))
Uso della terminologia
Text indexation
Text summarization
Information extraction
Information retrieval
Question answering
Machine translation (text alignment)
…
Text alignment
Confronto di testi paralleli (in genere un testo
legale e la sua traduzione) che vengono
visualizzati in maniera corrispondente (es.
per paragrafi, frasi, etc)
L’allineamento facilita il riconoscimento di
termini simili (parole con la stessa valenza
di termine) nelle due lingue
Qualche conclusione
L’estrazione della terminologia è un problema mal definito e complesso
La struttura gerarchica del problema suggerisce uno sviluppo a passi
Passi di base (text preparation, part-of-speech tagging, noun phrase
parsing)
•
Algoritmi ben definiti e pubblicamente accessibili
Uso di filtri
•
Named entities
–
–
•
Lexicalized noun phrases
–
–
•
Problema concettualmente semplice
Software maturo e di pubblico dominio
Soluzioni non definitive ma con buoni suggerimenti
Focus su terminologie specifiche di dominio
Informazioni di contesto nel documento
–
Metodologie ancora non definite completamente
–
Modelli che usano metriche di IR
Scarica

EstrazioneTerminologia - Università degli Studi di Roma Tor