Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a. 2005-06 Termine Un termine (o unità terminologica) è: • una parola (termine semplice), • una espressione composta da più parole (termine composto), • un simbolo • una formula che indica un particolare concetto all’interno di un dato dominio cognitivo Estrazione di terminologia Approccio classico Termine è una etichetta linguistica per un concetto; la conoscenza è organizzata in domini, laddove ciascun dominio è equivalente ad una rete di concetti Approccio computazionale Termine è l’output di una procedura di analisi terminologica (-> termini, concetti, ontologia) Estrazione di terminologia Può essere realizzata: • manualmente • automaticamente Nel secondo caso un tool di estrazione identifica una lista di tutti i termini candidati in base ad un’analisi statistica, o mista (statistica e linguistica); un esperto terminologo e con competenze di dominio può eventualmente essere utilizzato per rivedere i risultati e scegliere i candidati che ritiene termini. In ogni caso necessaria l’adozione di un corpus (collezione di testi scritti realizzata con lo scopo precipuo di supportare un’analisi terminologica). Estrazione di terminologia Database terminologico Consiste di item lessicali stabili e dipendenti dal dominio Contiene unità che siano utili per la specifica applicazione Necessità di aggiornamenti continui Estrazione di terminologia Compito non completamente definito • termini possono essere solo parole note • l’identificazione di un termine richiede una consapevolezza del compito da parte di chi lo esegue • nessun criterio formale per distinguere i termini dai non termini • la frequenza non è sempre un indicatore significativo Estrazione di terminologia Ambiguità Esistono molti modi in cui un termine può risultare ambiguo Sintattica {noun/verb, adjective/noun} POS taggers sono ragionevolmente accurati (95%-99% ): l’identificazione sintattica può essere non problematica ove segua una fase opportuna di training Estrazione di terminologia Ambiguità Semantica polisemia: la stessa forma terminologica si riferisce a molti concetti collegati nel significato omonimia: uguale forma linguistica superficiale con significati assolutamente non correlati Estrazione di terminologia Problemi con i termini • La maggioranza dei termini sono composti (multiword unit): qual è l’elemento trainante (come significato) nella composizione? • Multidimensionalità di un termine: ereditarietà multipla all’interno di una gerarchia (es.: tubercolosi polmonare è sia una malattia respiratoria che una infezione) Variabilità di un termine Un concetto può essere rappresentato da più di un termine (sinonimi o varianti del termine) La variabilità di un termine costituisce un serio problema per applicazioni di IR, IE, MT… limitandone le performance. Variabilità di un termine Come variano i termini? Morfologicamente acqua stagnante / acque stagnanti Sintatticamente attività degli enzimi / attività enzimatica vaccino HIV / vaccino contro l’HIV Semanticamente assicurazione medica Compressione o accorciamento di un termine, acronimi od altre abbreviazioni vagone letto / WL / VL Metodi per l’estrazione di terminologia 1. 2. 3. 4. Tecniche di IR Approcci linguistici Approcci statistici Metodi ibridi Metodi per l’estrazione di terminologia Tecniche di IR Una parola in un documento può essere un utile termine per indicizzare il documento stesso Una parola frequente in un documento può essere un utile termine per indicizzare il documento stesso Una parola che appare in un numero limitato di documenti è non in un documento può essere un utile termine per indicizzare quei documenti Una parola che appare frequentemente in un solo documento e non nel resto del corpus in un documento può essere un utile termine per indicizzare il documento stesso Misure di distribuzione delle parole in un corpus possono essere più utili della frequenza Metodi per l’estrazione di terminologia Tecniche di IR (procedura classica) Elaborazione del testo alla ricerca di termini complessi Analisi morfologica Identificazione di NP Applicazione di euristiche (su basi statistiche) per la riduzione del numero dei termini composti • • Se esiste una relazione tra gli elementi di un termine composto e questi si comportano come una parola sola (lessicalizzazione) Non è possibile inserire parole tra gli elementi del composto senza alterarne il significato Metodi per l’estrazione di terminologia Tecniche di IR (termini indice / termini tecnici) L’obiettivo dell’indicizzazione è quello di trovare termini utili alla indicizzazione, ovvero capaci di discriminare un documento da un altro L’obiettivo dell’estrazione di terminologia è quello di trovare termini tecnici che indichino concetti di un dominio specifico Termini indice non sono necessariamente termini tecnici Termini tecnici non sono necessariamente termini indice per alcune collezioni di documenti Metodi per l’estrazione di terminologia Approcci linguistici Basati su preprocessing linguistico ed annotazioni Si riconoscono pattern sintattici ricorrenti nella formazione di un termine (in genere frasi nominali) Problemi con punteggiatura (virgole, trattini, virgolette, spazi,…) Nomi composti scritti in modi diversi (database, data base, data-base) Metodi per l’estrazione di terminologia Approcci statistici Le misure usate più frequentemente sono: • Frequenza delle occorrenze • Mutua informazione Metodi per l’estrazione di terminologia Approcci statistici Frequenza delle occorrenze La più usata Indipendente dal dominio, non richiede alcuna competenza ulteriore ma Termini con bassa frequenza possono essere buoni termini La frequenza è una utile misura solo con frasi che si ripetono allo stesso modo Metodi per l’estrazione di terminologia Approcci statistici Mutua informazione Usata per l’estrazione di collocation (espressioni consistenti di due o più parole corrispondenti ad un modo convenzionale di dire qualcosa word cooccurrences) Sovrapposizione tra collocation e termini tecnici Metodi per l’estrazione di terminologia Approcci statistici Mutua informazione (Fano,1961) L’ammontare di informazione fornita dall’occorrenza di un evento y rispetto all’occorrenza di un evento x è definita come: I(x y)=log P(x y) / P(x) P(y) Ovvero fornisce l’informazione di quanto una parola si relazioni con un’altra Problemi: data sparseness, bigrammi composti da parole a bassa frequenza vengono sovrastimati Va bene per estrarre termini candidati composti da due parole Metodi per l’estrazione di terminologia Metodi ibridi Combinazione di informazioni linguistiche, shallow parser e statistica Si aggiunge informazione di contesto (clustering contestuale, informazione su parole sconosciute, accesso ad ontologia, …) (es. dipartimento di, bibliografia su, studio di, informazioni su, ..) Informazione intrinseca sui termini (pattern di formazione) più estrinseca (contesto) Metodi per l’estrazione di terminologia approccio di Tor Vergata • First task: extract and validate Terms A Term is a surface representation of a key domain concept. “launch vehicle” Ex: Spacecraft Design Domain “Magnetic field” “Entity#ne# mission” • A term can be formed by one or more words and Named Entities (generalization of important entities of a specific domain) Ex: “Entity#ne#_mission” “ESA mission” “Voyager mission” “SOHO mission” ...... Metodi per l’estrazione di terminologia • Second task: extract and validate Verb Relations A Verb Relation (or Surface Form) is a surface representation of a key domain “relational concept” Operatively: A relational concept can be intended as a semantic relation among domain concepts A verb relation is a semantically generalized lexical fragment of text governed by a verb Ex: Relational Concept satellite reaching celestial body Surface Form approach((SUBJ,satellite),(OBJ,celestial_body#ne#)) get_close((SUBJ,satellite),(OBJ,celestial_body#ne#)) Text Fragments “the satellite approached the Moon in 1974.” Metodi per l’estrazione di terminologia Validazione: • 7821/58267 (14%) retained terms • 482/1814 (38%) retained terms with freq>5 Discarded terms as “part”, “level”, “table”, while expressing domain concepts are too generic to be accepted 10 MOST RELEVANT TERMS Metodi per l’estrazione di terminologia • Compound terms have been devided into groups of same length • Most interesting terms usually are those of 2/3-words length: Launch_vehicle Magnetic_field Solar system Entity#ne#_mission Microwave Radio Frequency Trajectory correction manoueuvre 10 MOST RELEVANT 2-WORDS TERMS Metodi per l’estrazione di terminologia Difficulties in validation: – Hardness in comprehension of semantic meaning of the forms, due to lack of information: Ex. approach((SUBJ,null),(OBJ,orbit)) leave((SUBJ,mission#ne#)) Who is the subject?? What is the object of “leave”?? – Overgeneration: every sentence in corpus can create many surface forms “Voyager 2 leaves Earth at about 36 km/s relative to the sun” leave((dirobj,'celestial_corp#ne#'),(subj,'mission#ne#')) leave((dirobj,'celestial_corp#ne#')) leave((dirobj,'celestial_corp#ne#'),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,null)) leave((dirobj,'celestial_corp#ne#'),(dirobj2,null),(subj,'mission#ne#')) Metodi per l’estrazione di terminologia • It could be possible to create a domain syntacticsemantic subcategorization frame for each verb, using semantic resources, such as WordNet Ex. absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,substrate)) absorb,((subj,atmosphere)) absorb,((subj,ENTITY)) absorb,((subj,PHYS_ELEMENT)) absorb,((subj,'x-rays')) absorb,((subj,dust)) absorb,((subj,gas)) absorb,((subj,radiation)) absorb,((subj,PHYS_ENTITY)) absorb,((subj,substrate)) absorb,((subj,atmosphere)) Uso della terminologia Text indexation Text summarization Information extraction Information retrieval Question answering Machine translation (text alignment) … Text alignment Confronto di testi paralleli (in genere un testo legale e la sua traduzione) che vengono visualizzati in maniera corrispondente (es. per paragrafi, frasi, etc) L’allineamento facilita il riconoscimento di termini simili (parole con la stessa valenza di termine) nelle due lingue Qualche conclusione L’estrazione della terminologia è un problema mal definito e complesso La struttura gerarchica del problema suggerisce uno sviluppo a passi Passi di base (text preparation, part-of-speech tagging, noun phrase parsing) • Algoritmi ben definiti e pubblicamente accessibili Uso di filtri • Named entities – – • Lexicalized noun phrases – – • Problema concettualmente semplice Software maturo e di pubblico dominio Soluzioni non definitive ma con buoni suggerimenti Focus su terminologie specifiche di dominio Informazioni di contesto nel documento – Metodologie ancora non definite completamente – Modelli che usano metriche di IR