Modeling, managing and accessing e-content Linguistic Computing Laboratory Prof. Paola Velardi Aree di ricerca • Metodologie – Elaborazione del Linguaggio naturale – Apprendimento automatico • Applicazioni – Modellazione ontologica – E-learning – Information Retrieval Modellazione Ontologica • Ontologia: una rappresentazione formale e condivisa di un certo dominio di conoscenza • Vantaggi: – Interoperabilità – Riusabilità – Accesso facilitato ad informazioni (strutturate e non) INTEROPERABILITA’ (es.) ACCOMODATION Bed&Breack Resort Hotel: Hilton Resort Address: Hill Street, 6 Los Angeles Description: bla bla ..swimming pool ..bla bla DATA COMPONENT IS_A NAME ADDRESS FACILITY Street Sport facility HAS_PART City Room facility Country Hotel_name: Pippo’s Type: B&B Street: Canale, City:NY Details: .. private baths….. Interoperabilità • L’ontologia consente di identificare i vari elementi informativi, anche se questi sono rappresentati mediante strutture dati eterogenee (es: Indirizzo(via, numero,città,paese) oppure Indirizzo(campo unico) ) o inclusi in stringhe di testo. Accesso facilitato alle informazioni:esempio CURRICULA name Curriculum Vitae Paolo Rossi ……mi sono laureato in Ingegneria elettronica nel.. ..ottima conoscenza inglese ..linguaggi di programmazione: Java, C++ , OWL.. ABILITY title skills computing_skills linguistic skills Cerco un ingegnere con esperienza di programmatore Accesso facilitato a Informazioni • L’ontologia consente di annotare parti salienti del testo, favorendo la classificazione e il recupero di documenti non basato sul semplice uso di parole chiave. Stato dell’arte nell’area modellazione ontologica • • • • • Linguaggi e formalismi (OWL, DAML+OIL..) Principi di modellazione concettuale (DOLCE) Tools per lo sviluppo di ontologie (OntoEdit..)) Popolazione “large-scale” di ontologie Killer applications Il sistema Ontolearn per la popolazione automatica di ontologie di dominio • RISORSE DISPONIBILI: Esistono in rete alcune grandi ontologie general purpose (CYC, WordNet,..). Esistono glossari di dominio (glossari: termini + definizione in LN). • IPOTESI: E’ possibile costruire automaticamente ontologie di dominio estendendo e potando ontologie general-purpose, ed integrando le informazioni nei glossari. • Metodo 1: interpretazione composizionale. Es: l’interpretazione semantica del termine information technology si può ricavare componendo opportunamente i concetti information e technology, nelle accezioni corrette. • Metodo 2: “ontologizzazione” dei glossari. Effettuando un parsing delle definizioni e utilizzando misure di similarità (es. LSI) si può passare da una struttura piatta ed informale (glossario) ad una strutturazione tassonomica con (qualche grado di) formalità. Il sistema Ontolearn per la poplazione automatica di ontologie di dominio (metodo 1) Domain Corpus Extraction of candidate terminology Natural language processor Filtering of domain terminology Contrastive Corpora and glossaries Semantic relation Annotaton rules Semantic Interpretation Identification of taxonomic relations Gloss generation rules Domain Ontology WordNet+ lexical resources Ontology updating Domain Concept Forest Estrazione della terminologia • • Estrae da corpora di dominio stringhe terminologiche : • Parsing in linguaggio naturale • Identifica strutture sintattiche tipiche di terminologia (compounds, gruppi preposizionali) Filtraggio dei candidati terminologici, usando corpora e glossari in dominii diversi, per “contrasto”. Usa due misure basate sul concetto di entropia: Market analysis Project partner RD • Domain Relevance CD • Domain Consensus D1 ... Di ... Dn d ... d ... d 1 i n Interpretazione semantica delle stringhe terminologiche: l’idea generale 1. Determina i sensi corretti memory access memory,remembering memory,retention memory,storage memory, cognitive psychology access, the right to obtain access,approach access, stored information Interpretazione semantica delle stringhe terminologiche: l’idea generale (2) 2. Determina le relazioni semantiche sussitenti memory,storage TOPIC access, stored information Interpretazione semantica delle stringhe terminologiche: l’idea generale (3) • Identifica le relazioni tassonomiche fra concetti ONTOLOGIA GENERICA data access (WordNet) operation access, stored information memory access multiport memory access ONTOLEARN Interpretazione semantica: Rappresentazione dei concetti mediante grafi g ki los nd s -o f transport#1 person#1 traveler#1 of kind- of of kin dddn n i i k of k passenger#1 public protection#2 transport#1 instrumentation#1 glo bus#1 of ss haskind express#2 rt nd -pa ki g lo s s ha s vehicle#1 roof#2 ind covering#2 (a) k school bus#1 has window#2 framework#3 art plate glass#1 f s-p a kindh d-o of kin pane#1 window frame#1 ha s f -o nd ki -pa rt ha s -pa rt connected#6 ss glo ind s-k ha of of rtpa gloss k in d - electricity#1 pert s electrical#2 os device#1 gl inter kind-of f s s o l d-o g n instrumentality#3 connection#1 i k state#4 f o d bus#2 n ki conductor#4 gloss machine#1 f d-o has-kind f kin connection#2 o dk in calculator#2 union#4 computer#1 haselectrical device#1 d-of kind (b) wiring#1 kin circuit#1 kind-of Lessici computazionale e risorse lessicali on-line, analizzati con opportune tecniche, consentono di generare, per ogni possibile senso di ogni termine “elementare” un GRAFO S EMANTICO Interpretazione Semantica: (1b) Intersezione fra grafi semantici L’interpretazione corretta per una certa stringa terminologica viene determinata identificando la migliore combinazione di sensi associati a ciascun componente. L’algoritmo di interpretazione semantica si basa sulla ricerca di specifici pattern di interconnesione, che vengono descritti mediante una grammatica context free. I pattern rossi in figura sono esempi di rule matches. f device#1 o kin f d-o k f s f o d i o d s n n inf d k i o -o d l o k f n g i d k k n conductor#4 i machine#1 k converter#1 i keyboard#1 n i k d n - has-a d o data busbar#1 f converter#1 o ha f s-a computer#1 has-a a s s glo terminal#3 s glo ss a h display#6 kind-o f monitor#3 kind _of kind _of kind _of terminal # 3 device# 1 machine# 1 com puter# 1 Ulteriori passi dell’algoritmo • determina le relazioni concettuali fra concetti componenti un concetto complesso (memory based learning) ES: TOPIC in fo rma tio n# 2 techn olog y# 1 HAS _ PA RT c o m p uter# 1 term in al# 3 • struttura i concetti in ordine tassonomico technology representation technology modelling technology knowledge modelling technology •Genera definizioni in linguaggio naturale per i nuovi concetti (context free grammars), es: Mailing list : a kind of list, a database containing an ordered array of items, for the transmission of a letter. Applicazioni ed esperimenti • Applicazioni nell’ambito di progetti nazionali ed europei, nei dominii: computer networks (Web-learning), tourism (Harmonise), enterprise interoperability (INTEROP) • Studio di killer applications: web information retrieval, e-learning