Seminario di cultura digitale Pisa, 04 novembre 2015 Trattamento automatico del linguaggio per le Digital Humanities. Riconoscimento e disambiguazione di menzioni di autori in testi di critica letteraria. Francesca Frontini Istituto di Linguistica Computazionale “A. Zampolli” CNR - Pisa ILC CNR • Trattamento del linguaggio naturale • Digital humanities Labex OBVIL Laboratoire d’excellence Observatoire de la vie Literaire • Edizioni digitali di alta qualità • Strumenti per l’analisi dei testi letterari assistita dal computer ……. http://obvil.paris-sorbonne.fr/ Pubblicazioni TEI <Text encoding initiative> Standard per la rappresentazione di testi in formato digitale Mark-up XML Diversi livelli di annotazione: Struttura del testo Informazione linguistica Informazione semantica Strumenti Strumenti per la pubblicazione Strumenti per la ricerca Progetto in collaborazione con ILC • Riconoscimento e annotazione entità nominate in alcuni testi della biblioteca digitale OBVIL • Adattamento di strumenti per il trattamento automatico del linguaggio al dominio della critica letteraria francese • Applicazione al Corpus Critique Entità nominate nel Corpus critique • persone (autori, personaggi, critici, scienziati, …) • luoghi (città, nazioni, …) • istituzioni (università, case editrici, …) • titoli di opere • … Esempio Nacque presso il castello di Miromesnil, vicino a Tourville-surArques, in Francia. La famiglia Maupassant era originaria della Lorena ed era stata nobilitata da Francesco I con il titolo marchionale nel 1752. Fu proprio attorno alla metà del XVIII secolo che gli ascendenti paterni del futuro scrittore si trasferirono in Normandia. Gustave Albert Maupassant (18211899) sposò Laure le Poittevin (1821-1903) il 9 novembre 1846. Laure, appartenente all'alta borghesia normanna, era sorella di Alfred - che sposò a sua volta Louise, la sorella di Gustave Albert -, grande amico di Gustave Flaubert, ed era stata compagna di giochi dell'autore di Madame Bovary, destinato ad esercitare una forte influenza nella vita di Maupassant. Fu una donna dalle non comuni doti letterarie, appassionata dei classici, in particolare di Shakespeare. Da lei ereditò l'amore per l'arte. https://it.wikipedia.org/wiki/Guy_de_Maupassant Algoritmi di NLP • Annotazione : riconoscere automaticamente che una porzione di testi si riferisce a una entità (menzione) • Classificazione : classificare le entità • Named entity recognition and classification - NERC • Disambiguazione : collegare le menzioni ad un referente univoco esterno • Named entity linking (NEL) Disambiguazione Entità vs Menzione di entità: "Victor Hugo" "L’autore dei Miserabili" "Hugo" https://en.wikiped ia.org/wiki/Victor _Hugo https://en.wikipedia.org/wiki /François-Victor_Hugo Web semantico e dati collegati Yago Testo testo testo … DBpedia menzione testo testo testo …. … Geonames Disambiguazione Entità vs Menzione di entità: "Victor Hugo" "L’autore dei Miserabili" "Hugo" http://dbpedia.org/p age/Victor_Hugo http://dbpedia.org/page/Fra nçois-Victor_Hugo Informazione esterna • • Arricchire il testo con puntatori a informazione strutturata esterna • Mantiene una annotazione snella del testo • Collega il testo a fonti di conoscenza mantenute e costantemente arricchite Informazione strutturata = Informazione processabile da una macchina Principali requisiti del progetto • Adattamento al dominio • saggistica e critica francese del 19/20° secolo = testi abbastanza eterogenei • TEI - compatibile: • Gestione TEI in input e output La pipeline di annotazione TEI NERC TEI-ner NEL controllo manuale TEI-nel controllo manuale Riferimenti <persName type="author" key="Chateaubriand, François René de (1768-1848)" ref="http://www.idref.fr/026782022"> Chateaubriand</persName> NERC • UNERD, sistema non supervisionato per il riconoscimento e la classificazione di entità nominate (Mosallam et al 2014) • • domain adaptation dei dizionari basato sui linked data (BnF) confronto con sistemi supervisionati (Apache OpenNLP) • difficile applicare modelli appresi su tipologie di testo diverse http://obvil-dev.paris-sorbonne.fr/unerd/unerd-tei/ Prima del NEL .... c'est ainsi que les curieuses expériences de <persName>H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement .... ... prédire par exemple l'état de la faune de la <placeName>Grande-Bretagne</placeName> en 1868 … [Bergson - L’evolution créatrice] Dopo il NEL .... c'est ainsi que les curieuses expériences de <persName ref="http://data.bnf.fr/ark:/12148/cb123248712#foaf:Person http://dbpedia.org/resource/Hugo_de_Vries http://www.idref.fr/035763655">H. de Vries</persName>, par exemple, en montrant que des variations importantes peuvent se produire brusquement et se transmettre régulièrement .... ... prédire par exemple l'état de la faune de la <placeName ref="http://fr.dbpedia.org/page/Royaume-Uni">GrandeBretagne</placeName> en 1868 … [Bergson - L’evolution créatrice] REDEN: graph-based NEL “Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.” Due tipi di approccio possibili: - Approccio text similarity (Dbpedia spotlight) - Approccio a grafo REDEN: fasi • costruzione dell’indice da basi di conoscenza strutturata online (Linked Open Data) • individuazione dei candidati per ogni menzione • recupero dei dati rilevanti e costruzione del grafo • calcolo della centralità • scelta dei referenti REDEN: costruzione dell’indice REDEN: indice • forma superficiale, indirizzo (URI): • Vigny > {vigny1_dbpedia, vigny1_bnf}, {vigny2_bnf} • de Vigny > {vigny1_dbpedia, vigny1_bnf}, {vigny_bnf} • Alfred de Vigny > {vigny1_dbpedia, vigny1_bnf} • …. REDEN: candidati e fonti “Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.” Candidates (Victor Hugo) = [victor_hugo_bnf,victor_hugo_dbpedia} Candidates (Lamartine) = [alix_de_lamartine-bnf, alix_de_lamartine_dbpedia] [alphonse_de_lamartine_bdf, alphonse_de_lamartine_dbpedia], [elise_de_lamartine_bnf] … Candidates (Vigny) = [joseph_pierre_de_vigny_bnf, joseph_pierre_de_vigny_dbpedia], [benno_bigny_bnf] [alfred_de_vigny_bnf,alfred_de_vigny_dbpedia],… REDEN: grafo • Dato un contesto (es. frase, paragrafo, intero testo) • Per ogni candidato • Accedo a tutti gli URI disponibili e recupero tutte l’informazione strutturata: • • è un poeta, è influenzato da, è vissuto da .. a …., Costruisco del grafo con le informazioni per tutti i candidati di tutte le menzioni del contesto • fusione, eliminazione di nodi inutili REDEN: centralità “Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin que Vigny.” Victor Hugo Alfred de Vigny Joseph Pierre de Vigny Persona Poeta Romanticismo Alix de Lamartine Alphonse de Lamartine Benno Vigny • Colore = candidati di una menzione • Per ogni menzione trovare il candidato con più centrale nel grafo (Degree Centrality, Freeman 1977) • Candidato più centrale = referente più probabile per la menzione in quel contesto REDEN: valutazione Annotazione manuale di menzioni di autori da: “Réflexions sur la littérature” di Albert Thibaudet, 1936. (Scrittori, poeti,…) Indice da LOD BnF + French DBpedia Thibaudet Authors’ mentions Found Correct None 1027 1004 878 23 Precision Coverage 0.87 0.85 REDEN parametri • classe (person, location, …) • basi di conoscenza (generiche, dominio specifiche) • contesto di disambiguazione (paragrafo, frase, testo intero) • pesi per determinate relazioni • filtri spaziali, temporali Applicationi REDEN L’informazione semantica strutturata usata non solo per disambiguare, ma nella fruizione stessa del corpus annotato . Alcuni lavori di ricercatori del Labex hanno sfruttato questi Fortuna degli autori nel corso dei secoli Influenza delle idee scientifiche, artistiche, filosofiche sulla letteratura Annotazioni di toponimi: Influenze straniere sulla letteratura francese Conclusioni L’esempio di REDEN mostra: - l’apporto della linguistica computazionale agli studi letterari - l’apporto del web semantico e dei dati collegati sia per la creazione di edizioni arricchite (NLP) che per la loro fruizione (DH) Credits • Sviluppo di REDEN con Carmen BRANDO (ora IGN) e Jean Gabriel GANASCIA (LIP6) • Labex OBVIL: • Vincent Jolivet • Marine Riguet • Clémence Jacquot Bibliografia REDEN • Identificazione del miglior algoritmo di centralità Frontini, F., Brando, C., Ganascia, J.G.: Semantic web based named entity linking for digital humanities and heritage texts. In: Proceedings of the First International Workshop Semantic Web for Scientific Heritage at the 12th ESWC 2015 Conference. pp. 77–88 (2015), http://ceur-ws.org/Vol-1364/ • Descrizione dell’algoritmo di fusione Carmen Brando, Francesca Frontini, Jean-Gabriel Ganascia (2015). "Disambiguation of Named Entities in Cultural Heritage Texts Using Linked Data Sets". In Morzy, Tadeusz, Valduriez, Patrick, Bellatreche, Ladjel (Eds.): New Trends in Databases and Information Systems ADBIS 2015 Short Papers and Workshops, BigDap, DCSA, GID, MEBIS, OAIS, SW4CH, WISARD, Poitiers, France, September 8-11, 2015. Proceedings. Communications in Computer and Information Science, Springer. (505-514). • Confronto con DBSL Frontini, F., Brando, C., Ganascia, J.G.: Domain-adapted named-entity linker using Linked Data. In: Proceedings of the Workshop on NLP Applications: Completing the Puzzle (WNACP 2015), Passau, Germany, June 17-19, 2015 Disponibile: https://github.com/cvbrandoe/REDEN