Seminario di cultura digitale
Pisa, 04 novembre 2015
Trattamento automatico del linguaggio
per le Digital Humanities.
Riconoscimento e disambiguazione di
menzioni di autori in testi di critica letteraria.
Francesca Frontini
Istituto di Linguistica Computazionale “A. Zampolli”
CNR - Pisa
ILC CNR
• Trattamento del
linguaggio naturale
• Digital humanities
Labex OBVIL
Laboratoire d’excellence
Observatoire de la vie Literaire
• Edizioni digitali di alta
qualità
• Strumenti per l’analisi dei
testi letterari assistita dal
computer
…….
http://obvil.paris-sorbonne.fr/
Pubblicazioni
TEI <Text encoding initiative>

Standard per la rappresentazione di testi in formato digitale

Mark-up XML

Diversi livelli di annotazione:

Struttura del testo

Informazione linguistica

Informazione semantica
Strumenti
Strumenti per la
pubblicazione
Strumenti per la
ricerca
Progetto in collaborazione
con ILC
•
Riconoscimento e annotazione entità nominate in
alcuni testi della biblioteca digitale OBVIL
•
Adattamento di strumenti per il trattamento
automatico del linguaggio al dominio della critica
letteraria francese
•
Applicazione al Corpus Critique
Entità nominate nel
Corpus critique
•
persone (autori, personaggi, critici, scienziati,
…)
•
luoghi (città, nazioni, …)
•
istituzioni (università, case editrici, …)
•
titoli di opere
•
…
Esempio
Nacque presso il castello di Miromesnil, vicino a Tourville-surArques, in Francia. La famiglia Maupassant era originaria della
Lorena ed era stata nobilitata da Francesco I con il titolo
marchionale nel 1752. Fu proprio attorno alla metà del XVIII
secolo che gli ascendenti paterni del futuro scrittore si
trasferirono in Normandia. Gustave Albert Maupassant (18211899) sposò Laure le Poittevin (1821-1903) il 9 novembre
1846. Laure, appartenente all'alta borghesia normanna, era
sorella di Alfred - che sposò a sua volta Louise, la sorella di
Gustave Albert -, grande amico di Gustave Flaubert, ed era
stata compagna di giochi dell'autore di Madame Bovary,
destinato ad esercitare una forte influenza nella vita di
Maupassant. Fu una donna dalle non comuni doti letterarie,
appassionata dei classici, in particolare di Shakespeare. Da lei
ereditò l'amore per l'arte.
https://it.wikipedia.org/wiki/Guy_de_Maupassant
Algoritmi di NLP
•
Annotazione : riconoscere automaticamente che
una porzione di testi si riferisce a una entità
(menzione)
•
Classificazione : classificare le entità
•
Named entity recognition and classification - NERC
•
Disambiguazione : collegare le menzioni ad un
referente univoco esterno
•
Named entity linking (NEL)
Disambiguazione
Entità vs Menzione di entità:
"Victor Hugo"
"L’autore dei Miserabili"
"Hugo"
https://en.wikiped
ia.org/wiki/Victor
_Hugo
https://en.wikipedia.org/wiki
/François-Victor_Hugo
Web semantico e
dati collegati
Yago
Testo testo testo
…
DBpedia
menzione
testo testo testo
….
…
Geonames
Disambiguazione
Entità vs Menzione di entità:
"Victor Hugo"
"L’autore dei Miserabili"
"Hugo"
http://dbpedia.org/p
age/Victor_Hugo
http://dbpedia.org/page/Fra
nçois-Victor_Hugo
Informazione esterna
•
•
Arricchire il testo con puntatori a informazione
strutturata esterna
•
Mantiene una annotazione snella del testo
•
Collega il testo a fonti di conoscenza mantenute e
costantemente arricchite
Informazione strutturata = Informazione
processabile da una macchina
Principali requisiti del progetto
•
Adattamento al dominio
•
saggistica e critica francese del 19/20° secolo
= testi abbastanza eterogenei
•
TEI - compatibile:
•
Gestione TEI in input e output
La pipeline di annotazione
TEI
NERC
TEI-ner
NEL
controllo
manuale
TEI-nel
controllo
manuale
Riferimenti
<persName
type="author"
key="Chateaubriand, François René de (1768-1848)"
ref="http://www.idref.fr/026782022">
Chateaubriand</persName>
NERC
•
UNERD, sistema non supervisionato per il riconoscimento e
la classificazione di entità nominate (Mosallam et al 2014)
•
•
domain adaptation dei dizionari basato sui linked data
(BnF)
confronto con sistemi supervisionati (Apache OpenNLP)
•
difficile applicare modelli appresi su tipologie di testo
diverse
http://obvil-dev.paris-sorbonne.fr/unerd/unerd-tei/
Prima del NEL
.... c'est ainsi que les curieuses expériences de
<persName>H. de Vries</persName>, par exemple, en montrant que
des variations importantes peuvent se produire brusquement et se
transmettre régulièrement ....
... prédire par exemple l'état de la faune de la
<placeName>Grande-Bretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
Dopo il NEL
.... c'est ainsi que les curieuses expériences de
<persName ref="http://data.bnf.fr/ark:/12148/cb123248712#foaf:Person
http://dbpedia.org/resource/Hugo_de_Vries
http://www.idref.fr/035763655">H. de Vries</persName>, par exemple,
en montrant que des variations importantes peuvent se produire
brusquement et se transmettre régulièrement ....
... prédire par exemple l'état de la faune de la
<placeName ref="http://fr.dbpedia.org/page/Royaume-Uni">GrandeBretagne</placeName> en 1868 …
[Bergson - L’evolution créatrice]
REDEN: graph-based
NEL
“Quant au rythme, si Victor Hugo a dépassé
Lamartine, il n’a pas été plus loin que Vigny.”
Due tipi di approccio possibili:
- Approccio text similarity (Dbpedia spotlight)
- Approccio a grafo
REDEN: fasi
•
costruzione dell’indice da basi di conoscenza
strutturata online (Linked Open Data)
•
individuazione dei candidati per ogni menzione
•
recupero dei dati rilevanti e costruzione del grafo
•
calcolo della centralità
•
scelta dei referenti
REDEN: costruzione
dell’indice
REDEN: indice
•
forma superficiale, indirizzo (URI):
•
Vigny > {vigny1_dbpedia, vigny1_bnf}, {vigny2_bnf}
•
de Vigny > {vigny1_dbpedia, vigny1_bnf}, {vigny_bnf}
•
Alfred de Vigny > {vigny1_dbpedia, vigny1_bnf}
•
….
REDEN: candidati e fonti
“Quant au rythme, si Victor Hugo a dépassé Lamartine, il n’a pas été plus loin
que Vigny.”
Candidates (Victor Hugo) = [victor_hugo_bnf,victor_hugo_dbpedia}
Candidates (Lamartine) =
[alix_de_lamartine-bnf, alix_de_lamartine_dbpedia]
[alphonse_de_lamartine_bdf, alphonse_de_lamartine_dbpedia],
[elise_de_lamartine_bnf] …
Candidates (Vigny) =
[joseph_pierre_de_vigny_bnf, joseph_pierre_de_vigny_dbpedia],
[benno_bigny_bnf]
[alfred_de_vigny_bnf,alfred_de_vigny_dbpedia],…
REDEN: grafo
•
Dato un contesto (es. frase, paragrafo, intero testo)
•
Per ogni candidato
•
Accedo a tutti gli URI disponibili e recupero tutte
l’informazione strutturata:
•
•
è un poeta, è influenzato da, è vissuto da .. a ….,
Costruisco del grafo con le informazioni per tutti i
candidati di tutte le menzioni del contesto
•
fusione, eliminazione di nodi inutili
REDEN: centralità
“Quant au rythme, si Victor Hugo a dépassé
Lamartine, il n’a pas été plus loin que Vigny.”
Victor Hugo
Alfred de
Vigny
Joseph Pierre
de Vigny
Persona
Poeta
Romanticismo
Alix de
Lamartine
Alphonse de
Lamartine
Benno Vigny
• Colore = candidati di una menzione
• Per ogni menzione trovare il candidato con più
centrale nel grafo (Degree Centrality, Freeman
1977)
• Candidato più centrale = referente più
probabile per la menzione in quel contesto
REDEN: valutazione
Annotazione manuale di menzioni di autori da:
“Réflexions sur la littérature” di Albert Thibaudet, 1936. (Scrittori, poeti,…)
Indice da LOD BnF + French DBpedia
Thibaudet
Authors’
mentions
Found
Correct
None
1027
1004
878
23
Precision Coverage
0.87
0.85
REDEN parametri
•
classe (person, location, …)
•
basi di conoscenza (generiche, dominio
specifiche)
•
contesto di disambiguazione (paragrafo, frase,
testo intero)
•
pesi per determinate relazioni
•
filtri spaziali, temporali
Applicationi REDEN
L’informazione semantica strutturata usata non solo per
disambiguare, ma nella fruizione stessa del corpus
annotato .
Alcuni lavori di ricercatori del Labex hanno sfruttato
questi
Fortuna degli autori
nel corso dei secoli
Influenza delle idee
scientifiche, artistiche,
filosofiche sulla letteratura
Annotazioni di toponimi:
Influenze straniere sulla
letteratura francese
Conclusioni
L’esempio di REDEN mostra:
-
l’apporto della linguistica computazionale agli studi
letterari
-
l’apporto del web semantico e dei dati collegati sia
per la creazione di edizioni arricchite (NLP) che per
la loro fruizione (DH)
Credits
•
Sviluppo di REDEN con
Carmen BRANDO (ora IGN) e
Jean Gabriel GANASCIA
(LIP6)
•
Labex OBVIL:
•
Vincent Jolivet
•
Marine Riguet
•
Clémence Jacquot
Bibliografia REDEN
•
Identificazione del miglior algoritmo di centralità
Frontini, F., Brando, C., Ganascia, J.G.: Semantic web based named entity linking for digital humanities and
heritage texts. In: Proceedings of the First International Workshop Semantic Web for Scientific Heritage at
the 12th ESWC 2015 Conference. pp. 77–88 (2015), http://ceur-ws.org/Vol-1364/
•
Descrizione dell’algoritmo di fusione
Carmen Brando, Francesca Frontini, Jean-Gabriel Ganascia (2015). "Disambiguation of Named Entities in
Cultural Heritage Texts Using Linked Data Sets". In Morzy, Tadeusz, Valduriez, Patrick, Bellatreche, Ladjel
(Eds.): New Trends in Databases and Information Systems ADBIS 2015 Short Papers and Workshops,
BigDap, DCSA, GID, MEBIS, OAIS, SW4CH, WISARD, Poitiers, France, September 8-11, 2015.
Proceedings. Communications in Computer and Information Science, Springer. (505-514).
•
Confronto con DBSL
Frontini, F., Brando, C., Ganascia, J.G.: Domain-adapted named-entity linker using Linked Data. In:
Proceedings of the Workshop on NLP Applications: Completing the Puzzle (WNACP 2015), Passau,
Germany, June 17-19, 2015
Disponibile: https://github.com/cvbrandoe/REDEN
Scarica

slides