Sommarizzazione
e
Generazione
Fiori Alessandro
12 Ottobre 2013 - Pisa
Cos’è un riassunto
Riassunto (summary)
• (Oxford Dictionary Online 2013): “a brief statement or account of the main
points of something”
• (Garzanti Linguistica 2013): “esposizione in forma sintetica di uno scritto, di
un discorso, di un fatto e simili”
• (Radev et.al. 2002): “a text that is produced from one or more texts, that
conveys important information in the original text(s), and that is no longer than
half of the original text(s) and usually significantly less than that. Text here is
used rather loosely and can refer to speech, multimedia documents,
hypertext, etc.”
Cos’è un sommarizzatore
Sommarizzazione (Automatic Summarization)
• (Mani & Maybury, 1999): "to take an information source, extract content from
it, and present the most important content to the user in a condensed form
and in a manner sensitive to the user's or application's needs”
• (Mani, 2001): “a process to produce a condensed representation of the
content of its input for human consumption”
• (Sparck-Jones, 1999): “a reductive transformation of source text to summary
text through content condensation by selection and/or generalization on what
is important in the source”
• (Rehm & Uszkoreit, 2012): “tenta di presentare gli elementi essenziali di un
testo lungo in forma abbreviata
Scenario
Generazione sommari
Riassunto
Perché i riassunti?
• Motivazioni
• grandi volumi di documenti
• informazioni ridondanti
• tempi di consultazione e ricerca elevati
• Obiettivi
• riduzione del volume di dati
• estrazione delle informazioni rilevanti
• riduzione dei tempi di consultazione
Tipologie
• Estrattivi
• estratti di frasi dei testi originali
• poco fluidi nella presentazione
• Documento singolo
• struttura e presentazione coerenti
• Generici
• indipendenti dal contesto applicativo
• Monolingua
• analisi grammaticale (POS tagging)
• Astrattivi
• rifrasatura del testo
• simile al riassunto generato dall’uomo
• Multi-documento
• punti di vista e forma eterogenei
• Focalizzati
• orientati al dominio e/o interessi del
fruitore
• Multilingua
• analisi semantica
Metodi
• Clustering
• i gruppi rappresentano frasi con significati simili
• utilizzo di misure di similarità
• selezione rappresentante per ogni gruppo
gruppi di frasi
terma termc
termd
20
15
terma
25
termc
30
• Grafi
termb
40
termd
terma
termb
• Classificatori
• definizione di classi di concetti
• apprendimento di un modello da esempi
• assegnazione di etichette alle frasi
• i nodi identificano una frase e/o concetto
• similarità misurata sugli archi
• individuazione nodi rilevanti (PageRank)
Prospettive future
• Social
• interessi degli utenti (opinion mining)
• sicurezza (sentiment analysis)
• servizi personalizzati (social reading)
• Aggiornamento dinamico
• incremento continuo delle collezioni
• flusso storico delle informazioni
• cambiamenti dei gruppi di utenti
• Nuovi domini applicativi
• contextual advertising
• medicina e biologia
• e-learning
In Italia
Ricerca di base
• Definizione di nuove rappresentazioni delle informazioni (itemsets)
• Nuove metodologie:
• multilingua
• aggiornamento dinamico
• dipendenti dal dominio di interesse
• Integrazione sorgenti di informazioni esterne:
• social media
• ontologie e vocabolari controllati
Ricerca industriale
• Social reading
• E-learning
• Opinion mining
Nel mondo
Chi sarà il prossimo?
Bibliografia
• Garzanti Linguistica: http://www.garzantilinguistica.it/
• Mani I. (2001). Automatc summarization, Book, Volume 3 of Natural language
processing, Amsterdam/Philadelphia, John Benjamins Publishing Company.
• Mani, I., & Maybury, M. (ED.). (1999). Advances in Automatic Text
Summarization, MIT Press.
• Oxford Dictionary Online: http://oxforddictionaries.com/
• Radev D., Hovy E., & McKeown K. (2002). Introduction to the special issue on
text summarization. Computational Linguistics, 28(4).
• Rehm, G. & Uszkoreit, H. (2012). The Italian Language in the Digital Age.
• Sparck-Jones, K. (1999). Automatic summarizing: factors and directions. In I.
Mani and M. Maybury(Eds.), Advances in Automatic Text Summarization, MIT
Press.
Libro
Innovative Document Summarization Techniques:
Revolutionizing Knowledge Understanding
Alessandro Fiori (IRCC, Institute for Cancer Research and
Treatment, Italy)
The prevalence of digital documentation presents some pressing concerns
for efficient information retrieval in the modern age. Readers want to be
able to access the information they desire without having to search
through a mountain of unrelated data, so algorithms and methods for
effectively seeking out pertinent information are of critical importance.
Innovative Document Summarization Techniques: Revolutionizing
Knowledge Understanding evaluates some of the existing approaches to
information retrieval and summarization of digital documents, as well as
current research and future developments. This book serves as a
sounding board for students, educators, researchers, and practitioners of
information technology, advancing the ongoing discussion of
communication in the digital age.
Contatti
Alessandro Fiori
Project Manager @ IRCC di Candiolo
Docente a contratto presso Politecnico di Torino
Web:
Email:
http://dbdmg.polito.it/wordpress/people/alessandro-fiori/
[email protected]
[email protected]
Scarica

Sommarizzazione e Generazione