Le tecnologie del linguaggio
umano incontrano la lingua di
internet
Dario De Cristofaro, Emanuele Sartori
1° B Classico, Liceo “Antonio Rosmini”,
Rovereto (TN)
Stage tenuto presso l’FBK, unita’ HLT
21 giugno – 9 luglio 2010
Motivazioni e Obiettivo
 Motivazione: L’avvento di internet e dei
social media ha portato ad una nuova
forma di espressione linguistica, diversa
dall’italiano scritto standard
 Obiettivo: comprendere le
problematiche che le tecnologie del
linguaggio si trovano ad affrontare
nell’analisi automatica di questo nuovo
linguaggio
Descrizione del lavoro
1. Creazione di un corpus della lingua di
internet e di un corpus di italiano
standard
2. Confronto delle caratteristiche delle due
lingue
3. Creazione di un “Gold standard” per la
valutazione delle prestazioni di un
sistema automatico sulla lingua di
internet
Il corpus della lingua di internet
 Argomenti: la partita Italia –
Slovacchia e l’incidente di Valentino
Rossi
 Da dove: Yahoo e YouTube
 Quando: 25 giugno 2010
 Numero di post: 2.330
 Numero di parole: 7.640
 Come: Webdown e Webparser
Il corpus dell’italiano standard
 Argomenti:la partita Italia –
Slovacchia e l’incidente di Valentino
Rossi
 Da dove: giornale l’”Adige”
 Quando:6, 7, 21, 24 e 25 giugno 2010
 Numero di articoli:12
 Numero di parole:1.676
Confronto tra i corpora
 Come: lista delle frequenze delle parole
 Cosa: punteggiatura e parole contenuto
Adige
Rossi
Mugello
Pedrosa
Lorenzo
Honda
anche
Internet
Vale
forza
campione
grande
moto
onesto
Adige
,
.
>>
<<
?
(
Internet
,
???
...
!!!!!
:)
=)
Caratteristiche distintive delle
due lingue
ITALIANO STANDARD
ITALIANO SU INTERNET
Linguaggio più neutro e
descrittivo
Linguaggio più esplicito ed
emotivo; grande uso della
punteggiatura; continue
abbreviazioni; parole “che” e
“ke” usate moltissimo; ampio
uso delle minuscole;
parolacce (censurate e non).
Valutazione dei sistemi automatici
 Gold Standard: corpus annotato a mano con le
informazioni specifiche su cui si vogliono
valutare gli strumenti automatici
 TextPro: strumento che aggiunge ai testi
informazioni linguistiche
 Creazione del GS: annotazione del corpus di
internet con informazioni su:
 Segmentazione del testo in frasi
 Suddivisione del testo in parole
 Categoria lessicale delle parole (nome, verbo, agg.)
Analisi degli errori di TextPro
Corpus
Gold Standard
Errore di TextPro
adesso.solo
adesso.
Solo
Fine frase non
riconosciuta
N O I
@#$%
NOI
parola censurata
Non riconosciute come
parole singole
Vale
nome proprio
abbreviato
Riconosciuto come
verbo
neanke,giustooo
avverbio, aggettivo
Parole non riconosciute
:-)
nuova categoria:
smiley
Riconosciuto come
punteggiatura
Strumenti come TextPro si trovano in difficoltà di
fronte al nuovo linguaggio utilizzato su Internet
Conclusioni
Grazie a questo stage, abbiamo avuto l’occasione
di realizzare un corpus, abbiamo fatto uso di
strumenti come TextPro e Webdownload,
analizzato una lista di frequenze, creato un
Gold Standard, condotto un’analisi linguistica
molto ampia e abbiamo infine valutato gli errori
di un software.
Responsabile HLT: Bernardo Magnini
Tutor: Luisa Bentivogli
Tecnici: Milen Kouylekov e Christian Girardi
Scarica

Le tecnologie del linguaggio umano incontrano la lingua di internet