Le tecnologie del linguaggio umano incontrano la lingua di internet Dario De Cristofaro, Emanuele Sartori 1° B Classico, Liceo “Antonio Rosmini”, Rovereto (TN) Stage tenuto presso l’FBK, unita’ HLT 21 giugno – 9 luglio 2010 Motivazioni e Obiettivo Motivazione: L’avvento di internet e dei social media ha portato ad una nuova forma di espressione linguistica, diversa dall’italiano scritto standard Obiettivo: comprendere le problematiche che le tecnologie del linguaggio si trovano ad affrontare nell’analisi automatica di questo nuovo linguaggio Descrizione del lavoro 1. Creazione di un corpus della lingua di internet e di un corpus di italiano standard 2. Confronto delle caratteristiche delle due lingue 3. Creazione di un “Gold standard” per la valutazione delle prestazioni di un sistema automatico sulla lingua di internet Il corpus della lingua di internet Argomenti: la partita Italia – Slovacchia e l’incidente di Valentino Rossi Da dove: Yahoo e YouTube Quando: 25 giugno 2010 Numero di post: 2.330 Numero di parole: 7.640 Come: Webdown e Webparser Il corpus dell’italiano standard Argomenti:la partita Italia – Slovacchia e l’incidente di Valentino Rossi Da dove: giornale l’”Adige” Quando:6, 7, 21, 24 e 25 giugno 2010 Numero di articoli:12 Numero di parole:1.676 Confronto tra i corpora Come: lista delle frequenze delle parole Cosa: punteggiatura e parole contenuto Adige Rossi Mugello Pedrosa Lorenzo Honda anche Internet Vale forza campione grande moto onesto Adige , . >> << ? ( Internet , ??? ... !!!!! :) =) Caratteristiche distintive delle due lingue ITALIANO STANDARD ITALIANO SU INTERNET Linguaggio più neutro e descrittivo Linguaggio più esplicito ed emotivo; grande uso della punteggiatura; continue abbreviazioni; parole “che” e “ke” usate moltissimo; ampio uso delle minuscole; parolacce (censurate e non). Valutazione dei sistemi automatici Gold Standard: corpus annotato a mano con le informazioni specifiche su cui si vogliono valutare gli strumenti automatici TextPro: strumento che aggiunge ai testi informazioni linguistiche Creazione del GS: annotazione del corpus di internet con informazioni su: Segmentazione del testo in frasi Suddivisione del testo in parole Categoria lessicale delle parole (nome, verbo, agg.) Analisi degli errori di TextPro Corpus Gold Standard Errore di TextPro adesso.solo adesso. Solo Fine frase non riconosciuta N O I @#$% NOI parola censurata Non riconosciute come parole singole Vale nome proprio abbreviato Riconosciuto come verbo neanke,giustooo avverbio, aggettivo Parole non riconosciute :-) nuova categoria: smiley Riconosciuto come punteggiatura Strumenti come TextPro si trovano in difficoltà di fronte al nuovo linguaggio utilizzato su Internet Conclusioni Grazie a questo stage, abbiamo avuto l’occasione di realizzare un corpus, abbiamo fatto uso di strumenti come TextPro e Webdownload, analizzato una lista di frequenze, creato un Gold Standard, condotto un’analisi linguistica molto ampia e abbiamo infine valutato gli errori di un software. Responsabile HLT: Bernardo Magnini Tutor: Luisa Bentivogli Tecnici: Milen Kouylekov e Christian Girardi