GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici INTRODUZIONE ● PROPONE UN INSIEME DI STANDARD PER UNA BUONA REALIZZAZIONE DELLE ANNOTAZIONI DA FAR OSSERVARE QUANTO POSSIBILE AGLI ANNOTATORI L'ANNOTAZIONE SEPARABILE ● ● ● LE ANNOTAZIONI SONO “OPTIONAL EXTRA” L'ANNOTAZIONE DOVREBBE ESSERE SEPARABILE DAL TESTO GREZZO NON TUTTI GLI UTENTI POSSONO ESSERE INTERESSATI ALLE ANNOTAZIONI LOU BURNARD SOTTOLINEA LA NECESSITA' DI FORNIRE UNA DOCUMENTAZIONE ADEGUATA CIRCA IL CORPUS E IL SUO INSIEME DI TESTI ALLO STESSO MODO GEOFFREY LEECH ENFATIZZA IL BISOGNO DI UNA DOCUMENTAZIONE ALTRETTANTO DETTAGLIATA DELLE ANNOTAZIONI E DEL CORPUS ANNOTATO COSA SIGNIFICA FORNIRE UNA DOCUMENTAZIONE DETTAGLIATA SULLE ANNOTAZIONI? ● COME/DOVE/QUANDO/DA CHI SONO STATE APPLICATE LE ANNOTAZIONI? ● QUAL E' LO SCHEMA DI ANNOTAZIONE? ● QUAL E' IL SISTEMA DI CODIFICA? IN BREVE ORIENTARE GLI UTENTI FORNENDO LORO TUTTE LE INFORMAZIONI PREMESSA ● ● ● ● L'OPERAZIONE DI ANNOTAZIONE DI UN CORPUS NON E' UNA PRATICA OGGETTIVA L'ANNOTAZIONE IMPLICA UN'INTERPRETAZIONE DELLA LINGUA DI UN CORPUS NON VI E' ACCORDO SULLE CATEGORIE CHE DEVONO ESSERE UTILIZZATE NON C'E' VERITA' ASSOLUTA NELLA VISIONE DEL LINGUAGGIO PRATICHE DI ANNOTAZIONI LINGUISTICAMENTE CONSENSUALI ● ● ● ● ● POSSIAMO CERCARE UN ACCORDO SCHEMA DI ANNOTAZIONE PUÒ ESSERE BASATO SU UN INSIEME CONSENSUALE DI CATEGORIE SU CUI LE PERSONE TENDONO AD ESSERE D'ACCORDO UTILE PER PIU' UTENTI RAGGIUNGE OBIETTIVO DI RIUSABILITA' DEI CORPORA ANNOTATI APPROCCIO ANCHE DEI DIZIONARI COSA PUO' ACCADERE SE NON C'E' CONSENSUALITA' LINGUISTICA? OSSIA SE UN ANNOTATORE PER ESEMPIO SI AFFIDA ESCLUSIVAMENTE A UNA TEORIA INTERPRETATIVA DELLA LINGUA? ● ● ● IL CORPUS RISENTIRA' DI QUESTA SCELTA RISULTERA' MENO UTILE E MENO CONDIVISIBILE OBIETTIVO DI RIUSABILITA' NON RAGGIUNTO STANDARD DE FACTO & STANDARD DE JURE LE PRATICHE DI ANNOTAZIONE DOVREBBERO RISPETTARE GLI EMERGENTI STARDARD DE FACTO STANDARD DE FACTO: modelli di riferimento che per la loro elevata diffusione vengono considerati standard, ma non sono mai stati riconosciuti come tali attraverso un regolare processo di standardizzazione STANDARD DE JURE: formalizzato e descritto in uno specifico documento chiamato comunemente “norma” CODIFICA DELLE ANNOTAZIONI EFFETTIVA RAPPRESENTAZIONE SIMBOLICA DELLE CATEGORIE SCELTE ● LISTA COME GLOSSARIO ● LISTA DI DIMENSIONE VARIABILE ● TAGSET=TAG+DEFINIZIONE+ESEMPIO (NP1) CRITERI DI ANNOTAZIONE ESEMPIO BASATO SU POS ● ● ● TAG NON AMBIGUO: per esempio, A non può indicare sia Aggettivo sia Avverbio TAG BREVE: per esempio NP1=3 segnali concisi per 3 elementi grammaticali TAG TRASPARENTE: per esempio confronto tra NP1 e Q!@ (ingannevole e arbitrario) LINGUAGGI DI MARK UP L'INFORMAZIONE STRUTTURALE È RAPPRESENTATA ATTRAVERSO L'AGGIUNTA DI ETICHETTE O TAG DI MARCATURA NON VI È LIMITE ALLA TIPOLOGIA DI INFORMAZIONI CODIFICABILI MARK UP IN SGML/XML VANTAGGI ● ● ● SGML/HTML/XML HANNO SVILUPPATO UNO STANDARD MONDIALE CHE PUÒ ESSERE APPLICATO AD OGNI LINGUAGGIO, ORALE O SCRITTO, E A LINGUE DI DIFFERENTI PERIODI STORICI L'USO DEL LINGUAGGIO MARK UP PUÒ ESSERE EFFICIENTEMENTE ANALIZZATO DALL'ANNOTATORE COL TEMPO, STRUMENTI DI VARIO TIPO POSSONO ESSERE SVILUPPATI PER MARK UP IN SGML/XML INCONVENIENTI ● più prolissi dei primi simboli convenzionali usati per esempio dal LOB Corpus LOB corpus: Paula_NP1 SMGL in BNC Corpus: <w NP1>Paula XML : <w type= “NP1”>Paula</w> SOLUZIONE: CONVERSIONE AUTOMATICA CHE PRODUCE ESITO PIU' SEMPLICE MARK UP IN SGML/XML INCONVENIENTI Natura imprevedibilmente immensa di un Corpus del mondo reale (può contenere dati di parlata spontanea e al contempo manoscritti medievali) SOLUZIONE: SI CERCA DI ALLENTARE GLI STANDARD DI CONFORMITA' PSEUDO-SGML HA IN APPARENZA LE CARATTERISTICHE DI SGML, MA NON È SOGGETTO ALLO STESSO RIGOROSO PROCESSO DI CONVALIDA MARK UP IN SGML/XML INCONVENIENTI assume di default che l'annotazione è analizzabile in una struttura gerarchica ad albero, dove non sono permessi tagli trasversali tra le parentesi come in <x...>... <y...>... <x/>...<y/> In ogni corpus, in particolare in quelli di lingua orale, sono presenti tagli trasversali tra le parentesi, costruzioni che devono essere marcate per diversi livelli linguistici di informazione, come fenomeni di non scorrevolezza o interruzioni. SOLUZIONE APPLICARE STAND-OFF ANNOTATION ● ● TIPO DI SISTEMA DI ANNOTAZIONE INVECE DI UNIRE IL CORPUS E IL MARK UP, MANTIENE IL TESTO GREZZO SEPARATO (in un server remoto) E CREA UN LIVELLO (layer) SEPARATO CON I MARK UP CHE RISULTANO COLLEGATI AL TESTO ORIGINALE TRAMITE PUNTATORI (pointers) OTTENIAMO COSI': ● SEPARAZIONE TRA TESTO E ANNOTAZIONI MANUALE DI ANNOTAZIONE DOCUMENTO CHE HA ORIGINE DALLE LINEE GUIDA UTILIZZATE ED E' NECESSARIO PER SPIEGARE LO SCHEMA DI ANNOTAZIONE AGLI UTENTI DI UN CORPUS ANNOTATO GEOFFREY SAMPSON (1995) SUSANNE CORPUS ANALOGIA TRA ANNOTAZIONE E SISTEMA LEGALE DIVISIONE IN: -lista di sistemi di annotazione ESPLICITAZIONE DELLE PRATICHE DI ANNOTAZIONE ● ● ● SEGMENTAZIONE: per esempio “carta di credito” o “don't” EMBEDDING (integrazione): per esempio “New York-Los Angeles flight” LINEE GUIDA PER AREE GRIGIE: per esempio “il papa” NP1?