GEOFFREY LEECH
A GUIDE TO GOOD PRACTICE
ADDING LINGUISTIC ANNOTATION
Federica Chierici
INTRODUZIONE
●
PROPONE UN INSIEME DI STANDARD PER
UNA BUONA REALIZZAZIONE DELLE
ANNOTAZIONI DA FAR OSSERVARE
QUANTO POSSIBILE AGLI ANNOTATORI
L'ANNOTAZIONE SEPARABILE
●
●
●
LE ANNOTAZIONI SONO “OPTIONAL
EXTRA”
L'ANNOTAZIONE DOVREBBE ESSERE
SEPARABILE DAL TESTO GREZZO
NON TUTTI GLI UTENTI POSSONO
ESSERE INTERESSATI ALLE ANNOTAZIONI
LOU BURNARD SOTTOLINEA LA NECESSITA'
DI FORNIRE UNA DOCUMENTAZIONE
ADEGUATA CIRCA IL CORPUS E IL SUO
INSIEME DI TESTI
ALLO STESSO MODO
GEOFFREY LEECH ENFATIZZA IL BISOGNO DI
UNA DOCUMENTAZIONE ALTRETTANTO
DETTAGLIATA DELLE ANNOTAZIONI E DEL
CORPUS ANNOTATO
COSA SIGNIFICA FORNIRE UNA
DOCUMENTAZIONE
DETTAGLIATA SULLE
ANNOTAZIONI?
●
COME/DOVE/QUANDO/DA CHI SONO
STATE APPLICATE LE ANNOTAZIONI?
●
QUAL E' LO SCHEMA DI ANNOTAZIONE?
●
QUAL E' IL SISTEMA DI CODIFICA?
IN BREVE ORIENTARE GLI UTENTI
FORNENDO LORO TUTTE LE
INFORMAZIONI
PREMESSA
●
●
●
●
L'OPERAZIONE DI ANNOTAZIONE DI UN
CORPUS NON E' UNA PRATICA
OGGETTIVA
L'ANNOTAZIONE IMPLICA
UN'INTERPRETAZIONE DELLA LINGUA DI
UN CORPUS
NON VI E' ACCORDO SULLE CATEGORIE
CHE DEVONO ESSERE UTILIZZATE
NON C'E' VERITA' ASSOLUTA NELLA
VISIONE DEL LINGUAGGIO
PRATICHE DI ANNOTAZIONI
LINGUISTICAMENTE
CONSENSUALI
●
●
●
●
●
POSSIAMO CERCARE UN ACCORDO
SCHEMA DI ANNOTAZIONE PUÒ ESSERE
BASATO SU UN INSIEME CONSENSUALE
DI CATEGORIE SU CUI LE PERSONE
TENDONO AD ESSERE D'ACCORDO
UTILE PER PIU' UTENTI
RAGGIUNGE OBIETTIVO DI RIUSABILITA'
DEI CORPORA ANNOTATI
APPROCCIO ANCHE DEI DIZIONARI
COSA PUO' ACCADERE SE NON
C'E' CONSENSUALITA'
LINGUISTICA?
OSSIA SE UN ANNOTATORE PER ESEMPIO
SI AFFIDA ESCLUSIVAMENTE A UNA
TEORIA INTERPRETATIVA DELLA LINGUA?
●
●
●
IL CORPUS RISENTIRA' DI QUESTA
SCELTA
RISULTERA' MENO UTILE E MENO
CONDIVISIBILE
OBIETTIVO DI RIUSABILITA' NON
RAGGIUNTO
STANDARD DE FACTO &
STANDARD DE JURE
LE PRATICHE DI ANNOTAZIONE
DOVREBBERO RISPETTARE GLI
EMERGENTI STARDARD DE FACTO
STANDARD DE FACTO: modelli di riferimento che
per la loro elevata diffusione vengono considerati
standard, ma non sono mai stati riconosciuti come
tali attraverso un regolare processo di
standardizzazione
STANDARD DE JURE: formalizzato e descritto in uno
specifico documento chiamato comunemente
“norma”
CODIFICA DELLE ANNOTAZIONI
EFFETTIVA RAPPRESENTAZIONE
SIMBOLICA DELLE CATEGORIE SCELTE
●
LISTA COME GLOSSARIO
●
LISTA DI DIMENSIONE VARIABILE
●
TAGSET=TAG+DEFINIZIONE+ESEMPIO
(NP1)
CRITERI DI ANNOTAZIONE
ESEMPIO BASATO SU POS
●
●
●
TAG NON AMBIGUO: per esempio, A non può
indicare sia Aggettivo sia Avverbio
TAG BREVE: per esempio NP1=3 segnali
concisi per 3 elementi grammaticali
TAG TRASPARENTE: per esempio confronto
tra NP1 e Q!@ (ingannevole e arbitrario)
LINGUAGGI DI MARK UP
L'INFORMAZIONE STRUTTURALE È
RAPPRESENTATA ATTRAVERSO
L'AGGIUNTA DI ETICHETTE O TAG DI
MARCATURA
NON VI È LIMITE ALLA TIPOLOGIA DI
INFORMAZIONI CODIFICABILI
MARK UP IN SGML/XML
VANTAGGI
●
●
●
SGML/HTML/XML HANNO SVILUPPATO
UNO STANDARD MONDIALE CHE PUÒ
ESSERE APPLICATO AD OGNI
LINGUAGGIO, ORALE O SCRITTO, E A
LINGUE DI DIFFERENTI PERIODI STORICI
L'USO DEL LINGUAGGIO MARK UP PUÒ
ESSERE EFFICIENTEMENTE ANALIZZATO
DALL'ANNOTATORE
COL TEMPO, STRUMENTI DI VARIO TIPO
POSSONO ESSERE SVILUPPATI PER
MARK UP IN SGML/XML
INCONVENIENTI
●
più prolissi dei primi simboli convenzionali
usati per esempio dal LOB Corpus
LOB corpus: Paula_NP1
SMGL in BNC Corpus: <w NP1>Paula
XML : <w type= “NP1”>Paula</w>
SOLUZIONE: CONVERSIONE AUTOMATICA
CHE PRODUCE ESITO PIU' SEMPLICE
MARK UP IN SGML/XML
INCONVENIENTI
Natura imprevedibilmente immensa di un
Corpus del mondo reale (può contenere dati di
parlata spontanea e al contempo manoscritti
medievali)
SOLUZIONE: SI CERCA DI ALLENTARE GLI
STANDARD DI CONFORMITA'
PSEUDO-SGML HA IN APPARENZA LE
CARATTERISTICHE DI SGML, MA NON È
SOGGETTO ALLO STESSO RIGOROSO
PROCESSO DI CONVALIDA
MARK UP IN SGML/XML
INCONVENIENTI
assume di default che l'annotazione è
analizzabile in una struttura gerarchica ad
albero, dove non sono permessi tagli
trasversali tra le parentesi come in <x...>...
<y...>... <x/>...<y/>
In ogni corpus, in particolare in quelli di lingua
orale, sono presenti tagli trasversali tra le
parentesi, costruzioni che devono essere
marcate per diversi livelli linguistici di
informazione, come fenomeni di non
scorrevolezza o interruzioni.
SOLUZIONE
APPLICARE STAND-OFF ANNOTATION
●
●
TIPO DI SISTEMA DI ANNOTAZIONE
INVECE DI UNIRE IL CORPUS E IL MARK
UP, MANTIENE IL TESTO GREZZO
SEPARATO (in un server remoto) E CREA UN
LIVELLO (layer) SEPARATO CON I MARK
UP CHE RISULTANO COLLEGATI AL
TESTO ORIGINALE TRAMITE PUNTATORI
(pointers)
OTTENIAMO COSI':
●
SEPARAZIONE TRA TESTO E
ANNOTAZIONI
MANUALE DI ANNOTAZIONE
DOCUMENTO CHE HA ORIGINE DALLE LINEE
GUIDA UTILIZZATE ED E' NECESSARIO
PER SPIEGARE LO SCHEMA DI
ANNOTAZIONE AGLI UTENTI DI UN
CORPUS ANNOTATO
GEOFFREY SAMPSON (1995) SUSANNE
CORPUS
ANALOGIA TRA ANNOTAZIONE E SISTEMA
LEGALE
DIVISIONE IN:
-lista di sistemi di annotazione
ESPLICITAZIONE DELLE
PRATICHE DI ANNOTAZIONE
●
●
●
SEGMENTAZIONE: per esempio “carta di
credito” o “don't”
EMBEDDING (integrazione): per esempio
“New York-Los Angeles flight”
LINEE GUIDA PER AREE GRIGIE: per
esempio “il papa” NP1?
Scarica

GEOFFREY LEECH