Laboratorio di analisi di dati
linguistici
Laurea specialistica in Linguistica Teorica
e Applicata, Università di Pavia
Andrea Sansò
[email protected]
A.A. 2005-2006
Corso progredito
10 CFU
Premessa: perché questo corso?
• Non è un corso di linguistica computazionale.
• È un corso concepito come complementare ai corsi di
linguistica computazionale: le risorse linguistiche sono la
base di dati su cui le modellizzazioni dei linguisti
computazionali si fondano.
• È il primo corso di questo tipo in Italia (sul modello
dei corsi di language resources che esistono all’estero).
Premessa: perché questo corso?
• La parte teorica del corso sarà affiancata da una parte pratica che ha come
obiettivo quello di rendere familiari le principali risorse linguistiche esistenti,
obiettivo essenziale per chi comincia un biennio di specializzazione in
linguistica.
• Ovviamente, si terrà conto degli interessi che caratterizzano tutti e tre i
curricula della Laurea Specialistica:
• risorse per la ricerca tipologica – settore in cui Pavia sta sviluppando
importanti iniziative;
• risorse per lo studio dell’italiano come L2;
• risorse per lo studio delle lingue moderne (inglese, francese, spagnolo,
ecc.);
• risorse per lo studio delle lingue indoeuropee.
Premessa: perché questo corso?
• È un corso in qualche modo “modellabile”. Ognuno di voi
potrà sfruttare le conoscenze e le competenze acquisite e
metterle a frutto in una prima esperienza di ricerca per la
preparazione dell’esame.
• Sondaggio:
• familiarità già acquisite con strumenti elettronici
come corpora, concordanze?
• lavori data-oriented per la tesi triennale (o per una
precedente laurea quadriennale)?
Modalità d’esame
Esame orale sulle tematiche del modulo + relazione su un’attività
individuale o di gruppo.
Attività possibili:
• Recensione di risorse linguistiche o siti web (con creazione di contenuti
multimediali per la pagina web del laboratorio);
• ricerche su corpora con descrizione dei risultati e analisi statistica degli
stessi;
• progettazione di specifiche di annotazione per singoli fenomeni
linguistici su un corpus (anche in relazione con il lavoro di tesi di laurea);
•…
Sommario
1.
Breve introduzione alla linguistica dei corpora:
1.1. Le origini; 1.2. Che cos’è un corpus e a che cosa serve; 1.3.
Rassegna dei principali corpora;
2.
Elementi di statistica ad uso dei linguisti
3.
Una nozione più ampia: risorsa linguistica
2.1. Un po’ di storia, una definizione e alcune parole chiave; 2.2. I
lessici: WordNet, FrameNet, etc.; 2.3. Risorse per la linguistica
storica e tipologica; 2.4. Software
3.
La standardizzazione
3.1. Elementi di XML; 3.2. Iniziative di standardizzazione: TEI;
XCES; MATE; EAGLES; etc.
Programma d’esame
1. Materiali distribuiti a lezione
2. Letture di riferimento:
• Tony McEnery, Andrew Wilson, Corpus linguistics,
Edinburgh: Edinburgh University Press, 2001 (specialmente
capp. 1-5, pp. 1-145).
• Un manuale di XML a scelta: ad es. Heather Williamson,
XML: La guida completa, Milano: McGraw-Hill, 2001 (capp. 16, 8-9, pp. 3-83 e 97-131); E. R. Harold, W. Scott Means, XML
in a Nutshell, 2nd Edition, O’Reilly, 2002 (capp. 1-6) [parti
relative alla struttura di XML, a elementi e attributi, e alla
DTD].
Programma d’esame
3. Letture di approfondimento su argomenti del corso:
• Christiane Fellbaum (ed.), Wordnet. An electronic lexical
database, The MIT Press, 1998 (limitatamente a: cap. 1,
G.A. Miller, Nouns in WordNet, pp. 23-46; cap. 3, Ch.
Fellbaum, A semantic network of English verbs, pp. 69-104).
• Steven Bird, Gary Simons, “Seven dimensions of
portability for language documentation and description”,
Language 79 (3), 2003, pp. 557-582.
• Altre letture indicate nel corso
Il sito web
Da quest’anno è attivo il sito del Laboratorio di Analisi di
Risorse Linguistiche, una struttura ospitata nei locali del
Dipartimento di Linguistica Teorica e Applicata, nata per
raccogliere e coordinare iniziative sulle risorse linguistiche.
 http://www.unipv.it/larl
Laboratorio di analisi di risorse
linguistiche
1.
Breve introduzione alla corpus linguistics
Temi: Le origini e un po’ di storia; che cos’è un corpus;
lo spirito della corpus linguistics; i corpora: problemi di
acquisizione dei dati e di rappresentatività; una
tassonomia dei corpora; i corpora nella ricerca
linguistica.
Breve introduzione alla corpus
linguistics
Obiettivi di questo modulo:
• individuare lo spirito che anima la corpus
linguistics;
• identificare le principali tipologie di
corpora (si rimanda alla sezione 2 per le
questioni più tecniche)
Che cos’è la corpus linguistics?
 Mc Enery e Wilson (1997: 1)
 “Corpus linguistics is perhaps best described for
the moment in simple terms as the study of
language based on examples of ‘real life’
language use.”
 La CL studia quindi “la lingua nel modo in cui
essa viene effettivamente utilizzata, da parlanti
concreti in reali situazioni comunicative” (Spina
2001: 53).
Che cos’è la corpus linguistics?
 Non è una branca della linguistica: è piuttosto una
filosofia, un tipo di approccio ai dati
 È un settore che oggi prevede la stretta interazione
di linguistica e informatica
 I testi vengono trasformati in Machine Readable
Form (MRF), in modo da poter essere leggibili e
manipolabili da un computer.
 Ma non è sempre stato così…
Un po’ di storia
 I precursori della moderna corpus linguistics
sono i creatori di “concordanze” e thesauri



Cruden (1736): Concordanze dell’Antico e
Nuovo Testamento
Kaeding (1898) corpus tedesco: 11 milioni di
parole
Thorndike (1921) corpus inglese: 4 milioni di
parole (a scopi didattici)
Un po’ di storia
In Italia:
 1949: il gesuita Padre Roberto Busa convince
Thomas Watson Sr., amministratore delegato della
IBM, a fornire sostegno alle sue attività
 1953: Busa fonda a Gallarate il Centro per
l’automazione dell’analisi letteraria (CAAL).
 1989: Pubblicazione dell’Index Thomisticus
Un po’ di storia
In Italia:
 ILC (Istituto di Linguistica Computazionale, Pisa):
fondato come istituto indipendente nel 1978 (da A.
Zampolli), ha come settori di ricerca principali:



il disegno di standard e la costruzione di risorse linguistiche
computazionali;
modelli e metodi per il trattamento delle lingue naturali e
prototipi applicativi mono- e multilingui
modelli e strumenti computazionali per la ricerca umanistica,
in particolare nelle discipline filologiche e lessicografiche
Un po’ di storia
 Oggi: in molte (non moltissime) sedi universitarie italiane ci sono
insegnamenti di Linguistica Computazionale (11 sedi, fonte SLI
2003); il panorama dei soggetti pubblici e privati che si occupano
di risorse linguistiche è senz’altro confortante; la rappresentanza
italiana alla conferenza biennale L(anguage) R(esources) and
E(valuation) C(onference) è una delle più significative…
 Problemi aperti: essenzialmente legati a questioni di
standardizzazione e di diffusione/localizzazione delle risorse
(cfr. infra)
Cfr. Libro Bianco sul TAL (trattamento automatico del
linguaggio; http://forumtal.fub.it/LibroBianco.php)
Un po’ di storia
 Chomsky (1957: 16-17):

“Grammar is autonomous and independent of meaning, and […]
probabilistic models give no particular insight into some of the basic
problems of syntactic structure”
 Il generativismo, in quanto teoria razionalista esplicitamente antiempirista, costituisce per qualche tempo un freno allo sviluppo della CL

“Observing the recursive nature of phrase structure rules shows clearly how
the sentences of natural language are not finite. A corpus could never be the
sole explicandum of natural language. Our knowledge of, say, grammar is
enshrined in our syntactic competence. This may be composed of a finite set
of rules which give rise to an infinite number of sentences. Performance
data, such as a corpus, would not describe this competence” (McEnery &
Wilson 1997: 8)
Un po’ di storia
 “… the linguist, or native speaker of a
language [is] the sole explicandum of
linguistics. The conscious observations of a
linguist who has native competence in a
language are just as valid as sentences
recorded furtively from somebody who did
not know they were swelling some corpus”
(Mc Enery & Wilson 1997: 9)
Un po’ di storia
 Tuttavia, proprio agli inizi degli anni Sessanta
viene dato avvio alla creazione delle due prime
raccolte sistematiche di corpora di riferimento
per l’inglese:


il Brown Corpus (1 milione di parole di inglese
americano scritto, raccolto a partire dal 1961)
il London-Lund corpus (circa 500000 parole di
inglese parlato, raccolto negli anni ’60-’70, annotato
prosodicamente)
Brown Corpus
 Standard Corpus of Present-Day American English (W.N. Francis, H.
Kucera, Brown University, Providence, Rhode Island, 1963-64)
 1014312 parole
 Corpus di inglese americano scritto pubblicato nell’anno 1961
 Diviso in 500 sezioni di 2000 parole ciascuna
 Esclude testi drammatici (in quanto “ri-creazione” fittizia di parlato) e
testi narrativi con più del 50% di dialogo
 Campionamento:
http://khnt.hit.uib.no/icame/manuals/brown/INDEX.HTM
 Codifica: piuttosto complessa e datata
 Esiste una versione etichettata (codifica dell’informazione
grammaticale): tagset (khnt.hit.uib.no/icame/manuals/brown/INDEX.HTM)
 È possibile consultarlo online attraverso il Web Concordancer:
http://www.edict.com.hk/concordance/
London-Lund Corpus
 Compilato da Jan Svartvik (Lund University), 1975-1981 e
1985-1988
 Circa 500000 parole
 Corpus di inglese parlato
 Diviso in 2 sezioni: monologue e dialogue
 Annotato prosodicamente
Qualche altra data…
 1971 – Thesaurus Linguae Graecae:
www.tlg.uci.edu
 1965 – Nasce la Association for Computational
Linguistics
www.aclweb.org (vedere la sezione su resources)
 1966 – Viene fondata la rivista Computer and
the Humanities (oggi cessata e rifondata con il
nome di Language resources and evaluation)
Un po’ di storia
 La visione pessimistica di Chomsky è in qualche modo legata alle
limitazioni dei mezzi allora disponibili
 Metà degli anni Settanta: diffusione dei primi Personal
Computer
 1983: L’IBM dona 1500 computer alle facoltà umanistiche
dell’Università di Stanford
 Anni Novanta: diffusione di Internet
Vantaggi in termini di acquisizione dei dati, ma problemi nuovi:
standardizzazione, durata, ecc. (cfr. infra)
Lo spirito della Corpus Linguistics
“I don’t think there can be any corpora, however
large, that contain information about all of the
areas of English lexicon and grammar that I want
to explore … [but] every corpus I have had the
chance to examine, however small, has taught me
facts I couldn’t imagine finding out any other
way”
Fillmore 1992: 35
Torniamo alla definizione…
 “È una raccolta strutturata di testi in formato
elettronico, che si assumono rappresentativi
di una data lingua o di un suo sottoinsieme,
mirata ad analisi di tipo linguistico” (Spina
2001: 65)
Che cos’è un corpus?
 Qualsiasi collezione di testi?
In teoria sì, in pratica no!
rappresentatività
standard
reference
condivisibilità
machinereadable form
La costruzione del corpus
4 domande (da C. Ball):
1. Who are the intended users? (e.g. personal research vs a general
resource)
2. What is the purpose of the corpus? (e.g. a basis for a dictionary;
to create a word frequency list; to study some linguistic
phenomenon; to study the language of a particular author or
time period; to train a NLP system; as a teaching resource for
non-native speakers)
3. How much data is needed/realistic? What variables should be
anticipated?
4. Sampling? Or exhaustive?
Rappresentatività
 Ci possono aiutare le tecniche statistiche sviluppate
per le scienze “dure” e per le scienze sociali

Primo passo: definire il sampling frame, ossia l’intera
popolazione di testi alla quale siamo interessati; se siamo
interessati all’italiano scritto degli anni novanta,
possiamo definire la popolazione totale attraverso
l’indice di tutte le opere (libri, periodici, quotidiani)
pubblicate in quel decennio (una ricerca semplice che
può essere fatta in qualsiasi biblioteca – es. la Biblioteca
Nazionale di Firenze).
Rappresentatività

Per i corpora di parlato ovviamente la tecnica precedente non
funziona. Ma anche in questo caso ci aiutano le tecniche utilizzate
normalmente nelle scienze sociali (ad esempio la tecnica di selezione
di un campione rappresentativo di una popolazione utilizzata dai
sondaggisti politici)
Es. British National Corpus: gli informanti per la parte di parlato
sono stati scelti sulla base del sesso, dell’età, della regione e della
classe sociale
Problema: questa procedura lascia fuori il parlato non spontaneo,
legato a situazioni codificate (interventi a conferenze, comizi
politici, interrogatori, ecc.), e molto interessante dal punto di vista
linguistico
Rappresentatività

Si procede poi alla scelta del campione. La domanda che
ci si deve porre è la seguente:
Qual è la probabilità che un numero n di testi di
lunghezza y contenga lo stesso numero e la stessa
distribuzione di tratti linguisticamente significativi
dell’intera popolazione (fatte ovviamente le debite
proporzioni)?
Rappresentatività
Al di là delle considerazioni di “buon senso” che ci può
suggerire un sano approccio empirico, anche in questo
caso vengono in nostro soccorso tecniche statistiche (es.
la dispersion statistics); di solito si prende in esame un
tratto non banale, che presenta un’estrema variabilità
nella popolazione in questione, e si valuta se nel
campione la distribuzione di questo tratto è proporzionale
a quella della popolazione generale. Se così è si può
presumere che anche altri tratti siano distribuiti nel
corpus in maniera proporzionale alla loro distribuzione
nella popolazione.
Dimensioni

Normalmente i corpora hanno dimensioni finite, ma esistono anche
collezioni di testi open-ended, come il corpus COBUILD di John
Sinclair, sviluppato all’Università di Birmingham.
(http://titania.cobuild.collins.co.uk)
Si parla in questo caso di monitor corpus: di solito questo tipo di
corpus è utilizzato per scopi lessicografici (costruzione di dizionari),
perché solo aggiungendo continuamente testi al corpus di riferimento
si possono individuare nuovi significati di parole e parole nuove. I
monitor corpora, non essendo costruiti su basi statistiche, servono
spesso come terreno di valutazione della rappresentatività di altri
corpora. Altri monitor corpora sono CORIS per l’italiano e
l’American National Corpus per l’inglese americano.
Oggi è possibile testare le frequenze relative utilizzando il web come
corpus (ma anche questo approccio presenta dei problemi).
Dimensioni
Il web come corpus:
Nel 2003 è stato calcolato che il web contenesse
circa 20 terabyte di testo accessibile (1 terabyte
= 1000 miliardi di byte). Calcolando una media
di 10 byte per parola si può calcolare che nel web
ci sia disponibile una quantità di testi pari a 2000
miliardi di parole.
Il web come miniera per le lingue minoritarie, che
spesso vi sono sovrarappresentate (siti
governativi, quotidiani, ecc.).
Dimensioni
Il web come corpus:
Applicazioni: provare a cercare su GOOGLE il numero di
pagine contenenti la parola igniorante e il numero di
pagine contenenti la parola ignorante  utilità per
testare programmi di correzione ortografica.
Utilizzo del web come fonte di concordanze: es. inserire su
un motore di ricerca la frase incompleta: This contraction
is so * per trovare l’aggettivo che viene più spesso
utilizzato in relazione al sostantivo contraction.
Problemi aperti: eliminazione del “rumore”  the web as
corpus (www.webcorp.org.uk)
Dimensioni
Molti corpora elettronici di prima generazione contengono
un milione di parole o più.
Ma quanto è grosso un corpus di un milione di parole?
Calcolo di Ball: una pagina di un mensile di media
grandezza (New Yorker) contiene 965 parole; il mensile è
formato da 112 pagine, e perciò si può stimare che l’intero
mensile contenga 108080 parole; un corpus di 1 milione di
parole equivarrebbe allora a una decina di numeri di un
mensile di media grandezza
Standard reference

Un tacito assunto della corpus linguistics è quello di
fare in modo che un corpus diventi uno strumento di
riferimento standardizzato per la lingua o le lingue
che esso rappresenta: un corpus deve essere
utilizzabile da studiosi diversi in momenti diversi, e
deve garantire in questo modo che “variation
between studies may be less likely to be attributed to
differences in the data being used, and more to the
adequacy of the assumptions and methodologies
contained in the study” (McEnery & Wilson 1997:
24).
Machine-readable form

Ormai corpus è sinonimo di corpus elettronico; i
vantaggi di conservare i corpora in forma elettronica
sono evidenti e non meritano commenti:




Accessibilità
Velocità
Accuratezza
Il vantaggio più importante, tuttavia, è la possibilità,
che è solo dei corpora elettronici, di aggiungere
informazione linguistica ed extralinguistica
attraverso l’annotazione
La costruzione di un corpus
 Tre fasi:

Fase 1: Progettazione del corpus 

Fase 2: Acquisizione dei dati

Fase 3: Codifica dei dati
Acquisizione dei dati
 Dopo la fase di progettazione si passa
all’acquisizione dei dati.
 Ricerca sul campo e reperimento di testi
 Ricordare sempre il diritto alla privacy e i
problemi del copyright
Problemi nella raccolta dati
 Parlato



La raccolta e l’analisi sono molto lente
Evitare la sovrapposizione di turni
Cercare la naturalezza
Problemi nella raccolta dati
 Per ottenere un parlato naturale e coerente si
devono avere registrazioni di almeno mezz’ora
(studi sulle fasi del dialogo “costruito” mostrano
che la naturalezza e l’abbassamento della soglia di
controllo linguistico si raggiungono dopo circa 1015 minuti)
 Bisognerebbe registrare i parlanti nel loro
“ambiente naturale”
 Questo, ovviamente, va a discapito dell’audio
Problemi nella raccolta dati
 Per il BNC il registratore è stato dato agli
individui che registravano tutte le loro
conversazioni per un periodo da due a sette
giorni
 Il registratore digitale garantisce sia la qualità
del suono che la durata
Problemi nella raccolta dati
 Problema del copyright



Parzialmente evitabile se si dichiara che si usa
per scopi scientifici (v. Brown)
Non presentano generalmente gli stessi problemi
di copyright i testi di giornali e quelli pubblicati
in internet
La legislazione dei singoli paesi è spesso in
ritardo rispetto all’evoluzione delle possibilità di
reperimento dei testi fornita dalla rete
Problemi nella raccolta dati
 Ricordarsi sempre di trascrivere:


il nome di chi ha raccolto i dati
tutte le informazioni sugli informanti (età, sesso,
professione, provenienza, etc.)
 Problemi etici: esiste un codice di
autodisciplina?

http://talkbank.org/share/ethics.html/
Acquisizione
 Si possono utilizzare testi già in formato elettronico
(ad es. testi presenti in internet o CD-ROM) 
soluzione opportunistica (può andare a scapito della
rappresentatività)  esempio: La repubblica corpus
(usn: asanso, pwd: vtcuevx7)
 Se i testi non sono già disponibili in formato
elettronico, bisogna trasformare i dati Machine
Readable Form
Acquisizione
 Sistemi di acquisizione:
battitura manuale
 acquisizione tramite scanner e sistemi OCR
 dettatura
valutazioni economiche (budget, qualità della
stampa, etc.)

 In ogni caso i testi vanno ricontrollati da un
essere umano
Codifica
 I problemi riguardano per lo più il parlato


Nel passaggio dall’orale allo scritto, infatti, i testi
perdono molte delle loro caratteristiche
individualizzanti (pause, accento, ritmo,
intonazione, esitazioni ...)
Inoltre, il formato elettronico, impone di
utilizzare un sistema di codifica il più semplice
possibile
Codifica
 Codifica di primo grado



Si utilizzano i caratteri ASCII (formato solo
testo)
Vantaggio: Sono leggibili da qualsiasi sistema
operativo e da qualsiasi software
Svantaggio: Hanno una limitata capacità di
rappresentazione rispetto alle lingue del mondo
Codifica
Un particolare problema: la trascrizione
fonetica non può essere fatta utilizzando le
convenzioni IPA
Unicode comprende i fonts IPA, ma:
 a questo problema si è cercato di ovviare con
l’alfabeto SAMPA, che utilizza esclusivamente
caratteri ASCII
(http://www.phon.ucl.ac.uk/home/sampa/home.htm)
(http://www.phon.ucl.ac.uk/home/sampa/italian.htm)
Codifica
Unicode:
è il sistema utilizzato per codificare virtualmente tutti i
caratteri di tutti le lingue del mondo e ormai incorporato in
molti editor di testo (es. Notepad di Windows include il
character set UTF-8); i caratteri sono indicati da sequenze
alfanumeriche.
Where is my character?
http://www.unicode.org/standard/where/
Codifica
 Codifica di secondo grado


Normalizzazione grafica
Marcatura (mark-up) o annotazione
(tagging/annotation)
Codifica
 Normalizzazione grafica: prevede la
correzione ortografica, l’eliminazione di
righe vuote, e spazi bianchi superflui, la
riduzione di varianti grafiche di una stessa
parola ad un’unica forma
 Non è una fase così scontata, soprattutto per
testi di lingue non standardizzate.
Annotazione
 L’annotazione o marcatura “è una sorta di
metacodifica dei testi, costituita da un
insieme di simboli per etichettarne le diverse
parti e di regole per utilizzarli; essa è un vero
e proprio linguaggio che utilizza, per
distinguersi dal testo a cui si riferisce, dei
caratteri delimitatori particolari” (Spina
2001: 79)
Annotazione
 Anche qui c’è un problema di uniformità
 Alla fine degli anni Ottanta, studiosi di tutto
il mondo si mettono assieme per elaborare
uno standard nella codifica informatizzata
dei dati testuali
 Nel 1987 nasce la Text Encoding Initiative
Annotazione
 Nel 1994 vengono pubblicate le Guidelines for the
electronic text encoding and interchange, note
anche come TEI P3 (oggi l’ultimo standard è il TEI
P4 del 2002)
 Come determinazione preliminare le Guidelines
prevedono che siano utilizzati i linguaggi SGML e
XML.
 Esiste una versione “semplificata” di TEI, molto
utile per operare un’annotazione rapida di un testo.
Si chiama TEI-Lite ed è anche tradotta in italiano:
http://www.tei-c.org/Lite/teiu5_it.html
Annotazione
 Uso di SGML e XML:



linguaggi non proprietari
indipendenti dalla lingua che si vuole codificare
codici che permettono l’interscambio di
informazioni attraverso Internet
Annotazione
Nella seconda parte del corso si parlerà
dell’annotazione con maggiore dettaglio. A
questo punto è bene cominciare a guardarci
intorno e familiarizzare con i principali corpora
e i principi che li ispirano
Tipi di corpora
 Tassonomia di Catherine J. Ball
(http://www.georgetown.edu/faculty/ballc)





per mezzo
per lingua
per stati o registri di lingua
per disegno
per struttura
Distinzione per mezzo
 Corpora



di lingua scritta (Brown Corpus)
di lingua orale trascritta ortograficamente (parte orale del
BNC)
lingua orale trascritta ortograficamente e/o foneticamente
(Lancaster Spoken English Corpus, LIP, AVIP, LondonLund corpus, Trains, Phonebook)

http://www.ldc.upenn.edu/Catalog/byType.jsp
(catalogo di corpora di parlato presso il Linguistic Data
Consortium dell’University of Pennsylvania; alcuni liberamente
accessibili)
Distinzione per mezzo




lingua parlata digitalizzata, affiancata alla
trascrizione fonetica digitalizzata
lingua trasmessa (LIR, CIT)
linguaggio dei gesti
misti
Trains corpus
www.cs.rochester.edu/research/cisd/projects/trains/
Il progetto da cui nasce questo corpus aveva come
obiettivo lo studio della prosodia del parlato. I dialoghi
sono task-oriented come nel Map Task, e l’allineamento
dell’audio e della trascrizione è gestito dal software
WAVES.
Il sito web contiene le trascrizioni e una dettagliata
documentazione sul progetto
BNC
• Oltre 100 milioni di parole di inglese contemporaneo (90%
scritto, 10% parlato)
• Etichettato automaticamente con il tagger CLAWS
• Etichettatura conforme al protocollo TEI:
• http://www.natcorp.ox.ac.uk/what/garside_allc.html
• Bilanciamento:
• http://www.natcorp.ox.ac.uk/what/balance.html
BNC
È possibile utilizzare un interfaccia grafica per interrogare il corpus (che si
limita a fornire un numero massimo di 50 esempi). Sono possibili ricerche
anche complesse (es.: se si chiede la stringa house=VVB si ottengono
esempi dell’uso di house come verbo; se si chiede {s[iau]ng} si ottengono
occorrenze di sing, sang e sung).
http://sara.natcorp.ox.ac.uk/lookup.html
oppure
http://thetis.bl.uk/lookup.html
Un’interfaccia più avanzata si trova all’indirizzo:
http://view.byu.edu/
BNC: http://view.byu.edu
Interfaccia avanzata per interrogare il BNC nella sua
completezza (creata da Mark Davies).
Possibilità di ricerca semplici:
word
word1/word2
* word
* word *
w?rd
BNC: http://view.byu.edu
Possibilità di ricerca avanzate:
word.[pos]  permette di limitare la ricerca sulla
base della categoria lessicale (problema: l'etichettatura
per part of speech del corpus non è accurata al 100%)
word*.[pos]
word*.[pos*]
[pos*] word
[pos] * word
...
BNC: http://view.byu.edu
Possibilità di ricerca avanzate:
[aj*] {man/woman/child}  restituisce tutti
gli aggettivi che co-occorrono con man, woman e child
#hits  può essere ampliato fino a un massimo di
1000
surrounding words  restituisce il tasso di
cooccorrenza di una parola con altre parole; utile per lo
studio delle collocations e degli idiomi.
BNC: http://view.byu.edu
Integrazione con Wordnet (lessico dell'inglese con
marcatura delle relazioni semantiche tra parole:
sinonimi, iponimi, iperonimi, meronimi, ecc.):
[=small]  restituisce tutti i sinonimi di small
[=house].[v*]  restituisce tutti i sinonimi di
house (verbo)
[>crawl].[v*] restituisce tutti gli iperonimi di
crawl
BNC: http://view.byu.edu
Integrazione con Wordnet:
[<go]  restituisce tutti gli iponimi di go
[@wheel]  restituisce tutti i termini che hanno wheel
come sottoparte
[&engine]  restituisce tutti i termini che si riferiscono
alle parti di cui si compone un engine
 Per ogni ricerca di tipo semantico è possibile confrontare
la frequenza di sinonimi, iperonimi, iponimi, ecc.
Distinzione per lingua
 Corpora

Monolingui
 di
parlanti nativi
 di apprendenti (CHILDES)

Multilingui
 paralleli
 ECI,
Parole
CHILDES
http://childes.psy.cmu.edu/
Uno dei siti più informativi e utili per lo studio
dell’acquisizione del linguaggio (L1, anche se
esistono tentativi di applicazione alla L2)! Contiene
un database di trascrizioni, del software per la
codifica del linguaggio infantile (CLAN) e un
manuale per la trascrizione (che utilizza il sistema
CHAT).
Corpora paralleli
http://logos.uio.no/opus/
OPUS is a growing multilingual corpus of translated open
source documents available on the Internet. The main
motivation for compiling OPUS is to provide an open source
parallel corpus that uses standard encoding formats including
linguistic annotation. A public collection of parallel corpora
that can freely be used and distributed makes it possible for
everyone to run experiments on bitexts and their results can
easily be compared.
ECI corpus
http://www.elsnet.org/resources/eciCorpus.html
Corpus di lingue europee nato dalla European
Corpus Initiative. Non accessibile, ma può
essere ordinato su CD-Rom a un prezzo
modico.
Polyglot
http://davies-linguistics.byu.edu/polyglot
Corpus parallelo creato da Mark Davies. Contiene il
Vangelo di Luca in molte lingue. Permette ricerche libere,
la ricerca delle espressioni/parole corrispondenti a
un'espressione/parola fissata di una delle versioni del testo.
Permette anche di fissare due espressioni corrispondenti in
due lingue diverse, e di recuperare i contesti in cui le due
espressioni equivalenti sono utilizzate in parallelo.
Altri corpora paralleli: vedi pagina LARL
Distinzione per stati di lingua
 Corpora






sincronici (BNC)
diacronici (Helsinki Corpus, Oxford Text Archive)
monitor corpora
di riferimento
specialistici (MapTask, Michigan Corpus of Academic
Spoken English)
meta-corpora (Web Concordancer:
http://www.edict.com.hk/concordance/)
MapTask
• http://www.hcrc.ed.ac.uk/maptask.html
• Nasce come risposta all’esigenza di avere dati di parlato il più possibile spontanei
• I dati sono raccolti in questo modo: due parlanti siedono uno di fronte all’altro
con due mappe, su una soltanto delle quali è segnato un percorso. Le mappe sono
simili ma non coincidenti; chi ha la mappa con il percorso deve dare istruzioni
all’altro/a relative al percorso.
• Altre variabili prese in esame: familiarità dei parlanti (ogni soggetto viene fatto
interagire con un amico e con uno sconosciuto); eye-contact
• Ne esiste una versione italiana, curata da F. Albano Leoni, scaricabile:
• http://ftp.cirass.unina.it/avip/
• http://ftp.cirass.unina.it/avip/doc_app/
Distinzione per disegno
 Corpora


bilanciati
ad hoc
Distinzione per struttura
 Corpora


non annotati
annotati
 annotazione
limitata alla formattazione (paragrafi,
dimensioni dei caratteri, corsivi, etc.)
 annotazione delle informazioni essenziali (edizione,
autore, genere, etc.)
 annotazione delle parti del discorso, della struttura
sintattica, etc.
Un’altra classificazione
Fonte: A. Lenci, S. Montemagni, V. Pirrelli, Testo e computer,
Roma: Carocci, 2005.
Parametri di classificazione:
1) Generalità: il grado di generalità di un corpus dipende dalla
misura in cui i suoi testi sono stati selezionati in maniera
trasversale rispetto a varietà diverse di una lingua
Corpora di linguaggi specialistici – minima generalità 
national corpora o reference corpora (p.es. BNC, Russian
National Corpus) – massima generalità (ambizione alla
rappresentazione di una lingua in tutte le sue varietà)
Un’altra classificazione
Parametri di classificazione:
2) Modalità: corpora scritti, parlati (produzioni orali presentate
in una qualche forma di trascrizione convenzionale), corpora
audio (o speech databases, contenenti registrazioni audio di
parlato eventualmente accompagnate dalla loro trascrizione –
p.es. C-ORAL-ROM), corpora misti, corpora multimodali
(contenenti registrazioni audio-video di scambi comunicativi,
che consentono di acquisire dati importanti non solo sulla
struttura linguistica, ma anche sugli aspetti gestuali e
ambientali della comunicazione).
Un’altra classificazione
Parametri di classificazione:
3) Cronologia: corpora sincronici e diacronici
4) Lingua: corpora monolingui, bilingui, multilingui (paralleli
e comparabili)
5) Integrità dei testi: testi interi o porzioni di testi
6) Codifica digitale dei testi
7) Estensione, la cui unità di misura è il numero di parole unità
(token)
Scarica
Laboratorio di analisi di dati linguistici

Laboratorio di analisi di dati linguistici

Large linguistically-processed Web corpora for multiple languages

Presentation Slides - ACORN Aston Corpus Network

Le tecnologie del linguaggio umano incontrano la lingua di internet

Uso dei corpora nella preparazione dei dizionari Concordanze