Laboratorio di analisi di dati linguistici Laurea specialistica in Linguistica Teorica e Applicata, Università di Pavia Andrea Sansò [email protected] A.A. 2005-2006 Corso progredito 10 CFU Premessa: perché questo corso? • Non è un corso di linguistica computazionale. • È un corso concepito come complementare ai corsi di linguistica computazionale: le risorse linguistiche sono la base di dati su cui le modellizzazioni dei linguisti computazionali si fondano. • È il primo corso di questo tipo in Italia (sul modello dei corsi di language resources che esistono all’estero). Premessa: perché questo corso? • La parte teorica del corso sarà affiancata da una parte pratica che ha come obiettivo quello di rendere familiari le principali risorse linguistiche esistenti, obiettivo essenziale per chi comincia un biennio di specializzazione in linguistica. • Ovviamente, si terrà conto degli interessi che caratterizzano tutti e tre i curricula della Laurea Specialistica: • risorse per la ricerca tipologica – settore in cui Pavia sta sviluppando importanti iniziative; • risorse per lo studio dell’italiano come L2; • risorse per lo studio delle lingue moderne (inglese, francese, spagnolo, ecc.); • risorse per lo studio delle lingue indoeuropee. Premessa: perché questo corso? • È un corso in qualche modo “modellabile”. Ognuno di voi potrà sfruttare le conoscenze e le competenze acquisite e metterle a frutto in una prima esperienza di ricerca per la preparazione dell’esame. • Sondaggio: • familiarità già acquisite con strumenti elettronici come corpora, concordanze? • lavori data-oriented per la tesi triennale (o per una precedente laurea quadriennale)? Modalità d’esame Esame orale sulle tematiche del modulo + relazione su un’attività individuale o di gruppo. Attività possibili: • Recensione di risorse linguistiche o siti web (con creazione di contenuti multimediali per la pagina web del laboratorio); • ricerche su corpora con descrizione dei risultati e analisi statistica degli stessi; • progettazione di specifiche di annotazione per singoli fenomeni linguistici su un corpus (anche in relazione con il lavoro di tesi di laurea); •… Sommario 1. Breve introduzione alla linguistica dei corpora: 1.1. Le origini; 1.2. Che cos’è un corpus e a che cosa serve; 1.3. Rassegna dei principali corpora; 2. Elementi di statistica ad uso dei linguisti 3. Una nozione più ampia: risorsa linguistica 2.1. Un po’ di storia, una definizione e alcune parole chiave; 2.2. I lessici: WordNet, FrameNet, etc.; 2.3. Risorse per la linguistica storica e tipologica; 2.4. Software 3. La standardizzazione 3.1. Elementi di XML; 3.2. Iniziative di standardizzazione: TEI; XCES; MATE; EAGLES; etc. Programma d’esame 1. Materiali distribuiti a lezione 2. Letture di riferimento: • Tony McEnery, Andrew Wilson, Corpus linguistics, Edinburgh: Edinburgh University Press, 2001 (specialmente capp. 1-5, pp. 1-145). • Un manuale di XML a scelta: ad es. Heather Williamson, XML: La guida completa, Milano: McGraw-Hill, 2001 (capp. 16, 8-9, pp. 3-83 e 97-131); E. R. Harold, W. Scott Means, XML in a Nutshell, 2nd Edition, O’Reilly, 2002 (capp. 1-6) [parti relative alla struttura di XML, a elementi e attributi, e alla DTD]. Programma d’esame 3. Letture di approfondimento su argomenti del corso: • Christiane Fellbaum (ed.), Wordnet. An electronic lexical database, The MIT Press, 1998 (limitatamente a: cap. 1, G.A. Miller, Nouns in WordNet, pp. 23-46; cap. 3, Ch. Fellbaum, A semantic network of English verbs, pp. 69-104). • Steven Bird, Gary Simons, “Seven dimensions of portability for language documentation and description”, Language 79 (3), 2003, pp. 557-582. • Altre letture indicate nel corso Il sito web Da quest’anno è attivo il sito del Laboratorio di Analisi di Risorse Linguistiche, una struttura ospitata nei locali del Dipartimento di Linguistica Teorica e Applicata, nata per raccogliere e coordinare iniziative sulle risorse linguistiche. http://www.unipv.it/larl Laboratorio di analisi di risorse linguistiche 1. Breve introduzione alla corpus linguistics Temi: Le origini e un po’ di storia; che cos’è un corpus; lo spirito della corpus linguistics; i corpora: problemi di acquisizione dei dati e di rappresentatività; una tassonomia dei corpora; i corpora nella ricerca linguistica. Breve introduzione alla corpus linguistics Obiettivi di questo modulo: • individuare lo spirito che anima la corpus linguistics; • identificare le principali tipologie di corpora (si rimanda alla sezione 2 per le questioni più tecniche) Che cos’è la corpus linguistics? Mc Enery e Wilson (1997: 1) “Corpus linguistics is perhaps best described for the moment in simple terms as the study of language based on examples of ‘real life’ language use.” La CL studia quindi “la lingua nel modo in cui essa viene effettivamente utilizzata, da parlanti concreti in reali situazioni comunicative” (Spina 2001: 53). Che cos’è la corpus linguistics? Non è una branca della linguistica: è piuttosto una filosofia, un tipo di approccio ai dati È un settore che oggi prevede la stretta interazione di linguistica e informatica I testi vengono trasformati in Machine Readable Form (MRF), in modo da poter essere leggibili e manipolabili da un computer. Ma non è sempre stato così… Un po’ di storia I precursori della moderna corpus linguistics sono i creatori di “concordanze” e thesauri Cruden (1736): Concordanze dell’Antico e Nuovo Testamento Kaeding (1898) corpus tedesco: 11 milioni di parole Thorndike (1921) corpus inglese: 4 milioni di parole (a scopi didattici) Un po’ di storia In Italia: 1949: il gesuita Padre Roberto Busa convince Thomas Watson Sr., amministratore delegato della IBM, a fornire sostegno alle sue attività 1953: Busa fonda a Gallarate il Centro per l’automazione dell’analisi letteraria (CAAL). 1989: Pubblicazione dell’Index Thomisticus Un po’ di storia In Italia: ILC (Istituto di Linguistica Computazionale, Pisa): fondato come istituto indipendente nel 1978 (da A. Zampolli), ha come settori di ricerca principali: il disegno di standard e la costruzione di risorse linguistiche computazionali; modelli e metodi per il trattamento delle lingue naturali e prototipi applicativi mono- e multilingui modelli e strumenti computazionali per la ricerca umanistica, in particolare nelle discipline filologiche e lessicografiche Un po’ di storia Oggi: in molte (non moltissime) sedi universitarie italiane ci sono insegnamenti di Linguistica Computazionale (11 sedi, fonte SLI 2003); il panorama dei soggetti pubblici e privati che si occupano di risorse linguistiche è senz’altro confortante; la rappresentanza italiana alla conferenza biennale L(anguage) R(esources) and E(valuation) C(onference) è una delle più significative… Problemi aperti: essenzialmente legati a questioni di standardizzazione e di diffusione/localizzazione delle risorse (cfr. infra) Cfr. Libro Bianco sul TAL (trattamento automatico del linguaggio; http://forumtal.fub.it/LibroBianco.php) Un po’ di storia Chomsky (1957: 16-17): “Grammar is autonomous and independent of meaning, and […] probabilistic models give no particular insight into some of the basic problems of syntactic structure” Il generativismo, in quanto teoria razionalista esplicitamente antiempirista, costituisce per qualche tempo un freno allo sviluppo della CL “Observing the recursive nature of phrase structure rules shows clearly how the sentences of natural language are not finite. A corpus could never be the sole explicandum of natural language. Our knowledge of, say, grammar is enshrined in our syntactic competence. This may be composed of a finite set of rules which give rise to an infinite number of sentences. Performance data, such as a corpus, would not describe this competence” (McEnery & Wilson 1997: 8) Un po’ di storia “… the linguist, or native speaker of a language [is] the sole explicandum of linguistics. The conscious observations of a linguist who has native competence in a language are just as valid as sentences recorded furtively from somebody who did not know they were swelling some corpus” (Mc Enery & Wilson 1997: 9) Un po’ di storia Tuttavia, proprio agli inizi degli anni Sessanta viene dato avvio alla creazione delle due prime raccolte sistematiche di corpora di riferimento per l’inglese: il Brown Corpus (1 milione di parole di inglese americano scritto, raccolto a partire dal 1961) il London-Lund corpus (circa 500000 parole di inglese parlato, raccolto negli anni ’60-’70, annotato prosodicamente) Brown Corpus Standard Corpus of Present-Day American English (W.N. Francis, H. Kucera, Brown University, Providence, Rhode Island, 1963-64) 1014312 parole Corpus di inglese americano scritto pubblicato nell’anno 1961 Diviso in 500 sezioni di 2000 parole ciascuna Esclude testi drammatici (in quanto “ri-creazione” fittizia di parlato) e testi narrativi con più del 50% di dialogo Campionamento: http://khnt.hit.uib.no/icame/manuals/brown/INDEX.HTM Codifica: piuttosto complessa e datata Esiste una versione etichettata (codifica dell’informazione grammaticale): tagset (khnt.hit.uib.no/icame/manuals/brown/INDEX.HTM) È possibile consultarlo online attraverso il Web Concordancer: http://www.edict.com.hk/concordance/ London-Lund Corpus Compilato da Jan Svartvik (Lund University), 1975-1981 e 1985-1988 Circa 500000 parole Corpus di inglese parlato Diviso in 2 sezioni: monologue e dialogue Annotato prosodicamente Qualche altra data… 1971 – Thesaurus Linguae Graecae: www.tlg.uci.edu 1965 – Nasce la Association for Computational Linguistics www.aclweb.org (vedere la sezione su resources) 1966 – Viene fondata la rivista Computer and the Humanities (oggi cessata e rifondata con il nome di Language resources and evaluation) Un po’ di storia La visione pessimistica di Chomsky è in qualche modo legata alle limitazioni dei mezzi allora disponibili Metà degli anni Settanta: diffusione dei primi Personal Computer 1983: L’IBM dona 1500 computer alle facoltà umanistiche dell’Università di Stanford Anni Novanta: diffusione di Internet Vantaggi in termini di acquisizione dei dati, ma problemi nuovi: standardizzazione, durata, ecc. (cfr. infra) Lo spirito della Corpus Linguistics “I don’t think there can be any corpora, however large, that contain information about all of the areas of English lexicon and grammar that I want to explore … [but] every corpus I have had the chance to examine, however small, has taught me facts I couldn’t imagine finding out any other way” Fillmore 1992: 35 Torniamo alla definizione… “È una raccolta strutturata di testi in formato elettronico, che si assumono rappresentativi di una data lingua o di un suo sottoinsieme, mirata ad analisi di tipo linguistico” (Spina 2001: 65) Che cos’è un corpus? Qualsiasi collezione di testi? In teoria sì, in pratica no! rappresentatività standard reference condivisibilità machinereadable form La costruzione del corpus 4 domande (da C. Ball): 1. Who are the intended users? (e.g. personal research vs a general resource) 2. What is the purpose of the corpus? (e.g. a basis for a dictionary; to create a word frequency list; to study some linguistic phenomenon; to study the language of a particular author or time period; to train a NLP system; as a teaching resource for non-native speakers) 3. How much data is needed/realistic? What variables should be anticipated? 4. Sampling? Or exhaustive? Rappresentatività Ci possono aiutare le tecniche statistiche sviluppate per le scienze “dure” e per le scienze sociali Primo passo: definire il sampling frame, ossia l’intera popolazione di testi alla quale siamo interessati; se siamo interessati all’italiano scritto degli anni novanta, possiamo definire la popolazione totale attraverso l’indice di tutte le opere (libri, periodici, quotidiani) pubblicate in quel decennio (una ricerca semplice che può essere fatta in qualsiasi biblioteca – es. la Biblioteca Nazionale di Firenze). Rappresentatività Per i corpora di parlato ovviamente la tecnica precedente non funziona. Ma anche in questo caso ci aiutano le tecniche utilizzate normalmente nelle scienze sociali (ad esempio la tecnica di selezione di un campione rappresentativo di una popolazione utilizzata dai sondaggisti politici) Es. British National Corpus: gli informanti per la parte di parlato sono stati scelti sulla base del sesso, dell’età, della regione e della classe sociale Problema: questa procedura lascia fuori il parlato non spontaneo, legato a situazioni codificate (interventi a conferenze, comizi politici, interrogatori, ecc.), e molto interessante dal punto di vista linguistico Rappresentatività Si procede poi alla scelta del campione. La domanda che ci si deve porre è la seguente: Qual è la probabilità che un numero n di testi di lunghezza y contenga lo stesso numero e la stessa distribuzione di tratti linguisticamente significativi dell’intera popolazione (fatte ovviamente le debite proporzioni)? Rappresentatività Al di là delle considerazioni di “buon senso” che ci può suggerire un sano approccio empirico, anche in questo caso vengono in nostro soccorso tecniche statistiche (es. la dispersion statistics); di solito si prende in esame un tratto non banale, che presenta un’estrema variabilità nella popolazione in questione, e si valuta se nel campione la distribuzione di questo tratto è proporzionale a quella della popolazione generale. Se così è si può presumere che anche altri tratti siano distribuiti nel corpus in maniera proporzionale alla loro distribuzione nella popolazione. Dimensioni Normalmente i corpora hanno dimensioni finite, ma esistono anche collezioni di testi open-ended, come il corpus COBUILD di John Sinclair, sviluppato all’Università di Birmingham. (http://titania.cobuild.collins.co.uk) Si parla in questo caso di monitor corpus: di solito questo tipo di corpus è utilizzato per scopi lessicografici (costruzione di dizionari), perché solo aggiungendo continuamente testi al corpus di riferimento si possono individuare nuovi significati di parole e parole nuove. I monitor corpora, non essendo costruiti su basi statistiche, servono spesso come terreno di valutazione della rappresentatività di altri corpora. Altri monitor corpora sono CORIS per l’italiano e l’American National Corpus per l’inglese americano. Oggi è possibile testare le frequenze relative utilizzando il web come corpus (ma anche questo approccio presenta dei problemi). Dimensioni Il web come corpus: Nel 2003 è stato calcolato che il web contenesse circa 20 terabyte di testo accessibile (1 terabyte = 1000 miliardi di byte). Calcolando una media di 10 byte per parola si può calcolare che nel web ci sia disponibile una quantità di testi pari a 2000 miliardi di parole. Il web come miniera per le lingue minoritarie, che spesso vi sono sovrarappresentate (siti governativi, quotidiani, ecc.). Dimensioni Il web come corpus: Applicazioni: provare a cercare su GOOGLE il numero di pagine contenenti la parola igniorante e il numero di pagine contenenti la parola ignorante utilità per testare programmi di correzione ortografica. Utilizzo del web come fonte di concordanze: es. inserire su un motore di ricerca la frase incompleta: This contraction is so * per trovare l’aggettivo che viene più spesso utilizzato in relazione al sostantivo contraction. Problemi aperti: eliminazione del “rumore” the web as corpus (www.webcorp.org.uk) Dimensioni Molti corpora elettronici di prima generazione contengono un milione di parole o più. Ma quanto è grosso un corpus di un milione di parole? Calcolo di Ball: una pagina di un mensile di media grandezza (New Yorker) contiene 965 parole; il mensile è formato da 112 pagine, e perciò si può stimare che l’intero mensile contenga 108080 parole; un corpus di 1 milione di parole equivarrebbe allora a una decina di numeri di un mensile di media grandezza Standard reference Un tacito assunto della corpus linguistics è quello di fare in modo che un corpus diventi uno strumento di riferimento standardizzato per la lingua o le lingue che esso rappresenta: un corpus deve essere utilizzabile da studiosi diversi in momenti diversi, e deve garantire in questo modo che “variation between studies may be less likely to be attributed to differences in the data being used, and more to the adequacy of the assumptions and methodologies contained in the study” (McEnery & Wilson 1997: 24). Machine-readable form Ormai corpus è sinonimo di corpus elettronico; i vantaggi di conservare i corpora in forma elettronica sono evidenti e non meritano commenti: Accessibilità Velocità Accuratezza Il vantaggio più importante, tuttavia, è la possibilità, che è solo dei corpora elettronici, di aggiungere informazione linguistica ed extralinguistica attraverso l’annotazione La costruzione di un corpus Tre fasi: Fase 1: Progettazione del corpus Fase 2: Acquisizione dei dati Fase 3: Codifica dei dati Acquisizione dei dati Dopo la fase di progettazione si passa all’acquisizione dei dati. Ricerca sul campo e reperimento di testi Ricordare sempre il diritto alla privacy e i problemi del copyright Problemi nella raccolta dati Parlato La raccolta e l’analisi sono molto lente Evitare la sovrapposizione di turni Cercare la naturalezza Problemi nella raccolta dati Per ottenere un parlato naturale e coerente si devono avere registrazioni di almeno mezz’ora (studi sulle fasi del dialogo “costruito” mostrano che la naturalezza e l’abbassamento della soglia di controllo linguistico si raggiungono dopo circa 1015 minuti) Bisognerebbe registrare i parlanti nel loro “ambiente naturale” Questo, ovviamente, va a discapito dell’audio Problemi nella raccolta dati Per il BNC il registratore è stato dato agli individui che registravano tutte le loro conversazioni per un periodo da due a sette giorni Il registratore digitale garantisce sia la qualità del suono che la durata Problemi nella raccolta dati Problema del copyright Parzialmente evitabile se si dichiara che si usa per scopi scientifici (v. Brown) Non presentano generalmente gli stessi problemi di copyright i testi di giornali e quelli pubblicati in internet La legislazione dei singoli paesi è spesso in ritardo rispetto all’evoluzione delle possibilità di reperimento dei testi fornita dalla rete Problemi nella raccolta dati Ricordarsi sempre di trascrivere: il nome di chi ha raccolto i dati tutte le informazioni sugli informanti (età, sesso, professione, provenienza, etc.) Problemi etici: esiste un codice di autodisciplina? http://talkbank.org/share/ethics.html/ Acquisizione Si possono utilizzare testi già in formato elettronico (ad es. testi presenti in internet o CD-ROM) soluzione opportunistica (può andare a scapito della rappresentatività) esempio: La repubblica corpus (usn: asanso, pwd: vtcuevx7) Se i testi non sono già disponibili in formato elettronico, bisogna trasformare i dati Machine Readable Form Acquisizione Sistemi di acquisizione: battitura manuale acquisizione tramite scanner e sistemi OCR dettatura valutazioni economiche (budget, qualità della stampa, etc.) In ogni caso i testi vanno ricontrollati da un essere umano Codifica I problemi riguardano per lo più il parlato Nel passaggio dall’orale allo scritto, infatti, i testi perdono molte delle loro caratteristiche individualizzanti (pause, accento, ritmo, intonazione, esitazioni ...) Inoltre, il formato elettronico, impone di utilizzare un sistema di codifica il più semplice possibile Codifica Codifica di primo grado Si utilizzano i caratteri ASCII (formato solo testo) Vantaggio: Sono leggibili da qualsiasi sistema operativo e da qualsiasi software Svantaggio: Hanno una limitata capacità di rappresentazione rispetto alle lingue del mondo Codifica Un particolare problema: la trascrizione fonetica non può essere fatta utilizzando le convenzioni IPA Unicode comprende i fonts IPA, ma: a questo problema si è cercato di ovviare con l’alfabeto SAMPA, che utilizza esclusivamente caratteri ASCII (http://www.phon.ucl.ac.uk/home/sampa/home.htm) (http://www.phon.ucl.ac.uk/home/sampa/italian.htm) Codifica Unicode: è il sistema utilizzato per codificare virtualmente tutti i caratteri di tutti le lingue del mondo e ormai incorporato in molti editor di testo (es. Notepad di Windows include il character set UTF-8); i caratteri sono indicati da sequenze alfanumeriche. Where is my character? http://www.unicode.org/standard/where/ Codifica Codifica di secondo grado Normalizzazione grafica Marcatura (mark-up) o annotazione (tagging/annotation) Codifica Normalizzazione grafica: prevede la correzione ortografica, l’eliminazione di righe vuote, e spazi bianchi superflui, la riduzione di varianti grafiche di una stessa parola ad un’unica forma Non è una fase così scontata, soprattutto per testi di lingue non standardizzate. Annotazione L’annotazione o marcatura “è una sorta di metacodifica dei testi, costituita da un insieme di simboli per etichettarne le diverse parti e di regole per utilizzarli; essa è un vero e proprio linguaggio che utilizza, per distinguersi dal testo a cui si riferisce, dei caratteri delimitatori particolari” (Spina 2001: 79) Annotazione Anche qui c’è un problema di uniformità Alla fine degli anni Ottanta, studiosi di tutto il mondo si mettono assieme per elaborare uno standard nella codifica informatizzata dei dati testuali Nel 1987 nasce la Text Encoding Initiative Annotazione Nel 1994 vengono pubblicate le Guidelines for the electronic text encoding and interchange, note anche come TEI P3 (oggi l’ultimo standard è il TEI P4 del 2002) Come determinazione preliminare le Guidelines prevedono che siano utilizzati i linguaggi SGML e XML. Esiste una versione “semplificata” di TEI, molto utile per operare un’annotazione rapida di un testo. Si chiama TEI-Lite ed è anche tradotta in italiano: http://www.tei-c.org/Lite/teiu5_it.html Annotazione Uso di SGML e XML: linguaggi non proprietari indipendenti dalla lingua che si vuole codificare codici che permettono l’interscambio di informazioni attraverso Internet Annotazione Nella seconda parte del corso si parlerà dell’annotazione con maggiore dettaglio. A questo punto è bene cominciare a guardarci intorno e familiarizzare con i principali corpora e i principi che li ispirano Tipi di corpora Tassonomia di Catherine J. Ball (http://www.georgetown.edu/faculty/ballc) per mezzo per lingua per stati o registri di lingua per disegno per struttura Distinzione per mezzo Corpora di lingua scritta (Brown Corpus) di lingua orale trascritta ortograficamente (parte orale del BNC) lingua orale trascritta ortograficamente e/o foneticamente (Lancaster Spoken English Corpus, LIP, AVIP, LondonLund corpus, Trains, Phonebook) http://www.ldc.upenn.edu/Catalog/byType.jsp (catalogo di corpora di parlato presso il Linguistic Data Consortium dell’University of Pennsylvania; alcuni liberamente accessibili) Distinzione per mezzo lingua parlata digitalizzata, affiancata alla trascrizione fonetica digitalizzata lingua trasmessa (LIR, CIT) linguaggio dei gesti misti Trains corpus www.cs.rochester.edu/research/cisd/projects/trains/ Il progetto da cui nasce questo corpus aveva come obiettivo lo studio della prosodia del parlato. I dialoghi sono task-oriented come nel Map Task, e l’allineamento dell’audio e della trascrizione è gestito dal software WAVES. Il sito web contiene le trascrizioni e una dettagliata documentazione sul progetto BNC • Oltre 100 milioni di parole di inglese contemporaneo (90% scritto, 10% parlato) • Etichettato automaticamente con il tagger CLAWS • Etichettatura conforme al protocollo TEI: • http://www.natcorp.ox.ac.uk/what/garside_allc.html • Bilanciamento: • http://www.natcorp.ox.ac.uk/what/balance.html BNC È possibile utilizzare un interfaccia grafica per interrogare il corpus (che si limita a fornire un numero massimo di 50 esempi). Sono possibili ricerche anche complesse (es.: se si chiede la stringa house=VVB si ottengono esempi dell’uso di house come verbo; se si chiede {s[iau]ng} si ottengono occorrenze di sing, sang e sung). http://sara.natcorp.ox.ac.uk/lookup.html oppure http://thetis.bl.uk/lookup.html Un’interfaccia più avanzata si trova all’indirizzo: http://view.byu.edu/ BNC: http://view.byu.edu Interfaccia avanzata per interrogare il BNC nella sua completezza (creata da Mark Davies). Possibilità di ricerca semplici: word word1/word2 * word * word * w?rd BNC: http://view.byu.edu Possibilità di ricerca avanzate: word.[pos] permette di limitare la ricerca sulla base della categoria lessicale (problema: l'etichettatura per part of speech del corpus non è accurata al 100%) word*.[pos] word*.[pos*] [pos*] word [pos] * word ... BNC: http://view.byu.edu Possibilità di ricerca avanzate: [aj*] {man/woman/child} restituisce tutti gli aggettivi che co-occorrono con man, woman e child #hits può essere ampliato fino a un massimo di 1000 surrounding words restituisce il tasso di cooccorrenza di una parola con altre parole; utile per lo studio delle collocations e degli idiomi. BNC: http://view.byu.edu Integrazione con Wordnet (lessico dell'inglese con marcatura delle relazioni semantiche tra parole: sinonimi, iponimi, iperonimi, meronimi, ecc.): [=small] restituisce tutti i sinonimi di small [=house].[v*] restituisce tutti i sinonimi di house (verbo) [>crawl].[v*] restituisce tutti gli iperonimi di crawl BNC: http://view.byu.edu Integrazione con Wordnet: [<go] restituisce tutti gli iponimi di go [@wheel] restituisce tutti i termini che hanno wheel come sottoparte [&engine] restituisce tutti i termini che si riferiscono alle parti di cui si compone un engine Per ogni ricerca di tipo semantico è possibile confrontare la frequenza di sinonimi, iperonimi, iponimi, ecc. Distinzione per lingua Corpora Monolingui di parlanti nativi di apprendenti (CHILDES) Multilingui paralleli ECI, Parole CHILDES http://childes.psy.cmu.edu/ Uno dei siti più informativi e utili per lo studio dell’acquisizione del linguaggio (L1, anche se esistono tentativi di applicazione alla L2)! Contiene un database di trascrizioni, del software per la codifica del linguaggio infantile (CLAN) e un manuale per la trascrizione (che utilizza il sistema CHAT). Corpora paralleli http://logos.uio.no/opus/ OPUS is a growing multilingual corpus of translated open source documents available on the Internet. The main motivation for compiling OPUS is to provide an open source parallel corpus that uses standard encoding formats including linguistic annotation. A public collection of parallel corpora that can freely be used and distributed makes it possible for everyone to run experiments on bitexts and their results can easily be compared. ECI corpus http://www.elsnet.org/resources/eciCorpus.html Corpus di lingue europee nato dalla European Corpus Initiative. Non accessibile, ma può essere ordinato su CD-Rom a un prezzo modico. Polyglot http://davies-linguistics.byu.edu/polyglot Corpus parallelo creato da Mark Davies. Contiene il Vangelo di Luca in molte lingue. Permette ricerche libere, la ricerca delle espressioni/parole corrispondenti a un'espressione/parola fissata di una delle versioni del testo. Permette anche di fissare due espressioni corrispondenti in due lingue diverse, e di recuperare i contesti in cui le due espressioni equivalenti sono utilizzate in parallelo. Altri corpora paralleli: vedi pagina LARL Distinzione per stati di lingua Corpora sincronici (BNC) diacronici (Helsinki Corpus, Oxford Text Archive) monitor corpora di riferimento specialistici (MapTask, Michigan Corpus of Academic Spoken English) meta-corpora (Web Concordancer: http://www.edict.com.hk/concordance/) MapTask • http://www.hcrc.ed.ac.uk/maptask.html • Nasce come risposta all’esigenza di avere dati di parlato il più possibile spontanei • I dati sono raccolti in questo modo: due parlanti siedono uno di fronte all’altro con due mappe, su una soltanto delle quali è segnato un percorso. Le mappe sono simili ma non coincidenti; chi ha la mappa con il percorso deve dare istruzioni all’altro/a relative al percorso. • Altre variabili prese in esame: familiarità dei parlanti (ogni soggetto viene fatto interagire con un amico e con uno sconosciuto); eye-contact • Ne esiste una versione italiana, curata da F. Albano Leoni, scaricabile: • http://ftp.cirass.unina.it/avip/ • http://ftp.cirass.unina.it/avip/doc_app/ Distinzione per disegno Corpora bilanciati ad hoc Distinzione per struttura Corpora non annotati annotati annotazione limitata alla formattazione (paragrafi, dimensioni dei caratteri, corsivi, etc.) annotazione delle informazioni essenziali (edizione, autore, genere, etc.) annotazione delle parti del discorso, della struttura sintattica, etc. Un’altra classificazione Fonte: A. Lenci, S. Montemagni, V. Pirrelli, Testo e computer, Roma: Carocci, 2005. Parametri di classificazione: 1) Generalità: il grado di generalità di un corpus dipende dalla misura in cui i suoi testi sono stati selezionati in maniera trasversale rispetto a varietà diverse di una lingua Corpora di linguaggi specialistici – minima generalità national corpora o reference corpora (p.es. BNC, Russian National Corpus) – massima generalità (ambizione alla rappresentazione di una lingua in tutte le sue varietà) Un’altra classificazione Parametri di classificazione: 2) Modalità: corpora scritti, parlati (produzioni orali presentate in una qualche forma di trascrizione convenzionale), corpora audio (o speech databases, contenenti registrazioni audio di parlato eventualmente accompagnate dalla loro trascrizione – p.es. C-ORAL-ROM), corpora misti, corpora multimodali (contenenti registrazioni audio-video di scambi comunicativi, che consentono di acquisire dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali e ambientali della comunicazione). Un’altra classificazione Parametri di classificazione: 3) Cronologia: corpora sincronici e diacronici 4) Lingua: corpora monolingui, bilingui, multilingui (paralleli e comparabili) 5) Integrità dei testi: testi interi o porzioni di testi 6) Codifica digitale dei testi 7) Estensione, la cui unità di misura è il numero di parole unità (token)