Fondamenti di Linguistica 25 Novembre 2009 Malvina Nissim [email protected] Parole nel contesto • Firth (anni ‘50): you shall know a word by the company it keeps • concordanze • collocazioni • liste di frequenza • polisemia • … Rinascimento • Petrus Ramus (grammatico rinascimentale): Principio: piuttosto che speculare filosoficamente sulla grammatica, è necessario osservare: la lingua in uso nelle opere degli autori classici l’uso della lingua nei parlanti nativi Storia Storia PRIMA approcci abbastanza empirici, osservazione lingua in uso DOPO privilegiata astrazione, esempi ad hoc, piccoli frammenti Inizi • Computer non largamente disponibili e non potenti, quindi difficile acquisire e analizzare grandi collezioni di dati • Studi su diari di bambini tenuti dai genitori per analisi lingua infantile • Studi su carta su singoli testi (es. uso di certi termini in una data opera di un dato autore) Chomsky • Fine anni ‘50, primi anni ‘60: Chomsky sposta l’attenzione linguistica dall’empiricismo al razionalismo (e astrazione) “Any natural corpus will be skewed. Some sentences won’t occur because they are obvious, other because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list” (Chomsky, 1962) • Si privilegiano l’intuizione del parlante e la “creazione ad hoc” si può dire / non si può dire si trova, è frequente / non si trova, è raro Problemi dell’intuizione • Testi che occorrono naturalmente sono osservabili e verificabili da chiunque. • Frasi/testi creati ad hoc e basati sull’intuizione sono artificiali e potenzialmente soggettivi e discutibili (“secondo me non si dice…”) • I parlanti hanno solo vaghe intuizioni relativamente alla (nozione di) frequenza di un’espressione o una costruzione. Anni Sessanta • Linguisticamente: critiche a linguistica formale ed esempi ad hoc interesse per linguistica testuale/discorso • Tecnologicamente: Disk space costa sempre meno Testi digitali sempre più diffusi • Economicamente: USA: fondi per valutazione sistemi su larga scala e su dati reali Nascita di “grandi” corpora • • • • • 1960s Brown Corpus, 1M di parole 1970s LOB corpus – British English 1980s COBUILD, 8M di parole 1990s BNC, 100M di parole … Cos’è un corpus? • “A corpus is a collection of naturally-occurring language text, chosen to characterize a state or variety of a language.” (Sinclair) • Una collezione di materiale linguistico, che possono essere testi scritti o trascrizioni di registrazioni che può essere utilizzata come punto di partenza per una descrizione o analisi linguistica o come uno strumento per verificare una data ipotesi linguistica relativa ad una certa lingua (Dictionary of linguistics and phonetics) Cos’è un corpus? • Una grande quantità di dati solitamente composti da lingua attestata (McEnery) • Solitamente un corpus è in formato elettronico e, idealmente, è visualizzabile e analizzabile attraverso un software apposito • La parola corpus viene dal latino e il plurale è corpora (!) Il valore dei corpora • Anche parlanti nativi esperti hanno una conoscenza parziale/individuale di una lingua, un corpus può essere più esaustivo e bilanciato • Anche parlanti nativi esperti tendono a notare aspetti meno usuali e pensare a ciò che potrebbe essere possibile, un corpus mostra ciò che è tipico e comune • Anche parlanti nativi esperti non sono in grado di quantificare le loro conoscenze linguistiche, un corpus può fornire stastiche accurate Il valore dei corpora • Anche parlanti nativi esperti non possono ricordare tutto ciò che sanno, un corpus contiene e può richiamare tutta l’informazione che è stata immessa • Anche parlanti nativi esperti possono essere in difficoltà nel creare esempi naturali, un corpus fornisce un gran numero di esempi realmente occorrenti • Anche parlanti nativi esperti hanno pregiudizi e preferenze, connotazioni culturali e ideologiche, un corpus può fornire evidenza più oggettiva Caratteristiche dell’analisi su corpora (Biber, 1998) • it is empirical, analysing the actual pattern of use in natural texts; • it utilizes a large and principled collection of natural texts, known as a “corpus”, as the basis for analysis; • it makes extensive use of computers for analysis, using both automatic and interactive techniques; • it depends on both quantitative and qualitative techniques. Cosa possiamo fare con un corpus? • International Journal of Corpus Linguistics • Corpus Linguistics and Linguistic Theory Campi in cui si usano corpora • Lessicografia -> dizionari • Studi a tutti i livelli di analisi linguistica che abbiamo visto • Linguistica computazionale (per esempio in apprendimento automatico) • Language teaching (learner’s corpora) • Sociolinguistica (variazioni di diversi tipi) • … Corpus-based e Corpus-driven • approcci corpus-based: ipotesi linguistiche preformulate su base teorica vengono verificate su un corpus • approcci corpus-driven: ipotesi linguistiche vengono derivate direttamente dall’osservazione di dati Parametri di un corpus (1) • Lingua: Monolingue Multilingui (corpora confrontabili) Paralleli • Tipi di sorgenti: Scritto (generi) Parlato (radio, spontaneo, …) Misto Parametri di un corpus (2) • Dimensioni corpus size (= numero di token) vocabulary size (= numero di type) • Dinamicità: statico/monitor • Informazione aggiuntiva (annotazione/markup) annotato/non annotato livello di annotazione tipo di codifica (testo, SGML/XML) Modi di usare un corpus • • • • Concordanze Liste di frequenza (token/type) Collocazioni Programmi appositi per la ricerca (specialmente laddove il corpus è annotato) Concordanze • mostrano le parole nel contesto in cui compaiono (estensione di norma personalizzabile) • di norma si sfruttano programmi appositi che consentono di visualizzare e manipolare liste di concordanze KWIC (Key Word In Context) è lo strumento/formato più frequente Dimensioni: type e token Type e token • Brown corpus: 1M tokens 50,406 types • Birmingham/Cobuild corpora: 1M tokens (spoken only) 36,807 types 17,459 occorrono una volta sola • Times newspapers 4M tokens 122,773 types 54,144 occorrono una volta sola • general corpus of English 18m tokens 228,323 types 131,299 occorrono una volta sola Type e token • 121m tokens 475,633 types 213,684 occorrenze singole • 211m tokens 638,901 types • 323m tokens 812,467 types • 418m tokens 938,914 types 438,647 occorrenze singole Liste di frequenza • liste che indicano le parole che compaiono in un corpus e la loro frequenza • danno un’immagine quantitativa del corpus • una lista di frequenza ottenuta su un dato corpus può essere confrontata con quella ottenuta su dati diversi • NB: ciascuna parola è isolata dal contesto N-grammi • gruppi di N parole che appaiono in sequenza nel testo • si presentano come liste di frequenza (a ciascun N-gramma è associato il numero di occorrenze) • utili per identificare espressioni specifiche e ricorrenti in un corpus • la parola non è completamente avulsa dal contesto Collocazioni • collocazione = N-gramma significativo (ricordate le misure di associazione?) • collocati estratti data una cera finestra alla sinistra (w-x) e destra (w+x) di una data parola (w) • utili per identificare espressioni polirematiche e per studiare l’immediato contesto di una parola (frames etc.) Costruire corpora • Modi di acquisire/costruire corpora: Già in formato elettronico: conversione diretta Scansione da cartaceo Digitazione manuale Trascrizione di registrazioni (parlato) Costruire corpora • Lingua • • • • Dimensioni Genere (dominio, distribuzione, …) Dinamicità (statico/monitor) Annotazione Costruire corpora è impegnativo! • Selezione del materiale, permessi, acquisizione • Pulizia, spell-checking, annotazione, indicizzazione • Documentazione • Valutazione • Distribuzione Web = corpus? Web = corpus? • Il Web può essere una sorgente di testi estremamente utile (enorme) • Può essere di grande aiuto specialmente per lingue diverse dall’Inglese (e lingue per cui corpora controllati già esistono) • Non è bilanciato, non è pulito, non si sa esattamente cosa c’è dentro… Wacky! • corpora creati dal Web ma “ripuliti” e annotati • circa 2% di materiale tenuto • ItWac, UkWac, … Annotazione • Arricchimento di un corpus con informazione di vario tipo (sostanzialmente tutti i livelli di analisi linguistica che abbiamo discusso) speech (fonetica) parola: part of speech, classi, sensi, … frasi: confini, alberi sintattici, dipendenze, … discorso: segmenti, anafora, relazioni di coerenza, … oltre: variazioni, opinioni, sentimenti, … Schema di annotazione • rappresentazione di un dato fenomeno linguistico da annotare • teorico + pratico • accompagnato solitamente da un insieme di istruzioni per guidare l’annotatore nelle scelte Esempio • <P><S><W POS="PRON" NUM="PL“ LEMMA="we">We</W><W POS="V" LEMMA="have">have</W><W POS="EN" LEMMA="develop">developed</W><NP>< W POS="DET" LEMMA="a">a</W><W POS="A“ LEMMA="computational"> computational</W><W POS="N" NUM="SG" LEMMA="paradigm"> paradigm</W><W POS="PUNCT">,</W> ...</NP> ... </S></P> Esempio schema Principi di annotazione (Leech 93) • l'annotazione deve poter essere rimossa • lo schema per l'annotazione deve essere basato su regole precise ed essere anche a disposizione dell'utente • deve essere sempre chiaro chi (quanti annotatori e con quali caratteristiche) e come (manualmente semiautomaticamente e con quali strumenti) ha annotato • l'utente deve essere consapevole che l'annotazione non è ``oro" né infallibile e deve essere semplicemente considerata come strumento di lavoro • lo schema di annotazione dovrebbe essere basato su principi il più possibile condivisi Come annotare in pratica • manualmente, attraverso strumenti di sostegno appositi: sveltiscono il processo riducono l’errore umano • automaticamente (per esempio POS) • semi-automaticamente: primo passo automatico seguito da correzione (spesso di una porzione) manuale Alcuni corpora esistenti • Brown Corpus/LOB corpus • Bank of English • Wall Street Journal, Penn Tree Bank, BNC, ANC, ICE, WBE, Reuters Corpus • Canadian Hansard: corpus parallelo inglese-francese • York-Helsinki Parsed corpus of Old Poetry • Tiger corpus – tedesco • Europarl - corpora paralleli (lingue della Comunità Europea) • … Distributori di corpora • LDC (Linguistic Data Consortium) • ELRA (European Language Resources Association) • TRACTOR (TELRI Research Archive of Computational Tools and Resources) • ICAME (International Computer Archive of Modern and Medieval English) Per l’Italiano • • • • • • CORIS/CODIS (POS) La Repubblica (POS+lemma) ItWac (POS+lemma) TuT (Turin Treebank) VIT (Venice Italian Treebank) VENEX (anafora) Riferimenti • Karin Aijmer and Bengt Altenberg (1991) English corpus linguistics, Longman • Tony McEnery and Andrew Wilson (1996) Corpus linguistics, Edinburgh University Press • Geoff Barnbrook (1996) Language and Computers, Edinburgh University Press • Michael Oates (1998) Statistics for Corpus Linguistics, Edinburgh University Press • Duglas Biber, Susan Conrad and Randi Reppen (1998) Corpus linguistics, Cambridge University Press • Graeme D. Kennedy (1998) An introduction to corpus linguistics, Longman • Tony McEnery (2003) Corpus linguistics. In Ruslan Mitkov (ed.) The Oxford Handbook of Computational Linguistics, Oxford University Press