Corpus e Lessico di Frequenza Mirta Vernice 20-3-12 In questa lezione • Corpus – L’uso dei corpora nella lessicografia • Contare le parole – types vs. tokens – Lemma vs. lessema – Frequenza Applicazioni studio dei corpora • Occorrenze delle parole in strutture sintattiche – E.g. Diatesi verbali: • Alcuni verbi possono avere sia uso transitivo che intransitivo. • Variazioni regionali dell’uso della parola Applicazioni studio dei corpora - II • Identificare quando occorrono omografi, e.g. abbraccio (Verbo o sostantivo) – Esaminare il contesto in cui occorre • Identificare quanto è comune una parola mediante il conteggio di frequenza. – Molti corpus includono il lessico di frequenza – Sarà il nostro punto di partenza Come contare le parole: types vs. tokens • token = ogni parola nel corpus – (anche se occorre più di una volta) • type = tutte le singole parole presenti nel corpus – (raggruppamento di tutte le singole parole che occorrono nel corpus ) • Esempio: – Marco parla al bambino che parla al pupazzo – 8 tokens – 6 types (Marco, parla, al, bambino, che, pupazzo) types & tokens • Il numero di tokens è una stima della grandezza del corpus – BADIP: 340.000 tokens • Il numero di types è una stima della grandezza lessicale del corpus Type/token ratio • Un modo per misurare la ricchezza di vocabolario: n. types n. tokens • Può essere interpretato come “numero di nuovi types introdotti in funzione del numero di tokens” • Viene usata nella valutazione dell’eloquio spontaneo del bambino Esempio: Promessi sposi (A. Manzoni) Quel ramo del lago di Como, che volge a mezzogiorno, tra due catene non interrotte di monti, tutto a seni e a golfi, a seconda dello sporgere e del rientrare di quelli, vien, quasi a un tratto, a ristringersi, e a prender corso e figura di fiume, tra un promontorio a destra, e un’ampia costiera dall’altra parte; e il ponte, che ivi congiunge le due rive, par che renda ancor più sensibile all’occhio questa trasformazione, e segni il punto in cui il lago cessa, e l’Adda rincomincia, per ripigliar poi nome di lago dove le rive, allontanandosi di nuovo, lascian l’acqua distendersi e rallentarsi in nuovi golfi e in nuovi seni. Types tokens ratio • 116 tokens • 76 types • E (congiunzione) occorre 10 volte, quindi 1 type e 10 tokens. • LAGO occorre tre volte, quindi 1 type e 3 tokens. Lessemi e lemmi • I lessemi : entità linguistiche astratte che includono tutte le forme flesse di una parola. • amò, amava, facevi, faccio, bella, cavallo, ecc. • I lemmi: forma di citazione dei lessemi nei dizionari/lessico di frequenza. • infinito per i verbi (amare, fare), maschile singolare per gli aggettivi e sostantivi (bello). La lemmatizzazione • ridurre le forme flesse di uno stesso lessema a una forma di citazione (lemma) • la lista di frequenza conterrà solo le diverse forme di citazione come lemmi: • essere, fare, libro, bello, ecc. Esempio di lemmatizzazione di una frase: • “Il dottore mi raccomandò di non ostinarmi” Il dottore mi raccomandò di non ostinarmi DET:def NOM PRO:pers VER:remo PRE ADV VER:infi Il dottore mi raccomandare di non ostinarsi Come riportare le frequenze delle parole Lista di Frequenze • Associare ad ogni parola la frequenza del lemma parola capitano cappotto essere sicuramente buonasera appartamento frequenza 4 1 15679 132 98 21 Elenco corpus 1) BADIP (Banca dati italiano parlato) http://badip.uni-graz.at/ con link al corpus LIP (Lessico di frequenza dell'italiano parlato) 2) COLFIS (scritto) http://www.ge.ilc.cnr.it/page.php?ID=archCoL FIS&lingua=it