informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 7 (continua…) settima lezione: la matematica delle parole vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 7 (continua…) quante parole compongono un’unità di testo? Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. ma cos’è una “parola”? lezione 7 (continua…) cosa contare? (nozioni di “parola scritta”) parola come sequenza di caratteri (forma) compresi tra “separatori” (ad es. due spazi bianchi) parola come unità morfosintatticamente atomica (ad es. “ad hoc” costituisce una parola sola in quanto i suoi costituenti non sono sintatticamente “separabili”) parola come esponente lessicale (o “lemma”; la forma calcio può realizzare diversi esponenti lessicali: verbo, nome_1 e nome_2) lezione 7 (continua…) il “token” unità di base per l‘analisi linguistica parole unità (semplici e complesse) sigle, acronimi, abbreviazioni, indirizzi 5.4.2005, 28 agosto 1997, log2250, 050 31528 nomi propri Nato, ITA,H20, www.google.it, corso Strada Nuova 2 numeri, formule e date canteremo, darglielo, ad hoc Giovanni Paolo II, Poggio a Caiano punteggiatura ecc. 12 kg, 1€ e 32 cent. lezione 7 (continua…) il “bestiario” del testo L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del 17 maggio 1999, sul sostegno allo sviluppo rurale da parte del Fondo europeo agricolo di orientamento e garanzia (FEAOG), che modifica e abroga taluni regolamenti (GU L 161 del 26.6.1999, pag. 1), … lezione 7 (continua…) ambiguità nel token tipicamente un elemento di punteggiatura (virgola, punto e virgola, punto fermo) è considerato un separatore di token (e un token esso stesso) ci sono casi però in cui questo non è vero numeri con la virgola: 13,05 date: 18.3.2003 sigle e abbreviazioni: O.N.U., sig.ra, S. Siro ecc. tokenizzare un testo significa segmentarlo in token attraverso regole che risolvono i casi ambigui lezione 7 (continua…) come contare? (parole unità e parole tipo) il numero di unità (o frequenza) della parola giornale in un testo è uguale a quante volte la stringa giornale appare in quel testo il numero totale di parole unità in un testo è la lunghezza del testo misurata in parole il numero di parole tipo (o cardinalità dell‘insieme) di parole in un testo è uguale a quante parole diverse si trovano nel testo il numero totale di parole tipo in un testo è la grandezza del suo vocabolario lezione 7 (continua…) esempio Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. numero di parole unità con categoria “preposizione”: di 2 per 1 con 1 numero delle parole tipo con categoria “preposizione” numero totale di parole unità con categoria “preposizione” lezione 7 3 4 (continua…) esempio (II) Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il testo contiene 17 “parole unità” (è esclusa la punteggiatura) 1 parola tipo con 2 occorrenze 15 parole tipo con 1 occorrenza ciascuna lezione 7 TESTO freq di 2 , 1 . 1 blocco 1 con 1 e 1 elicotteri 1 gabriella 1 la 1 le 1 per 1 perquisizioni 1 posti 1 proseguite 1 ricerche 1 serata 1 sono 1 tutta 1 (continua…) il vocabolario di “esempio” Le ricerche di Gabriella sono proseguite per tutta la mattinata con elicotteri, posti di blocco e perquisizioni. il vocabolario V consiste di 16 “parole” diverse |V| = 16 chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima con cui una parola appare nel nostro testo lezione 7 TESTO freq di 2 , 1 . 1 blocco 1 con 1 e 1 elicotteri 1 gabriella 1 la 1 le 1 per 1 perquisizioni 1 posti 1 proseguite 1 ricerche 1 serata 1 sono 1 tutta 1 (continua…) frequenze e distribuzioni 1. misura lunghezza l di ogni parola 9000 8000 frequenza unità 7000 2. raggruppa tra loro le parole con la stessa l 6000 5000 4000 3000 3. conta quante parole cadono in ciascun raggruppamento 2000 1000 0 1 5 9 13 17 4. riporta i valori di l sull’asse delle X lunghezza caratteri 5. riporta le frequenze contate in 3 sull’asse delle Y lezione 7 (continua…) distribuzioni … 4000 250 3000 parole tipo 200 150 100 2000 1000 50 0 1 0 10 100 1000 classe frequenza 0 20 40 60 80 100 lezione 7 (continua…) 10000 lunghezza di una parola e lunghezza di un testo la lunghezza di una parola in caratteri è data dal numero di caratteri che la compongono la lunghezza di un testo in caratteri è data dal numero totale di occorrenze di caratteri nel testo la lunghezza media di una parola dato un testo è uguale alla lunghezza totale del testo in caratteri divisa per la lunghezza dello stesso testo in parole |T | _ l l1 l 2 ... l|T | |T | lezione 7 li i 1 |T | (continua…) la deviazione standard deviazione standard (l ) 2 ( l l ) i i |T | • è una funzione degli “scarti quadratici” dalla media, presa come punto di riferimento dell’intera distribuzione • se tutte le nostre unità avessero la stessa lunghezza l, allora lunghezza media = l e = 0 • è in grado di quantificare quanto è disomogenea la distribuzione lezione 7 (continua…) un esempio TESTO lunghezza 2 8 2 9 4 10 3 5 2 6 4 10 1 5 2 6 1 13 1 le ricerche di gabriella sono proseguite per tutta la serata con elicotteri , posti di blocco e perquisizioni . lunghezza testo in caratteri numero di occorrenze di token lunghezza media per token token 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 94 19 4.947368 lezione 7 (continua…) lunghezza di frase una frase è una sequenza di parole che termina con un punto fermo la lunghezza di una frase in parole è uguale alla frequenza totale delle parole che la formano la lunghezza di una frase in caretteri è uguale alla frequenza totale dei caratteri che la formano dato un testo consistente di più frasi, la lunghezza media di frase in parole è uguale alla lunghezza del testo in parole divisa per il numero di frasi che lo costituiscono dato un testo consistente di più frasi, la lunghezza media di frase in caratteri è uguale alla lunghezza del testo in caratteri divisa per il numero di frasi che lo costituiscono lezione 7 (continua…) esempio Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. lunghezza frase 1: 17 “parole” lunghezza frase 2: 23 “parole” lunghezza media di frase: (17+23)/2 = 20 “parole” deviazione standard: 3 lezione 7 (continua…) quant’è ricco il vocabolario di un testo? il rapporto “tipo/unità” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. “rapporto tipo/unità”: rapporto tra cardinalità del vocabolario e lunghezza del testo in parole |V| / |T| 37/40 = 0.925 0 < ( |V| / |T| ) 1 lezione 7 (continua…) quant’è ricco il vocabolario di un testo? il numero di “hapax legomena” Le ricerche di Gabriella sono proseguite per tutta la serata con elicotteri, posti di blocco e perquisizioni. Una prima segnalazione e' stata inviata alla Procura della Repubblica, poi il caso e' passato nelle mani del giudici di viale delle Milizie. un hapax legomenon è una parola con frequenza 1, cioè un membro della classe di frequenza V1 |V1|/ N 35/40 = 0.875 0 < |V1|/ N |V| / N 1 lezione 7 (continua…) lo spettro delle frequenze 4000 1. riporta sull’asse delle X le classi di freq per valori crescenti parole tipo 3000 2000 2. riporta sull’asse delle Y quante parole tipo hanno frequenza i = | Vi | 1000 0 1 10 100 1000 10000 classe frequenza lezione 7 (continua…) le frequenze cumulate … 100 99.20% 91.65% calcola quante sono le parole tipo (unità) che appaiono non più di i volte nel testo: Fci 2. dividi Fci per |V | (o per |T|) 3. riporta sull’asse delle X le classi di freq per valori crescenti 4. riporta sull’asse delle Y i valori calcolati in 2. 60.91% 54.73% 50 1. 28.18% 8.08% 0 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo lezione 7 (continua…) le frequenze cumulate (II) 100 99.20% 91.65% 60.91% 54.73% 50 28.18% 8.08% 0 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo lezione 7 (continua…) la legge di Zipf all‘interno di una porzione di testo, esiste una correlazione inversa tra le frequenza di una parola e la sua posizione relativa (rango) in una lista di parole che va dalla più frequente alla meno frequente C f r lezione 7 , . di il e la a che e' in per un L' del I con si le ha una non della : da al sono dei Piu' dell' ( Ma ) Nel anche gli alla hanno dal anni delle all' come stato Lo 3434 2421 2258 1309 1297 1165 914 864 847 830 789 693 647 587 585 467 467 466 456 449 441 435 400 393 331 323 291 262 260 251 241 239 238 238 213 213 208 186 181 173 159 158 149 (continua…) 145 143 Zipf in Pinocchio rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 forma e di che a il la un non per in Pinocchio si gli una è frequenza 1752 1338 1019 932 925 711 708 507 481 453 415 393 364 360 296 rango 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 lezione 7 forma ma i come da io mi le più l' disse lo burattino se con era frequenza 290 283 234 233 225 219 211 210 206 202 199 195 189 188 185 (continua…) Zipf (II) lezione 7 (continua…) Zipf (III) su doppia scala logaritmica la legge di Zipf dà origine a una retta inclinata verso il basso .... log( f ) log( C ) log( r ) (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 7 (continua…) la famiglia “Zipf” 100000 frequenza 10000 1000 100 10 1 1 10 100 1000 10000 rango pinocchio artificiale impoverito coefficiente come indice inverso di ricchezza lessicale lezione 7 (continua…) laboratorio in linea http://foxdrake.ilc.cnr.it/webtools/ lezione 7 (continua…) settima lezione la matematica delle parole fine settima lezione (lezione 8) lezione 7