informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 6 (continua…) sesta lezione: la “dinamica” del testo vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia lezione 6 (continua…) come cresce il vocabolario di un testo? il lessico di un testo cresce quando introduciamo nel testo una parola mai usata prima intuitivamente la crescita di un lessico è rapida all‘inizio, in quanto ogni parola che usiamo ha la tendenza ad essere nuova (raramente ci sono ripetizioni nella stessa frase) aumentando il numero di frasi, tuttavia, aumenta la probabilità di riusare parole già usate il ritmo di crescita del lessico di un testo tende quindi a diminuire all‘aumentare del numero di frasi ... (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 6 (continua…) come cresce il vocabolario di un testo? (II) esistono classi di parole che è praticamente impossibile non ripetere all‘interno di un testo anche molto breve queste classi sono formate dalle cosiddette parole “grammaticali” (articoli, preposizioni, ausiliari ecc.), che costituiscono l’impalcatura morfosintattica di una frase queste classi sono, tipicamente, relativamente ristrette (contengono pochi elementi) e “chiuse”, cioè non sono soggette ad espandersi attraverso processi produttivi del lessico come la derivazione o la composizione (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 6 (continua…) come cresce il vocabolario di un testo? (III) un altro fattore evidente che ritarda la crescita esponenziale del vocabolario all’interno dello stesso testo è la “coerenza lessicale”: la necessità, cioè,di ripetere concetti che sono legati al dominio o alla situazione specifica di cui parla il testo lezione 6 (continua…) la frequenza media la frequenza media di una parola nel testo è data dal rapporto tra la lunghezza del testo e la grandezza del suo lessico: C / | V | all‘inizio ogni parola è usata in media poco più di una sola volta (freq media 1) non appena ripetiamo una stessa parola, tuttavia, la freq media cresce (freq media > 1) in generale freq media tende a crescere per due ragioni: le parole grammaticali si ripetono, andando ad aggiungersi a C ma lasciando |V | invariato; il vocabolario a sua volta, come abbiamo visto, rallenta il suo ritmo di crescita col passare del testo (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 6 (continua…) come cresce freq media? il ritmo di crescita di freq media tende a rallentare col passare del testo perché? la frequenza cresce linearmente al crescere del testo se il “peso” del lessico fosse costante, la crescita di freq media resterebbe lineare, ma avrebbe un ritmo inferiore (la retta che descrive questo andamento sarebbe più inclinata verso l’asse delle x) se il peso del lessico aumentasse in modo lineare, freq media sarebbe costante dal momento che il lessico cresce in modo non lineare (con una potenza di poco inferiore all’unità) solo una crescita di frequenza non lineare (con esponente di poco inferiore a 2) potrebbe consentire a freq media di crescere linearmente (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 6 (continua…) cresce tutto in questo modo? no! la lunghezza media di una parola tende a stabilizzarsi col passare del testo, cioè tende ad assumere un valore costante dopo una serie di oscillazioni casuali (legge dei grandi numeri) lezione 6 (continua…) campionamento casuale … analogamente se invece di monitorare lo stesso testo nel tempo, se ne estraggono tanti campioni casuali, e se ne calcola per ciascuno “lun media”, il valore più volte attestato tenderà a riprodurre “lun media” di tutto il testo ... lezione 6 (continua…) campionamento casuale (II) ... tanto meglio, quanto maggiore è la lunghezza dei campioni: lezione 6 (continua…) campionamento casuale (III) per il teorema del limite centrale, i valori campionari di lunghezza media tenderanno a distribuirsi intorno al valore più attestato (valor medio) secondo una caratteristica forma a campana (curva gaussiana) e cioè con valori progressivamente decrescenti, disposti simmetricamente rispetto all‘asse della campana ... (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 6 (continua…) la legge di Zipf all‘interno di una porzione di testo, esiste una correlazione inversa tra le frequenza di una parola e la sua posizione relativa (rango) in una lista di parole che va dalla più frequente alla meno frequente C f r lezione 6 , . di il e la a che e' in per un L' del I con si le ha una non della : da al sono dei Piu' dell' ( Ma ) Nel anche gli alla hanno dal anni delle all' come stato Lo 3434 2421 2258 1309 1297 1165 914 864 847 830 789 693 647 587 585 467 467 466 456 449 441 435 400 393 331 323 291 262 260 251 241 239 238 238 213 213 208 186 181 173 159 158 149 (continua…) 145 143 Zipf in Pinocchio rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 forma e di che a il la un non per in Pinocchio si gli una è frequenza 1752 1338 1019 932 925 711 708 507 481 453 415 393 364 360 296 rango 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 lezione 6 forma ma i come da io mi le più l' disse lo burattino se con era frequenza 290 283 234 233 225 219 211 210 206 202 199 195 189 188 185 (continua…) Zipf (II) lezione 6 (continua…) Zipf (III) su doppia scala logaritmica la legge di Zipf dà origine a una retta inclinata verso il basso .... log( f ) log( C ) log( r ) y 0.8797 x 3.4481 (per saperne di più clicca sulle parole evidenziate in giallo!) lezione 6 (continua…) la struttura del vocabolario (classi di frequenza) chiamiamo Vi la classe di parole che appaiono con frequenza i volte ciascuna nel testo allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima con cui una parola appare nel nostro testo lezione 6 (continua…) le frequenze cumulate … 100 99.20% 91.65% 60.91% 54.73% 50 28.18% 8.08% 0 1 10 100 1000 classe di frequenza percentuale lessico percentuale testo lezione 6 (continua…) sesta lezione la “dinamica” del testo fine sesta lezione (lezione 7) lezione 6