informatica di base
per le discipline umanistiche
vito pirrelli
Istituto di Linguistica
Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 6
(continua…)
sesta lezione:
la “dinamica” del testo
vito pirrelli
Istituto di Linguistica
Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 6
(continua…)
come cresce il vocabolario di un testo?




il lessico di un testo cresce quando introduciamo nel testo una
parola mai usata prima
intuitivamente la crescita di un lessico è rapida all‘inizio, in
quanto ogni parola che usiamo ha la tendenza ad essere
nuova (raramente ci sono ripetizioni nella stessa frase)
aumentando il numero di frasi, tuttavia, aumenta la probabilità
di riusare parole già usate
il ritmo di crescita del lessico di un testo tende quindi a
diminuire all‘aumentare del numero di frasi ...
(per saperne di più clicca sulle parole evidenziate in giallo!)
lezione 6
(continua…)
come cresce il vocabolario di un
testo? (II)



esistono classi di parole che è praticamente impossibile
non ripetere all‘interno di un testo anche molto breve
queste classi sono formate dalle cosiddette parole
“grammaticali” (articoli, preposizioni, ausiliari ecc.), che
costituiscono l’impalcatura morfosintattica di una frase
queste classi sono, tipicamente,


relativamente ristrette (contengono pochi elementi)
e “chiuse”, cioè non sono soggette ad espandersi attraverso
processi produttivi del lessico come la derivazione o la
composizione
(per saperne di più clicca sulle parole evidenziate in giallo!)
lezione 6
(continua…)
come cresce il vocabolario di un
testo? (III)

un altro fattore evidente che ritarda la crescita
esponenziale del vocabolario all’interno dello stesso testo
è la “coerenza lessicale”: la necessità, cioè,di ripetere
concetti che sono legati al dominio o alla situazione
specifica di cui parla il testo
lezione 6
(continua…)
la frequenza media




la frequenza media di una parola nel testo è data dal rapporto tra
la lunghezza del testo e la grandezza del suo lessico: C / | V |
all‘inizio ogni parola è usata in media poco più di una sola volta
(freq media  1)
non appena ripetiamo una stessa parola, tuttavia, la freq media
cresce (freq media > 1)
in generale freq media tende a crescere per due ragioni:


le parole grammaticali si ripetono, andando ad aggiungersi a C ma
lasciando |V | invariato;
il vocabolario a sua volta, come abbiamo visto, rallenta il suo ritmo di
crescita col passare del testo
(per saperne di più clicca sulle parole evidenziate in giallo!)
lezione 6
(continua…)
come cresce freq media?


il ritmo di crescita di freq media tende a rallentare col passare del
testo
perché?




la frequenza cresce linearmente al crescere del testo
se il “peso” del lessico fosse costante, la crescita di freq media
resterebbe lineare, ma avrebbe un ritmo inferiore (la retta che descrive
questo andamento sarebbe più inclinata verso l’asse delle x)
se il peso del lessico aumentasse in modo lineare, freq media sarebbe
costante
dal momento che il lessico cresce in modo non lineare (con una potenza
di poco inferiore all’unità) solo una crescita di frequenza non lineare (con
esponente di poco inferiore a 2) potrebbe consentire a freq media di
crescere linearmente
(per saperne di più clicca sulle parole evidenziate in giallo!)
lezione 6
(continua…)
cresce tutto in questo modo?

no! la lunghezza media di una parola tende a stabilizzarsi col passare
del testo, cioè tende ad assumere un valore costante dopo una serie
di oscillazioni casuali (legge dei grandi numeri)
lezione 6
(continua…)
campionamento casuale …

analogamente se invece di monitorare lo stesso testo nel tempo, se ne
estraggono tanti campioni casuali, e se ne calcola per ciascuno “lun media”, il
valore più volte attestato tenderà a riprodurre “lun media” di tutto il testo ...
lezione 6
(continua…)
campionamento casuale (II)

... tanto meglio, quanto maggiore è la lunghezza dei
campioni:
lezione 6
(continua…)
campionamento casuale (III)

per il teorema del limite centrale, i valori campionari di lunghezza
media tenderanno a distribuirsi intorno al valore più attestato (valor
medio) secondo una caratteristica forma a campana (curva
gaussiana) e cioè con valori progressivamente decrescenti, disposti
simmetricamente rispetto all‘asse della campana ...
(per saperne di più clicca sulle parole evidenziate in giallo!)
lezione 6
(continua…)
la legge di Zipf

all‘interno di una porzione di testo, esiste
una correlazione inversa tra le frequenza di
una parola e la sua posizione relativa
(rango) in una lista di parole che va dalla più
frequente alla meno frequente
C
f  
r
lezione 6
,
.
di
il
e
la
a
che
e'
in
per
un
L'
del
I
con
si
le
ha
una
non
della
:
da
al
sono
dei
Piu'
dell'
(
Ma
)
Nel
anche
gli
alla
hanno
dal
anni
delle
all'
come
stato
Lo
3434
2421
2258
1309
1297
1165
914
864
847
830
789
693
647
587
585
467
467
466
456
449
441
435
400
393
331
323
291
262
260
251
241
239
238
238
213
213
208
186
181
173
159
158
149
(continua…)
145
143
Zipf in Pinocchio
rango
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
forma
e
di
che
a
il
la
un
non
per
in
Pinocchio
si
gli
una
è
frequenza
1752
1338
1019
932
925
711
708
507
481
453
415
393
364
360
296
rango
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
lezione 6
forma
ma
i
come
da
io
mi
le
più
l'
disse
lo
burattino
se
con
era
frequenza
290
283
234
233
225
219
211
210
206
202
199
195
189
188
185
(continua…)
Zipf (II)
lezione 6
(continua…)
Zipf (III)

su doppia scala logaritmica la legge di Zipf dà origine a una retta
inclinata verso il basso ....
log( f )  log( C )   log( r )
y  0.8797 x  3.4481
(per saperne di più clicca sulle parole evidenziate in giallo!)
lezione 6
(continua…)
la struttura del vocabolario
(classi di frequenza)

chiamiamo Vi la classe di parole che appaiono con frequenza i volte
ciascuna nel testo

allora |V |= |V1| + |V2| +...+ |Vmax|, dove max è la frequenza massima
con cui una parola appare nel nostro testo
lezione 6
(continua…)
le frequenze cumulate …
100
99.20%
91.65%
60.91%
54.73%
50
28.18%
8.08%
0
1
10
100
1000
classe di frequenza
percentuale lessico
percentuale testo
lezione 6
(continua…)
sesta lezione
la “dinamica” del testo
fine sesta lezione
(lezione 7)
lezione 6
Scarica

lezione 6