informatica di base
per le discipline umanistiche
vito pirrelli
Istituto di Linguistica
Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 7
(continua…)
settima lezione:
la matematica delle parole
vito pirrelli
Istituto di Linguistica
Computazionale CNR Pisa
Dipartimento di linguistica
Università di Pavia
lezione 7
(continua…)
quante parole compongono
un’unità di testo?
Le ricerche di Gabriella sono proseguite
per tutta la mattinata con elicotteri,
posti di blocco e perquisizioni.
ma cos’è una “parola”?
lezione 7
(continua…)
cosa contare?
(nozioni di “parola scritta”)



parola come sequenza di caratteri (forma) compresi tra
“separatori” (ad es. due spazi bianchi)
parola come unità morfosintatticamente atomica (ad es.
“ad hoc” costituisce una parola sola in quanto i suoi
costituenti non sono sintatticamente “separabili”)
parola come esponente lessicale (o “lemma”; la forma
calcio può realizzare diversi esponenti lessicali: verbo,
nome_1 e nome_2)
lezione 7
(continua…)
il “token”

unità di base per l‘analisi linguistica
parole unità (semplici e complesse)


sigle, acronimi, abbreviazioni, indirizzi



5.4.2005, 28 agosto 1997, log2250, 050 31528
nomi propri


Nato, ITA,H20, www.google.it, corso Strada Nuova 2
numeri, formule e date


canteremo, darglielo, ad hoc
Giovanni Paolo II, Poggio a Caiano
punteggiatura
ecc.

12 kg, 1€ e 32 cent.
lezione 7
(continua…)
il “bestiario” del testo
L'art. 1, par. 3, del reg. (CE) n. 1257/ 1999 del Consiglio, del
17 maggio 1999, sul sostegno allo sviluppo rurale da parte
del Fondo europeo agricolo di orientamento e garanzia
(FEAOG), che modifica e abroga taluni regolamenti (GU L
161 del 26.6.1999, pag. 1), …
lezione 7
(continua…)
ambiguità nel token



tipicamente un elemento di punteggiatura (virgola, punto e virgola,
punto fermo) è considerato un separatore di token (e un token esso
stesso)
ci sono casi però in cui questo non è vero
 numeri con la virgola: 13,05
 date: 18.3.2003
 sigle e abbreviazioni: O.N.U., sig.ra, S. Siro
 ecc.
tokenizzare un testo significa segmentarlo in token attraverso regole
che risolvono i casi ambigui
lezione 7
(continua…)
come contare?
(parole unità e parole tipo)




il numero di unità (o frequenza) della parola giornale in un
testo è uguale a quante volte la stringa giornale appare in
quel testo
il numero totale di parole unità in un testo è la lunghezza
del testo misurata in parole
il numero di parole tipo (o cardinalità dell‘insieme) di
parole in un testo è uguale a quante parole diverse si
trovano nel testo
il numero totale di parole tipo in un testo è la grandezza
del suo vocabolario
lezione 7
(continua…)
esempio
Le ricerche di Gabriella sono proseguite
per tutta la mattinata con elicotteri,
posti di blocco e perquisizioni.



numero di parole unità con categoria “preposizione”:
di
2
per
1
con
1
numero delle parole tipo con categoria “preposizione”
numero totale di parole unità con categoria “preposizione”
lezione 7
3
4
(continua…)
esempio (II)
Le ricerche di Gabriella sono proseguite per
tutta la mattinata con elicotteri, posti di
blocco e perquisizioni.

il testo contiene
 17 “parole unità” (è esclusa la punteggiatura)
 1 parola tipo con 2 occorrenze
 15 parole tipo con 1 occorrenza ciascuna
lezione 7
TESTO
freq
di
2
,
1
.
1
blocco
1
con
1
e
1
elicotteri
1
gabriella
1
la
1
le
1
per
1
perquisizioni
1
posti
1
proseguite
1
ricerche
1
serata
1
sono
1
tutta
1
(continua…)
il vocabolario di “esempio”
Le ricerche di Gabriella sono proseguite per
tutta la mattinata con elicotteri, posti di
blocco e perquisizioni.




il vocabolario V consiste di 16 “parole” diverse
|V| = 16
chiamiamo Vi la classe di parole che appaiono
con frequenza i volte ciascuna nel testo
allora |V |= |V1| + |V2| +...+ |Vmax|,
dove max è la frequenza massima con cui una
parola appare nel nostro testo
lezione 7
TESTO
freq
di
2
,
1
.
1
blocco
1
con
1
e
1
elicotteri
1
gabriella
1
la
1
le
1
per
1
perquisizioni
1
posti
1
proseguite
1
ricerche
1
serata
1
sono
1
tutta
1
(continua…)
frequenze e distribuzioni
1. misura lunghezza l di
ogni parola
9000
8000
frequenza unità
7000
2. raggruppa tra loro le
parole con la stessa l
6000
5000
4000
3000
3. conta quante parole
cadono in ciascun
raggruppamento
2000
1000
0
1
5
9
13
17
4. riporta i valori di l
sull’asse delle X
lunghezza caratteri
5. riporta le frequenze
contate in 3 sull’asse
delle Y
lezione 7
(continua…)
distribuzioni …
4000
250
3000
parole tipo
200
150
100
2000
1000
50
0
1
0
10
100
1000
classe frequenza
0
20
40
60
80
100
lezione 7
(continua…)
10000
lunghezza di una parola
e lunghezza di un testo



la lunghezza di una parola in caratteri è data dal numero
di caratteri che la compongono
la lunghezza di un testo in caratteri è data dal numero
totale di occorrenze di caratteri nel testo
la lunghezza media di una parola dato un testo è uguale
alla lunghezza totale del testo in caratteri divisa per la
lunghezza dello stesso testo in parole
|T |

_
l 
l1  l 2  ...  l|T |
|T |

lezione 7
 li
i 1
|T |
(continua…)
la deviazione standard

deviazione standard
 (l ) 
2
(
l

l
)
 i
i
|T |
•
è una funzione degli “scarti quadratici” dalla media, presa come
punto di riferimento dell’intera distribuzione
•
se tutte le nostre unità avessero la stessa lunghezza l, allora
lunghezza media = l e  = 0
•
 è in grado di quantificare quanto è disomogenea la
distribuzione
lezione 7
(continua…)
un esempio
TESTO
lunghezza
2
8
2
9
4
10
3
5
2
6
4
10
1
5
2
6
1
13
1
le
ricerche
di
gabriella
sono
proseguite
per
tutta
la
serata
con
elicotteri
,
posti
di
blocco
e
perquisizioni
.
lunghezza testo in caratteri
numero di occorrenze di token
lunghezza media per token
token
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
94
19
4.947368
lezione 7
(continua…)
lunghezza di frase





una frase è una sequenza di parole che termina con un punto fermo
la lunghezza di una frase in parole è uguale alla frequenza totale
delle parole che la formano
la lunghezza di una frase in caretteri è uguale alla frequenza totale
dei caratteri che la formano
dato un testo consistente di più frasi, la lunghezza media di frase in
parole è uguale alla lunghezza del testo in parole divisa per il numero
di frasi che lo costituiscono
dato un testo consistente di più frasi, la lunghezza media di frase in
caratteri è uguale alla lunghezza del testo in caratteri divisa per il
numero di frasi che lo costituiscono
lezione 7
(continua…)
esempio
Le ricerche di Gabriella sono proseguite per
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.




lunghezza frase 1: 17 “parole”
lunghezza frase 2: 23 “parole”
lunghezza media di frase: (17+23)/2 = 20 “parole”
deviazione standard: 3
lezione 7
(continua…)
quant’è ricco il vocabolario di un testo?
il rapporto “tipo/unità”
Le ricerche di Gabriella sono proseguite per
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.

“rapporto tipo/unità”: rapporto tra cardinalità del vocabolario e
lunghezza del testo in parole
 |V| / |T|
 37/40 = 0.925
 0 < ( |V| / |T| )  1
lezione 7
(continua…)
quant’è ricco il vocabolario di un testo?
il numero di “hapax legomena”
Le ricerche di Gabriella sono proseguite per
tutta la serata con elicotteri, posti di
blocco e perquisizioni. Una prima
segnalazione e' stata inviata alla Procura
della Repubblica, poi il caso e' passato
nelle mani del giudici di viale delle
Milizie.




un hapax legomenon è una parola con frequenza 1,
cioè un membro della classe di frequenza V1
|V1|/ N
35/40 = 0.875
0 < |V1|/ N  |V| / N  1
lezione 7
(continua…)
lo spettro delle frequenze
4000
1. riporta sull’asse delle
X le classi di freq per
valori crescenti
parole tipo
3000
2000
2. riporta sull’asse delle
Y quante parole tipo
hanno frequenza
i = | Vi |
1000
0
1
10
100
1000
10000
classe frequenza
lezione 7
(continua…)
le frequenze cumulate …
100
99.20%
91.65%
calcola quante sono le
parole tipo (unità) che
appaiono non più di i volte
nel testo: Fci
2.
dividi Fci per |V | (o per |T|)
3.
riporta sull’asse delle X le
classi di freq per valori
crescenti
4.
riporta sull’asse delle Y i
valori calcolati in 2.
60.91%
54.73%
50
1.
28.18%
8.08%
0
1
10
100
1000
classe di frequenza
percentuale lessico
percentuale testo
lezione 7
(continua…)
le frequenze cumulate (II)
100
99.20%
91.65%
60.91%
54.73%
50
28.18%
8.08%
0
1
10
100
1000
classe di frequenza
percentuale lessico
percentuale testo
lezione 7
(continua…)
la legge di Zipf

all‘interno di una porzione di testo, esiste
una correlazione inversa tra le frequenza di
una parola e la sua posizione relativa
(rango) in una lista di parole che va dalla più
frequente alla meno frequente
C
f  
r
lezione 7
,
.
di
il
e
la
a
che
e'
in
per
un
L'
del
I
con
si
le
ha
una
non
della
:
da
al
sono
dei
Piu'
dell'
(
Ma
)
Nel
anche
gli
alla
hanno
dal
anni
delle
all'
come
stato
Lo
3434
2421
2258
1309
1297
1165
914
864
847
830
789
693
647
587
585
467
467
466
456
449
441
435
400
393
331
323
291
262
260
251
241
239
238
238
213
213
208
186
181
173
159
158
149
(continua…)
145
143
Zipf in Pinocchio
rango
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
forma
e
di
che
a
il
la
un
non
per
in
Pinocchio
si
gli
una
è
frequenza
1752
1338
1019
932
925
711
708
507
481
453
415
393
364
360
296
rango
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
lezione 7
forma
ma
i
come
da
io
mi
le
più
l'
disse
lo
burattino
se
con
era
frequenza
290
283
234
233
225
219
211
210
206
202
199
195
189
188
185
(continua…)
Zipf (II)
lezione 7
(continua…)
Zipf (III)

su doppia scala logaritmica la legge di Zipf dà origine a una retta
inclinata verso il basso ....
log( f )  log( C )   log( r )
(per saperne di più clicca sulle parole evidenziate in giallo!)
lezione 7
(continua…)
la famiglia “Zipf”
100000
frequenza
10000
1000
100
10
1
1
10
100
1000
10000
rango
pinocchio
artificiale
impoverito
coefficiente  come indice inverso di ricchezza lessicale
lezione 7
(continua…)
laboratorio in linea

http://foxdrake.ilc.cnr.it/webtools/
lezione 7
(continua…)
settima lezione
la matematica delle parole
fine settima lezione
(lezione 8)
lezione 7
Scarica

lezione 7 - Istituto di Linguistica Computazionale "Antonio Zampolli"