Laboratorio di analisi di dati
linguistici
Laurea specialistica in Linguistica Teorica
e Applicata, Università di Pavia
Andrea Sansò
[email protected]
A.A. 2005-2006
Corso progredito
10 CFU
Laboratorio di analisi di risorse
linguistiche
2.
Elementi di statistica
Concetti di base: popolazione, type/token,
frequenze e distribuzioni, variabilità e
dispersione; la legge di Zipf.
Nozioni avanzate: Il test del 2; ANOVA
(ANalysis Of Variance).
Nozioni di base
Popolazione: insieme di individui o unità statistiche di cui
vogliamo studiare e caratterizzare la distribuzione rispetto a
certe peculiarità di interesse.
Problema: nel caso di una lingua la popolazione è un
concetto più difficile (v. sopra)
Parole unità vs. parole tipo: i token (o parole unità) sono tutte
le unità atomiche del testo, ossia ogni parola distinta,
individuabile univocamente in base alla sua posizione nel testo;
i types (o parole tipo) rappresentano un livello di astrazione
superiore; se in un testo la parola un ricorre n volte, diremo che
la parola tipo un ha n occorrenze.
Nozioni di base
Frequenza: in statistica si intende con frequenza il
rapporto tra la frequenza assoluta ni e il numero totale |T|
di unità osservate nel testo T
Fi = ni/|T|
Media aritmetica: si chiama media aritmetica di una serie
di valori espressi da una classe di unità il risultato della
somma di questi valori divisa per il numero di unità della
classe.
Il vocabolario di un testo e il
rapporto type/token
Il vocabolario VT di un testo T è l’insieme di parole
tipo che ricorrono in T.
Il rapporto type/token in un vocabolario di un testo è
dato dalla seguente formula: VT/T, ed è un valore
compreso sempre tra 0 e 1. Il valore massimo 1 si
ottiene quando il testo in questione è interamente
formato da hapax (caso possibile solo nei testi molto
brevi).
La legge di Zipf
E’ una delle leggi quantitative più note e interessanti dell’uso
linguistico. Ordinando le parole di un testo per valori
decrescenti di frequenza, Zipf osservò che esiste una
relazione matematica costante tra la posizione che una parola
occupa all’interno della lista (o rango della parola) e la sua
frequenza.
f(z) = C/z
La frequenza di una parola di rango z e data dal rapporto fra
la costante C e dal rango z. La costante C corrisponde alla
frequenza della parola di rango 1.
Il test del chi-quadro
Si tratta di un modello di valutazione dell’indipendenza di
un dato da una variabile; se il risultato del test è inferiore a
certi valori, si deve concludere che la variabile non
influisce su una data distribuzione, e bisogna formulare
un’altra ipotesi per spiegare i dati. Viene utilizzato spesso
per valutare la distribuzione di fenomeni linguistici
rispetto a una variabile linguistica o extralinguistica.
Il test del chi-quadro
Esempio:
Abbiamo due gruppi di apprendenti di italiano; il gruppo A è
composto da studenti spagnoli, il gruppo B da studenti
tedeschi. Supponiamo di voler valutare la competenza
lessicale di ciascuno dei due gruppi: dato un certo test (ad es.
un esercizio di composizione), gli errori lessicali compiuti
dagli ispanofoni sono in numero minore di quelli compiuti
dai germanofoni. È ragionevole ipotizzare che ci sia
un’influenza della L1 sul grado di correttezza della
performance? Esiste un sistema statisticamente corretto per
valutare questa ipotesi.
Il test del chi-quadro
Esempio (continua):
È bene chiarire subito che il calcolo del chi-quadro non ci
dice nulla sulla efficacia del test o del metodo di raccolta dati
(nel caso specifico non ci dice se l’esercizio di composizione
era ben concepito): esso opera per così dire a valle, su una
data distribuzione espressa come una serie di dati numerici –
senza alcuna valutazione di tipo qualitativo! È però in grado
di stabilire se la distribuzione è casuale – e cioè se non esiste
un’influenza della L1 sulla performance – ovvero se è
statisticamente significativa.
Il test del chi-quadro
Esempio (continua): Tabella 1 – Frequenze osservate
0 errori
1 errore
da 2 a 6 errori
totale riga
Gruppo A
7
7
16
30
Gruppo B
13
11
6
30
Totale colonna
20
18
22
60
Il test del chi-quadro
Esempio (continua):
Il problema statistico da risolvere è il seguente: data la
distribuzione riportata nella tabella precedente, possiamo
concludere che le differenze nel numero di errori sono dovute
alla variabile presa in esame o dobbiamo invece concludere che
sono casuali (ossia, più tecnicamente, che avremmo la stessa
distribuzione se scegliessimo a caso due gruppi all’interno della
stessa popolazione)? Per procedere al test del chi-quadro
dobbiamo innanzitutto formulare la cosiddetta ipotesi nulla: in
questo caso l’ipotesi nulla è che il numero di errori è
indipendente dalla L1 dei soggetti.
Il test del chi-quadro
Esempio (continua):
Se l’ipotesi nulla è vera, i due gruppi rappresentano due campioni
casuali scelti all’interno della stessa popolazione. La popolazione totale
nel nostro caso è di 60 individui, e in totale abbiamo 20 individui che
non hanno fatto alcun errore. Se il gruppo A fosse stato scelto
selezionando 30 individui all’interno di questa popolazione in maniera
casuale, quanti individui non avrebbero verosimilmente commesso
errori? La risposta è semplice: (20/60) * 30 = 10. Procedendo allo stesso
modo calcoliamo quali sono le frequenze attese (expected frequencies)
per gli altri sottogruppi (ossia quelli che hanno commesso un solo errore,
e quelli che ne hanno commessi da 2 a 6). La formula generale per
calcolare le frequenze attese è la seguente:
totale colonna * totale riga / popolazione
Il test del chi-quadro
Esempio (continua): Tabella 1 – Frequenze attese
0 errori
1 errore
da 2 a 6 errori
totale riga
Gruppo A
10
9
11
30
Gruppo B
10
9
11
30
Totale colonna
20
18
22
60
Il test del chi-quadro
Esempio (continua):
È a questo punto necessario calcolare il tasso di devianza (ossia
il 2) delle frequenze osservate rispetto a quelle attese. Per ogni
cella della tabella si esegue il calcolo seguente:
(frequenza osservata – frequenza attesa)2 /
frequenza attesa
Ad esempio, considerando il numero di individui del gruppo A
che non ha fatto errori (7), otteniamo il tasso di devianza
seguente:
(7 – 10)2 / 10 = 0.9
Il test del chi-quadro
Esempio (continua): ripetendo l’operazione per tutte le celle otteniamo:
0 errori
1 errore
da 2 a 6 errori
Gruppo A
0.9
0.44
2.27
Gruppo B
0.9
0.44
2.27
Tasso totale di devianza (2): 0.9 + 0.9 + 0.44 + 0.44 + 2.27 + 2.27 =
7.22
Il test del chi-quadro
Esempio (continua):
A questo punto non resta che calcolare il grado di libertà (d.f.) e
confrontare il nostro risultato con una tavola di distribuzioni
chi-quadro (vedi fotocopia); se il risultato è maggiore di un
certo valore critico (normalmente 0.05 o 0.01 = probabilità di
casualità dell’ipotesi nulla pari o inferiore al 5% o all’1%)
possiamo rigettare l’ipotesi nulla e concludere che esiste
un’influenza della variabile considerata sui risultati osservati. Il
grado di libertà si calcola secondo la formula seguente (nel
nostro caso è 2):
(numero di colonne – 1) * (numero di righe – 1)
Il test del chi-quadro: problemi
In generale il test del chi-quadro funziona solo se tutte le frequenze
attese sono sufficientemente grandi ( > 5). Una soluzione a questo
problema può essere quella di raggruppare insieme due categorie
quando le frequenze attese in ciascuna di esse sono inferiori a 5.
Ovviamente perché questo funzioni è necessario motivare questo
raggruppamento su basi non statistiche. Nell’esempio concreto che
abbiamo illustrato, se, poniamo, la frequenza attesa del gruppo di
studenti che ha fatto soltanto un errore è molto bassa, possiamo
ricreare una tabella delle distribuzioni con soltanto due categorie
(studenti che non hanno fatto errori e studenti che hanno fatto errori).
Se invece, poniamo, sono molto pochi sia gli studenti che non hanno
fatto errori sia quelli che ne hanno fatti da 2 a 6, il raggruppamento di
due categorie non contigue è molto più problematico.
Il test del chi-quadro: problemi
Un’altra soluzione è quella di eliminare le celle con frequenze
attese molto basse; anche in questo caso non ci sono particolari
controindicazioni, a parte il fatto che in questo modo si perdono
dettagli importanti.
In ogni caso è bene sempre avvertire il lettore quando si applica il
test chi-quadro a dati che presentano, in alcuni casi, frequenze
attese molto basse: il valore del test non cambia, ma è da
considerarsi cum grano salis, e nuovi dati possono falsificare le
generalizzazioni proposte.
Il test del chi-quadro: problemi
La correzione di Yate
È un accorgimento che si utilizza quando il grado di
libertà (d.f.) è pari a 1 (e cioè quando abbiamo una
tabella di distribuzione con due colonne e due righe).
Consiste nel sottrarre 0.5 alla differenza fra frequenza
attesa e frequenza osservata (ignorando il segno + o -,
cioè operando sul valore assoluto), prima di calcolarne
il quadrato.
Il test del chi-quadro: un esercizio
In una zona remota della Sicilia vivono due
comunità piuttosto isolate in due cittadine a pochi
km di distanza: Vigata e Fela. Entrambe le comunità
parlano due varietà della stessa lingua (il felese). I
linguisti hanno condotto svariate indagini sul campo
raccogliendo sia testi scritti che registrazioni di
parlato di uomini e donne appartenenti alle due
comunità notando una serie di fatti interessanti.
Il test del chi-quadro: un esercizio
1.
L’ordine OV vs VO: i linguisti hanno notato che esistono due ordini
basici dell’oggetto e del verbo; hanno anche notato che l’ordine OV è
utilizzato esclusivamente nel parlato informale, mentre VO è tipico
dello scritto. A Vigata, però, sembra ci sia una tendenza a utilizzare VO
anche nel parlato. Questi i dati:
Uso dell’ordine VO a Vigata: 130, di cui nel parlato: 30
Uso dell’ordine VO a Fela: 229, di cui nel parlato: 124
Uso dell’ordine OV nel parlato a Fela: 85
Uso dell’ordine OV nel parlato a Vigata: 36
Sono dati statisticamente significativi? È possibile che nel felese parlato
di Vigata ci sia una tendenza verso la normalizzazione, possibilmente
sotto la spinta dell’italiano
Il test del chi-quadro: un esercizio
Distribuzione
Frequenze attese
OV
VO
Totale di
riga
Fela
85
124
209
Vigata
36
30
66
Totale di
colonna
121
154
275
OV
VO
Fela
91.96
117.04
Vigata
29.04
36.96
Deviazione totale: 0.45 + 0.35 + 1.44 + 1.13 = 3.37 (applicata la correzione di Yate),
d.f. = 1, p tra 0.10 e 0.05 (= tra 10% e 5%)  probabilmente servono più dati!
P indica la percentuale della distribuzione di una tabella chi-quadro che presenta un
valore maggiore del valore che abbiamo ottenuto per il 2.
Il test del chi-quadro: un esercizio
2.
Donne e uomini: i linguisti hanno registrato il parlato spontaneo di
uomini e donne, e hanno notato che in ambedue le comunità le
donne tendono a utilizzare di più forme di ammirazione come
“Madre Santa!”, mentre gli uomini, che in generale utilizzano meno
le espressioni di ammirazione, preferiscono “Padre Santo!”. Questa
conclusione è però contestata da altri linguisti, che sostengono che
la differenziazione per sesso non è particolarmente significativa,
mentre è significativo il fatto che a Fela si utilizzano più espressioni
di ammirazione perché la vita è più piacevole; un terzo linguista
contesta le conclusioni dei colleghi, e sostiene che si tratta di una
distinzione legata all’età degli informanti. L’espressione più arcaica
sarebbe “Padre Santo!”, che è la più utilizzata dagli anziani.
Il test del chi-quadro: un esercizio
2. Donne e uomini: i dati rilevanti sono i seguenti:
Uso di “Madre Santa!” a Fela: 65 (di cui uomini: 20, donne: 45;
giovani: 39, anziani: 26)
Uso di “Padre Santo!” a Fela: 43 (di cui uomini: 27, donne 16;
giovani: 30, anziani: 13)
Uso di “Madre Santa!” a Vigata: 18 (di cui uomini: 6, donne: 12;
giovani: 10, anziani: 8)
Uso di “Padre Santo!” a Vigata: 26 (di cui uomini: 15, donne: 11;
giovani: 17, anziani: 9)
È significativa la distinzione su base geografica? E quella tra
uomini e donne? Oppure è significativa la distinzione per età?
Il test del chi-quadro: un esercizio
Distribuzione
Struttura 1
Frequenze attese
Fela
Vigata
Totale di
riga
65
18
83
Struttura 2
43
26
69
Totale di
colonna
108
44
152
Fela
Vigata
Struttura 1
58.97
24.03
Struttura 2
49.03
19.97
Str. 1 = “Madre Santa!”; str. 2 = “Padre Santo!”. Deviazione totale:
0.51 + 0.62 + 1.27 + 1.53 = 3.93 (applicata la correzione di Yate), d.f.
= 1, p < 0.05 (= 5%)  l’ipotesi della differenziazione su base
geografica è plausibile!
Il test del chi-quadro: un esercizio
Distribuzione
Struttura
1
Frequenze attese
Uomini
Donne
Totale di
riga
26 (20 + 6)
57 (45 + 12)
83
Struttura
2
42 (27 + 15)
27 (16 + 11)
69
Totale di
colonna
68
84
152
Uomini
Donne
Struttura 1
37.13
45.87
Struttura 2
30.87
38.13
Deviazione totale: 3.04 + 2.46 + 3.66 + 2.96 = 11.42 (applicata la
correzione di Yate), d.f. = 1, p < 0.001 (= 0.1%)  la distribuzione
per sesso è quella che dà i migliori risultati!
Il test del chi-quadro: un esercizio
Distribuzione
Frequenze attese
Giovani
Anziani
Totale di
riga
Struttura
1
49 (39 + 10)
34 (26 + 8)
83
Struttura
2
47 (10 + 17)
Totale di
colonna
96
22 (13 + 9)
56
Giovani
Anziani
Struttura 1
52.42
30.58
Struttura 2
43.58
25.42
69
152
Deviazione totale: 0.16 + 0.28 + 0.20 + 0.34 = 0.98 (applicata la correzione di Yate),
d.f. = 1, p tra 0.25 e 0.50 (= 25%/50%)  L’ipotesi nulla è plausibile (ovvero, la
distinzione per età è casuale)! Si può comunque unire i dati delle tre ricerche e
concludere che la classe di individui che con più probabilità produrrà l’espressione di
ammirazione “Madre Santa!” è quella costituita dalle donne giovani di Fela.
Il test del chi-quadro
E per finire:
www.georgetown.edu/faculty/ballc/webtools/web_chi.html
Un sito che permette di calcolare il
chi-quadro compilando delle tabelle
online! (N.B.: non applica la
correzione di Yate!)
Variabilità / dispersione
Consideriamo il caso – un po’ estremo a dire il vero – di due
gruppi di soggetti sottoposti a un test di conoscenza della lingua
inglese. Supponiamo che in un gruppo di 50 soggetti – scelti sulla
base di un qualche criterio – tutti hanno totalizzato lo stesso
punteggio, ad esempio 8/10 e in un altro gruppo, sempre di 50
soggetti, 25 hanno totalizzato 10/10 e 25 hanno totalizzato 6/10.
La media aritmetica dei punteggi totalizzati è uguale, ma i due
gruppi sono significativamente diversi. La misura della variabilità
(o dispersione) ci dice come i punteggi di ciascun gruppo si
comportano rispetto al valore tipico osservato. Quanto maggiore è
la variabilità all’interno di una popolazione, tanto maggiori
saranno le dimensioni richieste del campione per ottenere una
informazione soddisfacente.
Variabilità / dispersione
La media aritmetica calcolata su un campione è un
indicatore abbastanza accurato della media
aritmetica dei valori di una data variabile in tutta la
popolazione. Ma in certi casi potremmo aver
bisogno di qualcosa di più. Potremmo per esempio
aver bisogno di stabilire un range entro cui i valori
di una data popolazione si collocano.
Per prima cosa dobbiamo calcolare la varianza
(variance) all’interno della popolazione.
Variabilità / dispersione
Supponiamo di avere un testo e di volere misurare la lunghezza media
delle frasi (in numero di parole). Otteniamo un valore aritmetico medio
che chiamiamo Xm. Per ogni frase X1, X2, …, Xn calcoliamo la differenza
rispetto al valore medio:
d1 = X1 – Xm, d2 = X2 –Xm, ecc.
Se sommiamo semplicemente i valori ottenuti otteniamo zero per ogni
campione (valori negativi e positivi si annullano a vicenda). Sommiamo
allora i quadrati di queste differenze (il quadrato è sempre un numero
positivo) e dividiamo questo totale per (n – 1): otteniamo così la
varianza V all’interno della popolazione (che può essere definita come la
media delle singole variazioni al quadrato). Estraendo la radice quadrata
di questo valore otteniamo la deviazione standard all’interno della
popolazione, che avrà la stessa unità di misura dei nostri dati (in questo
caso il numero di parole per frase).
Variabilità / dispersione
Varianza:
V = idi / n – 1
“La varianza V all’interno di un campione i è uguale
alla sommatoria dei quadrati delle differenze tra i
(punteggi/valori dei) soggetti nel campione i e il valore
medio osservato nel campione, il tutto diviso per il
numero di soggetti in i meno uno”
Deviazione standard = radice quadrata di V
Analysis of variance: il test
ANOVA
Supponiamo di aver osservato che il numero di errori in un
test di inglese dipende dalla provenienza geografica dei
soggetti: ad esempio, gli studenti europei si comportano
meglio di quelli provenienti dal nord africa, i quali a loro
volta ottengopno punteggi più alti degli studenti asiatici e
sudamericani. Per verificare questa ipotesi su base
statistica possiamo ricorrere al test del chi-quadro, ma
possiamo anche utilizzare un test più sofisticato, che
risponde al nome di ANOVA.
Analysis of variance: il test
ANOVA
Formati dei campioni di studenti (diciamo 4 campioni di 10
studenti ciascuno) troveremo molto probabilmente che i
punteggi dei singoli gruppi sono simili tra loro, e che
l’intervallo fra il punteggio più basso e quello più alto degli
studenti di un campione include normalmente la maggior
parte dei punteggi di ogni singolo campione. Tuttavia, è
possibile che in dettaglio ogni campione abbia
comportamenti più diversificati. La misura della media
aritmetica non basta, perché selezionati a caso due campioni
di 10 studenti all’interno della popolazione totale (= 40
studenti) è verosimile che essi abbiano due valori medi
differenti.
Analysis of variance: il test
ANOVA
Europe
South
America
North Africa
Far East
10
33
26
26
19
21
25
21
24
25
19
25
17
32
31
22
29
16
15
11
37
16
25
35
32
20
23
18
29
13
32
12
22
23
20
22
31
20
15
21
Total
250
219
231
213
mean
25,0
21,9
23,1
21,3
Analysis of variance: il test
ANOVA
Per verificare se la nostra ipotesi di partenza è sbagliata (e cioè se
è vera l’ipotesi nulla che non esiste alcun effetto della provenienza
geografica sulla performance), dobbiamo innanzitutto calcolare la
varianza stimata within-samples (Vw, within-samples estimate of
variance), la cui formula generale è:
Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2 + … + (nn – 1)Vsn / (n1 + n2 + … +
nn) – n
Ossia la somma della varianza di ogni singolo campione (Vs1,
Vs2, …, Vsn), moltiplicata per i gradi di libertà di ogni campione
(nel nostro caso 10 – 1 = 9), il tutto diviso per la totalità della
popolazione meno 1 per ogni campione (nel nostro caso 4).
Analysis of variance: il test
ANOVA
Vw = (n1 – 1)Vs1 + (n2 – 1)Vs2 + … + (nn – 1)Vsn / (n1 + n2
+ … + nn) – n
Vw = (9x66,222) + (9x43,655) + (9x34,988) + (9 x 47,567)
/ 36 = 48,11
Dopo aver ottenuto questo valore, dobbiamo calcolare un altro
valore, chiamato between-groups estimate of variance (Vb), che
è anch’esso una stima della varianza all’interno della
popolazione. Otteniamo questo valore calcolando innanzitutto
la varianza delle medie aritmetiche. Il valore che otteniamo è
pari a 2,662. Moltiplichiamo questo valore per il numero di
soggetti in ogni campione (nel nostro caso 10) e otteniamo Vb =
26,62.
Analysis of variance: il test
ANOVA
Se l’ipotesi nulla è vera, Vb tenderà ad essere più grande di
Vw. Il rapporto tra Vb e Vw è espresso come
F = Vb / Vw
Nel nostro caso tale valore è uguale a 26,62 / 48,11 = 0,55.
I gradi di libertà di F sono 3 e 36. Controlliamo su una
tabella il valore critico di significatività al 5% per F3,36 e
vediamo che è di poco più grande di 2,84, perciò l’ipotesi
nulla è vera e non ci sono motivi per ritenere che ci sia una
differenza tra i gruppi.
Analysis of variance: il test
ANOVA
Anche in questo caso c’è un sito che fa il lavoro sporco:
http://www.physics.csbsju.edu/stats/anova.html
Scarica

Laboratorio di analisi di dati linguistici