TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.8
Misurare la variabilità
In questa lezione..
In questa lezione smettiamo di cercare misure ‘centrali’ di una
variabile e passiamo a strumenti per misurare la dispersione in-torno
a tali modalità. Poiché le variabili hanno gradi diversi di misurabilità
individueremo una misura per ciascuno dei tre livelli:
Per variabili ordinali, intorno alla mediana abbiamo già fatto la
conoscenza con il Range Interquartilico
Per variabili quantitative faremo la conoscenza della misura
regina della Statistica, la Varianza
Per le variabili solo nominali cercheremo un concetto di
variabilità assimilabile a quello di dispersione intorno a un polo,
e proporremo la Eterogeneità.
L’eterogeneità (a differenza della varianza) ha un massimo implicito
nella sua definizione, e può quindi essere ‘relativizzato’. Ma questo è
un tema che riprenderemo presto..
Range
Il modo più naturale di cogliere la variabilità di un carattere è quello di
vedere quanta è la differenza tra i ‘primi’ e ‘gli ultimi’, tra le unità di analisi che stanno all’inizio e quelle che stanno alla fine della serie ordinata:
X={x1,x2,x3,..,xN-2,xN-1,xN}. Range è la differenza tra ultima e prima
modalità della serie ordinata:
R= xN - x1
Ma il Range risente trovo di valori ‘anomali’ sulle code della distribuzione. Cosa succede al Range se, per esempio:
Di una classe scolastica di cui si studiano i redditi entra a far parte il
nipote di Rockfeller?
Tra gli impiegati di Los Alamos su cui si valuta il Q.I. si inseriscono
Fermi e von Neumann?
Nella serie delle vostre ‘pesate’ mattutine lasciate anche quella rilevata quando vostro fratello ha appoggiato un’incudine sulla bilancia?
Range interquantilico
Meglio allora premunirsi, prendendo come estremi su cui valutare il Range
non proprio le osservazioni più piccola e più grande, ma quelle osservazioni (un po’ più ‘interne’ alla serie) che si situano a uguale distanza dal
valore centrale della serie ordinata (cioè a pari distanza dalla mediana).
Se siamo molto prudenti (perché non ci fidiamo dei valori sulle code, o
perché le code non sono nemmeno completate, come nel caso di serie
statistiche troncate) prenderemo la differenza tra il terzo e il primo
quartile: 3Q4(X)- 1Q4(X) = Range Interquartile (IQR o DIQ).
Se ci fidiamo dei valori assunti dalle osservazioni del primo decile (che lasciano solo il 10% con valori più bassi) e al nono decile (lasciano solo un
10% più alto), prenderemo 9Q10(X)- 1Q10(X) = Range Interdecilico.
Differenza
interquantilica
D.i.Q
Milano
D.i.Q
Paesi
9Q10(X)- 1Q10(X)
4,341
2,760
4Q5(X)- 1Q5(X)
2,176
1,775
3Q4(X)- 1Q4(X)
1,585
1,405
Il range interquartile a Milano e nei
paesi è assai simile. Il range interdecile è invece assai diverso. Segno
che la differenza sta nella distribuzione tra il 75° e il 90° percentile.
Minima funzione quadratica di
perdita
Per una variabile quantitativa come misurare la dispersione intorno al centro?
Sappiamo che la media aritmetica è la misura di posizione che
rende minima una funzione quadratica di perdita di informazione
E’ quindi ragionevole usare come misura di dispersione la funzione quadratica centrata sulla media aritmetica. La chiamiamo varianza.
m
m
  xi   
i 1
2
 f i  min SSE  = m x
2
2


x

m

f

Var
(
X
)

V


 i x i
x
X
i 1
La varianza è la minima funzione quadratica di perdita
intorno alla media aritmetica
Calcolo della varianza
xi
fi
xi fi
xi–mx
(xi–mx)2
(xi–mx)2 fi
x1
f1
x1 f1
x1-mx
(x1–mx)2
(x1–mx)2 f1
x2
f2
x2 f2
x2-mx
(x2–mx)2
(x2–mx)2 f2
x3
f3
x3 f3
x3-mx
(x3–mx)2
(x3–mx)2 f3
x4
f4
x4 f4
x4-mx
(x4–mx)2
(x4–mx)2 f4
x5
f5
x5 f5
x5-mx
(x5–mx)2
(x5–mx)2 f5
1
mX
Var(X)
Per calcolare una varianza useremo le colonne già impostate per il calcolo della media, cui aggiungerne tre:
le differenze semplici rispetto alla media (la loro
somma ponderata per le frequenze è zero!),
le differenze al quadrato,
le differenze quadratiche ponderate con le frequenze.
Nota: se nella
ultima colonna
moltiplicheremo gli scarti
quadratici per
le numerosità
invece che per
le frequenze
assolute, nessun problema:
basterà dividere il totale
per N:
Var(X) =
(xi–m)ni/N
Dalla varianza alla ‘deviazione
standard’
xi
ni
x i ni
xi–mx
10
35
350
-11,74
137,8276
4823,9660
50
9
450
+28,26
798,6276
7187,6484
100
2
200
+78,26
6124,6276
12249,2552
46
1000
(xi–mx)2 ni
24260,8696
mX=xi ni/N=
=1000/46=21,74
40
30
20
10
0
10
0
80
60
m+ =44,7
40
La misura ottenuta è confrontabile con quella di altre variabili e ha molte belle proprietà
(altre ne vedremo) ma è poco comprensibile.
Essa (somma di quadrati di scarti) è di ordine
quadratico rispetto alle modalità osservate.
Torniamo ai 46
azionisti e loro
azioni.
X=527,41=22,96
ni
20
VX=(xi–mx)2ni/N=24260,8696/46=527,41
0
(xi–mx)2
m=21,7 m+2=67,7
xi
La radice quadrata di V(X) si chiama Deviazione Standard o Scarto
Quadratico Medio. La indichiamo con X=2X. Essa misura l’unità
standard di dispersione della v.s. intorno alla media.
Come varia la varianza?
Per valutare la capacità di misurare la variabilità di  simuliamo quattro
possibili distribuzioni di una v.s., tutte con media 4. Nel primo caso le 10
osservazioni sono uguali. In assenza di variabilità tutti gli scostamenti dalla
media sono nulli: c’è corrispondenza biunivoca tra =0 e zero-variabilità.
Nel secondo caso invece le osservazioni iniziano ad aprirsi, sia pur
limitatamente, intorno alla media:  ne risente.
4
0 2 4 6 8
K
K  0
X 
X  2
10

1 1 6 1 1

assenza di variabilità
10
15
8
10
6
4
5
2
0
0
0
2
4
6
8
0
2
4
6
8
La varianza cresce se cresce la
polarizzazione
Nel terzo caso (distribuzione uniforme, amodale) il peso delle osservazioni
addensate intorno alla media diminuisce notevolmente:  cresce.
E cresce ancora quanto più aumenta il peso sulle code della distribuzione.
Dunque la varianza misura la dispersione intorno alla media, e assume
valori positivi o nulli, valendo zero in caso di zero-variabilità.
0 2 4 6 8
Y 
2 2 2 2 2
 Y  2.8
10
9
8
7
6
5
4
3
2
1
0
0 2 4 6 8
Z 
4 0 2 0 4
 Z  3.6
10
9
8
7
6
5
4
3
2
1
0
0
2
4
6
8
0
2
4
6
8
I due significati della
deviazione standard
Sono dunque due i significati utili della deviazione standard:
Come misura sintetica della dispersione di una v.s. intorno alla
media, per valutare complessivamente la variabile stessa,
Come unità di misura della dispersione intorno alla media, per
valutare lo scostamento di una singola osservazione dal polo centrale.
xi-xi+1
fi
(xi+xi+1)/2
9-11
0,077
10
11-14
0,317
14-19
19-25
xi
fi
(xi–mx)2 fi
20
0,770
2,4346
16
12,5
3,963
3,0917
0,444
16,5
7,326
0,3415
0,162
22
3,564
6,5879
8
15,623
12,4557
4
N=142
x
Pazienti anoressiche per età di insorgenza
ni
mx=15,6
12
m-2=8,6
m+2=22,6
xi
0
0
5
10
15
20
25
Anche per la varianza come per la media il calm-=12,1 m+=19,1
colo per variabili per classi passa attraverso i vaVX=12,456
X=3,529
lori centrali delle classi.
30
Una formula operativa per il
calcolo di V(X)
Come si era visto per la media, già l’uso di frazioni nel calcolo richiedeva di
portarsi dietro un ‘congruo’ numero di decimali. La farraginosità della
procedura di calcolo della varianza è accentuata dal passaggio attraverso
quadrati di scarti, scarti che non sono necessariamente in cifra tonda. Vale
però l’equivalenza tra la definizione di V(X) e una sua utile scomposizione:
k
2
V ( X )   xi  f i   xi 
i 1
 i 1
k
k
k

2

2
f i   M ( X 2 )  M ( X )  m2 X  mx2

Dimostrazione

V ( X )    xi  mx   f i   xi  2  mx  xi  m  f i 
2
i 1
k
2
2
x
i 1
k
k
k
i 1
i 1
  xi  f i  2  mx   xi  f i  m   f i   xi  f i  2  mx  mx  mx  1 
2
i 1
k
2
x
i 1
k
2
  xi  f i  2  mx  mx   xi  f i  mx 
i 1
2
2
2
i 1
2
2
2
c.v.d.
Media quadratica o momento
secondo
Nella formula operativa la varianza è scomposta nella differenza di due
misure sintetiche di X, che appartengono ad un'unica famiglia di misure
di sintesi, dette momenti di ordine k:
p
mk  k   xik  fi
In particolare:
se k = 1
i 1
p
m1   1   xi  fi  m x
i1
[momento primo]
se k = 2
p
m 2   2   xi 2  fi
i1
[momento secondo]
Dunque la varianza è uguale alla differenza tra il momento
secondo e il quadrato del momento primo:
V( X )  m2 ( x)  m1( x)
2
Equivalenza della formula
operativa
Verifichiamo l’equivalenza tra formula
definitoria e formula operativa della
varianza, sui nostri 46 azionisti.
xi
ni
x i ni
10
35
350
100
3500
50
9
450
2500
22500
mX=xi ni/N=1000/46=21,739
100
2
200
10000
20000
m2X=xi2 ni/N= 46000/46 = 1000
niente
46
1000
46000
VX= m2X-(mX)2=1000-(21,74)2=527,41
xi2
xi2 ni
La formula operativa produce esattamente lo stesso risultato della formula
ufficiale. Essa è però di più semplice applicazione, perché non richiede di
calcolare “quadrati di scarti” dalla media: quadrati che possono trascinarsi
dietro parecchi decimali e fastidiosi errori di arrotondamento.
Attenzione:
la varianza è una somma di quadrati:
quindi non potrà mai essere negativa!!!
Un esempio
xi
mx = 43,6
hi
24
Vx
20
12
e sono quindi nella fascia alta.
8
mx=43,6
m-
4
m+
m+2
20
40
60
80
100
xi2
x
fi
11,46
30
0,3995
11,985
359,55
50
0,3148
15,740
787,00
70
0,1119
7,833
548,31
90
0,0337
3,033
272,97
130
0,0200
2,600
338,00
230
0,0055
1,265
290,95
1,0000
43,602
2608,24
Famiglie lombarde per reddito
annuo (in milioni di lire)
Come misura di sintesi invece sd e varianza sono di uso
più problematico. Possiamo dare un senso al loro ordine
di grandezza solo mettendo a confronto popolazioni
differenti (e anche in questo caso con prudenza!!)
0
0
fi
1,146
707,28
Come unità di dispersione, lo
sd permette di analizzare i
dati a livello micro: sappiamo
per es. che i redditi sopra i 97
milioni sono superiori a m+2
x
0,1146
x = 26,6
16
xi
10
m2X=2608,24
=2608,24-(43,6)2=
fi
120 140 160 180
200 220 240 260
280 300 320
xi
Un secondo esempio
xi
niMI
xiniMI
xi2 niMI
0,4
4
1,6
0,64
1,0
1
1,0
1,00
1,4
7
9,8
13,72
m2X
1,8
10
18,0
32,40
2,2
9
19,8
2,6
23
3,0
mxM=3,3438
xi
niPIC
xiniPIC
xi2 niPIC
0,4
7
2,8
1,12
1,0
9
9,0
9,00
1,4
55
77,0
107,80
m2XP=9,4924
1,8
103
185,4
333,72
43,56
VxM=3,425
2,2
88
193,6
425,92
59,8
155,48
2,6
123
319,8
831,48
11
33,0
99,00
VxP=1,638
3,0
68
204,0
612,00
3,4
15
51,0
173,40
3,4
50
170,0
578,00
3,8
8
30,4
115,52
3,8
30
114,0
433,20
4,2
6
25,2
105,84
4,2
41
172,2
723,24
4,6
3
13,8
63,48
4,6
15
69,0
317,40
5,0
3
15,0
75,00
5,0
11
55,0
275,00
5,6
3
16,8
94,08
5,6
12
67,2
376,32
7,0
8
56,0
392,00
7,0
13
91,0
637,00
10,0
3
30,0
300,00
3
30,0
300,00
114
381,2
1665,12
628
1760,0
5961,20
mxP=2,8025
M=14,6063
xM=1,85
x
P=1,28
In città il reddito medio è più
alto. Ma è anche parecchio
più alta la dispersione intorno alla media
10,0
L’utilità del confronto
In città più ricchi ma
anche più poveri in
valore assoluto: la
varianza (che a Milano
è il doppio di quella dei
paesi) conferma quello
che già ci diceva la
lettura del grafico
Più poveri in città
A che soglia un reddito familiare
è elevato? Prendiamo come parametro il valore m+2: esso è pari
a 53 milioni e mezzo (5,36) nei
piccoli paesi, ed è invece pari a
70milioni (7,04) a Milano: più del
30% superiore.
55
50
45
40
35
Nei due contesti dunque le due
soglie corrispondono a un’uguale
condizione di ricchezza.
30
25
20
P.S.: per comodità
avevamo diviso i
redditi per 10: ora
torniamo a esprimere m e  nella
misura originaria.
E’ lecito?
Più redditi alti in città
15
Rosso = Milano
10
Blu = Paesi
5
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
Un terzo esempio
Alto reddito
sd
p9/p1
Svezia
0,20
1,53
Olanda
0,22
1,62
Australia
0,24
1,80
Italia
0,27
1,76
Regno Unito
0,28
2,04
USA
0,34
2,31
Giappone
0,35
1,96
Germania
0,37
2,52
L’International Labour
Review (2001) ha
pubblicato un confronto dei differenziali
salariali su un ampio
ventaglio di occupazioni in 80 paesi.
sd
p9/p1
Sudan
0,42
2,28
Mozambico
0,45
3,19
Bangladesh
0,50
3,34
Thailandia
0,50
3,82
India
0,58
4,51
0,71
6,72
0,76
5,66
0,78
6,05
Qui riportiamo solo Camerun
16 paesi, 8 ad alto Tchad
reddito e 8 a basso.
Rep.CentrAfr.
Per questa analisi cross section
sono state adottate due misure:
Lo sd dei (logaritmi dei) salari
Il rapporto interdecilico
Basso reddito
Le due misure sono concordi nel descrivere una regola statistica: i divari
nelle remunerazioni occupazionali salgono al calare del reddito procapite nazionale (ma questa è già analisi bivariata!)
P.S.:Come spieghereste il fatto che Giappone e Camerun infrangono la concordanza?
La variabilità in caratteri
qualitativi
xi
60
54
48
42
36
30
24
18
12
6
0
sx
csx
cx
cdx
dx
ni
fi
xi
ni
fi
Sinistra
20
0,113 Imprenditori
23
0,130
Centrosin.
45
0,254 Docenti univers.
32
0,181
Centro
39
0,220 Manager
24
0,136
Centrodes
59
0,290 Avvocati
73
0,412
Destra
20
0,113 Commercianti
25
0,141
177
1,000
Schieramento
177
1,000 Professione
Con variabili ordinali (es. deputati per schieramento da sinistra a destra)
sarebbe impossibile misurare la variabilità attraverso la varianza (le distanze tra modalità non hanno infatti valore assoluto). Altrettanto impossibile è
applicare la varianza a variabili nominali (come la composizione della Camera per professioni).
Eppure in tutti questi casi avevamo trovato un modo per ‘misurare’ la
modalità più rappresentativa (la moda) facendo uso delle sole frequenze (e
non delle modalità). Possiamo inventarci qualcosa anche per la variabilità?
Costruire una misura di
eterogeneità
(3) (6) (9)
Y 
0,3 0,4 0,3
 Y  2,325
(5) (6) (7)
X 
0,3 0,4 0,3
 X  0,775
Confrontiamo le due v.s. Y e X: la varianza della prima è molto maggiore.
Ma supponiamo che le modalità siano soltanto le codifiche di risposte diverse a una domanda di un questionario. In Y i numeri sono più dispersi,
ma di fatto c’è lo stesso grado di uniformità o eterogeneità osservato in X:
una risposta ha avuto il 40% delle osservazioni, altre due il 30% ciascuno.
Una misura di eterogeneità deve quindi basarsi esclusivamente sulle frequenze. Noi la costruiamo a tavolino in modo che soddisfi due condizioni:
1.
L’indice sia 0 e sia 0 in assenza di variabilità, quando tutte le N osservazioni
corrispondano a una sola modalità
( A) ( B ) (C ) ( D )
Z 
0
N
0
 0
2.
L’indice sia massimo quando la popolazione si distribuisce equamente tra m
modalità con uguale frequenza 1/m.
 ( A) ( B) (C ) ( D)
W 
N / 4 N / 4 N / 4 N / 4
L’indice E di Gini
Tra gli indici che soddisfano le due proprietà uno è più semplice degli altri.
m
m
i 1
i 1
E   f i  (1  f i )  1   f i 2
In caso di assenza di eterogeneità tutte le frequenze sono nulle, tranne
quella della modalità osservata che sarà =1. Quindi E=1-1=0
In caso di massima eterogeneità tutte le m modalità hanno uguale
frequenza 1/m, quindi:
m
Emax  1   1 / m   1  m1 / m 2   m  1
2
Tre annotazioni:
i 1
m
1.
Emax è sempre inferiore a 1, e tende a 1 se le modalità sono numerose
2.
Se E ha un massimo che varia col numero delle modalità osservate
conviene relativizzare E rapportandolo al suo massimo: E*=E/ Emax.
3.
E ha un massimo, la varianza no. Ci avete fatto caso?
Calcolo di E: un esempio
Nel settore dei tubi magici operavano 5 aziende. Tuc possedeva il 50% delle
quote di mercato, Puc il 20%, le altre tre (Cuc, Muc, Gnuc) il 10% ciascuno.
Ma a un certo punto Gnuc assorbe le altre due piccole e il mercato si
semplifica a tre soli operatori. Come cambia E tra prima e dopo?
xiprima
fi
fi2
E =1-0,32=0,68
E =1-0,38=0,62
Tuc
0,5
0,25
Emax =(5-1)/5=0,80
Emax =(3-1)/3=0,67
Puc
0,2
0,04
E*=0,68/0,80=0,85
E*=0,62/0,67=0,93
Cuc
0,1
0,01
Muc
0,1
0,01
Gnuc
0,1
0,01
1
0,32
Morale: il mercato si è ‘semplificato’
perché vi operano meno attori, e l’eterogeneità apparentemente è diminuita
(da E=0,68 a E=0,62).
yipoi
fi
fi2
Tuc
0,5
0,25
Puc
0,2
0,04
Gnuc
0,3
0,09
1
0,38
Ma se ‘relativizziamo’ (presto parleremo di ‘normalizzazione’) l’eterogeneità
rispetto al numero delle modalità, troviamo che l’eterogeneità effettiva è
nettamente cresciuta (da E*=0,85 a E*=0,93). In effetti, ora Tuc avrà più
difficoltà a controllare il mercato.
Tre annotazioni su E di Gini
yi
fi
f i2
10
0,60
0,36
20
0,20
0,04
50
0,20
0,04
1,00
0,44
Posso calcolare E anche per v.s. quantitative ma ha scarso
significato. In questo
caso E=0,56 e E*=
0,84, sia che il pacchetto azionario del
20% di operatori più
importanti sia di sole
50 azioni l’uno, sia
che sia di 500!
Vi siete accorti che la
v.s. quantitativa Y qui
accanto e la v.s. nominale X della pagina
prima sono conteggi diversi degli stessi dati?
In X le quote di mercato erano frequenze
relative di possesso da
parte di diverse aziende.
In Y le quote di mercato
sono rapporti statistici
assunti come modalità e
gli attori sono accorpati
secondo la dimensione
del ‘pacchetto’.
Nelle analisi economiche
di settore, per studiare
la concentrazione di un
settore si utilizza l’indice
di Herfindal-Hirschman,
calcolato come somma
dei quadrati delle quote
di mercato di tutte le diverse imprese: H= ixi2
L’indice H è il complemento a 1 di E di Gini.
E’ minimo se c’è max
eterogeneità (polverizzazione delle quote di
settore) e vale 1 nel caso di zero-variabilità, o
max concentrazione.
Scarica

TQA.A08.MisureVarianza - Dipartimento di Sociologia