TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.10
Simmetria e ‘normalità’
In questa lezione..
In questa lezione faremo tesoro dei risultati già ottenuti, e compiremo
altri passi utili per rifinire la nostra capacità di analizzare una variabile:
Dapprima applicheremo la trasformata standard su esempi di
distribuzioni differenti, per imparare a cogliere le differenze di
forme al di là dell’ordine di grandezza e della misura di dispersione.
Daremo a questo punto una definizione della proprietà di simmetria o asimmetria di una variabil, e ne indicheremo una misura.
C’è una distribuzione simmetrica per eccellenza, di fondamentale
importanza in Statistica (soprattutto per l’inferenza): la distribuzione Normale o di Gauss. Ne faremo la conoscenza.
Impareremo infine a usare i valori tabulati delle frequenze sottese
alla distribuzione Normale ‘ridotta’ (standardizzata) per stimare –
conoscendo solo media e deviazione standard di una variabile – la
frequenza di osservare valori entro o fuori di una qualunque
‘regione di accadimento’.
La forma delle distribuzioni:
un esempio
xi-xi+1
ni
hi
zi-zi+1
hi
0,4-0,8
400
1000
-1,43--1,00
930
0,8-1,2
2000
5000
-1,00--0,57
4651
1,2-1,6
4000
10000
-0,57--0,14
9302
1,6-2,0
1600
4000
-0,14- 0,29
3721
2,0-3,0
1000
1000
0,29- 1,35
943
3,0-4,0
600
600
1,35- 2,42
561
4,0-6,0
400
200
2,42- 4,56
187
10000
9000
8000
7000
6000
5000
4000
3000
2000
1000
0
0
1
2
3
4
5
6
7
Densità
10000
ricalcolate!
Diecimila coscritti secondo il reddito familiare
m=1,732; =0,9365; Me=1,46; Md=1,40
Osserviamo una leva di coscritti secondo
il reddito familiare. La trasformata standard mostra un addensamento a sinistra,
compensato da una lunga coda a destra.
0
-2
-1
0
1
2
3
4
5
Due caratteri, una
popolazione
xi-xi+1
ni
hi
zi-zi+1
hi
50-58
20
2,5
-3,20--2,43
26
58-66
400
50,0
-2,43--1,67
526
66-74
1400
175,0
-1,67--0,91
1842
74-82
2900
362,5
-0,91--0,15
3816
82-90
2100
262,5
-0,15- 0,62
2727
90-98
2700
337,5
0,62- 1,38
3553
480
30,0
1,38- 2,91
314
98-114
10000
Diecimila coscritti secondo il peso
m=83,535; =10,483; Me=83,07; Md=78
E’ ragionevole che i redditi siano distribuiti in modo ineguale, asimmetrico.
Invece la distribuzione del peso sembra
più centrata intorno alla media: essa mostra però una marcata polarizzazione.
La trasformata standard la evidenzia.
400
360
320
280
240
200
160
120
80
40
0
40
50
60
70
80
90
100
110
Densità
ricalcolate!
-3,5
-2,5
-1,5
0
-0,5
0,5
1,5
2,5
120
Confrontare la forma
standardizzando
Se sovrappongo le due diLa distribuzione dei
stribuzioni standardizzate, faredditi è ‘asimmecendo attenzione a uniformatrica’,
quella
del
Blu:reddito
re le scale degli assi (quello
peso molto meno
orizzontale con i valori z,
quello verticale con le densità
Rosso: peso
ricalcolate), possiamo ora cogliere le differenze nella
forma delle v.s. depurate
00
dall’influenza sia dell’or-3,5
-2
dine di grandezza che della dispersione, ora tenute
Dopo l'ordine di grandezza e la dispersione,
sotto controllo.
Ma quali altri caratteri della
forma di una distribuzione
possono essere catalogati?
la terza proprietà fondamentale della forma
di una variabile è la asimmetria.
Una distribuzione ‘simmetrica’
xi-xi+1
ni
hi
zi-zi+1
hi
140-150
62
6,2
-3,36--2,40
65
150-160
606
60,6
-2,40--1,44
631
160-170
2417
241,7
-1,44--0,48
2518
170-180
3830
383,0
-0,48- 0,48
3990
180-190
2417
241,7
0,48- 1,44
2518
190-200
606
60,6
1,44- 2,40
631
200-210
62
6,2
2,40- 3,36
65
400
360
320
280
240
200
160
120
80
40
0
130
140
150
160
170
180
190
200
210
10000
Diecimila coscritti secondo la statura
m=175; =10,391; Me=175; Md=175
Consideriamo un terzo carattere. La distribuzione delle stature (Quetelet
insegna) dà veramente una sensazione
di simmetria…
-3,5
-2,5
-1,5
-0,5
0,5
1,5
2,5
3,5
Un’altra distribuzione
‘simmetrica’
xi-xi+1
ni
hi
zi-zi+1
75-85
hi
1450
145
-1,75- -1,25
2900
85-95
1400
140
-1,25- -0,75
2800
95-105
1400
140
-0,75- -0,25
2800
105-115
1500
150
-0,25– 0,25
3000
115-125
1400
140
0,25 – 0,75
2800
125-135
1400
140
0,75 – 1,25
2800
135-145
1450
145
1,25 –1,75
2900
400
360
320
280
240
200
160
120
80
40
0
m-
70
80
90
m+
100
110
120
130
140
150
10000
Coscritti secondo il Quoziente di Intelligenza
m=110; =20,02; Me=110; Md=110
Ma anche la distribuzione dei Q.I. dà la
stessa sensazione. Come definire allora la
simmetria o asimmetria di una variabile?
E, se è possibile, come misurarla?
-2
-1
0
1
2
Come definire la simmetria
Il concetto di simmetria implica un polo centrale della distribuzione, rispetto a cui si osservi questa proprietà. Immaginiamo il profilo della distribuzione di una v.s. come il fondale di un palcoscenico chiuso da un sipario.
Man mano che il sipario si apre (quindi a pari distanza a sinistra e a destra
del centro del palco) il profilo varia ma sempre con pari altezza sui due lati.
400
360
320
280
240
200
160
120
80
40
0
130
Un
sipario
è
sempr
e di
velluto
rosso
140
150
160
170
180
190
200
210
400
360
320
280
240
200
160
120
80
40
0
130
140
150
160
170
180
190
200
210
Una definizione più formale
Diamo allora una definizione più formale. Anzitutto noi non sappiamo definire la asimmetria in sé, ma solo come assenza di simmetria. Una distribuzione è asimmetrica se non è simmetrica. In generale:
Una distribuzione è simmetrica rispetto a un polo se per ogni modalità
xi = + k
ne esiste una speculare xj=–k con la medesima frequenza:
f k f k k
È abbastanza intuitivo che se X è simmetrica allora il polo centrale deve
coincidere sia con la mediana (il ‘valore di mezzo’) che con la media
aritmetica (il ‘baricentro’). Cioè = M(X) = Me(X).
Se poi la distribuzione è, come si dice, ‘regolare’ (cioè ha un unico valore
modale), la simmetria comporta la sovrapposizione delle tre misure centrali m=Me=Md. Su questa ultima proprietà si basa una misura della
asimmetria come scostamento dalla perfetta simmetria.
Definire la asimmetria
Curva skew destra
Definiamo asimmetria
“positiva" (skewness
destra) quella di una
distribuzione regolare
che presenta una coda a destra di valori
lontani dalla media e
un massimo spostato a sinistra rispetto al baricentro.
Curva skew sinistra
Rispetto alla situazione
di perfetta simmetria
possiamo distinguere
due situazioni opposte
Definiamo asimmetria
"negativa" (skewness
sinistra) quella di una
distribuzione regolare
che presenta una coda a sinistra di valori
lontani dalla media e
un massimo spostato a destra rispetto al baricentro.
Misurare la asimmetria
moda
mediana
Sk 0
media=mediana=moda
Sk = 0
media
In caso di skewness
destra la media (nel
cui calcolo entrano
tutte le xi incluse le
più alte) è trascinata
più a destra della mediana, a sua volta più
a destra della moda:
Md Me m
(m-Me) 0
Sk 0
moda
mediana
media
La differenza (m-Me),
depurata dell’effetto della
dispersione dei dati dividendola per ) è allora una buona misura di asimmetria, detta skewness:
Sk = (m-Me)/
NB: lo skewness non è
misura normalizzata tra
0 e 1 (altre lo sarebbero).
Analogamente in caso
di skewness sinistra la
media (che coinvolge
anche le xi più basse)
è trascinata più a sinistra della mediana, a
sua volta più a sinistra della moda:
m Me Md
(m-Me) 0
xi-xi+1
ni
Un miscuglio, due
distribuzioni
50-58
20
58-66
300
66-74
1100
74-82
2140
82-90
1100
90-98
300
98-114
40
400
360
320
280
240
200
160
120
80
40
0
ni
50-58
0
58-66
100
66-74
300
74-82
760
82-90
1000
90-98
2400
98-114
440
5000
m=78,13; =8,164
Me=78,04; Md=78
40
5000
xi-xi+1
Sk=+0,011
Sottogruppo con alto reddito secondo il peso
50
60
70
80
400
360
320
280
240
200
160
120
80
40
0
90
100
110
120
Sk=-0,226
La distribuzione del peso tra i 10mila coscritti
aveva forma bipolare e
una certa asimmetria
positiva
(Sk=+0,044).
Ma essa ‘mischia’ due
popolazioni distinte in
base al reddito, con differenti m, e Sk
Sottogruppo con basso reddito secondo il peso
m=88,94; =9,69
40
50
60
70
80
90
100
110
120
Me=91,13; Md=94
Una distribuzione tutta
particolare
xi-xi+1
ni
xi-xi+1
ni
140-144
9
176-178
781
144-146
10
178-180
736
146-148
16
180-182
665
148-150
27
182-184
579
150-152
45
184-186
484
152-154
72
186-188
389
154-156
108
188-190
300
156-158
159
190-192
222
158-160
222
192-194
159
160-162
300
194-196
108
162-164
389
196-198
72
164-166
484
198-200
45
166-168
579
200-202
27
168-170
665
202-204
16
170-172
736
204-206
10
172-174
781
206-210
9
174-176
796
10000
400
360
320
280
240
200
160
120
80
40
0
130
m+2=195
m-2=155
mx=175
140
150
160
170
m-=165
180
190
m+=185
200
210
xi
Torniamo alla distribuzione delle stature e
disaggreghiamo le classi. L’istogramma assume forma simmetrica e campanulare.
Se facciamo tendere gli intervalli i di base a
misure infinitesime..
La distribuzione Normale o di
Gauss
Va sotto il nome di Gauss la legge di frequenza
di una v.s. continua, dalla forma simmetrica e
campanulare, per la quale sono stati dimostrati
fondamentali risultati di convergenza, tanto da
farne una legge di riferimento o “Normale”.
1
f ( x)
e
2
x
Una distribuzione Normale con media m e
deviazione standard (la indicheremo con
N(m,) possiede queste proprietà:
( x m )2
2 2
N(m, )
Ha forma simmetrica e campanulare
Dipende da due parametri che corrispondono alle statistiche m e
Tende asintoticamente a zero per x
È unimodale, con massimo in x=m=Me
Ha due punti di flesso (dove cambia orientamento la concavità della curva) in
x=m
m-2
m-
m
m+2
m+
0
130 140 150 160 170 180 190 200 210
Due buoni motivi di interesse
Ci sono almeno due motivi di interesse per la N(m,).
Il primo è che già Gauss la identifica come legge di distribuzione degli errori accidentali intorno a una misura centrale. Il
teorema del limite centrale, formulato nel ‘900, indica nella
Normale la legge a cui converge la somma di un
numero crescente di ‘esperimenti’ ripetuti, qualunque
sia la loro distribuzione.
Il secondo motivo è che la legge di densità dipende solo dai
due parametri m e (e, e 2 = costanti!), interni alla distribuzione stessa. Quindi se noi standardizziamo le modalità di
una distribuzione osservata, qualunque ne sia la forma, la distribuzione così ‘ridotta’ N(0,1) non dipende da nessun
parametro. Insomma, una distribuzione ‘universale’!
0
5
6
7
8
9
10
11
zi
0
0
10
20
30
40
50
60
70
80
90
100
0
-4
-3
-2
-1
0
1
2
3
4
La distribuzione Normale
ridotta
Ripetiamo questo concetto, così utile e importante. Se noi constatiamo, o
sappiamo per certo (o almeno ipotizziamo) che il carattere X si distribuisce secondo una Normale di media m e deviazione standard (lo scriviamo
così: X~N(m;)), e consideriamo i valori standardizzati z=(x-m)/ questi
si distribuiranno ancora secondo una Normale, ma con media m=0 e
deviazione standard =0 (e lo scriviamo così: Z ~ N(0,1)).
f ( z)
1
e
2
z2
2
Quindi la distribuzione normale
standardizzata ha legge di densità fissa qualunque sia la distribuzione N(m,) di partenza.
L’area sottesa alla curva in un
qualunque intervallo dato è quindi
-4
fissa e tabulabile. Per esempio:
f(-1<x<1)=68,2%
34,1%
34,1%
13,6%
13,6%
2,3%
2,3%
0
-3
-2
-1
m-2 m-
m0
1
2
m+ m+2
3
4
zi
La tavola della Normale
ridotta
Per usare la tavola della
Normale ridotta N(0,1) si
cerca nella prima colonna
(intero e primo decimale) e
prima riga (secondo decimale) l’estremo superiore di
un intervallo 0<Z<z (dove
z=0 corrisponde al valore
medio): all’incrocio tra riga
e colonna di entrata si individua la frequenza di quella
regione: f(0<Z<z)=(z).
(z)=0,475
Se z=1,96
0
-4
-3
-2
-1
0
1
2
3
4
Un primo esempio
Abbiamo visto che la statura di diecimila coscritti si distribuisce secondo una
Normale, con m=175 e =10,39. Senza dover avere sottomano l’intera
distribuzione mi bastano questi due parametri e l’ipotesi che X ~ N(m,)
Per stimare per es. la frequenza di coscritti di statura compresa tra 175 (media) e
190 cm. Occorre anzitutto trasformare l’intervallo in valori z:
Se x=190 allora z=(190-175)/10,39=1,44
Nella tavola in corrispondenza di z=1,44 trovo (z)=f(0<Z<z)=0,4251.
Dunque le stature tra 175 (media) e 190 capitano nel 42,5% dei casi.
(-z)=42,5%
E se avessi voluto stimare la frequenza di
stature comprese tra 160 e 190 cm., cioè 15 cm
sopra e sotto la media? Niente di più facile, visto
che la curva è simmetrica e
(z)=42,5%
(z)=f(0<Z<z)= f(-z<Z<0)=(-z)
Quindi f(-z<Z<z)=2(z)=85%
0
130
140
150
160
170
180
190
200
210
Un secondo esempio
Prendiamo ora la distribuzione del peso dei coscritti. Supponiamo di non avere
l’intera distribuzione ma solo i parametri m=83,5 e =10,5. Per avere una stima
della frequenza di osservazioni compresi tra 82 e 90 chili, facciamo la solita ipotesi
che X ~ N(m,).
Ora però l’intervallo non è centrato sulla media (è spostato a destra). Calcoliamo
separatamente due frequenze (sapendo che (-z)= (z)):
f{m<X<90}=f{0<Z<(90-m)/)}=f{0<Z<0,62}=(0,62)=0,2324
f{82<X<m}=f{(82-m)/<Z<0}=f{-0,14<Z<0}=(-0,14)=(0,14)=0,0557
f{82<X<90}= (0,62)+ (0,14)=0,2324+0,0557=0,288=28,8%
(0,62)=23,2%
(-0,14)=5,6%
In base all’ipotesi di normalità di X si stima che tra 82 e
90 chili stia il 29% dei casi. In realtà la v.s. X ha un ‘buco’
proprio in quella classe che contiene solo il 21% delle
osservazioni. Ma più di così non potevamo fare!
0
-4
-3
-2
-1
0
1
2
3
4
Un ultimo esempio
A volte siamo interessati a stimare la
frequenza di casi non entro una data regione, bensì al di fuori di essa. Per es.:
(k*)
0,5-(k*)
La frequenza dei bocciati
La frequenza di frecce scagliate fuori bersaglio (troppo a destra e troppo a sinistra)…
Sappiamo che la distribuzione del peso
dei coscritti ha m=83,5 e =10,5. Fissiamo una soglia critica a k=m+2=104,5
chili e chiediamo: date le diverse distribuzioni per alti e bassi redditi, quale
sarà nei due casi la frequenza di ragazzi sovrappeso? Detto k* il valore standardizzato (k-m)/, vale la relazione:
0
-4
-3
-2
-1
0
1
2
3
Alto reddito: m=78,1; =8,16
K*=(104,5-78,1)/8,16=3,23
½ - (3,23)=0,5 – 0,4995 0
Basso reddito: m=88,9; =9,69
K*=(104,5-88,9)/9,69=1,61
½ - (1,61)=0,5 – 0,4463=5,4%
f(X>k)=f(Z>k*)=f(0<Z<)-f(0<Z<k*)=(+)- (k*)=0,5 - (k*)
4
Un confronto con Cebicev
L’assunzione di normalità di una distribuzione, la standardizzazione di una
variabile e l’uso della tavola della N(0,1) ci
consentono, dati solo m e , di avanzare
una valutazione della frequenza di osservazioni in un certo intervallo:
f{m-z<X<m+z}= f{-z<Z<z}=2(z)
Con un po’ di esercizio si può valutare
qualunque frequenza, interna o esterna a
una data regione, a sua volta centrata
intorno alla media o no.
La valutazione così ottenuta della frequenza f{|x-m|z} (espressione equivalente a quella sopra) è comunque assai
più elevata del ‘pavimento’ fissato dal
teorema di Cebicev [=1-(1/z2)].
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
z
2(z)
1-(1/z2)
1,0
68,3%
0
1,5
86,6%
55,5%
2,0
95,4%
75,0%
2,5
98,8%
84,0%
3,0
99,7%
88,9%
5