TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.7
Ancora sulle modalità centrali
In questa lezione..
In questa lezione faremo conoscenza con un’ultima famiglia di misure
centrali di una distribuzione:
 La mediana
 I quartili, i percentili e in generale i ‘quantili’
Si tratta di misure che si applicano a variabili (almeno) ordinabili, e
che si basano sulle frequenze cumulate o retrocumulate.
Di queste misure vedremo la logica e le procedure di calcolo.
Mentre la mediana è una misura di posizione centrale, quartili e
percentili ci introducono alla descrizione della variabilità.
La mediana
La mediana Me(X) è la modalità che occupa il posto centrale
nella sequenza ordinata dei dati.
Lk  xk  
Si dimostra che se la funzione di perdita è
N
1
allora:
D
 xk    min per  = Me(X)
k 1N

Ricordiamo che la media aritmetica rende minima una misura quadratica
del “danno” prodotto dagli errori che si compiono sostituendo la media
stessa alle effettive osservazioni.
Pensavamo che questa piacevole proprietà dipendesse dal fatto che
M(X) è una media ‘analitica’, cioè coinvolge nel conto tulle le modalità e
numerosità della v.s.
Ora troviamo che anche la Mediana possiede una proprietà simile.
Eppure essa è solo una media ‘lasca’. Basta vedere come si calcola..
Calcolo della mediana per
serie ordinate
La mediana è la modalità osservata nell’unità di analisi che si
colloca al centro nella serie statistica in ordine crescente. Essa
lascia metà popolazione a sinistra e metà a destra nella sequenza ordinata. Il calcolo di Me(X) discende immediatamente dalla
definizione, nel caso di seriazione disaggregata, distinguendo due casi:
N=pari=2r  Me 
N=dispari=2r+1 
1
2
  X N   X N 1
2
 2

Me  X N 1 
2
Quindi per calcolare la mediana non si richiedono modalità quantitative
(bastano ordinali!) e soprattutto non si coinvolgono nel calcolo tutte le
modalità, ma solo quella che sta al centro della sequenza ordinata.
Calcolo della mediana per
variabili discrete
Se le informazioni sono ricodificate in forma di variabile statistica il criterio di calcolo non cambia. Solo, non dovremo cercare la mediana nella
sequenza ordinata delle N osservazioni, ma in quella delle k (<N)
modalità, contraddistinte dalle rispettive frequenze fk e cumulate Fk.
Il calcolo non passerà quindi più dall’enumerazione di tutte le modalità
osservate, ma dall’applicazione di una semplice procedura sulle frequenze cumulate.
«Il valore mediano corrisponde alla modalità xk la cui cumulata Fk è la prima a raggiungere o superare FMe = ½ »
xk = Me(X)
SSE
Fk  0.5 e Fk–1 < 0.5
Un esempio e la sua
percezione grafica
xi
ni
Fi
0
20
0,10
1
30
0,25
2
70
0,60
3
50
0,85
4
20
0,95
5
10
1
200
F(1)=0,25 è
meno di 0,50:
proseguiamo…
1
0,8
0,6
F=0,5
F(2)=0,60 è più
di 0,50: allora
Me(X) è 2, la
modalità
corrispondente!
0,4
0,2
0
-1
0
1
2
3
4
5
6
Me(X)
N.esami dati
Si può determinare Me(X) anche dal grafico a scalini della funzione cumulata:
Sull’asse verticale si individua il valore 0,5: da lì si fa partire una linea
orizzontale, che incrocia generalmente la curva in un tratto verticale.
Da quel punto di scende in verticale, e si trova il valore cercato.
Quando l’unità mediana non
esiste
Può capitare che a una modalità si trovi esattamente Fk=0.5 (possibile
per N pari): il 50% dei casi si raggiunge esattamente in corrispondenza
di un salto di modalità.
In questo caso si prende come mediana il valore centrale tra la
modalità k e la successiva, anche se esso può essere un valore fittizio.
Me(X) = (xk+1+xk)/2
xi
ni
Fi
0
20
0,10
1
30
0,25
2
50
0,50
3
70
0,85
4
20
0,95
5
10
1
200
SSE
Fk = 0.5 e Fk–1 < 0.5
1
F(2) ora è
proprio 0,50. X2
è os-servato nel
50% dei casi.
L’osser-vazione
successi-va è 3.
Me(X)=
(2+3)/2=2,5
0,8
0,6
0,4
0,2
0
-1
0
1
2
3
Me(X)
4
5
6
Calcolo della mediana per
variabili per classi
Consideriamo ora una v.s. segmentata in m classi Ik=(IXk,SXk), dove
l'estremo superiore SXk della classe coincidere con l'estremo inferiore IXk+1
della classe successiva. Ci sarà un punto C all’interno di una classe tale
che, se alziamo da C una verticale, essa spaccherà l’area sottesa
all’istogramma esattamente in due: il 50% a sinistra, il 50% a destra.
In questo caso applicheremo il criterio già dato per individuare non il
valore mediano, ma la "classe mediana":
Ik = Classe Me(X) SSE Fk  0.5 e Fk–1 < 0.5
xi-xi+1
ni
fi
Fi
0-400
34
0,34
0,34
400-1000
40
0,40
0.74
1000-2000
26
0,26
1
100
1
Province per num. abitanti/kmq
La classe
mediana è
(400-1000).
Ma quale è
con precisione il punto
C?
0,1
0,08
0,06
0,04
0,02
C
0
0
500
1000
1500
2000
2500
Calcolo della mediana per
interpolazione
‘Zummiamo’ sul segmento 400- MeIxk FMe  Fk 1

1000 della funzione cumulata.
Fk  Fk 1
Sxk I xk
Per trovare il valore mediano a
cui corrisponde F(Me)=0,5 esaminiamo i due triangoli OAB e OCD,
che insistono sullo stesso angolo.
0,8
“OB sta a OD come BA sta a DA”
0,4
Ma ognuno di questi cateti è misurabile in termini di modalità e
frequenze cumulate, tutte osservate (FMe=0,5) tranne la nostra
incognita: Me.
Fi
1
La geometria di Talete spiega che
i rapporti tra i cateti corrispondenti dei due triangoli sono uguali
MeIxk FMe  Fk 1

k
fk

C
0,6
fk =
A
Fk-Fk-1
FMe-Fk-1
O
B
D
Me-Ixk
0,2
i =SXk-IXk
0
0
200
400
600
800 1000 1200
Una lettura di basso profilo
dell’interpolante
Abbiamo ottenuto la formula per calcolare la mediana per interpolazione
in modo ‘alto’, partendo da Talete.
Ma possiamo anche trascurare Talete,
leggere la formula e interpretarla in
modo letterale:
1
0,8
Nota:
Me(X)=640 ma
M(X)=738
0,6
½
0,4
0,2
0
-500
640
500
1500
2500
3500
Me=I xk   k 
1
2
 Fk 1
fk
0,50  0,34

0,40
 400  600  0,40  400  240  640
Me = 400  600 
Se la classe mediana va da 400 a
1000, il valore mediano sarà pari
all’estremo inferiore della classe
(400) più una quota dell’intervallo
della classe stessa (1000-400=600).
Tale quota % è posta uguale alla
quota di frequenza della classe
mediana che serve per arrivare al
50% della cumulata.
Un secondo esempio
Stimiamo l’età mediana degli immigrati in Lombardia
xi |-xi+1
fi
Fi
La classe mediana è 25-35), la prima la cui
cumulata supera il 50%.
15 |-25
0,157
0,157
25 |-35
0,497
0,654
Me(X)=25+10(0,500-0,157)/0,497]=25+10
(0,343/0,497)=25+ 100,69=25+6,9=31,9
35 |-45
0,273
0,927
45 |-65
0,073
1,000
Nota: M(X)=33 > Me(X)=31,9 > Md(X)=30
1
0,8
0,6
0,4
0,2
0
Me=
31,9
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Immigrati per età
60
55
50
45
40
35
30
25
20
15
10
5
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Un terzo esempio
La classe mediana è 20-40)
24
hi
100
Fi
Me(X) =
20
20+20(0,500-0,115)/0,399]=
xi
80
20+200,385/0,399]=
16
20+200,965= 20+19,3= 39,3
60
M=43,6>Me=39,3>Md=30
12
40
8
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
0
32 0
xi
0 |- 20
11,5
20 |- 40
51,4
40 |- 60
82,9
60 |- 80
94,1
80 |- 100
97,5
100|-160
99,5
160|-300
1,00
Famiglie lombarde
per reddito annuo
20
4
0
Fi
|- xi+1
4
8
12
16
20
24
28
32
36
40
Le invenzioni dei fratelli
Huysgens
Torniamo alla tavola della distribuzione delle
età di morte stimata da Graunt nel 1662.
Quello che non sappiamo è che essa segna
anche la data di nascita di due pietre miliari
della statistica: media e mediana.
La tavola viene infatti vista da due fratelli
olandesi, astronomi e assicuratori. In ottobre 1669 scrive Luis a Christian Huysgens:
“Ho trovato una misura interessante di vita
media: l’intensità totale di anni vissuti equiripartiti. Sarà m(X)=1822/100=18,22.
Nasce l’età media: 18 anni e un tanto.
xi-xi+1
xi
ni
xi ni
Da 0 a 6
3
36
108
Da 6 a 16
11
24
264
Da 16 a 26
21
15
315
Da 26 a 36
31
9
279
Da 36 a 46
41
6
246
Da 46 a 56
51
4
204
Da 56 a 66
61
3
183
Da 66 a 76
71
2
142
Da 76 a 86
81
1
81
100
1822
Bello, vero? Ma una settimana dopo (potenza delle poste) il fratello
Christian risponde acidamente (come succede tra fratelli): “Non mi
consegue che 18 anni e 2 mesi sia l'età di ogni persona concepita...
Qualità nascoste della
mediana: robustezza
“..Supponiamo che gli uomini siano ancora più deboli e
su 100 ne muoiano 90 nei primi 6 anni; ma che quelli
che superano tale età siano dei Nestori e dei Matusalemmi e vivano fino a 152 anni e 2 mesi. Tu otterresti
lo stesso numero e tuttavia chi scommettesse che un
nato pervenga all'età di 6 anni ne avrebbe un gran
danno poiché di 10 solo 1 arriva a quel traguardo…”
xi-xi+1
xi
ni
xi ni
Da 0 a 6
3
90
270
155,2
155,2
10
1552
Da 16 a 26
21
100
1822
La media resta 18,22
(ma Christian aveva
sbagliato i calcoli..)
Conclude Christian: “Son cose differenti la speranza
dell'età futura di una persona e l'età a cui v'è
uguale probabilità che egli arrivi o non arrivi. Il
primo valore serve per calcolare i vitalizi e il secondo
per le scommesse”. E’ la nascita della mediana!!
xi-xi+1
Ni
Da 0 a 6
36
Da 6 a 16
60
Da 16 a 26
75
Da 26 a 36
84
Da 36 a 46
90
Da 46 a 56
94
Da 56 a 66
97
Da 66 a 76
99
Da 76 a 86
100
Mediana = Me(X) =
6+10*(50-36)/24=
=6+10*(14/24)=
=11,83<18,22=M(x)
Robustezza e sensitività
Dall'esempio dei fratelli Huysgens si capisce come la media aritmetica
risenta molto più della mediana delle fluttuazioni dei valori estremi
osservati. In altre parole, "forme" particolari della distribuzione sono
percepite con forte sensitività dalla media aritmetica. La sensitività è una
grande qualità della media, ma talvolta può produrre effetti imprevedibili..
Robustezza è la qualità di una misura di rilevare il "vero" ordine di
grandezza delle osservazioni, senza lasciarsi influenzare da variazioni "marginali" nella distribuzione.
La robustezza è quindi una proprietà desiderabile per un indice di
posizione, che può far propendere per una misura invece che per un'altra
quando (come nel caso degli Huysgens e delle assicurazioni sulla vita) tale
proprietà sia ritenuta imprescindibile.
La mediana è una misura robusta dell'ordine di grandezza
del fenomeno osservato.
L’opposto della robustezza è la sensitività.
Una simulazione
X sia il fatturato di 10 imprese.
Conosciamo il
valore di
9
imprese, ma dell’ultima sappiamo
solo che è compreso tra 0 e 100.
65
{39,44,53,60,62,66,71,74,81,k}
59
Come varia M(X) al variare di x10,
e come varia Me(X)?
57
xi 550  k
1
mx   
 55   k
10
10
i 1 10
10
 61 se 0  k  60
 k + 62
Me x  
se 60  k  66
 2
 64 se 66  k  100
63
61
55
0
20
40
60
80
100
La media (tratto continuo) è ‘sensibile’ al variare di x10, la mediana invece non risente proprio di variazioni che avvengano ‘sulle code’.
Robustness e Sensitivity sono
due qualità opposte. Il tipo di dati a
disposizione suggerirà quale media
è più adatta.
Mediana in variabili per classi
La tabella mostra i dati relativi ad un campione di 560 persone cui è stato chiesto l’ammontare del loro reddito annuale in migliaia di euro.
Entrate
[0; 5)
numerosità
20
Calcolate il
valore medio
e la mediana
Valori centrali
cumulate
intensità
2,5
20
50
7,5
220
1500
[5; 10)
200
[10; 20)
250
15
470
3750
[20; 30)
50
25
520
1250
[30; 50)
30
40
550
1200
[50; 70)
10
60
560
600
560
Aggiungiamo
le colonne di
calcolo di destra.
8350
Media = Intensità totale / Numerosità Totale = 8350/560 = 14,911
Classe mediana = la prima la cui cumulata supera N/2=280: [10; 20)
Mediana = 10+10 * (280-220)/(470-220) = 10+10 * (60/250) = 12,4
Cumulate e retrocumulate
[1-500)
[500-1000)
[1000-1500)
[1500-2000)
[2000-5000)
ni
100
300
400
150
50
1000
fi
0.10
0.30
0.40
0.15
0.05
1.00
Consideriamo
gli
stipendi
mensili degli impiegati in una
società. Qual è la quota di
persone che non guadagnano
meno di x euro?
F1
F2
F3
F4
F5
=
=
=
=
=
f1 = 0.1
F1 + f2 =
F2 + f3 =
F3 + f4 =
F4 + f5 =
(quota di persone con meno di 500 euro di stipendio)
0.40 (quota di persone con meno di 1000 euro)
0.80 (quota di persone con meno di 1500 euro)
0.95 (quota di persone con meno di 2000 euro)
1.00 (quota di persone fino a 5000 euro)
R1
R2
R3
R4
R5
=
=
=
=
=
1.00
R1 - f1
R2 - f2
R3 - f3
R4 - f4
(quota di persone con almeno un euro di stipendio)
0.90 (quota di persone con almeno 500 euro)
0.60 (quota di persone con almeno 1000 euro)
0.20 (quota di persone con almeno 1500 euro)
0.05 (quota di persone con almeno 2000 euro)
=
=
=
=
La mediana come intersezione
Spezzata delle frequenze cumulate e retrocumulate
1
1
1
0.95
0.9
0.9
0.8
0.8
Cumulate
0.7
0.6
0.6
NB: le due curve si intersecano in X=Mediana
0.5
0.4
0.4
Retrocumulate
0.3
0.2
0.2
0.1
0.1
5000
4500
4000
3500
3000
2500
2000
0
1500
500
0
0
1000
0
Mediana
0.05
Media, mediana e dati troncati
xi-xi+1
ni(A)
ni(B)
0-1
15,4
15,4
1-2
13,3
13,3
2-3
10,9
10,9
3-4
7,8
7,8
4-5
6,2
6,2
5-6
4,4
4,4
6-7
4,1
4,1
7-8
3,1
3,1
8-9
2,0
2,0
9-10
2,4
2,4
10-12
30,4
0
28-32
0
30,4
Supponiamo di seguire una popolazione nella sua evoluzione (es.: mortalità di una coorte di imprese).
Qui la media aritmetica è una misura centrale poco
affidabile, perché la ‘coda’ di imprese longeve è
ancora in vita. Otterremmo così medie assai diverse
nel caso in cui tutte le imprese ancora in attività
chiudano tra il 10° e il 12° anno (caso A), oppure,
poniamo, tutte tra il 28° e il 32° anno (caso B).
10
mx( A)   xi f i  x11 f11  2,24  (11  0,304)  8,58
i 1
10
mx( B )   xi f i  x11 f11  2,24  (30  0,304)  11,36
i 1
La media aritmetica varia davvero molto, invece la mediana è robusta: 4,42
Dalla mediana al quantile
La Mediana fornisce, a partire dalle cumulate, una misura della modalità “che sta nel mezzo”. Ma possiamo anche chiederci, per esempio:
Qual è il reddito familiare sopra cui sta nella fascia medio-alta, che divide
la popolazione non ‘fifty-fifty’, 50% a sinistra e 50% a destra ma per es.
75% a sinistra (redditi inferiori) e 25 a destra?
Qual’è la soglia di reddito oltre cui sta la fascia bassa, la soglia per
esempio che discrimina il 20% meno benestante?
Dove porre la ‘soglia della povertà’ che segnali il 10% più povero?
Sono tutte (compresa la mediana!) varianti di una stessa famiglia di
misure (‘quantili’) che scandiscono i valori assunti da una v.s. in
corrispondenza di ‘posti significativi in graduatoria’:
Il reddito che lascia a sinistra ¾ delle famiglie è un ‘quartile’
Il reddito che lascia a sinistra 1/5 delle famiglie è un ‘quintile’
Il reddito che lascia a sinistra 1/10 delle famiglie è un ‘decile’..
Secondo le esigenze, useremo quantili larghi (quartili) o dettagliati
(decili).
Quartili, quintili, decili per
variabili discrete
Il calcolo di un quantile è simile al calcolo della Mediana. Per v.s. discrete:
«Il c-mo quartile è la modalità xk la cui cumulata Fk è la prima a raggiungere
o superare Fk=c/4:
xk=4Qc(X) SSE Fkc/4 e Fk–1<c/4»
«Il c-mo quintile è la modalità xk la cui cumulata Fk è la prima a raggiungere
o superare Fk=c/5:
xk=5Qc(X) SSE Fkc/5 e Fk–1<c/5»
«Il c-mo decile è la modalità xk la cui cumulata Fk è la prima a raggiungere o
superare Fk=c/10:
xk=10Qc(X) SSE Fkc/10 e Fk–1<c/10»
xi
ni
Fi
0
20
0,10
1
30
0,25
2
70
0,60
3
50
0,85
4
20
0,95
5
10
1
N.esami dati
Quartili:
4Q1(X)=1,5
4Q2(X)=2=Me
4Q3(X)=3
Quintili:
5Q1(X)=1
5Q2(X)=2
5Q3(X)=2,5
5Q4(X)=3
Per es. il secondo quintile
5Q2(X) è la modalità che
lascia alla sua sinistra (valori inferiori) il 40% delle
osservazioni,
alla sua
destra il 60%.
La mediana è il II quartile.
Quartili, quintili, decili per
variabili per classi
Anche per v. per classi il calcolo di un quantile è simile a quello di Me(X).
Una volta individuata la ‘classe quantile’, si interpola. Per es.:
c-mo
quartile
c-mo
quintile
c-mo
decile
c-mo
percentile
4 Q c = I xk   k 
c
5 Q c = I xk   k 
c
10 Q c = I xk   k 
c
100 Q c = I xk   k 
c
4
5
10
100
 Fk 1
fk
 Fk 1
fk
 Fk 1
fk
 Fk 1
fk
Percentile è il valore al quale o
al di sotto del quale si trova
una specifica percentuale delle
osservazioni di una v.s.
Ad esempio il 60° percentile è quel
valore che divide il gruppo di dati
in due parti: il 60% a sinistra e il
40% a destra di esso (coincide
quindi col terzo quintile).
I decili vengono spesso usati in
studi di politica economica (per indicare i livelli di reddito di scaglioni
‘decimali’ di popolazione).
I percentili sono molto usati nei
test psicologici.
Un esempio: quartili dell’età di
maternità
Cumulata di donne friulane che hanno avuto un figlio per età (coorti ’46-’60).
100
xi|-xi+1 Fi(46)
1Q4(X)=20+50,18/0,44]=22,0 80
15-20
0,07
20-25
0,51
25-30
0,86
30-35
0,91
2Q4(X)=20+50,43/0,44]=24,9
3Q4(X)=25+50,24/0,35]=28,4
60
40
20
Interessante: da una coorte all’altra il primo 0
quartile non varia granché (i calendari ‘precoci’
hanno quasi lo stesso peso), ma slittano in100 15
avanti la mediana e soprattutto il 3° quartile
80
xi|-xi+1
Fi(60)
15-20
0,11
20-25
0,38
25-30
0,66
30-35
0,79
20
25
30
35
20
25
30
35
60
Q
(X)=20+50,14/0,27]=22,6
1 4
40
2Q4(X)=25+50,12/0,28]=27,1 20
3Q4(X)=30+50,09/0,13]=33,5
0
15
Un esempio: decili dei
redditi a Milano
|- xi+1
Fi(MIL)
Fi(PIC)
0,0 |- 0,8
35
11
0,8 |- 1,2
44
25
1,2 |- 1,6
105
113
1,6 |- 2,0
193
279
2,0 |- 2,4
272
419
2,4 |- 2,8
474
615
2,8 |- 3,2
570
723
3,2 |- 3,6
702
803
3,6 |- 4,0
772
851
4,0 |- 4,4
825
916
4,4 |- 4,8
851
940
4,8 |- 5,2
877
957
5,2 |- 6,0
903
976
6,0 |- 8,0
974
996
1000
1000
xi
8,0 |- 12
Calcoliamo i decili delle distribuzioni dei redditi
mensili familiari ‘equivalenti’ stimate per Milano
e per i piccoli comuni della regione dalla Survey
Lombarda 2000.
Nella colonna delle cumulate trovo la prima
classe di reddito che raggiunge o supera il 10,
20, 30.. 90%. Entro la classe decile così
individuata applico la formula:
10
Q c = I xk   k 
c
10
 Fk 1
fk
Per es. primo e secondo decile di Milano sono:
1Q10(X)
MIL=1,2+0,4*(0,100-0,044)/(0,105-0,044)=1,567
2Q10(X)
MIL=2,0+0,4*(0,200-0,193)/(0,272-0,193)=2,035
Leggere i decili di reddito
Poveri si è nella stessa misura in città e fuori:
il primo decile (reddito max del 10% più povero) è lo stesso. Anche il primo quartile
(reddito del 25% più povero) non varia molto.
decile
Ma al crescere del decile la divaricazione cresce. La superiorità del reddito medio a Milano
è dovuta alla maggiore dispersione dei redditi
in città. Misuriamo la dispersione con le differenze tra quantili a ugual distanza dalla mediana: siamo già dentro alla prossima lezione!
Differenza
interquantilica
D.i.Q
Milano
D.i.Q
Paesi
9Q10(X)- 1Q10(X)
4,341
2,760
4Q5(X)- 1Q5(X)
2,176
1,775
3Q4(X)- 1Q4(X)
1,585
1,405
KQ10(X)
MIL
KQ10(X)
PIC
I
1,567
1,541
II
2,035
1,810
III
2,455
2,060
IV
2,653
2,346
V
2,908
2,565
VI
3,291
2,769
VII
3,594
3,115
VIII
4,211
3,585
IX
5,908
4,301
quart.
KQ4(X)
MIL
KQ4(X)
PIC
I
2,289
1,930
II
2,908
2,565
III
3,874
3,335
Scarica

document