TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
LEZIONE A.6
Le distribuzioni cumulate
In questa lezione..
In questa lezione impareremo a costruire e a interpretare una funzione derivata dalla funzione di frequenza f(x).
Dapprima definiremo e costruiremo funzioni cumulate di
frequenza (dette anche funzioni di ripartizione),
Di seguito estenderemo definizioni e procedure di costruzione alla funzione speculare, detta funzione retrocumulata.
Funzioni cumulate e retrocumulate ci consentiranno, nella
prossima lezione, di introdurre l’ultimo pacchetto di ‘misure
centrali’ di una variabile statistica.
Dalla frequenza alla frequenza
cumulata
xi
ni
fi
x1
n1
f1
N1=n1
F1=f1
x2
n2
f2
N2=n1+n2
F2=f1+f2
x3
n3
f3
N3=n1+n2+n3
F3=f1+f2+f3
x4
n4
f4
N4=n1+n2+n3+n4
F4=f1+f2+f3+f4
x5
n5
f5
T=N5=n1+n2+n3+n4+n5
1=F5=f1+f2+f3+f4+f5
N
1
Ni =k=1..ink
Fi =k=1..ifk
Si dice frequenza cumulata associata alla modalità xi la frequenza di
osservare modalità di X inferiori o al più uguali ad xi :
i
Fi  Freq( X  xi )  f1  f 2    f i 1  f i   f k
k 1
Una tipologia di scale di
misurazione
Scala/proprietà
Classificazione
Ordinamento
Misurazione
Nominale
SI’
NO
NO
Ordinale
SI’
SI’
NO
Quantit.discreta
SI’
SI’
SI’
Quantit.per classi
SI’
SI’
SI’
L’operazione di cumulazione implica il concetto di ordinamento gerarchico delle modalità, quindi ha senso per le v.s. quantitative e per le
v.s. qualitative (o mutabili) che siano ordinali.
Per brevità faremo solo esempi di variabili quantitative, discrete e per
intervalli. Soprattutto per la rappresentazione grafica che introdurremo,
è buon senso applicarla solo a variabili quantitative.
Rappresentare le frequenze
cumulate
Riprendiamo l’esempio di 46 azionisti,
distribuiti secondo la dimensione del
loro pacchetto azionario.
Ni 50
Per rappresentare graficamente la cumulata di una variabile discreta seguiamo queste regole di costruzione:
La funzione esiste da -, ma fino al pri- -20
mo valore osservato ha valore 0:
F(X<10)=0
Quindi la curva viaggia terra terra come
un bruco fino alle soglie di x=10. Solo a
quel punto la curva si impenna e sale a
frequenza 35. Infatti F(X10)=f(10)=35.
45
40
35
30
25
20
15
10
5
0
Questo è il
bruco che
striscia e si
arrampica.
.
xi
0
20
40
60
80
100
Azionisti per azioni
xi
ni
Ni
10
35
35
50
9
44
100
2
46
120
Variabili discrete,
diagrammi a scalini
Continuiamo a seguire il nostro bruco,
che striscia lungo la funzione cumulata.
Tra X=10 e X=50 di nuovo la curva proseuguea lungo una retta parallela alla
ascissa: nessuna modalità è infatti osservata dopo X=10 e prima di X=50.
Ni
50
45
40
35
30
25
20
15
10
5
0
(50,44)
(100,46)
(10,35)
xi
Di nuovo a X=50 esatto (punto di di-20
0
20
40
60
80
100
120
scontinuità della funzione) la curva si
impenna in verticale e raggiunge
E così via… Risultato di questo perF(X50)= f(10)+f(50)= 44.
corso è una funzione spezzata con
la caratteristica forma di una scala.
Azionisti per azioni
Per costruire il grafico è sufficiente
xi
ni
Ni
individuare i tre punti incorniciati, a
10
35
35
partire dalle loro coordinate (xi, Ni),
e poi congiungere i diversi tratti
50
9
44
della spezzata.
100
2
46
Ancora sui diagrammi a scalini
Diagramma a ‘scalini’
Diagramma ad ‘aste’
50
Ni
(50,44)
(100,46)
(10,35)
10
0
80
60
40
xi
20
0
40
30
20
10
0
0
-20
Confrontiamo allora il diagramma (ad
aste) delle frequenze con quello (a
scalini) delle cumulate:
Nel diagramma ad aste:
La lunghezza delle barre è proporzionale a ni oppure a fi.
La v.s. discreta assume solo valori discreti: non esiste per es. f(x) per X=40
La distribuzione di frequenza assume valori solo entro il campo di variazione di X
0
20
40
60
80
100
120
Nel diagramma a scalini:
La lunghezza delle tratte verticali è proporzionale ancora a ni o a fi, dato che è
pari alla differenza tra due cumulate
successive: fi=Fi-Fi-1
La funzione assume valore anche per
modalità non osservate. Es. F(40)=F(10)
La funzione cumulata assume valore anche al di fuori del campo di variazione
della v.s.: F(-)=0 e F()=1.
Una definizione e un esempio
1
xi
ni
fi
Fi
0
20
0,10
0,10
0,8
1
30
0,15
0,25
0,6
2
70
0,35
0,60
0,4
3
50
0,25
0,85
4
20
0,10
0,95
5
10
0,05
1
200
1
0.35
(2,0.60)
0,2
(1,0.25)
0
-1
0
1
2
3
4
5
Studenti del II anno secondo il
numero di esami già sostenuti
La distribuzione cumulativa
di
frequenze
(funzione di ripartizione) di una v.s. discreta è una funzione
continua compresa tra
0 e + (tra – e + se
il
carattere
può
6assumere valori <0),
con m punti di discontinuità.
F2=F(X2)=0,60 cioè: “Il 60% degli studenti ha dato non più di due
esami” o anche “ha dato due esami o meno”
F1=F(X1)=0,25 cioè: “un quarto degli studenti ha dato al massimo 1
esame” o anche “ha dato un numero di esami inferiore a 2”
La differenza tra le due cumulate è pari alla frequenza dell’ultima
modalità sommata: F2-F1 = F(X2)- F(X1) = f(X2) = f2
Se una variabile è per classi
Leggiamo la tabella a fianco: il 74% delle
province italiane ha una densità inferiore
ai 1000 abitanti per kmq.
Ma entro quel 74% una parte (quanti?) ha
densità molto minore, per es. compresa
tra 0 e 550 Ab/kmq. Posso calcolarla?
Costruendo l’istogramma avevamo sottinteso un’ipotesi importante: entro un intervallo il carattere si presume distribuirsi uniformemente (distribuzione rettangolare)
Quindi se tra x=400 e x=1000 stanno 40
province, noi ipotizziamo che tra x=400 e
x=700 (cioè metà dell’intervallo) stiano 20
province, e tra x=400 e x=550 (cioè un
quarto della classe) stiano 10 province e
così via, segmentando all’infinito…
xi-xi+1
ni
fi
Fi
0-400
34
0,34
0,34
400-1000
40
0,40
0.74
1000-2000
26
0,26
1
100
1
Province per num. abitanti/kmq
hi
0,1
0,08
0,06
fi=
0,04
0,40
0,02
0
0
500
1000
1500
2000
2500
Partendo dall’ipotesi di
distribuzione uniforme
Se entro ciascuna classe le osservazioni si
distribuiscono in modo uniforme al crescere
continuo di X (cioè a intervalli i piccoli
quanto si vuole di X corrisponde una frequenza fi=hi·i sempre uguale) allora la cumulazione di incrementi infinitesimi costanti di frequenza produce una funzione
cumulata rettilinea.
tan g  
0,1
0,08
0,06
Area:
0,04
hi
0,02
fi= ihi
i
0
0
200
400
600
800 1000 1200

Fi  Fi 1 


xi  xi 1 
fi

 hi
i
xi-xi+1
ni
fi
Fi
0-400
34
0,34
0,34
400-1000
40
0,40
0.74
1000-2000
26
0,26
1
100
1
Province per num. abitanti/kmq
Fi
1
0,8
0,6
fi=
0,4
Fi-Fi-1
i
0,2
i
0
0
200
400
600
800 1000 1200
Variabili per classi e spezzata
delle cumulate
Per costruire il grafico della cumulata di frequenza di una v.s. per classi occorre quindi
xi-xi+1
ni
fi
Fi
0-400
34
0,34
0,34
Segnare i punti di coordinate (xi, Fi) (il 400-1000
40
0,40 0.74
punto corrispondente all’estremo su- 1000-2000 26
0,26
1
periore di una classe coincide con il
100
1
punto corrispondente all’estremo supeProvince per num. abitanti/kmq
riore della classe successiva)
Congiungere i punti successivi della
spezzata, prolungando a volontà a .
La funzione di ripartizione di una v. per classi
è una spezzata che congiunge i punti di coordinate (xi+1,Fi) partendo dal punto (x1,F0=0).
L'ipotesi di distribuzione uniforme diventa
ipotesi di crescita uniforme. La densità di
frequenza corrisponde al coefficiente angolare (tang) della spezzata in ogni segmento.
Fi 1
0,8
0,6
0,4
0,2
xi
0
-500
500
1500
2500
Un primo esempio
xi |-xi+1
fi
hi
Fi
Il 65,4% degli immigrati ha meno
di 35 anni.
15 |-25
0,157
1,57
0,157
25 |-35
0,497
4,97
0,654
I ‘giovani’ immigrati (che non raggiungono i 25 anni) sono il 15,7%.
35 |-45
0,273
2,73
0,927
45 |-65
0,073
0,37
1,000
Esempi di lettura dei dati e del grafico:
Struttura per età Immigrati
1 Fi
0,8
0,6
0,4
0,2
0
xi
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
60
55
50
45
40
35
30
25
20
15
10
5
0
10xhi
xi
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80
Un secondo esempio
fi
Fi
0 |- 20
11,5
11,5
20 |- 40
39,9
51,4
40 |- 60
31,5
82,9
60 |- 80
11,2
94,1
80 |- 100
3,4
97,5
100|-160
2,0
99,5
160|-300
0,5
1,00
xi
hi
24
20
16
12
|- xi+1
Leggere dati e grafici:
80
L’11,5% delle famiglie
lombarde ha un reddito
inferiore ai 20 milioni (di
lire) annue.
60
100
8
Fi
100
Il 99,5% ha entrate inferiori ai 100 milioni.
40
Famiglie lombarde
per reddito annuo
NB: la classe a max densità
di frequenza (20-40) nell’istogramma è quella a max
pendenza della spezzata
20
4
0
0
0
2
4
6
8
10
12
14
16
18
20
22
24
26
xi
28
30
32
0
4
8
12
16
20
24
28
32
36
40
Un terzo esempio
[xi ; xi+1)
ni
i
hi
Ni
3
0|—15
25
15
1,67
25
2,5
15|—30
30
15
2
55
2
30|—60
75
30
2,5
130
1,5
60|—120
90
60
2
220
120|—180
30
60
0,5
250
250
1
0,5
0
0
15
30
45
60
75
90 105 120 135 150 165 180
Indagine sui tempi casa-lavoro (N=250)
Attenzione:
Il 10% degli intervistati (25 su 250) impiega meno di un quarto d’ora.
Ma il 12% (30 su 250) impiega più di 2 ore.
Questa frase corrisponde a una funzione
‘cumulata
a
rovescio’.
Approfondiamo
-30
questo aspetto.
250
200
150
100
50
0
0
30
60
90
120
150
180
210
Retrocumulare
Il 10% (30 su 250) impiega più di
due ore. Ma anche: quasi la metà (il
48%) impiega non meno di un’ora.
[xi ; xi+1)
ni
Ni
Fi
NRi
FRi
0|—15
25
25
0,10
250
1,00
15|—30
30
55
0,22
225
0,90
30|—60
75
130
0,52
195
0,78
60|—120
90
220
0,88
120
0,48
I dati sono gli stessi, ma cumulati a
rovescio aprono a giudizi differenti:
120|—180
30
250
1,00
30
0,12
Quasi ¼ (22%) impiega meno di ½ ora
Ma quasi la metà impiega più di 1 ora
250
Si dice frequenza retrocumulata associata alla modalità xi la frequenza di osservare modalità di X
siperiori o almeno uguali a xi
cumulata
250
200
NB: Fr(i+1)=1-Fi
150
100
m
Fi  Freq ( X  xi )   f k
k i
retrocumulata
50
0
0
15 30 45 60 75 90 105 120 135 150 165 180 195 210
Un secondo esempio (un
classico)
Graunt per primo nel 1662 stima una ‘tavola di mortalità’ della città di Londra.
xi-xi+1
NRi
ni
Ni
Da 0 a 6
100
36
36
Essa consiste in una funzione retrocumulata. Da essa si può risalire alla distribuzione di frequenza dell’età di morte (se
100 nascono e 64 vivono almeno 6 anni,
100-64=36 sono i decessi tra 0 e 6).
Da 6 a 16
64
24
60
Da 16 a 26
40
15
75
Da 26 a 36
25
9
84
Dalla distribuzione di frequenza si può
ovviamente costruire la curva cumulata.
Da 36 a 46
16
6
90
Da 46 a 56
10
4
94
Da 56 a 66
6
3
97
Da 66 a 76
3
2
99
Da 76 a 86
1
1
100
Di 100 bambini nati a Londra nel 1662:
64 sopravvivevano a 6 anni
40 sopravvivevano a 16 anni
25 sopravvivevano a 26 anni
16 sopravvivevano a 36 anni
10 sopravvivevano a 46 anni
6 sopravvivevano a 56 anni
3 sopravvivevano a 66 anni
1 sopravviverà a 76 anni
Di 100 nati, ben 36 muoiono prima di 6
anni. In altre parole: di 100 nati solo 64
hanno età di morte maggiore o pari a 6
Curve (retrocumulate) di
“eliminazione”
100
xi-xi+1
NRi
NRi(85)
Da 0 a 6
64
98,5
Da 6 a 16
40
98,2
Da 16 a 26
25
97,4
Da 26 a 36
16
96,4
25
Da 36 a 46
10
88,3
0
Da 46 a 56
6
75,0
Da 56 a 66
3
46,6
Da 66 a 76
1
15,3
Da 76 a 86
0
1,0
75
Questi sono tutti
anni ‘guadagnati’!
50
0
20
40
60
80
100
In rosso a tratto continuo la curva retrocumulata di sopravvivenza (o di ‘eliminazione’) della città di Londra nel 1662.
In blu tratteggiata la stessa curva per la popolazione italiana maschile nel 1985.
Un confronto eloquente..
Un terzo esempio: industrial
demography
La funzione retrocumulata non è esclusiva di demografia e epidemiologia.
Interessa anche la ricerca operativa (curve di affidabilità di uno stock di
pneumatici), l’economia del lavoro (funzione di anzianità di forza lavoro
prima della pensione), l’economia industriale (cicli di vita delle imprese).
Fi
ni
FRi
xi-xi+1
Es.:‘mortalità’ di imprese nate nel 1983.
0-1
15,4
15,4
100
1-2
28,7
13,3
84,6
2-3
39,6
10,9
71,3
3-4
47,4
7,8
60,4
50
4-5
53,6
6,2
52,6
25
5-6
58,0
4,4
46,4
0
6-7
62,1
4,1
42,0
7-8
65,2
3,1
37,9
8-9
67,2
2,0
34,8
9-10
69,6
2,4
32,8
69,6
30,4
100
Domanda: la curva non
va a zero ma tende a
un asintoto intorno a
25. Che vuol dire?
75
0
3
6
9
12
Altra domanda: tracciate
l’istogramma della densità di
frequenza di X. Che significato
ha?
(Fonte: Biggiero, Caroli, 1995)
Ultimo esempio: slittamento
dei passaggi
xi|-xi+1
FRi(46)
15-20
1,00
20-25
0,93
25-30
0,49
In Friuli, nella coorte di donne nate nel 1946, le % di quelle che non
avevano ancora un figlio rispettivamente a 20, 25, 30 e 35 anni erano del 93%, 49%, 14% e 9%. Questa espressione equivale a leggere
una funzione retrocumulata (in rosso). Il confronto con la retrocumulata della coorte del 1960 (in blu) è davvero significativo.
30-35
0,14
100
35 e +
0,09
80
xi|-xi+1
FRi(60)
60
15-20
1,00
20-25
0,89
25-30
0,62
20
30-35
0,34
0
35 e +
0,21
La % di donne che non hanno esperito la maternità cresce (quasi) a ogni età. La % di ‘childlessness’ (non maternità definitiva) si alza.
40
15
20
25
30
35
Se prendiamo le donne che stanno al centro della distribuzione
ordinata secondo l’età
di maternità (50%
della cumulata), la loro età si sposta da 25
a 27 anni.
Scarica

TQA.A06.DistrCumulate - Dipartimento di Sociologia