TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.6 Le distribuzioni cumulate In questa lezione.. In questa lezione impareremo a costruire e a interpretare una funzione derivata dalla funzione di frequenza f(x). Dapprima definiremo e costruiremo funzioni cumulate di frequenza (dette anche funzioni di ripartizione), Di seguito estenderemo definizioni e procedure di costruzione alla funzione speculare, detta funzione retrocumulata. Funzioni cumulate e retrocumulate ci consentiranno, nella prossima lezione, di introdurre l’ultimo pacchetto di ‘misure centrali’ di una variabile statistica. Dalla frequenza alla frequenza cumulata xi ni fi x1 n1 f1 N1=n1 F1=f1 x2 n2 f2 N2=n1+n2 F2=f1+f2 x3 n3 f3 N3=n1+n2+n3 F3=f1+f2+f3 x4 n4 f4 N4=n1+n2+n3+n4 F4=f1+f2+f3+f4 x5 n5 f5 T=N5=n1+n2+n3+n4+n5 1=F5=f1+f2+f3+f4+f5 N 1 Ni =k=1..ink Fi =k=1..ifk Si dice frequenza cumulata associata alla modalità xi la frequenza di osservare modalità di X inferiori o al più uguali ad xi : i Fi Freq( X xi ) f1 f 2 f i 1 f i f k k 1 Una tipologia di scale di misurazione Scala/proprietà Classificazione Ordinamento Misurazione Nominale SI’ NO NO Ordinale SI’ SI’ NO Quantit.discreta SI’ SI’ SI’ Quantit.per classi SI’ SI’ SI’ L’operazione di cumulazione implica il concetto di ordinamento gerarchico delle modalità, quindi ha senso per le v.s. quantitative e per le v.s. qualitative (o mutabili) che siano ordinali. Per brevità faremo solo esempi di variabili quantitative, discrete e per intervalli. Soprattutto per la rappresentazione grafica che introdurremo, è buon senso applicarla solo a variabili quantitative. Rappresentare le frequenze cumulate Riprendiamo l’esempio di 46 azionisti, distribuiti secondo la dimensione del loro pacchetto azionario. Ni 50 Per rappresentare graficamente la cumulata di una variabile discreta seguiamo queste regole di costruzione: La funzione esiste da -, ma fino al pri- -20 mo valore osservato ha valore 0: F(X<10)=0 Quindi la curva viaggia terra terra come un bruco fino alle soglie di x=10. Solo a quel punto la curva si impenna e sale a frequenza 35. Infatti F(X10)=f(10)=35. 45 40 35 30 25 20 15 10 5 0 Questo è il bruco che striscia e si arrampica. . xi 0 20 40 60 80 100 Azionisti per azioni xi ni Ni 10 35 35 50 9 44 100 2 46 120 Variabili discrete, diagrammi a scalini Continuiamo a seguire il nostro bruco, che striscia lungo la funzione cumulata. Tra X=10 e X=50 di nuovo la curva proseuguea lungo una retta parallela alla ascissa: nessuna modalità è infatti osservata dopo X=10 e prima di X=50. Ni 50 45 40 35 30 25 20 15 10 5 0 (50,44) (100,46) (10,35) xi Di nuovo a X=50 esatto (punto di di-20 0 20 40 60 80 100 120 scontinuità della funzione) la curva si impenna in verticale e raggiunge E così via… Risultato di questo perF(X50)= f(10)+f(50)= 44. corso è una funzione spezzata con la caratteristica forma di una scala. Azionisti per azioni Per costruire il grafico è sufficiente xi ni Ni individuare i tre punti incorniciati, a 10 35 35 partire dalle loro coordinate (xi, Ni), e poi congiungere i diversi tratti 50 9 44 della spezzata. 100 2 46 Ancora sui diagrammi a scalini Diagramma a ‘scalini’ Diagramma ad ‘aste’ 50 Ni (50,44) (100,46) (10,35) 10 0 80 60 40 xi 20 0 40 30 20 10 0 0 -20 Confrontiamo allora il diagramma (ad aste) delle frequenze con quello (a scalini) delle cumulate: Nel diagramma ad aste: La lunghezza delle barre è proporzionale a ni oppure a fi. La v.s. discreta assume solo valori discreti: non esiste per es. f(x) per X=40 La distribuzione di frequenza assume valori solo entro il campo di variazione di X 0 20 40 60 80 100 120 Nel diagramma a scalini: La lunghezza delle tratte verticali è proporzionale ancora a ni o a fi, dato che è pari alla differenza tra due cumulate successive: fi=Fi-Fi-1 La funzione assume valore anche per modalità non osservate. Es. F(40)=F(10) La funzione cumulata assume valore anche al di fuori del campo di variazione della v.s.: F(-)=0 e F()=1. Una definizione e un esempio 1 xi ni fi Fi 0 20 0,10 0,10 0,8 1 30 0,15 0,25 0,6 2 70 0,35 0,60 0,4 3 50 0,25 0,85 4 20 0,10 0,95 5 10 0,05 1 200 1 0.35 (2,0.60) 0,2 (1,0.25) 0 -1 0 1 2 3 4 5 Studenti del II anno secondo il numero di esami già sostenuti La distribuzione cumulativa di frequenze (funzione di ripartizione) di una v.s. discreta è una funzione continua compresa tra 0 e + (tra – e + se il carattere può 6assumere valori <0), con m punti di discontinuità. F2=F(X2)=0,60 cioè: “Il 60% degli studenti ha dato non più di due esami” o anche “ha dato due esami o meno” F1=F(X1)=0,25 cioè: “un quarto degli studenti ha dato al massimo 1 esame” o anche “ha dato un numero di esami inferiore a 2” La differenza tra le due cumulate è pari alla frequenza dell’ultima modalità sommata: F2-F1 = F(X2)- F(X1) = f(X2) = f2 Se una variabile è per classi Leggiamo la tabella a fianco: il 74% delle province italiane ha una densità inferiore ai 1000 abitanti per kmq. Ma entro quel 74% una parte (quanti?) ha densità molto minore, per es. compresa tra 0 e 550 Ab/kmq. Posso calcolarla? Costruendo l’istogramma avevamo sottinteso un’ipotesi importante: entro un intervallo il carattere si presume distribuirsi uniformemente (distribuzione rettangolare) Quindi se tra x=400 e x=1000 stanno 40 province, noi ipotizziamo che tra x=400 e x=700 (cioè metà dell’intervallo) stiano 20 province, e tra x=400 e x=550 (cioè un quarto della classe) stiano 10 province e così via, segmentando all’infinito… xi-xi+1 ni fi Fi 0-400 34 0,34 0,34 400-1000 40 0,40 0.74 1000-2000 26 0,26 1 100 1 Province per num. abitanti/kmq hi 0,1 0,08 0,06 fi= 0,04 0,40 0,02 0 0 500 1000 1500 2000 2500 Partendo dall’ipotesi di distribuzione uniforme Se entro ciascuna classe le osservazioni si distribuiscono in modo uniforme al crescere continuo di X (cioè a intervalli i piccoli quanto si vuole di X corrisponde una frequenza fi=hi·i sempre uguale) allora la cumulazione di incrementi infinitesimi costanti di frequenza produce una funzione cumulata rettilinea. tan g 0,1 0,08 0,06 Area: 0,04 hi 0,02 fi= ihi i 0 0 200 400 600 800 1000 1200 Fi Fi 1 xi xi 1 fi hi i xi-xi+1 ni fi Fi 0-400 34 0,34 0,34 400-1000 40 0,40 0.74 1000-2000 26 0,26 1 100 1 Province per num. abitanti/kmq Fi 1 0,8 0,6 fi= 0,4 Fi-Fi-1 i 0,2 i 0 0 200 400 600 800 1000 1200 Variabili per classi e spezzata delle cumulate Per costruire il grafico della cumulata di frequenza di una v.s. per classi occorre quindi xi-xi+1 ni fi Fi 0-400 34 0,34 0,34 Segnare i punti di coordinate (xi, Fi) (il 400-1000 40 0,40 0.74 punto corrispondente all’estremo su- 1000-2000 26 0,26 1 periore di una classe coincide con il 100 1 punto corrispondente all’estremo supeProvince per num. abitanti/kmq riore della classe successiva) Congiungere i punti successivi della spezzata, prolungando a volontà a . La funzione di ripartizione di una v. per classi è una spezzata che congiunge i punti di coordinate (xi+1,Fi) partendo dal punto (x1,F0=0). L'ipotesi di distribuzione uniforme diventa ipotesi di crescita uniforme. La densità di frequenza corrisponde al coefficiente angolare (tang) della spezzata in ogni segmento. Fi 1 0,8 0,6 0,4 0,2 xi 0 -500 500 1500 2500 Un primo esempio xi |-xi+1 fi hi Fi Il 65,4% degli immigrati ha meno di 35 anni. 15 |-25 0,157 1,57 0,157 25 |-35 0,497 4,97 0,654 I ‘giovani’ immigrati (che non raggiungono i 25 anni) sono il 15,7%. 35 |-45 0,273 2,73 0,927 45 |-65 0,073 0,37 1,000 Esempi di lettura dei dati e del grafico: Struttura per età Immigrati 1 Fi 0,8 0,6 0,4 0,2 0 xi 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 60 55 50 45 40 35 30 25 20 15 10 5 0 10xhi xi 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Un secondo esempio fi Fi 0 |- 20 11,5 11,5 20 |- 40 39,9 51,4 40 |- 60 31,5 82,9 60 |- 80 11,2 94,1 80 |- 100 3,4 97,5 100|-160 2,0 99,5 160|-300 0,5 1,00 xi hi 24 20 16 12 |- xi+1 Leggere dati e grafici: 80 L’11,5% delle famiglie lombarde ha un reddito inferiore ai 20 milioni (di lire) annue. 60 100 8 Fi 100 Il 99,5% ha entrate inferiori ai 100 milioni. 40 Famiglie lombarde per reddito annuo NB: la classe a max densità di frequenza (20-40) nell’istogramma è quella a max pendenza della spezzata 20 4 0 0 0 2 4 6 8 10 12 14 16 18 20 22 24 26 xi 28 30 32 0 4 8 12 16 20 24 28 32 36 40 Un terzo esempio [xi ; xi+1) ni i hi Ni 3 0|—15 25 15 1,67 25 2,5 15|—30 30 15 2 55 2 30|—60 75 30 2,5 130 1,5 60|—120 90 60 2 220 120|—180 30 60 0,5 250 250 1 0,5 0 0 15 30 45 60 75 90 105 120 135 150 165 180 Indagine sui tempi casa-lavoro (N=250) Attenzione: Il 10% degli intervistati (25 su 250) impiega meno di un quarto d’ora. Ma il 12% (30 su 250) impiega più di 2 ore. Questa frase corrisponde a una funzione ‘cumulata a rovescio’. Approfondiamo -30 questo aspetto. 250 200 150 100 50 0 0 30 60 90 120 150 180 210 Retrocumulare Il 10% (30 su 250) impiega più di due ore. Ma anche: quasi la metà (il 48%) impiega non meno di un’ora. [xi ; xi+1) ni Ni Fi NRi FRi 0|—15 25 25 0,10 250 1,00 15|—30 30 55 0,22 225 0,90 30|—60 75 130 0,52 195 0,78 60|—120 90 220 0,88 120 0,48 I dati sono gli stessi, ma cumulati a rovescio aprono a giudizi differenti: 120|—180 30 250 1,00 30 0,12 Quasi ¼ (22%) impiega meno di ½ ora Ma quasi la metà impiega più di 1 ora 250 Si dice frequenza retrocumulata associata alla modalità xi la frequenza di osservare modalità di X siperiori o almeno uguali a xi cumulata 250 200 NB: Fr(i+1)=1-Fi 150 100 m Fi Freq ( X xi ) f k k i retrocumulata 50 0 0 15 30 45 60 75 90 105 120 135 150 165 180 195 210 Un secondo esempio (un classico) Graunt per primo nel 1662 stima una ‘tavola di mortalità’ della città di Londra. xi-xi+1 NRi ni Ni Da 0 a 6 100 36 36 Essa consiste in una funzione retrocumulata. Da essa si può risalire alla distribuzione di frequenza dell’età di morte (se 100 nascono e 64 vivono almeno 6 anni, 100-64=36 sono i decessi tra 0 e 6). Da 6 a 16 64 24 60 Da 16 a 26 40 15 75 Da 26 a 36 25 9 84 Dalla distribuzione di frequenza si può ovviamente costruire la curva cumulata. Da 36 a 46 16 6 90 Da 46 a 56 10 4 94 Da 56 a 66 6 3 97 Da 66 a 76 3 2 99 Da 76 a 86 1 1 100 Di 100 bambini nati a Londra nel 1662: 64 sopravvivevano a 6 anni 40 sopravvivevano a 16 anni 25 sopravvivevano a 26 anni 16 sopravvivevano a 36 anni 10 sopravvivevano a 46 anni 6 sopravvivevano a 56 anni 3 sopravvivevano a 66 anni 1 sopravviverà a 76 anni Di 100 nati, ben 36 muoiono prima di 6 anni. In altre parole: di 100 nati solo 64 hanno età di morte maggiore o pari a 6 Curve (retrocumulate) di “eliminazione” 100 xi-xi+1 NRi NRi(85) Da 0 a 6 64 98,5 Da 6 a 16 40 98,2 Da 16 a 26 25 97,4 Da 26 a 36 16 96,4 25 Da 36 a 46 10 88,3 0 Da 46 a 56 6 75,0 Da 56 a 66 3 46,6 Da 66 a 76 1 15,3 Da 76 a 86 0 1,0 75 Questi sono tutti anni ‘guadagnati’! 50 0 20 40 60 80 100 In rosso a tratto continuo la curva retrocumulata di sopravvivenza (o di ‘eliminazione’) della città di Londra nel 1662. In blu tratteggiata la stessa curva per la popolazione italiana maschile nel 1985. Un confronto eloquente.. Un terzo esempio: industrial demography La funzione retrocumulata non è esclusiva di demografia e epidemiologia. Interessa anche la ricerca operativa (curve di affidabilità di uno stock di pneumatici), l’economia del lavoro (funzione di anzianità di forza lavoro prima della pensione), l’economia industriale (cicli di vita delle imprese). Fi ni FRi xi-xi+1 Es.:‘mortalità’ di imprese nate nel 1983. 0-1 15,4 15,4 100 1-2 28,7 13,3 84,6 2-3 39,6 10,9 71,3 3-4 47,4 7,8 60,4 50 4-5 53,6 6,2 52,6 25 5-6 58,0 4,4 46,4 0 6-7 62,1 4,1 42,0 7-8 65,2 3,1 37,9 8-9 67,2 2,0 34,8 9-10 69,6 2,4 32,8 69,6 30,4 100 Domanda: la curva non va a zero ma tende a un asintoto intorno a 25. Che vuol dire? 75 0 3 6 9 12 Altra domanda: tracciate l’istogramma della densità di frequenza di X. Che significato ha? (Fonte: Biggiero, Caroli, 1995) Ultimo esempio: slittamento dei passaggi xi|-xi+1 FRi(46) 15-20 1,00 20-25 0,93 25-30 0,49 In Friuli, nella coorte di donne nate nel 1946, le % di quelle che non avevano ancora un figlio rispettivamente a 20, 25, 30 e 35 anni erano del 93%, 49%, 14% e 9%. Questa espressione equivale a leggere una funzione retrocumulata (in rosso). Il confronto con la retrocumulata della coorte del 1960 (in blu) è davvero significativo. 30-35 0,14 100 35 e + 0,09 80 xi|-xi+1 FRi(60) 60 15-20 1,00 20-25 0,89 25-30 0,62 20 30-35 0,34 0 35 e + 0,21 La % di donne che non hanno esperito la maternità cresce (quasi) a ogni età. La % di ‘childlessness’ (non maternità definitiva) si alza. 40 15 20 25 30 35 Se prendiamo le donne che stanno al centro della distribuzione ordinata secondo l’età di maternità (50% della cumulata), la loro età si sposta da 25 a 27 anni.