TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.7 Ancora sulle modalità centrali In questa lezione.. In questa lezione faremo conoscenza con un’ultima famiglia di misure centrali di una distribuzione: La mediana I quartili, i percentili e in generale i ‘quantili’ Si tratta di misure che si applicano a variabili (almeno) ordinabili, e che si basano sulle frequenze cumulate o retrocumulate. Di queste misure vedremo la logica e le procedure di calcolo. Mentre la mediana è una misura di posizione centrale, quartili e percentili ci introducono alla descrizione della variabilità. La mediana La mediana Me(X) è la modalità che occupa il posto centrale nella sequenza ordinata dei dati. Lk xk Si dimostra che se la funzione di perdita è N 1 allora: D xk min per = Me(X) k 1N Ricordiamo che la media aritmetica rende minima una misura quadratica del “danno” prodotto dagli errori che si compiono sostituendo la media stessa alle effettive osservazioni. Pensavamo che questa piacevole proprietà dipendesse dal fatto che M(X) è una media ‘analitica’, cioè coinvolge nel conto tulle le modalità e numerosità della v.s. Ora troviamo che anche la Mediana possiede una proprietà simile. Eppure essa è solo una media ‘lasca’. Basta vedere come si calcola.. Calcolo della mediana per serie ordinate La mediana è la modalità osservata nell’unità di analisi che si colloca al centro nella serie statistica in ordine crescente. Essa lascia metà popolazione a sinistra e metà a destra nella sequenza ordinata. Il calcolo di Me(X) discende immediatamente dalla definizione, nel caso di seriazione disaggregata, distinguendo due casi: N=pari=2r Me N=dispari=2r+1 1 2 X N X N 1 2 2 Me X N 1 2 Quindi per calcolare la mediana non si richiedono modalità quantitative (bastano ordinali!) e soprattutto non si coinvolgono nel calcolo tutte le modalità, ma solo quella che sta al centro della sequenza ordinata. Calcolo della mediana per variabili discrete Se le informazioni sono ricodificate in forma di variabile statistica il criterio di calcolo non cambia. Solo, non dovremo cercare la mediana nella sequenza ordinata delle N osservazioni, ma in quella delle k (<N) modalità, contraddistinte dalle rispettive frequenze fk e cumulate Fk. Il calcolo non passerà quindi più dall’enumerazione di tutte le modalità osservate, ma dall’applicazione di una semplice procedura sulle frequenze cumulate. «Il valore mediano corrisponde alla modalità xk la cui cumulata Fk è la prima a raggiungere o superare FMe = ½ » xk = Me(X) SSE Fk 0.5 e Fk–1 < 0.5 Un esempio e la sua percezione grafica xi ni Fi 0 20 0,10 1 30 0,25 2 70 0,60 3 50 0,85 4 20 0,95 5 10 1 200 F(1)=0,25 è meno di 0,50: proseguiamo… 1 0,8 0,6 F=0,5 F(2)=0,60 è più di 0,50: allora Me(X) è 2, la modalità corrispondente! 0,4 0,2 0 -1 0 1 2 3 4 5 6 Me(X) N.esami dati Si può determinare Me(X) anche dal grafico a scalini della funzione cumulata: Sull’asse verticale si individua il valore 0,5: da lì si fa partire una linea orizzontale, che incrocia generalmente la curva in un tratto verticale. Da quel punto di scende in verticale, e si trova il valore cercato. Quando l’unità mediana non esiste Può capitare che a una modalità si trovi esattamente Fk=0.5 (possibile per N pari): il 50% dei casi si raggiunge esattamente in corrispondenza di un salto di modalità. In questo caso si prende come mediana il valore centrale tra la modalità k e la successiva, anche se esso può essere un valore fittizio. Me(X) = (xk+1+xk)/2 xi ni Fi 0 20 0,10 1 30 0,25 2 50 0,50 3 70 0,85 4 20 0,95 5 10 1 200 SSE Fk = 0.5 e Fk–1 < 0.5 1 F(2) ora è proprio 0,50. X2 è os-servato nel 50% dei casi. L’osser-vazione successi-va è 3. Me(X)= (2+3)/2=2,5 0,8 0,6 0,4 0,2 0 -1 0 1 2 3 Me(X) 4 5 6 Calcolo della mediana per variabili per classi Consideriamo ora una v.s. segmentata in m classi Ik=(IXk,SXk), dove l'estremo superiore SXk della classe coincidere con l'estremo inferiore IXk+1 della classe successiva. Ci sarà un punto C all’interno di una classe tale che, se alziamo da C una verticale, essa spaccherà l’area sottesa all’istogramma esattamente in due: il 50% a sinistra, il 50% a destra. In questo caso applicheremo il criterio già dato per individuare non il valore mediano, ma la "classe mediana": Ik = Classe Me(X) SSE Fk 0.5 e Fk–1 < 0.5 xi-xi+1 ni fi Fi 0-400 34 0,34 0,34 400-1000 40 0,40 0.74 1000-2000 26 0,26 1 100 1 Province per num. abitanti/kmq La classe mediana è (400-1000). Ma quale è con precisione il punto C? 0,1 0,08 0,06 0,04 0,02 C 0 0 500 1000 1500 2000 2500 Calcolo della mediana per interpolazione ‘Zummiamo’ sul segmento 400- MeIxk FMe Fk 1 1000 della funzione cumulata. Fk Fk 1 Sxk I xk Per trovare il valore mediano a cui corrisponde F(Me)=0,5 esaminiamo i due triangoli OAB e OCD, che insistono sullo stesso angolo. 0,8 “OB sta a OD come BA sta a DA” 0,4 Ma ognuno di questi cateti è misurabile in termini di modalità e frequenze cumulate, tutte osservate (FMe=0,5) tranne la nostra incognita: Me. Fi 1 La geometria di Talete spiega che i rapporti tra i cateti corrispondenti dei due triangoli sono uguali MeIxk FMe Fk 1 k fk C 0,6 fk = A Fk-Fk-1 FMe-Fk-1 O B D Me-Ixk 0,2 i =SXk-IXk 0 0 200 400 600 800 1000 1200 Una lettura di basso profilo dell’interpolante Abbiamo ottenuto la formula per calcolare la mediana per interpolazione in modo ‘alto’, partendo da Talete. Ma possiamo anche trascurare Talete, leggere la formula e interpretarla in modo letterale: 1 0,8 Nota: Me(X)=640 ma M(X)=738 0,6 ½ 0,4 0,2 0 -500 640 500 1500 2500 3500 Me=I xk k 1 2 Fk 1 fk 0,50 0,34 0,40 400 600 0,40 400 240 640 Me = 400 600 Se la classe mediana va da 400 a 1000, il valore mediano sarà pari all’estremo inferiore della classe (400) più una quota dell’intervallo della classe stessa (1000-400=600). Tale quota % è posta uguale alla quota di frequenza della classe mediana che serve per arrivare al 50% della cumulata. Un secondo esempio Stimiamo l’età mediana degli immigrati in Lombardia xi |-xi+1 fi Fi La classe mediana è 25-35), la prima la cui cumulata supera il 50%. 15 |-25 0,157 0,157 25 |-35 0,497 0,654 Me(X)=25+10(0,500-0,157)/0,497]=25+10 (0,343/0,497)=25+ 100,69=25+6,9=31,9 35 |-45 0,273 0,927 45 |-65 0,073 1,000 Nota: M(X)=33 > Me(X)=31,9 > Md(X)=30 1 0,8 0,6 0,4 0,2 0 Me= 31,9 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Immigrati per età 60 55 50 45 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 Un terzo esempio La classe mediana è 20-40) 24 hi 100 Fi Me(X) = 20 20+20(0,500-0,115)/0,399]= xi 80 20+200,385/0,399]= 16 20+200,965= 20+19,3= 39,3 60 M=43,6>Me=39,3>Md=30 12 40 8 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 0 32 0 xi 0 |- 20 11,5 20 |- 40 51,4 40 |- 60 82,9 60 |- 80 94,1 80 |- 100 97,5 100|-160 99,5 160|-300 1,00 Famiglie lombarde per reddito annuo 20 4 0 Fi |- xi+1 4 8 12 16 20 24 28 32 36 40 Le invenzioni dei fratelli Huysgens Torniamo alla tavola della distribuzione delle età di morte stimata da Graunt nel 1662. Quello che non sappiamo è che essa segna anche la data di nascita di due pietre miliari della statistica: media e mediana. La tavola viene infatti vista da due fratelli olandesi, astronomi e assicuratori. In ottobre 1669 scrive Luis a Christian Huysgens: “Ho trovato una misura interessante di vita media: l’intensità totale di anni vissuti equiripartiti. Sarà m(X)=1822/100=18,22. Nasce l’età media: 18 anni e un tanto. xi-xi+1 xi ni xi ni Da 0 a 6 3 36 108 Da 6 a 16 11 24 264 Da 16 a 26 21 15 315 Da 26 a 36 31 9 279 Da 36 a 46 41 6 246 Da 46 a 56 51 4 204 Da 56 a 66 61 3 183 Da 66 a 76 71 2 142 Da 76 a 86 81 1 81 100 1822 Bello, vero? Ma una settimana dopo (potenza delle poste) il fratello Christian risponde acidamente (come succede tra fratelli): “Non mi consegue che 18 anni e 2 mesi sia l'età di ogni persona concepita... Qualità nascoste della mediana: robustezza “..Supponiamo che gli uomini siano ancora più deboli e su 100 ne muoiano 90 nei primi 6 anni; ma che quelli che superano tale età siano dei Nestori e dei Matusalemmi e vivano fino a 152 anni e 2 mesi. Tu otterresti lo stesso numero e tuttavia chi scommettesse che un nato pervenga all'età di 6 anni ne avrebbe un gran danno poiché di 10 solo 1 arriva a quel traguardo…” xi-xi+1 xi ni xi ni Da 0 a 6 3 90 270 155,2 155,2 10 1552 Da 16 a 26 21 100 1822 La media resta 18,22 (ma Christian aveva sbagliato i calcoli..) Conclude Christian: “Son cose differenti la speranza dell'età futura di una persona e l'età a cui v'è uguale probabilità che egli arrivi o non arrivi. Il primo valore serve per calcolare i vitalizi e il secondo per le scommesse”. E’ la nascita della mediana!! xi-xi+1 Ni Da 0 a 6 36 Da 6 a 16 60 Da 16 a 26 75 Da 26 a 36 84 Da 36 a 46 90 Da 46 a 56 94 Da 56 a 66 97 Da 66 a 76 99 Da 76 a 86 100 Mediana = Me(X) = 6+10*(50-36)/24= =6+10*(14/24)= =11,83<18,22=M(x) Robustezza e sensitività Dall'esempio dei fratelli Huysgens si capisce come la media aritmetica risenta molto più della mediana delle fluttuazioni dei valori estremi osservati. In altre parole, "forme" particolari della distribuzione sono percepite con forte sensitività dalla media aritmetica. La sensitività è una grande qualità della media, ma talvolta può produrre effetti imprevedibili.. Robustezza è la qualità di una misura di rilevare il "vero" ordine di grandezza delle osservazioni, senza lasciarsi influenzare da variazioni "marginali" nella distribuzione. La robustezza è quindi una proprietà desiderabile per un indice di posizione, che può far propendere per una misura invece che per un'altra quando (come nel caso degli Huysgens e delle assicurazioni sulla vita) tale proprietà sia ritenuta imprescindibile. La mediana è una misura robusta dell'ordine di grandezza del fenomeno osservato. L’opposto della robustezza è la sensitività. Una simulazione X sia il fatturato di 10 imprese. Conosciamo il valore di 9 imprese, ma dell’ultima sappiamo solo che è compreso tra 0 e 100. 65 {39,44,53,60,62,66,71,74,81,k} 59 Come varia M(X) al variare di x10, e come varia Me(X)? 57 xi 550 k 1 mx 55 k 10 10 i 1 10 10 61 se 0 k 60 k + 62 Me x se 60 k 66 2 64 se 66 k 100 63 61 55 0 20 40 60 80 100 La media (tratto continuo) è ‘sensibile’ al variare di x10, la mediana invece non risente proprio di variazioni che avvengano ‘sulle code’. Robustness e Sensitivity sono due qualità opposte. Il tipo di dati a disposizione suggerirà quale media è più adatta. Mediana in variabili per classi La tabella mostra i dati relativi ad un campione di 560 persone cui è stato chiesto l’ammontare del loro reddito annuale in migliaia di euro. Entrate [0; 5) numerosità 20 Calcolate il valore medio e la mediana Valori centrali cumulate intensità 2,5 20 50 7,5 220 1500 [5; 10) 200 [10; 20) 250 15 470 3750 [20; 30) 50 25 520 1250 [30; 50) 30 40 550 1200 [50; 70) 10 60 560 600 560 Aggiungiamo le colonne di calcolo di destra. 8350 Media = Intensità totale / Numerosità Totale = 8350/560 = 14,911 Classe mediana = la prima la cui cumulata supera N/2=280: [10; 20) Mediana = 10+10 * (280-220)/(470-220) = 10+10 * (60/250) = 12,4 Cumulate e retrocumulate [1-500) [500-1000) [1000-1500) [1500-2000) [2000-5000) ni 100 300 400 150 50 1000 fi 0.10 0.30 0.40 0.15 0.05 1.00 Consideriamo gli stipendi mensili degli impiegati in una società. Qual è la quota di persone che non guadagnano meno di x euro? F1 F2 F3 F4 F5 = = = = = f1 = 0.1 F1 + f2 = F2 + f3 = F3 + f4 = F4 + f5 = (quota di persone con meno di 500 euro di stipendio) 0.40 (quota di persone con meno di 1000 euro) 0.80 (quota di persone con meno di 1500 euro) 0.95 (quota di persone con meno di 2000 euro) 1.00 (quota di persone fino a 5000 euro) R1 R2 R3 R4 R5 = = = = = 1.00 R1 - f1 R2 - f2 R3 - f3 R4 - f4 (quota di persone con almeno un euro di stipendio) 0.90 (quota di persone con almeno 500 euro) 0.60 (quota di persone con almeno 1000 euro) 0.20 (quota di persone con almeno 1500 euro) 0.05 (quota di persone con almeno 2000 euro) = = = = La mediana come intersezione Spezzata delle frequenze cumulate e retrocumulate 1 1 1 0.95 0.9 0.9 0.8 0.8 Cumulate 0.7 0.6 0.6 NB: le due curve si intersecano in X=Mediana 0.5 0.4 0.4 Retrocumulate 0.3 0.2 0.2 0.1 0.1 5000 4500 4000 3500 3000 2500 2000 0 1500 500 0 0 1000 0 Mediana 0.05 Media, mediana e dati troncati xi-xi+1 ni(A) ni(B) 0-1 15,4 15,4 1-2 13,3 13,3 2-3 10,9 10,9 3-4 7,8 7,8 4-5 6,2 6,2 5-6 4,4 4,4 6-7 4,1 4,1 7-8 3,1 3,1 8-9 2,0 2,0 9-10 2,4 2,4 10-12 30,4 0 28-32 0 30,4 Supponiamo di seguire una popolazione nella sua evoluzione (es.: mortalità di una coorte di imprese). Qui la media aritmetica è una misura centrale poco affidabile, perché la ‘coda’ di imprese longeve è ancora in vita. Otterremmo così medie assai diverse nel caso in cui tutte le imprese ancora in attività chiudano tra il 10° e il 12° anno (caso A), oppure, poniamo, tutte tra il 28° e il 32° anno (caso B). 10 mx( A) xi f i x11 f11 2,24 (11 0,304) 8,58 i 1 10 mx( B ) xi f i x11 f11 2,24 (30 0,304) 11,36 i 1 La media aritmetica varia davvero molto, invece la mediana è robusta: 4,42 Dalla mediana al quantile La Mediana fornisce, a partire dalle cumulate, una misura della modalità “che sta nel mezzo”. Ma possiamo anche chiederci, per esempio: Qual è il reddito familiare sopra cui sta nella fascia medio-alta, che divide la popolazione non ‘fifty-fifty’, 50% a sinistra e 50% a destra ma per es. 75% a sinistra (redditi inferiori) e 25 a destra? Qual’è la soglia di reddito oltre cui sta la fascia bassa, la soglia per esempio che discrimina il 20% meno benestante? Dove porre la ‘soglia della povertà’ che segnali il 10% più povero? Sono tutte (compresa la mediana!) varianti di una stessa famiglia di misure (‘quantili’) che scandiscono i valori assunti da una v.s. in corrispondenza di ‘posti significativi in graduatoria’: Il reddito che lascia a sinistra ¾ delle famiglie è un ‘quartile’ Il reddito che lascia a sinistra 1/5 delle famiglie è un ‘quintile’ Il reddito che lascia a sinistra 1/10 delle famiglie è un ‘decile’.. Secondo le esigenze, useremo quantili larghi (quartili) o dettagliati (decili). Quartili, quintili, decili per variabili discrete Il calcolo di un quantile è simile al calcolo della Mediana. Per v.s. discrete: «Il c-mo quartile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/4: xk=4Qc(X) SSE Fkc/4 e Fk–1<c/4» «Il c-mo quintile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/5: xk=5Qc(X) SSE Fkc/5 e Fk–1<c/5» «Il c-mo decile è la modalità xk la cui cumulata Fk è la prima a raggiungere o superare Fk=c/10: xk=10Qc(X) SSE Fkc/10 e Fk–1<c/10» xi ni Fi 0 20 0,10 1 30 0,25 2 70 0,60 3 50 0,85 4 20 0,95 5 10 1 N.esami dati Quartili: 4Q1(X)=1,5 4Q2(X)=2=Me 4Q3(X)=3 Quintili: 5Q1(X)=1 5Q2(X)=2 5Q3(X)=2,5 5Q4(X)=3 Per es. il secondo quintile 5Q2(X) è la modalità che lascia alla sua sinistra (valori inferiori) il 40% delle osservazioni, alla sua destra il 60%. La mediana è il II quartile. Quartili, quintili, decili per variabili per classi Anche per v. per classi il calcolo di un quantile è simile a quello di Me(X). Una volta individuata la ‘classe quantile’, si interpola. Per es.: c-mo quartile c-mo quintile c-mo decile c-mo percentile 4 Q c = I xk k c 5 Q c = I xk k c 10 Q c = I xk k c 100 Q c = I xk k c 4 5 10 100 Fk 1 fk Fk 1 fk Fk 1 fk Fk 1 fk Percentile è il valore al quale o al di sotto del quale si trova una specifica percentuale delle osservazioni di una v.s. Ad esempio il 60° percentile è quel valore che divide il gruppo di dati in due parti: il 60% a sinistra e il 40% a destra di esso (coincide quindi col terzo quintile). I decili vengono spesso usati in studi di politica economica (per indicare i livelli di reddito di scaglioni ‘decimali’ di popolazione). I percentili sono molto usati nei test psicologici. Un esempio: quartili dell’età di maternità Cumulata di donne friulane che hanno avuto un figlio per età (coorti ’46-’60). 100 xi|-xi+1 Fi(46) 1Q4(X)=20+50,18/0,44]=22,0 80 15-20 0,07 20-25 0,51 25-30 0,86 30-35 0,91 2Q4(X)=20+50,43/0,44]=24,9 3Q4(X)=25+50,24/0,35]=28,4 60 40 20 Interessante: da una coorte all’altra il primo 0 quartile non varia granché (i calendari ‘precoci’ hanno quasi lo stesso peso), ma slittano in100 15 avanti la mediana e soprattutto il 3° quartile 80 xi|-xi+1 Fi(60) 15-20 0,11 20-25 0,38 25-30 0,66 30-35 0,79 20 25 30 35 20 25 30 35 60 Q (X)=20+50,14/0,27]=22,6 1 4 40 2Q4(X)=25+50,12/0,28]=27,1 20 3Q4(X)=30+50,09/0,13]=33,5 0 15 Un esempio: decili dei redditi a Milano |- xi+1 Fi(MIL) Fi(PIC) 0,0 |- 0,8 35 11 0,8 |- 1,2 44 25 1,2 |- 1,6 105 113 1,6 |- 2,0 193 279 2,0 |- 2,4 272 419 2,4 |- 2,8 474 615 2,8 |- 3,2 570 723 3,2 |- 3,6 702 803 3,6 |- 4,0 772 851 4,0 |- 4,4 825 916 4,4 |- 4,8 851 940 4,8 |- 5,2 877 957 5,2 |- 6,0 903 976 6,0 |- 8,0 974 996 1000 1000 xi 8,0 |- 12 Calcoliamo i decili delle distribuzioni dei redditi mensili familiari ‘equivalenti’ stimate per Milano e per i piccoli comuni della regione dalla Survey Lombarda 2000. Nella colonna delle cumulate trovo la prima classe di reddito che raggiunge o supera il 10, 20, 30.. 90%. Entro la classe decile così individuata applico la formula: 10 Q c = I xk k c 10 Fk 1 fk Per es. primo e secondo decile di Milano sono: 1Q10(X) MIL=1,2+0,4*(0,100-0,044)/(0,105-0,044)=1,567 2Q10(X) MIL=2,0+0,4*(0,200-0,193)/(0,272-0,193)=2,035 Leggere i decili di reddito Poveri si è nella stessa misura in città e fuori: il primo decile (reddito max del 10% più povero) è lo stesso. Anche il primo quartile (reddito del 25% più povero) non varia molto. decile Ma al crescere del decile la divaricazione cresce. La superiorità del reddito medio a Milano è dovuta alla maggiore dispersione dei redditi in città. Misuriamo la dispersione con le differenze tra quantili a ugual distanza dalla mediana: siamo già dentro alla prossima lezione! Differenza interquantilica D.i.Q Milano D.i.Q Paesi 9Q10(X)- 1Q10(X) 4,341 2,760 4Q5(X)- 1Q5(X) 2,176 1,775 3Q4(X)- 1Q4(X) 1,585 1,405 KQ10(X) MIL KQ10(X) PIC I 1,567 1,541 II 2,035 1,810 III 2,455 2,060 IV 2,653 2,346 V 2,908 2,565 VI 3,291 2,769 VII 3,594 3,115 VIII 4,211 3,585 IX 5,908 4,301 quart. KQ4(X) MIL KQ4(X) PIC I 2,289 1,930 II 2,908 2,565 III 3,874 3,335