TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.8 Misurare la variabilità In questa lezione.. In questa lezione smettiamo di cercare misure ‘centrali’ di una variabile e passiamo a strumenti per misurare la dispersione in-torno a tali modalità. Poiché le variabili hanno gradi diversi di misurabilità individueremo una misura per ciascuno dei tre livelli: Per variabili ordinali, intorno alla mediana abbiamo già fatto la conoscenza con il Range Interquartilico Per variabili quantitative faremo la conoscenza della misura regina della Statistica, la Varianza Per le variabili solo nominali cercheremo un concetto di variabilità assimilabile a quello di dispersione intorno a un polo, e proporremo la Eterogeneità. L’eterogeneità (a differenza della varianza) ha un massimo implicito nella sua definizione, e può quindi essere ‘relativizzato’. Ma questo è un tema che riprenderemo presto.. Range Il modo più naturale di cogliere la variabilità di un carattere è quello di vedere quanta è la differenza tra i ‘primi’ e ‘gli ultimi’, tra le unità di analisi che stanno all’inizio e quelle che stanno alla fine della serie ordinata: X={x1,x2,x3,..,xN-2,xN-1,xN}. Range è la differenza tra ultima e prima modalità della serie ordinata: R= xN - x1 Ma il Range risente trovo di valori ‘anomali’ sulle code della distribuzione. Cosa succede al Range se, per esempio: Di una classe scolastica di cui si studiano i redditi entra a far parte il nipote di Rockfeller? Tra gli impiegati di Los Alamos su cui si valuta il Q.I. si inseriscono Fermi e von Neumann? Nella serie delle vostre ‘pesate’ mattutine lasciate anche quella rilevata quando vostro fratello ha appoggiato un’incudine sulla bilancia? Range interquantilico Meglio allora premunirsi, prendendo come estremi su cui valutare il Range non proprio le osservazioni più piccola e più grande, ma quelle osservazioni (un po’ più ‘interne’ alla serie) che si situano a uguale distanza dal valore centrale della serie ordinata (cioè a pari distanza dalla mediana). Se siamo molto prudenti (perché non ci fidiamo dei valori sulle code, o perché le code non sono nemmeno completate, come nel caso di serie statistiche troncate) prenderemo la differenza tra il terzo e il primo quartile: 3Q4(X)- 1Q4(X) = Range Interquartile (IQR o DIQ). Se ci fidiamo dei valori assunti dalle osservazioni del primo decile (che lasciano solo il 10% con valori più bassi) e al nono decile (lasciano solo un 10% più alto), prenderemo 9Q10(X)- 1Q10(X) = Range Interdecilico. Differenza interquantilica D.i.Q Milano D.i.Q Paesi 9Q10(X)- 1Q10(X) 4,341 2,760 4Q5(X)- 1Q5(X) 2,176 1,775 3Q4(X)- 1Q4(X) 1,585 1,405 Il range interquartile a Milano e nei paesi è assai simile. Il range interdecile è invece assai diverso. Segno che la differenza sta nella distribuzione tra il 75° e il 90° percentile. Minima funzione quadratica di perdita Per una variabile quantitativa come misurare la dispersione intorno al centro? Sappiamo che la media aritmetica è la misura di posizione che rende minima una funzione quadratica di perdita di informazione E’ quindi ragionevole usare come misura di dispersione la funzione quadratica centrata sulla media aritmetica. La chiamiamo varianza. m m xi i 1 2 f i min SSE = m x 2 2 x m f Var ( X ) V i x i x X i 1 La varianza è la minima funzione quadratica di perdita intorno alla media aritmetica Calcolo della varianza xi fi xi fi xi–mx (xi–mx)2 (xi–mx)2 fi x1 f1 x1 f1 x1-mx (x1–mx)2 (x1–mx)2 f1 x2 f2 x2 f2 x2-mx (x2–mx)2 (x2–mx)2 f2 x3 f3 x3 f3 x3-mx (x3–mx)2 (x3–mx)2 f3 x4 f4 x4 f4 x4-mx (x4–mx)2 (x4–mx)2 f4 x5 f5 x5 f5 x5-mx (x5–mx)2 (x5–mx)2 f5 1 mX Var(X) Per calcolare una varianza useremo le colonne già impostate per il calcolo della media, cui aggiungerne tre: le differenze semplici rispetto alla media (la loro somma ponderata per le frequenze è zero!), le differenze al quadrato, le differenze quadratiche ponderate con le frequenze. Nota: se nella ultima colonna moltiplicheremo gli scarti quadratici per le numerosità invece che per le frequenze assolute, nessun problema: basterà dividere il totale per N: Var(X) = (xi–m)ni/N Dalla varianza alla ‘deviazione standard’ xi ni x i ni xi–mx 10 35 350 -11,74 137,8276 4823,9660 50 9 450 +28,26 798,6276 7187,6484 100 2 200 +78,26 6124,6276 12249,2552 46 1000 (xi–mx)2 ni 24260,8696 mX=xi ni/N= =1000/46=21,74 40 30 20 10 0 10 0 80 60 m+ =44,7 40 La misura ottenuta è confrontabile con quella di altre variabili e ha molte belle proprietà (altre ne vedremo) ma è poco comprensibile. Essa (somma di quadrati di scarti) è di ordine quadratico rispetto alle modalità osservate. Torniamo ai 46 azionisti e loro azioni. X=527,41=22,96 ni 20 VX=(xi–mx)2ni/N=24260,8696/46=527,41 0 (xi–mx)2 m=21,7 m+2=67,7 xi La radice quadrata di V(X) si chiama Deviazione Standard o Scarto Quadratico Medio. La indichiamo con X=2X. Essa misura l’unità standard di dispersione della v.s. intorno alla media. Come varia la varianza? Per valutare la capacità di misurare la variabilità di simuliamo quattro possibili distribuzioni di una v.s., tutte con media 4. Nel primo caso le 10 osservazioni sono uguali. In assenza di variabilità tutti gli scostamenti dalla media sono nulli: c’è corrispondenza biunivoca tra =0 e zero-variabilità. Nel secondo caso invece le osservazioni iniziano ad aprirsi, sia pur limitatamente, intorno alla media: ne risente. 4 0 2 4 6 8 K K 0 X X 2 10 1 1 6 1 1 assenza di variabilità 10 15 8 10 6 4 5 2 0 0 0 2 4 6 8 0 2 4 6 8 La varianza cresce se cresce la polarizzazione Nel terzo caso (distribuzione uniforme, amodale) il peso delle osservazioni addensate intorno alla media diminuisce notevolmente: cresce. E cresce ancora quanto più aumenta il peso sulle code della distribuzione. Dunque la varianza misura la dispersione intorno alla media, e assume valori positivi o nulli, valendo zero in caso di zero-variabilità. 0 2 4 6 8 Y 2 2 2 2 2 Y 2.8 10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 Z 4 0 2 0 4 Z 3.6 10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 0 2 4 6 8 I due significati della deviazione standard Sono dunque due i significati utili della deviazione standard: Come misura sintetica della dispersione di una v.s. intorno alla media, per valutare complessivamente la variabile stessa, Come unità di misura della dispersione intorno alla media, per valutare lo scostamento di una singola osservazione dal polo centrale. xi-xi+1 fi (xi+xi+1)/2 9-11 0,077 10 11-14 0,317 14-19 19-25 xi fi (xi–mx)2 fi 20 0,770 2,4346 16 12,5 3,963 3,0917 0,444 16,5 7,326 0,3415 0,162 22 3,564 6,5879 8 15,623 12,4557 4 N=142 x Pazienti anoressiche per età di insorgenza ni mx=15,6 12 m-2=8,6 m+2=22,6 xi 0 0 5 10 15 20 25 Anche per la varianza come per la media il calm-=12,1 m+=19,1 colo per variabili per classi passa attraverso i vaVX=12,456 X=3,529 lori centrali delle classi. 30 Una formula operativa per il calcolo di V(X) Come si era visto per la media, già l’uso di frazioni nel calcolo richiedeva di portarsi dietro un ‘congruo’ numero di decimali. La farraginosità della procedura di calcolo della varianza è accentuata dal passaggio attraverso quadrati di scarti, scarti che non sono necessariamente in cifra tonda. Vale però l’equivalenza tra la definizione di V(X) e una sua utile scomposizione: k 2 V ( X ) xi f i xi i 1 i 1 k k k 2 2 f i M ( X 2 ) M ( X ) m2 X mx2 Dimostrazione V ( X ) xi mx f i xi 2 mx xi m f i 2 i 1 k 2 2 x i 1 k k k i 1 i 1 xi f i 2 mx xi f i m f i xi f i 2 mx mx mx 1 2 i 1 k 2 x i 1 k 2 xi f i 2 mx mx xi f i mx i 1 2 2 2 i 1 2 2 2 c.v.d. Media quadratica o momento secondo Nella formula operativa la varianza è scomposta nella differenza di due misure sintetiche di X, che appartengono ad un'unica famiglia di misure di sintesi, dette momenti di ordine k: p mk k xik fi In particolare: se k = 1 i 1 p m1 1 xi fi m x i1 [momento primo] se k = 2 p m 2 2 xi 2 fi i1 [momento secondo] Dunque la varianza è uguale alla differenza tra il momento secondo e il quadrato del momento primo: V( X ) m2 ( x) m1( x) 2 Equivalenza della formula operativa Verifichiamo l’equivalenza tra formula definitoria e formula operativa della varianza, sui nostri 46 azionisti. xi ni x i ni 10 35 350 100 3500 50 9 450 2500 22500 mX=xi ni/N=1000/46=21,739 100 2 200 10000 20000 m2X=xi2 ni/N= 46000/46 = 1000 niente 46 1000 46000 VX= m2X-(mX)2=1000-(21,74)2=527,41 xi2 xi2 ni La formula operativa produce esattamente lo stesso risultato della formula ufficiale. Essa è però di più semplice applicazione, perché non richiede di calcolare “quadrati di scarti” dalla media: quadrati che possono trascinarsi dietro parecchi decimali e fastidiosi errori di arrotondamento. Attenzione: la varianza è una somma di quadrati: quindi non potrà mai essere negativa!!! Un esempio xi mx = 43,6 hi 24 Vx 20 12 e sono quindi nella fascia alta. 8 mx=43,6 m- 4 m+ m+2 20 40 60 80 100 xi2 x fi 11,46 30 0,3995 11,985 359,55 50 0,3148 15,740 787,00 70 0,1119 7,833 548,31 90 0,0337 3,033 272,97 130 0,0200 2,600 338,00 230 0,0055 1,265 290,95 1,0000 43,602 2608,24 Famiglie lombarde per reddito annuo (in milioni di lire) Come misura di sintesi invece sd e varianza sono di uso più problematico. Possiamo dare un senso al loro ordine di grandezza solo mettendo a confronto popolazioni differenti (e anche in questo caso con prudenza!!) 0 0 fi 1,146 707,28 Come unità di dispersione, lo sd permette di analizzare i dati a livello micro: sappiamo per es. che i redditi sopra i 97 milioni sono superiori a m+2 x 0,1146 x = 26,6 16 xi 10 m2X=2608,24 =2608,24-(43,6)2= fi 120 140 160 180 200 220 240 260 280 300 320 xi Un secondo esempio xi niMI xiniMI xi2 niMI 0,4 4 1,6 0,64 1,0 1 1,0 1,00 1,4 7 9,8 13,72 m2X 1,8 10 18,0 32,40 2,2 9 19,8 2,6 23 3,0 mxM=3,3438 xi niPIC xiniPIC xi2 niPIC 0,4 7 2,8 1,12 1,0 9 9,0 9,00 1,4 55 77,0 107,80 m2XP=9,4924 1,8 103 185,4 333,72 43,56 VxM=3,425 2,2 88 193,6 425,92 59,8 155,48 2,6 123 319,8 831,48 11 33,0 99,00 VxP=1,638 3,0 68 204,0 612,00 3,4 15 51,0 173,40 3,4 50 170,0 578,00 3,8 8 30,4 115,52 3,8 30 114,0 433,20 4,2 6 25,2 105,84 4,2 41 172,2 723,24 4,6 3 13,8 63,48 4,6 15 69,0 317,40 5,0 3 15,0 75,00 5,0 11 55,0 275,00 5,6 3 16,8 94,08 5,6 12 67,2 376,32 7,0 8 56,0 392,00 7,0 13 91,0 637,00 10,0 3 30,0 300,00 3 30,0 300,00 114 381,2 1665,12 628 1760,0 5961,20 mxP=2,8025 M=14,6063 xM=1,85 x P=1,28 In città il reddito medio è più alto. Ma è anche parecchio più alta la dispersione intorno alla media 10,0 L’utilità del confronto In città più ricchi ma anche più poveri in valore assoluto: la varianza (che a Milano è il doppio di quella dei paesi) conferma quello che già ci diceva la lettura del grafico Più poveri in città A che soglia un reddito familiare è elevato? Prendiamo come parametro il valore m+2: esso è pari a 53 milioni e mezzo (5,36) nei piccoli paesi, ed è invece pari a 70milioni (7,04) a Milano: più del 30% superiore. 55 50 45 40 35 Nei due contesti dunque le due soglie corrispondono a un’uguale condizione di ricchezza. 30 25 20 P.S.: per comodità avevamo diviso i redditi per 10: ora torniamo a esprimere m e nella misura originaria. E’ lecito? Più redditi alti in città 15 Rosso = Milano 10 Blu = Paesi 5 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 Un terzo esempio Alto reddito sd p9/p1 Svezia 0,20 1,53 Olanda 0,22 1,62 Australia 0,24 1,80 Italia 0,27 1,76 Regno Unito 0,28 2,04 USA 0,34 2,31 Giappone 0,35 1,96 Germania 0,37 2,52 L’International Labour Review (2001) ha pubblicato un confronto dei differenziali salariali su un ampio ventaglio di occupazioni in 80 paesi. sd p9/p1 Sudan 0,42 2,28 Mozambico 0,45 3,19 Bangladesh 0,50 3,34 Thailandia 0,50 3,82 India 0,58 4,51 0,71 6,72 0,76 5,66 0,78 6,05 Qui riportiamo solo Camerun 16 paesi, 8 ad alto Tchad reddito e 8 a basso. Rep.CentrAfr. Per questa analisi cross section sono state adottate due misure: Lo sd dei (logaritmi dei) salari Il rapporto interdecilico Basso reddito Le due misure sono concordi nel descrivere una regola statistica: i divari nelle remunerazioni occupazionali salgono al calare del reddito procapite nazionale (ma questa è già analisi bivariata!) P.S.:Come spieghereste il fatto che Giappone e Camerun infrangono la concordanza? La variabilità in caratteri qualitativi xi 60 54 48 42 36 30 24 18 12 6 0 sx csx cx cdx dx ni fi xi ni fi Sinistra 20 0,113 Imprenditori 23 0,130 Centrosin. 45 0,254 Docenti univers. 32 0,181 Centro 39 0,220 Manager 24 0,136 Centrodes 59 0,290 Avvocati 73 0,412 Destra 20 0,113 Commercianti 25 0,141 177 1,000 Schieramento 177 1,000 Professione Con variabili ordinali (es. deputati per schieramento da sinistra a destra) sarebbe impossibile misurare la variabilità attraverso la varianza (le distanze tra modalità non hanno infatti valore assoluto). Altrettanto impossibile è applicare la varianza a variabili nominali (come la composizione della Camera per professioni). Eppure in tutti questi casi avevamo trovato un modo per ‘misurare’ la modalità più rappresentativa (la moda) facendo uso delle sole frequenze (e non delle modalità). Possiamo inventarci qualcosa anche per la variabilità? Costruire una misura di eterogeneità (3) (6) (9) Y 0,3 0,4 0,3 Y 2,325 (5) (6) (7) X 0,3 0,4 0,3 X 0,775 Confrontiamo le due v.s. Y e X: la varianza della prima è molto maggiore. Ma supponiamo che le modalità siano soltanto le codifiche di risposte diverse a una domanda di un questionario. In Y i numeri sono più dispersi, ma di fatto c’è lo stesso grado di uniformità o eterogeneità osservato in X: una risposta ha avuto il 40% delle osservazioni, altre due il 30% ciascuno. Una misura di eterogeneità deve quindi basarsi esclusivamente sulle frequenze. Noi la costruiamo a tavolino in modo che soddisfi due condizioni: 1. L’indice sia 0 e sia 0 in assenza di variabilità, quando tutte le N osservazioni corrispondano a una sola modalità ( A) ( B ) (C ) ( D ) Z 0 N 0 0 2. L’indice sia massimo quando la popolazione si distribuisce equamente tra m modalità con uguale frequenza 1/m. ( A) ( B) (C ) ( D) W N / 4 N / 4 N / 4 N / 4 L’indice E di Gini Tra gli indici che soddisfano le due proprietà uno è più semplice degli altri. m m i 1 i 1 E f i (1 f i ) 1 f i 2 In caso di assenza di eterogeneità tutte le frequenze sono nulle, tranne quella della modalità osservata che sarà =1. Quindi E=1-1=0 In caso di massima eterogeneità tutte le m modalità hanno uguale frequenza 1/m, quindi: m Emax 1 1 / m 1 m1 / m 2 m 1 2 Tre annotazioni: i 1 m 1. Emax è sempre inferiore a 1, e tende a 1 se le modalità sono numerose 2. Se E ha un massimo che varia col numero delle modalità osservate conviene relativizzare E rapportandolo al suo massimo: E*=E/ Emax. 3. E ha un massimo, la varianza no. Ci avete fatto caso? Calcolo di E: un esempio Nel settore dei tubi magici operavano 5 aziende. Tuc possedeva il 50% delle quote di mercato, Puc il 20%, le altre tre (Cuc, Muc, Gnuc) il 10% ciascuno. Ma a un certo punto Gnuc assorbe le altre due piccole e il mercato si semplifica a tre soli operatori. Come cambia E tra prima e dopo? xiprima fi fi2 E =1-0,32=0,68 E =1-0,38=0,62 Tuc 0,5 0,25 Emax =(5-1)/5=0,80 Emax =(3-1)/3=0,67 Puc 0,2 0,04 E*=0,68/0,80=0,85 E*=0,62/0,67=0,93 Cuc 0,1 0,01 Muc 0,1 0,01 Gnuc 0,1 0,01 1 0,32 Morale: il mercato si è ‘semplificato’ perché vi operano meno attori, e l’eterogeneità apparentemente è diminuita (da E=0,68 a E=0,62). yipoi fi fi2 Tuc 0,5 0,25 Puc 0,2 0,04 Gnuc 0,3 0,09 1 0,38 Ma se ‘relativizziamo’ (presto parleremo di ‘normalizzazione’) l’eterogeneità rispetto al numero delle modalità, troviamo che l’eterogeneità effettiva è nettamente cresciuta (da E*=0,85 a E*=0,93). In effetti, ora Tuc avrà più difficoltà a controllare il mercato. Tre annotazioni su E di Gini yi fi f i2 10 0,60 0,36 20 0,20 0,04 50 0,20 0,04 1,00 0,44 Posso calcolare E anche per v.s. quantitative ma ha scarso significato. In questo caso E=0,56 e E*= 0,84, sia che il pacchetto azionario del 20% di operatori più importanti sia di sole 50 azioni l’uno, sia che sia di 500! Vi siete accorti che la v.s. quantitativa Y qui accanto e la v.s. nominale X della pagina prima sono conteggi diversi degli stessi dati? In X le quote di mercato erano frequenze relative di possesso da parte di diverse aziende. In Y le quote di mercato sono rapporti statistici assunti come modalità e gli attori sono accorpati secondo la dimensione del ‘pacchetto’. Nelle analisi economiche di settore, per studiare la concentrazione di un settore si utilizza l’indice di Herfindal-Hirschman, calcolato come somma dei quadrati delle quote di mercato di tutte le diverse imprese: H= ixi2 L’indice H è il complemento a 1 di E di Gini. E’ minimo se c’è max eterogeneità (polverizzazione delle quote di settore) e vale 1 nel caso di zero-variabilità, o max concentrazione.