TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.9 La standardizzazione In questa lezione.. In questa lezione vedremo alcuni problemi legati a trasformazioni lineari di una variabile statistica, e in particolare vedremo una trasformazione molto utile – che chiameremo standardizzata - per comparare v.s. con medie e varianze differenti. In sequenza vedremo: Cosa succede alla media e alla varianza di una v.s. trasformata Come si può ‘normalizzare’ un indicatore Come si può ‘normalizzare’ una varianza Cos’è un carattere ‘trasferibile’ Come si può ‘standardizzare’ una variabile Che limite si può dare alla frequenza di casi lontani dalla media Trasformare una variabile: stirare una molla Supponete di avere in mano un nastro a molla come questo. Spostate il nastro verso destra. La collocazione sul piano di ogni punto del nastro si sposta sul piano in ugual misura: così pure il baricentro. Ma la lunghezza del nastro non cambia. Anche la distanza di ogni punto dal centro è insensibile alla traslazione. Provate ora a stirare la molla. La collocazione del ‘centro’ del nastro si sposterà in proporzione. Anche la distanza di ogni punto dal centro crescerà: ma in che misura? Media e varianza di una v.s. spostata o ‘stirata’ xi ni 0 4 mX= 4 4 2 VX= 12,8 8 4 X= 3,58 6 10 wi ni 0 4 La v.s. W ha identica distribuzione di frequenza di X, ma è una trasformazione lineare di X, in cui è trasformata l'unità di misura: W=2X. Si vede che: 4 2 0 0 mW= 8 6 8 2 VW= 51,2 4 16 4 W= 7,16 2 10 0 vi ni 60 5 4 mV= 9 9 2 VV= 12,8 13 4 V= 3,58 10 M(w)=2M(x); V(w)=4V(x); w=2X Anche la v.s. V ha identica distribuzione di frequenza di X, ma è una trasformazione lineare di X, in cui è effettuata una traslazione dell’origine: V=5+X. Si vede che: M(v)=5+M(x); V(v)=V(x); V=X 4 Possiamo trarre una regola generale? 2 0 0 Media aritmetica ‘operatore lineare’ Per M(x) valgono queste proprietà: Se Y = a + X M(y)=a+M(x) [traslazione dell'origine] Se Y = b X M(y) = b M(x) [cambiamento di unità di misura] Se Y=a+bX M(y)=a+bM(x) [trasformazione lineare completa] Una trasformazione lineare di una variabile è perfettamente riflessa nella media aritmetica della trasformata. Si dice che la media aritmetica è un operatore lineare. Dimostrazione: «M(y) = a + b M(x)» Sia Y = a + b X allora: p p i 1 i 1 M ( y ) yi f i a b xi f i p p i 1 i 1 a f i b xi f i p p i 1 i 1 a f i b xi f i a 1 b M ( x) a b M ( x) Varianza insensibile alla traslazione ma.. Anche la varianza è un operatore lineare, ma con qualche differenza di comportamento: Se Y = a + X V(y) = V(x) [traslazione dell'origine] Se Y = b X V(y) = b² V(x) [cambiamento di unità di misura] Se Y=a+bX V(y) = b² V(x) [trasformazione lineare completa] La varianza di una (qualunque) trasformata lineare è insensibile alla traslazione dell'origine e risente in misura quadratica di un cambiamento di unità di misura. «V(y) = b² V(x) » Sia Y = a + b X k allora V ( y ) yi M ( y ) f i 2 i 1 k a b xi a b M ( x ) f i 2 i 1 k b xi b M ( x ) f i 2 i 1 k b xi M ( x ) f i 2 i 1 k b2 xi M ( x ) f i 2 i 1 k b xi M ( x ) f i b2 V ( x ) 2 i 1 2 Normalizzare un indicatore La normalizzazione (o standardizzazione) di una misura è una procedura con due significati diversi tra loro connessi. Nel primo significato, un indicatore è normalizzato se è "ricondotto a norma", sterilizzando l'effetto di alcuni fattori di disturbo. Per esempio, abbiamo visto come la varianza è una misura di variabilità influenzata dall'ordine di grandezza del fenomeno osservato. Un primo, grezzo modo per ‘normalizzare’ la varianza consiste quindi nello sterilizzare l'unità di misura del fenomeno, definendo una quantità adimensionale (o numero puro) detta coefficiente di variazione: cv = / m Tra poco vedremo una procedura più drastica di riconduzione a norma, applicata all'intera variabile statistica. Coefficiente di variazione: un esempio Dalla Survey Lombarda stimiamo che la deviazione standard dei redditi familiari a Milano è XMIL=1,85. Nei piccoli comuni la stessa misura è XPIC =1,28, assai minore. Possiamo davvero dedurne che c’è meno dispersione di redditi in provincia che non nella grande città? Non posso dirlo con certezza, perché la deviazione standard sale con l’ordine di grandezza del carattere studiato. Sappiamo infatti che: Se Y=a+bX V(y)=b²V(x) e quindi Y= (b²V(x))=b. X E il reddito medio è più alto a Milano (mxMI=3,3438) che fuori (mxPIC=2,8025). Posso allora confrontare le deviazioni standard se le depuro dell’effetto dell’ordine di grandezza. Trovo così che: CVxMI = 1,85/3,3438 = 0,553 > CVxPIC = 1,28/2,8025 = 0,457 E’ quindi confermata la maggiore dispersione dei redditi a Milano. Coefficiente di variazione: due altri esempi Un esempio macro. Tra USA e Italia il reddito medio (non ponderato con le rispettive popolazioni) è 22135 $, la deviazione standard è 1185. Tra Egitto e Etiopia il reddito medio è 370 $, la deviazione standard è 250. La misura di dispersione tra i due paesi occidentali è quasi 5 volte superiore: possiamo dire che tra di loro la variabilità dei redditi nazionali è nettamente superiore a quella riscontrata tra i PVS? In realtà è vero proprio il contrario! Infatti CVxPSA=1185/22135=0,053 che è addirittura 13 volte inferiore a CVxPVS=250/370=0,676. Un esempio micro. Gli stipendi di tre anziani amici erano di 1000, 1500 e 2000 lire nel 1950, e le loro pensioni nel 2000 erano di 2,0 2,5 e 3,0 milioni di lire. La variabilità tra i loro redditi era aumentata o diminuita? Al 1950 le misure erano: mx1950=1500 x1950=408,25 CVx1950=0,272 Al 2000 le misure erano: mx2000=2500000, x2000=408250, CVx2000=0,163 Morale: gli stipendi sono incredibilmente cresciuti, ma alla fine le distanze tra le pensioni sono dimezzate! Normalizzare un indicatore tra zero e uno C’è un secondo modo per intendere il concetto di normalizzazione. Un indice è normalizzato se è compreso tra un minimo e un massimo convenzionale, di facile percezione. Per esempio 0I1 Questo rende possibili i confronti. Se per un indice I si individuano un minimo e un massimo (IminIImax), l’indice è sempre trasformabile nel suo equivalente normalizzato I*= I-Imin/Imax-Imin 0 I* 1 Esempio: Pippo si è diplomato al Liceo nel ‘94 con I1=40/60, suo fratello Pippetto pochi anni dopo con I2=65/100. Come confrontare i due risultati? I*1=I1-Imin/Imax-Imin=40-36/60-36=0,167; I*2=65-60/100-60=0,125 Han fatto schifo tutti e due, ma Pippetto (anche se 65>40) ha fatto peggio! Normalizzare la varianza È normalizzabile la varianza? Mica tanto. Infatti è vero che cresce con l’ordine di grandezza (quindi in funzione di M(x), ma non è possibile definirne un massimo, salvo che si faccia una ipotesi (talora realistica, talora no) sul fenomeno studiato e si adotti un criterio particolare. Il criterio è: “Confrontare una v.s. osservata esclusivamente con quelle altre v.s. che abbiano la stessa intensità totale T=xi ni”. 0 x1 x2 .. xi .. xk X= T=xi ni X= n1 n2 .. ni .. nk T=xi ni e m=T/N N-1 T=xi ni e 1 m=T/N La distribuzione comparabile Xmax a massima varianza è quella in cui (N-1) osservazioni hanno valore x=0, l’ultima ha valore xN=T Distribuzione massimante Esempio: un distretto industriale è composto di tre soli paesi, uno di 10 (mila) abitanti, uno di 20 (mila), uno di 60 (mila). La popolazione media è m=30, la varianza è 2=466,7, lo sd è =21,6. Come normalizzare 2 e ? Calcoliamo m e per alcune varianti di X con popolazione totale costante. X = {15, 15, 60} T=90 m=30 2=450 =21,21 X = {5, 5, 80} T=90 m=30 2=1250 =35,35 Xmax = {0, 0, 90} T=90 m=30 2=1800 =42,43 Nessuna distribuzione – a parità di T – ha varianza maggiore di Xmax. Chiamiamo Xmax “distribuzione massimante”. Il rapporto tra la varianza della v.s. osservata e quella della corrispondente distribuzione massimante è una misura di Varianza normalizzata: 0 V* = V/Vmax 1 Nell’esempio V* = 466,7/1800=0,259 e 0 * = / e max 1 * = 21,6/42,43=0,509 = V*. Varianza della distribuzione massimante Nell’esempio svolto c’è un particolare curioso. La varianza della distribuzione massimante è 2=1800 = 2 x 900 = (N-1) x m2. E’ un caso? No, è un risultato generale che possiamo anche dimostrare: 2 max = (N-1) max = (N-1) x x m2 m Ora possiamo normalizzare : 2 = /max = /((N-1)xm)= = (/m)/(N-1)=CV/(N-1) Ma allora il CV non era poi così male.. 0 Xmax T=xi ni Distribuzione massimante N-1 1 m= [0x(N-1)]+[Tx1]/N=T/N m2=[02x(N-1)]+[T2x1]/N=T2/N V ( X *) m2 ( x*) m1 ( x*) 2 T2 T N T 2 T 2 2 N N N T 2 N 1 N 2 mx2* N 1 2 2 N N mx2* N 1 2 Quando la distribuzione massimante ha senso Ricapitoliamo. Il massimo della varianza per caratteri trasferibili è quello che si ottiene simulando la distribuzione di massima variabilità o massimante: quella in cui (N–1) unità hanno intensità 0 del carattere e solo l'ultima unità (N–esima) concentra su di sé l'intensità totale T. Per distribuzioni a pari Intensità totale T si trova che: 0x(N–1)mx E si può quindi calcolare la deviazione standard normalizzata: 0 * cv 1 max mx N 1 N 1 Naturalmente la normalizzazione della varianza ha senso quando ha senso ancorarsi alla Intensità totale T come ‘funzione obiettivo’, e immaginare di ‘trasferire’ parti dell’intensità totale T da una unità di osservazione all’altra. Ha senso, insomma, per caratteri trasferibili. Trasferibile è ogni carattere quantitativo non negativo per cui abbia senso variare la distribuzione di frequenza osservata conservando comunque immutata T. Quali caratteri sono trasferibili Quali caratteri sono trasferibili? Per quali caratteri l’intensità totale ha un senso? Per esempio: Quali caratteri non sono trasferibili? Per quali caratteri l’intensità totale non ha senso? Per esempio: Redditi pro capite (PIL) Stature dei coscritti alla visita di leva Popolazione per province (Popolazione di una regione/nazione) Q.I. di una classe Tempo a disposizione per Banca del tempo (‘capitale’ della Banca) Numero di denti cariati rilevati ad un ambulatorio Ore di lezione per docente (monte ore di didattica) Struttura per età popolazione di immigrati Metri cubi di acqua erogata a ogni abitante (totale acqua erogata).. Distribuzione dei voti a un test di ammissione.. di una Ma attenzione: anche se normalizzare la varianza vale in senso stretto solo per caratteri trasferibili, la si usa più in generale (almeno per caratteri non negativi). E’ infatti troppo comoda per comparare! Distribuzione massimante vincolata Certo che la distribuzione massimante – ipotizzando che N-1 unità siano ridotte a zero e l’ultima ‘arraffi tutto il piatto’ – non è molto realistica! Noi ce la teniamo stretta perché la sua varianza è davvero semplice. Ma potremmo cercare una più realistica L distribuzione massimante ‘vincolata’, in cui cioè l le modalità si polarizzano tra le due modalità X " minima (l) e massima (L) effettivamente nl nL N nl osservate: l xi L. l nl L n L m In questo caso, per mantenere il vincolo della costanza di T, x" N si ricavano le frequenze della distribuzione massimante e Var(X”) diviene Var(X") = (L – mx") x (mx" – l) Se poi l = 0 e L = N m = T si ritorna a: Var( X " ) N mx" mx " mx " 0 N mx " mx " mx " N 1 m 2 x" ‘Ricondurre a norma’ una variabile Fin qui abbiamo imparato a ‘normalizzare’ un singolo indicatore di sintesi di una v.s., come la varianza. Ma possiamo ora radicalizzare l’operazione. Una v.s. è "standardizzata" se è stata "ricondotta a norma", sterilizzando l'influenza di due fattori di disturbo: l'ordine di grandezza e l'unità di misura/dispersione. Per esempio, due distribuzioni di frequenza f(x) e f(y), apparentemente diverse, possono rivelarsi simili una volta che si prescinda dall'ordine di grandezza e dall'unità di misura. La standardizzazione è dunque un'operazione che consente la comparazione della forma di diverse distribuzioni di frequenza, prescindendo da ordine di grandezza e dispersione. Sappiamo che la media misura l’ordine di grandezza di una v.s. quantitativa, e che la deviazione standard X misura l’unità standard di dispersione intorno alla media. Chiamiamo standardizzazione di una v.s. X l'affiancamento alla sua legge di distribuzione di una trasformata Z: xi X n i x mx zi i Z x ni Una trasformata molto dotata Si dimostra che, qualunque sia la v.s. X, la sua standardizzata Z = (X – mx) / x ha sempre media nulla e varianza unitaria. «mz=0». Sia z i q xi m x x q m z E ( Z ) zi f i i 1 1 x allora: xi m x i 1 x q xi m x f i i 1 q q xi f i m x f i x i 1 i 1 1 m x m x 0 1 x fi «Varz=1». Sia z i q xi m x x q allora: Vz zi m z f i zi f i 2 2 i 1 i 1 2 xi m x f i x i 1 q 1 2 2 xi m x f i q x i 1 x2 2 1 x [ z 1] Come standardizzare una variabile xi fi xi fi xi2 fi zi =(xi–mx)/X fi zi fi zi2 fi x1 f1 x1 f1 x12 f1 z1=(x1–mx)/X f1 z1 f1 z12 f1 x2 f2 x2 f2 x22 f2 z2=(x2–mx)/X f2 z2 f2 z22 f2 x3 f3 x3 f3 x32 f3 z =(x3–mx)/X f3 z3 f3 z32 f3 x4 f4 x4 f4 x42 f4 z4=(x4–mx)/X f4 z4 f4 z42 f4 x5 f5 x5 f5 x52 f5 z5=(x5–mx)/X f5 z5 f5 z52 f5 1 mX m2X 1 0!! 1!! Standardizzare una variabile è operazione semplice. Basta sostituire alle modalità xi le corrispondenti modalità trasformate zi =(xi–mx)/X. Ad esse si affiancano le stesse numerosità (e frequenze) che non vengono toccate. Potete verificare che m(x) è nulla, e che V(X), calcolata come (zi2-0)fi=zi2fi, è proprio 1. Attenti! Se la v.s. è per classi le frequenze non cambiano, ma le densità di frequenza sì. Perché? Una verifica xi ni 0 4 mX= 4 4 2 VX= 12,8 8 4 6 X= 3,58 10 4 2 xi ni zi=(xi - mX )/ X 0 4 (0-4)/3,58=-1,1173 4 2 (4-4)/3,58=0 8 4 (8-4)/3,58=+1,1173 0 wi ni 0 4 mW= 8 8 2 VW= 51,2 4 4 16 4 W= 7,16 2 2 10 0 0 vi ni 60 5 4 mV= 9 9 2 VV= 12,8 13 4 V= 3,58 10 zi2 .fi -0,447 0,5 0 0 0,447 0,5 0!! 0 6 zi.fi 1!! 6 -1,1173 0 1,1173 La nuova v.s. ‘standardizzata’ Z è ora ‘centrata’ sul baricentro Z=0, e ha media nulla e varianza (e sd) unitaria: M(z)=0; V(z)=Z=1 4 2 0 0 Normalizzare , standardizzare X Normalizzare un indicatore sintetico di una v.s. (per es. calcolando E* o CV) permette di confrontare tra loro popolazioni eterogenee nel complesso. Standardizzare una v.s. invece consente di confrontare la posizione di distinte unità all’interno di due o più variabili (caratteri) distinti. Consente di rispondere a esigenze di confronto e a esigenze di associazione: Confronto: Tizio ha avuto 50/60 al test intermedio, 52/60 al test finale. Quando è andato meglio, tenuto conto dell’esito di tutti gli esaminati nel complesso? Associazione: alcuni hanno performances basse ai test. Avrà qualcosa a che fare con il loro basso tasso di tiroidina nel sangue? Nel primo caso l’obiettivo è micro: il bersaglio da valutare è la singola unità di analisi. Nel secondo caso invece lo scopo è, sì, spiegare la defaillance di Caio (obiettivo micro), ma così facendo si punta ad associare due variabili tra loro: performance e capacità fisica di concentrazione (obiettivo macro). Un esempio Popolazione (x000) per età–Piemonte,1979 età xi ni xi n i xi2 0-6 3 322 966 9 6-14 10 507 5070 100 14-21 17,5 477 8347 306 21-25 23 218 5014 529 25-45 35 1282 44870 1225 45-65 55 1087 59785 3025 >65 75 703 52725 5625 4596 176777 Popolazione (x000) per età - Campania xi2 ni età Com ple tate voi i cal coli di que sta co lon na 0-6 6-14 DOMANDA: In Piemonte l’età media è mP=38,5 e P=22,5. In Campania mP=32 e P=22. E‘ più giovane un 25enne piemontese o un 20enne campano? xi ni xi n i 3 603 1809 9 10 827 8270 100 14-21 17,5 808 14140 306 21-25 23 351 8073 529 25-45 35 1366 47810 1225 45-65 55 1038 57090 3025 >65 531 39825 5625 5524 177017 75 xi2 xi2 ni Com ple tate voi i cal coli di que sta co lon na Se xP=25 zP=(25-38,5)/22,5=-0,60 Se xC=20 zC=(20-32)/22= -0,55 Il 25enne P ha età ‘relativamente’ minore Un secondo esempio xi niMI ziMI 0,4 4 -1,591 1,0 1 -1,267 1,4 7 -1,051 1,8 10 -0,834 2,2 9 -0,618 2,6 23 -0,402 3,0 11 -0,186 3,4 15 0,030 3,8 8 0,246 4,2 6 0,463 4,6 3 0,679 5,0 3 0,895 5,6 3 1,220 7,0 8 1,976 10,0 3 3,598 114 mxMI=3,3438 mxPIC=2,8025 xMI=1,85 xPIC=1,28 Esempio: Mario Rossi, abitante a Milano, ha 12(mila) euro di entrate mensili, Paolo Verdi, di Misinto, ha solo 9(mila) euro. Chi è più ricco, nel proprio contesto? Se xiMI=12 ziMI=(12-3,344)/1,85=4,68 Se xiPI =9 ziPI=(9-2,802)/1,28=4,84 Dunque, benché Mario Rossi abbia entrate del 33% superiori a quelle di Paolo Verdi, quest’ultimo possiede un reddito ‘standardizzato’ maggiore, se depurato dell’ordine di grandezza e della dispersione del proprio sottogruppo. xi niPIC ziPIC 0,4 7 -1,877 1,0 9 -1,408 1,4 55 -1,096 1,8 103 -0,783 2,2 88 -0,471 2,6 123 -0,158 3,0 68 0,154 3,4 50 0,467 3,8 30 0,779 4,2 41 1,092 4,6 15 1,404 5,0 11 1,717 5,6 12 2,185 7,0 13 3,279 3 5,623 10,0 628 Quanto possono pesare le code di una v.s.? Torniamo alla distribuzione dei redditi dei piccoli comuni della provincia di Milano (cap. 3). Solo il 4,4% delle famiglie intervistate (28 su 628) oltrepassa una soglia di ricchezza che possiamo situare a m+2 [2,8+(2x1,28)=5,36]. Ma potremmo pensare a una distribuzione con un peso molto maggiore sulle code, cioè oltre le colonne d’Ercole di m+2 o m+3 ? Supponiamo di omaggiare 50 delle 123 famiglie con reddito 2,4-2,8, dando loro 7,4(mila) euro in più. Ora esse entrano nell’ultima classe. Sopra i 5,36 euro troviamo ora 28+50=78 famiglie, cioè il 12,4%. Ma… In realtà lo spostamento sulle code è solo apparente: infatti la nuova distribuzione (potete calcolarla) ha media m=3,4 (più alta) e =2,33 (quasi il doppio), così che ora le colonne d’Ercole si spostano a 8,06. Infatti: 55 50 45 40 m+2=3,4+(2x2,33)=8,06 35 Ora sopra la soglia stanno so-lo in 53, l’8,4%! 30 25 20 15 Blu = Prima 10 Rosso=Dopo 5 0 0 1 2 3 4 m+2 prima 5 6 7 8 9 10 11 12 m+2 dopo 13 11 (m±k) come ‘colonne d’Ercole’ Al crescere della dispersione intorno alla media, cresce anche la varianza: più di tanto quindi non aumenta il peso delle osservazioni che si situano al di fuori di una sorta di ‘colonne d’Ercole’ che delimitano la regione compresa tra (m-2) e (m+2), oppure tra (m-3) e (m+3) o anche più. Ma quanto possono pesare (come frequenza) le osservazioni che cadono al di fuori delle colonne? E’ una domanda importante, perché fuori di queste colonne sta la regione dei casi anomali (chiamiamola regione di rifiuto), e perché – se dobbiamo fare una indagine su una popolazione e consideriamo un range definito mediante m e – abbiamo comunque interesse a inglobare una % la più consistente possibile.. Sarebbe bello avere la certezza che al di fuori di una certa soglia la frequenza dei casi osservati non superi un tetto, ovvero, se ci suona meglio, che entro una regione data intorno a m(x) stia almeno una certa % minima di casi… m-k m m+k Il teorema di Cebicev Se di una v.s. conosciamo solo m e e non l’intera distribuzione non possiamo certo definire la frequenza di casi osservati in un certo intervallo centrato sulla media, Freq(m-k<X<m+k): Freq (|X-m|<k)= ? Né posso sapere qual è la frequenza di osservare casi al di fuori dello stesso intervallo, Freq (|X-m|>k). Ma una informazione minimale ci viene dal teorema di Cebicev: Freq (|X-m|<k)= 1–(1/k2) 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 k 0 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 Data una v.s. X di cui conosciamo m e , qualunque sia la forma della distribuzione, la frequenza di osservare unità comprese in un intorno della media di ampiezza pari a 2k non può essere inferiore a 1-(1/k2) Per es. entro ±2 sta almeno il 75% dei casi (fuori delle colonne non più del 25%). Entro ±4,5 sta almeno il 95% dei casi (e fuori non più del 5% dei casi). Eccetera… 1 f X m k 1 2 k