TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.7 Correlare In questa lezione… In questa lezione facciamo conoscenza con la principale misura di associazione, il coefficiente di correlazione lineare (xy). Esso si applica a variabili entrambe quantitative, ed è efficace soprattutto se immaginiamo ci possa essere un particolare tipo di relazione, quella definita da una funzione rettilinea. Procederemo nella presentazione con questi passi: Identificheremo la Covarianza come misura per eccellenza di calcolo del grado di ‘covariazione’ tra due fenomeni. Perverremo al coefficiente xy normalizzando la covarianza e svolgeremo tramite esempi le procedure di calcolo. Esamineremo le capacità diagnostiche di xy con riferimento alle opposte situazioni di perfetta indipendenza e di perfetta dipendenza. Concluderemo confrontando le tre misure fin qui introdotte. Ripartiamo da uno scatter n. Età al I f Mesi interc 1 16 56 2 16 72 3 17 66 4 19 75 5 20 48 75 6 22 54 7 23 66 65 8 25 36 9 25 42 10 26 48 11 26 36 12 27 39 13 29 36 14 30 33 3515 32 36 16 33 27 Ripartiamo da un esempio già usato. Nel diagramma di dispersione la coordinata orizzontale indica l’età della madre al primo figlio, quella verticale il numero di mesi intercorsi tra il 2° e il 3° figlio. Abbiamo già imparato che la linea ellissoidale blu ci dà la sensazione che tra età al primo figlio (coordinata orizzontale) e intervallo di tempo tra le nascite successive (coordinata verticale) esista una sorta di associazione inversa (più precoce la prima nascita, più ritardate le successive). 55 45 35 25 15 20 25 30 Possiamo trovare qualche strumento per diagnosticare il tipo di relazione (diretta, inversa) e per misurarla? e ripartiamo da Durkheim La prima cosa che va chiarita è che ‘studiare l’associazione tra variabili’ non è un concetto unico, ma ne include due ben distinti: una cosa è diagnosticare il tipo di associazione (quando aumenta X che fa Y: aumenta, cala, aumenta e poi cala, o cosa altro?) altra cosa è studiare la strettezza dell’associazione individuata. A noi basta fermarci (per ora) alla seconda proprietà. Ma come? Nel 1895, Durkheim aveva formulato in proposito il Principio delle variazioni concomitanti: “se due fenomeni collettivi variano in modo concomitante tra loro o l’uno è causa dell’altro o ne è l’effetto, o comunque v’è tra essi una qualche relazione causale che passa attraverso altri caratteri intermedi”. Il centroide Per capire il concetto di ‘variazione concomitante’ identifichiamo il 17.mo punto inserito nel nostro diagramma, e che mettiamo in evidenza con una stella. E’ il punto che ha per coordinate la media di X e la media di Y. Y-my Y 75 P= (my, mx) 65 X-mX 55 my=48,12 45 Sappiamo che la media è una specie di baricentro della distribuzione che sintetizza. Il punto all’incrocio delle due medie è allora il baricentro della distribuzione congiunta: non a caso lo si definisce centroide. 35 X 25 15 20 25 30 35 mx = 24,12 Prolunghiamo allora le due semirette, perpendicolari tra loro, delle coordinate di P. Esse costituiscono una nuova coppia di coordinate del grafico. Spostando l’attenzione su questa nuova coppia di assi è come se avessimo traslato l’origine degli assi nel centroide stesso. Ora al posto della coordinata X abbiamo una sua trasformata (X - mX), e al posto della coordinata Y abbiamo la sua trasformata (Y - mY). Buoni e cattivi Ora il grafico è diviso in quattro parti, lungo le linee dei baricentri delle due variabili e si distinguono i buoni e i cattivi, ossia quelli sopra e quelli sotto la media. Sopra l’asse orizzontale i valori di Y sono sopra la media, sotto sono inferiori alla media. A destra dell’asse verticale i valori di X sono sopra la media, a sinistra sotto la media. (Y-my)>0 e (X-mX)<0 (Y-my)>0 e (X-mX)>0 75 65 55 II I III IV my 45 35 (Y-my)<0 e (X-mX)<0 (Y-my)<0 e (X-mX)>0 25 15 20 25 mx 30 35 Variazioni concomitanti Ora le osservazioni si collocano tutte o quasi nel II e IV quadrante, in cui le due coordinate hanno segno opposto: chi ha il primo figlio sotto i 24 anni frappone più di 48 mesi tra il secondo e il terzo, chi ha il primo figlio oltre i 24 anni ha invece intervalli inferiori ai 4 anni tra secondo e terzo. Tra i 2 caratteri le variazioni sono ‘concomitanti’ (Y-my)>0 e (X-mX)<0 (Y-my)>0 e (X-mX)>0 75 65 55 II I 45 III IV my 35 (Y-my)<0 e (X-mX)<0 (Y-my)<0 e (X-mX)>0 25 15 20 25 mx 30 35 Distinguere tipo e intensità dell’associazione A B X Età Y Mesi 16 40 18 40 18 45 55 20 45 54 45 20 48 48 22 54 23 53 24 56 24 61 25 58 75 65 35 25 15 20 25 30 35 66 60 42 36 15 18 21 24 27 Confrontiamo le situazioni A (già nota) e B: due sono le differenze importanti: In A la relazione tra X e Y è inversa (al crescere di X cala Y), in B è diretta In B la relazione è più stretta, in A è più lasca (lo si intuisce guardando la ‘larghezza’ delle ellissoidi con cui circoscriviamo le nuvole di punti) I caratteri da diagnosticare e misurare sono due: tipo e intensità dell’associazione I prodotti degli scarti come spie di una relazione Cerchiamo allora una misura del grado di strettezza (e del tipo) dell’associazione. Dicotomizzando le variabili con i due nuovi assi abbiamo fatto assumere loro valori positivi (superiori alla media) e negativi (inferiori alla media). Diamo un’occhiata al segno delle nuove coordinate: nel I e III quadrante (quelli in cui si dovrebbero addensare i punti se c’è una relazione diretta, come nel caso B) i segni delle coordinate sono uguali tra loro, entrambi positivi (I quadrante) o entrambi negativi (III); negli altri due quadranti invece i segni sono alternati. IDEA!! Facciamo il prodotto delle coordinate y*=Y-m e x*=X-m: quad rante Segno della funzione: y*=Y-m 66 y*>0 y*>0 Positivo 60 X*<0 X*>0 Positivo Negativo 54 Negativo Negativo Positivo 48 Positivo Negativo Negativo (X-mx) (Y-my) I Positivo Positivo II Negativo III IV (X-mx) x (Y-my) A coordinate di segno uguale corrisponde un prodotto positivo; a coordinate di segno opposto corrisponde un prodotto negativo. x*=X-m 42 y*<0 y*<0 X*<0 X*>0 36 15 18 21 24 27 Fare la media tra i prodotti degli scarti 75 65 y*>0 y*>0 X*<0 X*>0 55 y*<0 35 66 60 II 45 A III I IV y*<0 X*>0 X*<0 20 y*>0 X*<0 X*>0 54 II 48 y*<0 III 42 X*<0 B I IV y*<0 X*>0 36 25 15 y*>0 25 30 35 15 18 21 24 27 Che succede ai prodotti (X-mx)(Y-my) in A e in B? in A i punti si collocano nel II e IV qua-drante e i pro-dotti sono tutti negativi. Nel caso B i punti si collocano nel I e III quadrante, i prodotti sono tutti positivi, la somma è una misura positiva assai elevata. Situazioni intermedie porteranno a misure intermedie. Covarianza è la media aritmetica dei prodotti delle variabili-scarto ponderate per le rispettive frequenze. Covxy E X mx Y m y Calcolo della covarianza Covxy E X mx Y m y ( x i mx ) ( yi m y )ni i N Calcoliamo la covarianza nel caso B, affiancando alle colonne delle x e delle y le colonne con i corrispondenti scarti dalle rispettive medie, poi quella dei prodotti tra gli scarti. In questo caso ogni coppia di osservazione è rilevata singolarmente quindi con numerosità 1 (la colonna delle numerosità è superflua). Xi Yi ni (Xi-m) ni (Yi-m) ni (Xi-m) (Yi-m) ni 16 40 1 -5 -10 +50 18 40 1 -3 -10 +30 18 45 1 -3 -5 +15 20 45 1 -1 -5 +5 20 48 1 -1 -2 +2 22 54 1 1 4 +4 23 53 1 2 3 +6 24 56 1 3 6 +18 24 61 1 3 11 +33 25 58 1 4 8 +32 210 500 10 0 0 +195 Calcoli intermedi: E(X) = 210/10=21 E(Y) = 500/10=50 E[(X-mX)(Y-mY)]=19,5 La covarianza è positiva, il che conferma la relazione diretta tra X e Y: ma quanto è stretta? Ancora non sappiamo valutarlo.. Formula operativa per il calcolo della covarianza Come per la varianza, passare attraverso gli scarti dalle medie è una procedura lunga e carica di decimali. MA anche per la covarianza esiste una procedura operativa più snella. Si dimostra che la formula definitoria della CovXY equivale a Covxy (x i mx ) ( yi m y )ni i Xi Yi XiYi 16 40 640 18 40 720 18 45 810 20 45 900 20 48 960 22 54 1188 23 53 1219 24 56 1344 24 61 1464 25 58 1450 210 500 10695 N x y n i i N i i xi ni yi ni i i N N La covarianza è pari alla differenza tra la media della variabile prodotto XY e il prodotto delle medie di X e Y Covxy E X mx Y m y E ( XY ) E ( X ) E (Y ) Calcoli intermedi: E(X)=210/10=21 E(Y)=500/10=50 E(XY)=1069,5 Cov(XY)=19,5 Il risultato è proprio lo stesso. Ma attenti a non invertire minuendo e sottraendo, in tal caso senza accorgervene invertireste il segno.. Proprietà della covarianza La covarianza è la misura di base della ‘covariazione’ tra due caratteri statistici. Essa possiede queste proprietà: CovXY è una misura che cresce al crescere dell’associazione tra X e Y, sia che essa sia diretta, sia che sia inversa. Il segno di CovXY riflette fedelmente il tipo di relazione: diretta se il segno è positivo, inversa se è negativo. Si può mostrare che se X e Y sono tra loro indipendenti (stocasticamente o in media) allora CovXY è pari a zero. Non possiamo invece dire con certezza che, se CovXY=0, allora c’è indipendenza stocastica, e nemmeno semplicemente indipendenza in media. La covarianza nulla può essere il risultato di mere compensazioni interne di calcolo. In tal caso si parla di indipendenza correlativa. Indipendenza e covarianza 6 5 4 3 2 1 0 0 1 2 X Y XY 1 4 4 2 1 2 3 5 15 4 1 4 5 3 1 3 4 5 6 In queste due situazioni di indipendenza stocastica (azzurro) e in media (giallo) troviamo conferma a quanto detto. Calcoli intermedi: E(X) = 30/10=3 E(Y) = 30/10=3 E(XY)=9 CovXY=0 10 8 6 4 2 0 0 1 Calcoli intermedi: E(X) = 30/10=3 E(Y) = 50/10=5 E(XY)=15 CovXY=0 2 3 4 5 6 X Y XY 1 4 4 2 3 6 3 2 6 4 1 4 15 5 0 0 2 2 1 6 6 2 3 6 2 7 14 3 4 12 3 8 24 4 5 20 4 9 36 5 2 10 5 10 50 30 30 90 30 50 150 Se tra X e Y c’è indipendenza stocastica o anche solo in media allora CovXY è pari a zero La fallacy della covarianza nulla In questa terza simulazione la covarianza è nulla. Eppure la forma così ‘lisciata’ del grafico non lascia ombra di dubbi che tra X e Y una qualche relazione esiste, anzi una relazione esatta! 25 20 15 10 Y = (X-mX)2 5 0 0 2 4 X Y XY 0 25 0 1 16 16 2 9 18 3 4 12 4 1 4 6 1 6 7 4 28 8 9 72 9 16 144 10 25 250 50 110 550 6 8 Calcoli intermedi: E(X)=5 E(Y) =11 E(XY)=55 CovXY=0 10 Ribadiamo allora la regola generale: Se tra X e Y c’è indipendenza stocastica o in media allora CovXY = 0, ma se CovXY = 0 possiamo solo dire che tra X e Y c’è indipendenza ‘correlativa’ Da che dipende questa trappola imbarazzante? Guardando il grafico si nota come la relazione è esatta, ma non rettilinea (è una parabola). Ha a che fare con questa ‘insofferenza alle regole ’ di CovXY? Normalizzare la covarianza Per rispondere all’ultima domanda occorre concludere l’elenco delle proprietà della covarianza, esaminando quelle che concernono il suo massimo Sia in positivo sia in negativo, CovXY raggiunge lo stesso massimo quando l’associazione tra X e Y non solo è perfetta (conosciamo già il significato di perfetta dipendenza funzionale) ma si esprime in una relazione di tipo rettilineo. A differenza della varianza, che non aveva un massimo (dipendendo dall’ordine di grandezza e dalla numerosità della popolazione), CovXY possiede un massimo in valore assoluto (‘in modulo’), identificato dalla disuguaglianza di Cauchy: x y cov xy x y ovvero cov xy x y Usiamo separatamente le due proprietà. Con la seconda possiamo normalizzare la covarianza, rapportandola al suo massimo. Riprenderemo poi la prima proprietà, per dare una risposta alla domanda sulla fallacy della covarianza nulla. Il coefficiente di correlazione lineare Chiamiamo la CovXY normalizzata coefficiente di CORRELAZIONE LINEARE: 1 xy cov xy x y 1 Se guardiamo dentro alla formula, esplicitando le formule di covarianza e varianze, scopriamo che il coefficiente di correlazione lineare è la media del prodotto tra variabili standardizzate: xy ( xi mx ) ( yi m y ) ni xi* yi*ni / N E (xi* yi* ) x y x y N i i cov xy xy ha lo stesso segno della covarianza, perché il denominatore a cui viene rapportato è il prodotto di misure sempre positive (xy). xy vale 1 in caso di perfetta correlazione lineare (cioè rettilinea) diretta, vale –1 in caso di perfetta correlazione lineare inversa. Se c’è indipendenza stocastica vale zero: ma non vale l’inverso.. In caso di relazione non lineare.. X Y XY X Y XY 10 1 10 10 1 10 10 8 2 5 10 2 8 16 6 3 3,3 10 3 6 18 4 4 2,5 10 4 4 16 2 5 2 10 5 2 10 0 6 1,7 10 6 0 0 21 24,5 60 21 30 70 0 1 2 3 4 5 6 7 Facciamo l’ipotesi di una relazione iperbolica Y=10/X. In tal caso tra X e Y c’è una relazione di perfetta dipendenza funzionale ma il coefficiente di correlazione non è massimo (confrontatelo col caso rettilineo a fianco). Come mai? Il fatto è che in caso di relazioni - monotone almeno non decrescenti - anche perfette ma non lineari tra X e Y, pur essendoci perfetta associazione la covarianza non sarà massima perché alcuni punti della nuvola, non essendo rettilinea, si collocheranno nel quadrante ‘sbagliato’! 10 8 6 4 2 0 0 1 2 3 4 5 Per l’iperbole è cov=-4,29. Per la retta invece cov=-5,83. Ma per confrontarle occorre passare ai coefficienti rxy (rispettivament e -0,879 e –1) 6 7 ..mantenere opportune cautele La trappola si complica ancora se la relazione non solo non è lineare, ma nemmeno monotona. Se i punti della nuvola giacciono tutti su una parabola a due rami, come nell’esempio già fatto (ma anche su altre funzioni esatte, come una sinusoide), i segni dei prodotti degli scarti delle coordinate si compenseranno tra loro e produrranno addirittura una covarianza nulla! Questi sono casi limite. Ma in generale possiamo affermare che Un xy=0 non è garanzia di indipendenza tra X e Y, perché si può ottenere anche solo per mera compensazione interna tra i segni dei prodotti; meglio limitarsi a dire che tra X e Y sussiste indipendenza correlativa. Un xy<1 non è garanzia di assenza di dipendenza funzionale perché questa misura isola come caso a sé solo quello della perfetta relazione lineare. Un primo esempio L’European Community Household Pa- regione nel (1995), mette in relazione per 12 Italia paesi europei due indicatori di ‘pari op- Portogallo portunità’: X è la % di donne che lavo- Gran Bret. ra, Y una misura ritenuta robusta della Grecia disuguaglianza nella distribuzione dei Spagna redditi familiari (niente di più del buon Irlanda vecchio coefficiente di variazione!). Olanda X Y X2 Y2 XY 0,42 0,82 0,176 0,672 0,344 0,59 0,76 0,348 0,578 0,448 0,65 0,74 0,422 0,548 0,481 0,44 0,68 0,194 0,462 0,299 0,32 0,67 0,102 0,449 0,214 0,39 0,67 0,152 0,449 0,261 0,60 0,61 0,360 0,372 0,366 Austria 0,56 0,51 0,314 0,260 0,286 Belgio 0,60 0,50 0,360 0,250 0,300 Germania 0,53 0,50 0,281 0,250 0,265 0,9 Finlandia 0,72 0,45 0,518 0,202 0,324 0,8 Danimarca 0,78 0,42 0,608 0,177 0,328 0,7 TOTALE/N 0,55 0,61 0,320 0,389 0,326 0,6 E(X)=0,55; E(X2)=0,320; V(X)=0,0175 E(Y)=0,61; E(Y2)=0,389; V(Y)=0,0169 E(XY)=0,326; E(X)E(Y)=0,3355; Cov=-0,0095; XY= 0,0172; XY=-(0,0095/0,0172)=-0,55 Cinque colonne bastano per calcolare deviazioni standard e covarianza. 0,5 0,4 0,3 0,4 0,5 0,6 0,7 0,8 Altro esempio altra trappola Un altro esempio su 19 regioni italiane (senza la Val d’Aosta). Sia X= tasso di occupazione giovani 25-34 anni e Y=suicidi per milione di abitanti (‘92). Dalle colonne si ottiene Cov=+0,0258 XY= 0,0353, quindi XY=+0,73. Il coefficiente è molto elevato: ma siamo davvero sicuri che occupazione e suicidio vadano di pari passo? (si considerino separatamente le due cerchie delle regioni del centronord e del sud) 1,3 1,1 regione X Y X2 Y2 XY Piemonte 0,88 1,14 0,7744 1,2996 1,0032 Lombardia 0,88 0,75 0,7744 0,5625 0,6600 Trentino 0,91 1,00 0,8281 1,0000 0,9100 Veneto 0,89 0,85 0,7921 0,7225 0,7565 Friuli 0,85 1,23 0,7225 1,5129 1,0455 Liguria 0,80 0,96 0,6400 0,9216 0,7680 Emilia 0,88 1,29 0,7744 1,6641 1,1352 Toscana 0,84 0,86 0,7056 0,7396 0,7224 Umbria 0,83 1,01 0,6889 1,0201 0,8383 Marche 0,84 0,82 0,7056 0,6724 0,6888 Lazio 0,70 0,60 0,4900 0,3600 0,4200 Abruzzi 0,76 0,61 0,5776 0,3721 0,4636 Molise 0,71 0,58 0,5041 0,3364 0,4118 Campania 0,58 0,38 0,3364 0,1444 0,2204 0,9 Puglie 0,70 0,48 0,4900 0,2304 0,3360 0,7 Basilicata 0,64 0,67 0,4096 0,4489 0,4288 0,5 Calabria 0,55 0,46 0,3025 0,2116 0,2530 Sicilia 0,63 0,67 0,3969 0,4489 0,4221 1 Sardegna 0,65 0,86 0,4225 0,7396 0,5590 0,3 0,5 0,6 0,7 0,8 0,9 Calcolare la covarianza su tabelle a due entrate Il calcolo della covarianza e di può essere effettuato su qualunque coppia di variabili quantitative, anche se in forma di tabella. In questo caso nella formula compare correttamente il doppio suffisso per riga (i) e colonna (j). Covxy (x i mx ) ( y j m y )nij i N x y n i i N j ij xi ni y j n j i i N N Come per le serie disaggregate le statistiche intermedie da calcolare sono 6: la numerosità N La media di X E(X) La media di Y E(Y) Il momento secondo di X E(X2) Il momento secondo di Y E(Y2) La media del prodotto, E(XY). L’unica statistica noiosa da calcolare, in questo caso, è E(XY). Occorre infatti, per ogni casella non nulla della tabella, calcolare il prodotto tra le due modalità di riga e di colonna e la numerosità riportata in casella (xiyjnij), sommarle poi tutte e dividerle per N. Un ultimo esempio Riprendiamo l’esempio della distribuzione delle 20 regioni per indice di vecchiaia e numero di posti letto geriatrici. In blu le numerosità congiunte, in nero modalità e numerosità, in rosso le elaborazioni successive, in marrone il calcolo di E(XY). 60-120 y1=90 120-180 y2=150 180-240 y3=210 Nj Xi ni Xi2ni 100-250[x1=125] 1 2 1 4 500 62500 50-100 [x2=75] 4 2 0 6 450 33750 0-50 [x3=25] 3 4 3 10 250 6250 8 8 4 N=20 1200 102500 Yj nj 720 1200 840 2760 Yj2nj 64800 180000 176400 421200 Yj =I.Vec Xi=P.Letto N.j E(XY)={(125x90x1)+(125x150x2)+(125x210x1)+ (75x90x4)+(75x150x2)+(25x90x3)+(25x150x4)+ (25x210x3)}/20= {11250+37500+26250+27000+ 22500+6750+15000+15750}/20 = 8100 Cov = E(XY) – E(X)E(Y) = 8100-(60x138)= -180 XY=rXY=(-180)/(39,05x44,90)= -180/1753 = -0,10 E(X)=60 E(X2)=5125 E(Y)=138 E(Y2)=21060 V(X)=1525 V(Y)=2016 X=39,05 y=44,90 Confrontare tre misure Il coefficiente di correlazione è dunque per certi versi molto occhiuto (separa attentamente diversi tipi di dipendenza perfetta), per altri molto miope (non distingue diversi tipi di indipendenza). Confrontiamo allora le capacità diagnostiche delle tre misure di associazione studiate: 2 , 2 , || 2 = 2 = || = 0 0 0 Indipendenza in media Tra 0 e 1 0 0 Indipendenza correlativa Tra 0 e 1 Tra 0 e 1 0 Situazioni di Dipendenza 2 = 2 = || = Relazione non lineare non monotona 1 1 <1 Relazione non lineare monotona 1 1 >0 e <1 Relazione lineare 1 1 1 Situazioni di Indipendenza Indipendenza stocastica Misure diverse sono sensibili a situazioni limite differenti. Utilizzarne dunque più di una permette un miglior dettaglio nella diagnosi