IL PROBLEMA DEGLI EFFETTI ESTERNI: LA CORRELAZIONE PARZIALE a.a. 2011/12 La correlazione parziale 1 Correlazione semplice e Correlazione Parziale Correlazione fra X e Y X Y Correlazione Parziale fra X e Y dopo che è stato statisticamente sottratto (rimosso, controllato, tenuto costante o parzializzato) l’effetto lineare di una o più variabili diciamo Z e V. X Z Y Ogni linea indica una correlazione V 15 La correlazione parziale 200910 2 UN ESEMPIO DI CORRELAZIONE SPURIA Consideriamo tre indicatori socioeconomici disponibili per 47 province di un paese in via di sviluppo. I tre indicatori considerati sono: 1. una misura di fertilità (nati per donna) standardizzata in maniera tale che vari tra 0 e 100 [FERTILITA]. 2. la percentuale degli occupati in agricoltura sul totale degli occupati (che può anche essere vista come un indicatore di quanto è urbanizzata la provincia) [AGRICOLTURA]. 3. il logaritmo della percentuale della popolazione con un istruzione superiore alla scuola primaria (il logaritmo è stato scelto perchè ci occuperemmo di relazioni lineari e la linearità sembra maggiore utilizzando questa trasformazione)[ISTRUZIONE o EDUCAZIONE]. Il problema che ci poniamo è di cercare di descrivere le relazioni esistenti tra i tre indicatori.. 15 La correlazione parziale 200910 3 La matrice dei diagrammi di dispersione Il grafico mostra la matrice dei diagrammi di dispersione di tutte le possibili coppie di variabili. 0 20 40 60 80 90 70 1 50 FERTILITA 30 80 60 2 40 AGRICOLTURA 20 0 4 3 EDUCAZIONE 3 2 1 0 30 50 70 90 0 1 15 La correlazione parziale 200910 2 3 4 4 Commenti I grafici precedenti mostrano che: 1) 2) 3) 4) 5) la percentuale di occupati in agricoltura e fertilità sono .positivamente associati: provincie con una alta percentuale di occupati in agricoltura hanno anche una alta fertilità, viceversa, basse percentuali di occupati in agricoltura si osservano in provincie con bassi livelli di fertilità; esiste una .associazione negativa. tra istruzione e fertilità; ovvero provincie con un alto livello di istruzione hanno una fertilità più bassa delle provincie con un basso livello di istruzione. lo stesso (associazione negativa) può essere detto per la relazione tra agricoltura e istruzione almeno in prima approssimazione le relazioni sembrano lineari. la relazione tra agricoltura e fertilità sembra più debole della relazione esistente tra agricoltura ed istruzione (si pensi, ad esempio, alla dispersione intorno a delle ipotetiche rette di regressione). Meno facile è valutare la forza relativa delle relazioni intercorrenti tra istruzione e, rispettivamente, agricoltura e fertilità. La prima (istruzione verso agricoltura) sembra però in una qualche misura più forte della seconda (si osservi in particolare l'allargarsi del grafico fertilità verso istruzione per valori bassi dell'istruzione 15 La correlazione parziale 200910 5 Coefficienti di correlazione delle tre variabili considerate. La matrice di correlazione cor(fertilità,agricoltura) = 0;35; cor(fertilità,istruzione) = -0;52; cor(agricoltura,istruzione) = -0;68: Similmente a quanto visto per le covarianze spesso, i coefficienti di correlazione sono organizzati in una matrice, detta matrice di correlazione, del tipo X Y Z fertilita’ agricoltura istruzione X fertilita’ 1,00 0,35 -0,52 Y agricoltura 0,35 1,00 -0,68 Z istruzione -0,52 -0,68 1,00 15 La correlazione parziale 200910 6 Una congettura ovvero Cenno alla correlazione parziale Si supponga che un sociologo faccia le seguenti ipotesi sulle relazioni intercorrenti tra i tre indicatori socio-economici: 1. Tra agricoltura e istruzione esiste una sostanziale interdipendenza. Nelle province “molto agricole”. i bimbi vanno meno a scuola perchè servono braccia per lavorare i campi, l'istruzione è percepita come inutile per fare il contadino, la minore urbanizzazione rende più difficile il raggiungimento della scuola stessa,…... Quindi le province “molto agricole” rimangono associate a bassi livelli di istruzione. Dall'altra parte, possiamo pensare che un buon livello di istruzione faciliti la “transizione” verso attività secondarie e terziarie. Quindi, esiste anche un effetto, diciamo di ritorno, dall'istruzione all'agricoltura. 15 La correlazione parziale 200910 7 Una congettura ovvero Cenno alla correlazione parziale 2. L'istruzione ha un effetto diretto sulla fertilità. Coppie con buona scolarità vogliono (e riescono a) controllare la natalità. Simultaneamente, famiglie con pochi figli hanno più disponibilità di reddito e quindi sono più “portate “ a mandare i figli a scuola. 3. Per quanto riguarda la fertilità province “molto agricole e colte” si comportano come le “province poco agricole e colte”. E simultaneamente province “molto agricole e poco colte” si comportano come le province “poco agricole e poco colte”. Ovvero, non esiste nessuna relazione diretta tra agricoltura e fertilità. La relazione osservata precedentemente ( r = 0.35) è, come si dice comunemente, spuria. E' una conseguenza delle relazioni descritte ai punti 1 e 2 precedenti. Ovvero osservo una associazione positiva tra agricoltura e fertilità semplicemente perchè “tanta agricoltura” risulta in “bassa istruzione” e “bassa istruzione” risulta in “alta fertilità 15 La correlazione parziale 200910 8 CORRELAZIONE PARZIALE In definitiva, il tipo di relazione che il sociologo ipotizza tra le tre variabili può essere rappresentato schematicamente come. agricoltura istruzione fertilità dove le freccie indicano un effetto diretto. Il punto cruciale della congettura è l'inesistenza di una freccia che metta in relazione diretta agricoltura e fertilità senza “passare” per l'istruzione. Il problema è: cosa possiamo fare per dire se i dati disponibili “votano” a favore o contro la congettura. Ovvero, cosa possiamo fare per capire se eliminata la dipendenza tra agricoltura e fertilità attribuibile alle relazione che ambedue le variabili hanno con istruzione rimane ancora qualcosa. 15 La correlazione parziale 200910 9 CORRELAZIONE PARZIALE Hmmm... é spuria? r = -0.52 r = 0.35 r = -0.68 15 La correlazione parziale 200910 10 CORRELAZIONE PARZIALE 15 La correlazione parziale 200910 11 CORRELAZIONE PARZIALE Una possibile interpretazione è che possiamo guardare a agricoltura e fertilità come divise in due parti: agricoltura = (parte legata all'istruzione)+ (parte non legata all'istruzione) fertilità = (parte legata all'istruzione)+ (parte non legata all'istruzione) e che la congettura postuli l'inesistenza di una relazione tra le due parti non legate all'istruzione. Accettata questa interpretazione della congettura, possiamo allora verificarla “estraendo” le due parti non legate all'istruzione e studiandone le relazioni. 15 La correlazione parziale 200910 12 Attuazione pratica del programma precedente Se assumiamo che le relazioni intercorrenti tra le variabili sono lineari possiamo procedere nella seguente maniera: 1. Determiniamo la retta di regressione di agricoltura su istruzione. Ovvero, costruiamo un modello di regressione lineare semplice in cui agricoltura è la variabile risposta e istruzione è la variabile esplicativa. Possiamo poi identificare con i residui del modello la parte dell'agricoltura non legata all'istruzione. 2. In maniera analoga, ”estraiamo” la parte della fertilità non legata all'istruzione calcolando i residui di un modello di regressione lineare semplice in cui la fertilità gioca il ruolo di variabile risposta e istruzione quello di variabile esplicativa. 3. Infine, valutiamo la relazione esistente tra le due parti non legate all'istruzione semplicemente calcolando il coefficiente di correlazione tra i residui calcolati ai passi 1 e 2. 15 La correlazione parziale 200910 13 CORRELAZIONE PARZIALE Nella terminologia statistica, il coefficiente suggerito al passo 3 viene usualmente chiamato: coefficiente di correlazione parziale tra agricoltura e fertilità data (al netto di, a parità di) l'istruzione. Calcolato con i dati disponibili vale -0.0021. E' molto vicino allo zero e quindi ci indica che tra i residui dei due modelli di regressione non esiste una relazione lineare importante. In realtà come ci mostra la figura della pagina seguente, tra i residui dei due modelli non sembra esistere nessuna relazione rilevante. La conclusione è quindi che i dati sembrano andare d'accordo con la congettura fatta. 15 La correlazione parziale 200910 14 Diagram m a di dispersione dei residui dei due m odelli di regressione 25 20 15 residui FERT= f(ISTRUZ) 10 5 0 -50 -40 -30 -20 -10 0 10 20 30 40 -5 -10 -15 -20 -25 residui AGRI= f(ISTRUZ) 15 La correlazione parziale 200910 15 CORRELAZIONE PARZIALE La correlazione parziale è quindi la correlazione tra due variabili dopo che è stato statisticamente sottratto (rimosso, controllato, tenuto costante o parzializzato) l’effetto lineare di una o più variabili. Se la variabile da controllare è (Z), il coefficiente (rXY.Z) è detto parziale di 1° ordine e si calcola nel modo seguente 15 La correlazione parziale 200910 16 Formula del coefficiente di Correlazione Parziale fra X e Y, al netto dell’effetto di Z correl fra x e z correl fra x e y Correlaz ione parziale fra x e y rxy. z Quadrato della correl fra x e z correl fra y e z rxy (rxz ryz ) 1 r 2 xz 1 r Moltiplicata per 15 La correlazione parziale 200910 2 yz Quadrato della correl fra y e z 17 CORRELAZIONE PARZIALE Al numeratore di questa formula abbiamo la differenza tra la correlazione totale (detta di ordine zero) e un fattore di correzione; al denominatore abbiamo due fattori di correzione: la varianza residua di X, dopo aver eliminato il contributo di Z, e la varianza residua di Y, dopo aver eliminato il contributo di Z. La correlazione parziale è un coefficiente di correlazione di Pearson e viene interpretato in modo simile. Può assumere qualsiasi valore compreso tra + 1 e –1. Il coefficiente di correlazione parziale elevato al quadrato esprime la quantità di varianza che X e Y condividono quando Z è sotto controllo (se Y è la variabile dipendente, l’r parziale al quadrato indica la quota di varianza di Y spiegata da X, quando Z viene mantenuta costante). 15 La correlazione parziale 200910 18 CORRELAZIONE SEMPLICE E PARZIALE ryx.z= 0.0021 ryx = 0.35 r = 0.35 r = -0.52 r = -0.52 r = -0.68 15 La correlazione parziale 200910 19 Correlazione parziale (esempio con tre variabili) 1 ryx1 R 1 ryx2 rx1x2 1 ryx1 . x2 ryx1 ryx2 rx1x2 1 r 2 yx2 1 r 2 x1 x2 1/ 2 misura della relazione tra y ed x1 al netto di x2 ryx1 . x2 ryx1 SSE ryx2 0 ed ryx2 = 0 Se non vi è relazione tra y ed x2 e neppure tra x1 ed x2 la correlazione parziale e la correlazione semplice coincidono 15 La correlazione parziale 200910 20 Correlazione parziale Il coefficiente di correlazione parziale tra tre variabili non è unico, ma dipende da quale variabile vogliamo parzializzare: con tre variabili i coefficienti possibili sono tre, che si ottengono eliminando di volta in volta l’influenza di ciascuna variabile dalla correlazione tra le altre due (la scelta è dettata da ipotesi). Possiamo calcolare r parziali di ordine superiore rimuovendo gli effetti di due o più variabili da una relazione. Esempio: correlazione parziale di 2° ordine: 15 La correlazione parziale 200910 21 Correlazione parziale r12.34 r12.3 r14.3 r24.3 1 r142 .3 1 r242 .3 (2) 15 La correlazione parziale 200910 22 ESERCIZIO Utilizzando la formula della pag. precedente completare la matrice dei coefficienti di correlazione parziale dell’esempio delle provincie. 15 La correlazione parziale 200910 23 Come i diagrammi di Venn possono aiutarci a capire la correlazione multipla e parziale Una var. dip. (Y) e 2 indipendenti (X1 e X2)— presentano 3 correlazioni da esaminare: • Correlazioni fra ciascuna var. indip. e la var. dip. Y: rY1 and rY2 • Correlazione fra le var. indip.: r12 Il nostro obiettivo: capire le interrelazioni fra le correlazioni. • Quanta variabilità di Y è spiegata da X1 e X2 insieme • Quanta variabilità di Y è spiegata da X1 dopo aver tenuto conto di X2 • Quanta variabilità di Y è spiegata da X2 dopo aver tenuto conto di X1 Y X1 Y X2 X1 15 La correlazione parziale 200910 X2 24 Diagrammi di Venn con variabili indipenedenti non correlate e correlate Variabili esplicative non correlate Le variabili indipendenti non correlate sono molto rare, sono prevalentemente presenti nei disegni di esperimenti. In tal caso possiamo calcolare l’ R2 totale (overall R2) sommando i vari singoli R2. RY2|12 RY2|1 R2 spiegare Y utilizzando solo X2: X1 RY2|1 RY2|12 a b c RY2|2 R2 spiegare Y utilizzando solo X1 Y R2 Variabili esplicative correlate Le variabili indipendenti correlate sono molto comuni, sono presenti in quasi tutti gli studi. In tal caso non possiamo sommare i vari singoli R2 a causa della intersezione dei contributi. Y |2 RY2|1 a c a X1 X2 Come la correlazione fra le variabili espilicative influenza il loro effetto congiunto? • Variabili esplicative altamente correlate: la quota parte spiegata congiuntamente “c” è grande; Le quote parti indipendenti addizionali “a” e “b” sono piccole • Variabili esplicative scarsamente correlate : la quota parte spiegata congiuntamente “c” à piccola; Y c RY2|2 b c b X2 Y a c X1 correlazione parziale Le quote parti indipendenti addizionali 15 “a”La e“b” 200910 sono grandi Y b a b X2 X1 c X2 25 Misurazione del contributo esplicativo addizionale di una variabile esplicativa addizionale Supponendo, che X1 sia già nel modello, come possiamo misurare il contributo addizionale di X2, in aggiunta a quello già spiegato da X1? Varianza (Y ) a b c d d a X1 Y c RY2 2 b X2 VarianzaRe sidua var(Y | X1 ) b d bc abcd b Prop di VarRes (Y | X 1 ) spiegatada X 2 bd RY22 correlazio ne semplice RY22|.1 correlazio ne parziale rY 2 Terminologia e annotazioni • Correlazione semplice, rY2 and RY22 : Proporzione di variabilità di Y spiegata da X2 • Correlazione multipla, RY.122 : Proporzione di variabilità di Y spiegata da entrambe X1 e X2 • Correlazione parziale, rY2.1 : Y2 identifica la variabile correlata con Y; .1 identifica la variabile(i) tenuta costante (o tenuta ferma, parzializzata) rY 2.1 Come i coefficienti parziali sono legati a quelli semplici? Correlaz. Parziale2 Correlaz.Semplice2 rY 2 2 bc abcd rY 2 .1 2 b bd Confrontando queste 2 equazioni, possiamo notare che b e d sono in entrambi i denominatori. Pertanto la relazione fra semplice e parziale dipende dalla dimensione di “a” e “c” rispetto a “b” e “d” 15 La correlazione parziale 200910 26 Capire il rapporto fra la correlazione parziale e la correlazione semplice Parziale può essere uguale a semplice Parziale può essere maggiore di semplice Parziale può essere più piccolo di semplice Quando “a” and “c” Sono piccoli: Semplice Parziale Quando “a” è grande (e “c” è grande o piccolo): Parziale > Semplice Quando “c” è grande (e “a” non è molto grande): Parziale < Semplice Y d a X1 c Y Y d b a b X2 X1 d a c X2 b bc bd abcd b bc bd abcd Il motivo più frequente: X1 è scarsamente correlato con Y Il motivo più frequente : X1 è altamente correlato con Y 15 La correlazione parziale 200910 X1 c b X2 b bc bd abcd Il motivo più frequente : X1 è altamente correlato con X2 27 Esercizio 1 – Calcolare la matrice dei coefficienti di correlazione parziale X2 X1 X1 1 X2 0.20 1 X3 0.35 0.15 15 La correlazione parziale 200910 X3 1 28 Esercizio 1– Calcolare la matrice dei coefficienti di correlazione parziale X1 X1 X2 X3 r13.2 X2 X3 1 0.20 1 0.35 .15 1 r13 r12 r32 1 r122 r13.2 2 1 r32 .35 (.2)(. 15) 1 .2 2 1 .152 15 La correlazione parziale 200910 .33 29 Esercizio 2 Consideriamo le variabili Y, X1, X2 e la seguente matrice di correlazione Y X1 X2 Y 1 0.251 0.777 X1 0.251 1 0.612 X2 0.777 0.612 1 Calcolare il coefficiente di correlazione parziale tra le variabili Y e X1, al netto di X2. 15 La correlazione parziale 200910 30 Esercizio 3 Relativamente a tre variabili : X, Y e Z si è ottenuta la seguente matrice di correlazione tra le tre variabili. La matrice contiene un dato impossibile, quale? Perchè? X Y Z X 0.00 0.48 0.75 Y 0.48 1.00 0.81 Z 0.75 0.81 1.00 15 La correlazione parziale 200910 31