TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione 8 Più di due variabili In questa lezione.. In questa lezione accenneremo a due ultime strategie per migliorare la goodness of fit di una funzione interpolante, e ad alcune conseguenze. La prima strategia consiste nella scomposizione della popolazione analizzata per gruppi omogenei. Rientra così in scena il concetto di eterogeneità della popolazione già usato nell’analisi univariata. Ci rifletteremo a partire da alcuni paradossi applicati a distribuzioni congiunte anche non quantitative discrete. La seconda strategia consiste nell’aumento delle variabili prese come esplicative. Entriamo così nel mondo dell’analisi multivariata, con il modello di regressione lineare multipla. Parlando dei limiti di utilizzo della regressione multipla ragioniamo infine su due errori in cui si è facilmente indotti nell’analisi multi-variata. Il primo è quello della collinearità. Il secondo è quello delle correlazioni spurie. Ripartiamo da un esempio Torniamo al solito esempio età-reddito e aggiungiamo al database una informazione in più: la variabile Z = numero di anni di istruzione dei 9 individui. Per i primi 4 sia Z=8 (L=bassa scolarizzazione), per gli ultimi 4 sia Z=18 (H=alta scolarizzazione), mentre il quinto individuo sia di media scolarità (13 anni di studio). Se teniamo conto di questa informazione, e depuriamo il database del quinto individuo (visto come outlier), i dati ci appaiono sotto una nuova prospettiva. 8 7 6 5 4 3 2 1 0 Xi Yi Zi 20 1,0 8 22 1,2 8 25 1,4 8 28 2,0 8 30 3,0 13 33 3,5 18 35 4,5 18 37 5,4 18 40 6,8 18 Sia i primi quattro punti tra loro che gli ultimi quattro tra loro sembrano ottimamente interpolabili con rette di diversa pendenza. Le equazioni delle due rette MQ (calcolatele anche voi!) rispettivamente per L e M sono: YL = -1,45 + 0,12XL 18 22 26 30 34 38 42 (R2 = 0,941) YH =-11,96+ 0,47XL (R2 = 0,999) Scomposizione per gruppi omogenei 8 7 6 5 4 3 2 1 0 18 22 26 30 34 38 Sovrapponiamo i due grafici. Le due popolazioni hanno intercette diverse ma anche pendenze molto diverse tra loro: il che crea l’effetto di curvilineità. 8 7 6 5 4 3 2 1 0 Almeno nel gruppo H l’adattamento è altissimo (99,9% di varianza spiegata): la scolarità pare influire sulla relazione reddito-età. 42 8 7 6 5 4 3 2 1 0 18 22 26 26 30 34 38 Ma sul problema delle differenti pendenze torneremo tra poco.. outlier 18 22 30 34 38 42 42 Un secondo esempio Piccole città Xi Yi 6 1,2 13 0,4 12 1,5 20 2,0 24 3,5 19 3,0 8 0,5 18 1,5 Facciamo un secondo esempio, un ‘classico’ della ricerca sociale. Per 20 città americane (8 piccole, 12 grandi) siano date due informazioni: X sia il reddito pro capite in migliaia di dollari, Y sia il tasso di criminalità. L’equazione della retta MQ stimata sulle 20 città è: Y = 0,468 + 0,138 X (R2 = 0,488) Xi Yi 5 3,0 7 2,8 15 3,4 11 2,5 17 4,0 4,5 17 1,8 3 21 4,5 19 4,0 21 3,6 38 6,6 17 2,3 16 2,0 Il coefficiente di determinazione non è altissimo.. Che succede se separiamo le due po7,5 polazioni di piccole e grandi città? [Per inciso, non abbiate la massimizzazione di R2 come unica stella polare. Per esempio la grande città da 38mila dollari di reddito potrebbe essere un dato anomalo, ma se (correttamente) la eliminassimo la retta (verde) ai MQ avrebbe R2=0,226, minore di quello complessivo]. Grandi città 6 1,5 0 0 4 8 12 16 20 24 28 32 36 40 Rette parallele o a diversa pendenza 7,5 Piccole città 6 4,5 L’equazione della retta MQ stimata separatamente per piccole e grandi città risulta: YP=-0,402+0,140 XP (R2 = 0,635) 3 1,5 YG=+1,340+0,120 XG (R2 = 0,567) 0 0 4 8 12 16 20 24 28 32 36 40 In questo caso le due relazioni lineari sono diverse nettamente per la intercetta ma più o meno scorrono parallele con pendenze simili. Tra poco questa differenza si rivelerà importante. 7,5 6 4,5 3 1,5 0 0 4 8 12 16 20 24 28 32 36 40 7,5 Grandi città 6 4,5 3 1,5 0 0 4 8 12 16 20 24 28 32 36 40 Possiamo anche leggere il grafico in modo assai pregnante: il tasso di criminalità sale comunque col reddito ma nelle grandi città – a parità di reddito – la criminalità è un punto e ½ più alta in percentuale. Regressione multipla Ripartiamo allora dai due esempi fatti. Il reddito è funzione dell’età ma varia anche col livello di scolarità. La criminalità è funzione del reddito ma varia anche con la dimensione urbana. In entrambi i casi una terza variabile si intromette tra explanans e explanandum, migliorando la goodness of fit. Possiamo pensare quindi a una estensione del modello di regressione lineare, che tenga conto non di una ma di due o più variabili indipendenti. Nei nostri esempi il modello da minimizzare diventa Y=aYX+bYX.ZX+cYZ.XZ e i parametri a, b, c saranno quelli che minimizzino la funzione di danno: D = (yj - i)2fij = (yj – aYX–bYX.xi-cYZ. zi)2 .fij = minimo Ancora una volta si tratta di un modello in cui i regressori entrano in modo lineare e additivo. Come per i precedenti modelli lineari (retta, parabola) le stime che si ottengono col MMQ godono delle proprietà note. I parametri di una regressione a due variabili Se la procedura di stima dei parametri è la stessa sviluppata per la retta, ci aspettiamo che i tre parametri abbiano formule composte da statistiche a noi familiari (medie, varianze delle tre variabili in gioco, e covarianze tra di loro), ma forse un po’ troppo complesse. In realtà noi le abbiamo già conosciute, quando nella stima della parabola abbiamo considerato i quadrati come un nuovo regressore a sé stante. Se il secondo regressore è la nostra seconda variabile indipendente Z, le stime MQ dei parametri della regressione multipla sono: bYX . Z covYX varZ cov XZ covYZ var X varZ cov 2XZ E ovviamente aY.XZ=mY–bYXmX-cYZmZ cYZ . X covYZ var X cov XZ covYX var X varZ cov 2XZ Ancora, notate che le formule dei due coefficienti di regressione sono speculari tra loro, con poche inversioni di variabili Calcolo dei parametri bYX . Z covYX varZ cov XZ covYZ var X varZ cov 2XZ cYZ . X covYZ var X cov XZ covYX var X varZ cov 2XZ La grande simmetria delle formule rende più facile la memorizzazione. In particolare il denominatore dei due coefficienti di regressione è lo stesso ed è tutto espresso in termini delle variabili indipendenti x e z. Dividendo numeratori e denominatori dei due coefficienti per il prodotto delle varianze delle variabili indipendenti (varX.varZ), li si può esprimere in termini di coefficienti di correlazione lineare tra variabili, a meno di un fattore moltiplicativo legato alle misure di dispersione delle variabili stesse: bYX . Z YX XZ YZ Y 2 1 XZ X cYZ . X YZ XZ YX Y 2 1 XZ Z Per stimare i parametri di una regressione multipla con due variabili indipendenti basta dunque avere a disposizione medie e varianze delle variabili coinvolte e i coefficienti di correlazione lineare di ordine zero YX YZ XZ Correlazione multipla Come valutare il modello di regressione multiplo che stimiamo così? Si può calcolare una misura analoga al coefficiente di determinazione formulata anch’esso in termini di coefficienti di correlazione lineare semplice. La chiamiamo coefficiente di correlazione multipla. Esso misura quanta parte della varianza di Y è spiegata dalla dipendenza lineare di 2 2 YX YZ 2 YX XZ YZ Y dalle due variabili esplicative X e Z: R 2 Y . XZ 2 1 XZ Poiché la regressione multipla rientra nella famiglia delle regressioni lineari nelle variabili valgono le proprietà dei MQ e in particolare il principio di scomposizione della varianza. R2Y.XZ è quindi comparabile con il coefficiente R2YX di determinazione della retta e si può valutare l’eventuale miglioramento di goodness of fit. Svolgiamo l’esempio criminalità(Y)–reddito (X)–urbanizzazione(Z) [misuriamo Z come variabile dicotomica (dummy variable) pari a 0 nelle piccole città, a 1 nelle grandi]: mY=2,705; mX=16,2; mZ=0,6; Y=1,4354; X=7,2636; Z=0,4899; YX=+0,699; YZ=+0,572; ZX=+0,135 Y=-0,176+0,125X+1,425Z R2=0,7209 R2 è assai più consistente dei due coefficienti di determinazione. Il modello quindi migliora la sua capacità esplicativa. Collinearità bYX . Z cYZ . X YX XZ YZ Y 2 1 XZ X XZ YX Y YZ 2 1 XZ Z Attenzione al denominatore dei coefficienti di regressione multipla. Se le variabili indipendenti sono linearmente correlate tra loro (e quindi YX1), il denominatore sarà pericolosamente 0, e farà ‘esplodere’ i coefficienti, rendendoli estremamente ‘ballerini’! Riprendiamo l’esempio reddito(Y)–Età (X) (ponendo y9=6 per renderle ancor più correlate) e studiamo un indicatore di performance (P) in funzione di entrambi. mY=3,111;mX=30;mP=13,33;Y=1,7622;X=6,4636;P=4,5216; YX=+0,977;YP=+0,534;PX=+0,555. Il modello di regressione È: P = -0,826 + 0,525X – 0,514Y (R2 =0,310) Ma le due variabili indipendenti sono davvero molto correlate: il modello stimato risentirà di variazioni anche piccole delle variabili. Per es. se p3=12 invece che 15 il modello stimato diventa: P = +2,094 + 0,322X + 0,397Y (R2 =0,380) Il piano di regressione cambia molto: non ci si può certo fidare! Xi Yi Pi 20 1,0 10 22 1,2 8 25 1,4 15 28 2,0 5 30 3,0 15 33 3,5 20 35 4,5 18 37 5,4 15 40 6,0 14 Coeteris paribus Conviene riflettere sul fatto che nel modello Yi=+yx.z Xi+yz.xZi si assume che X abbia un effetto pari a yx.z quale che sia il valore di Z. Supponiamo per esempio che Z sia una variabile dicotomica (come nel nostro caso della criminalità per città grandi e piccole). Si assume quindi che X (dimensione urbana) abbia il medesimo effetto su Y, sia per Z=0 (piccole città) che per Z=1 (grandi città). Infatti, per Z=0 si ottiene: Yi(X,Z=0) = + yx.z Xi Mentre, per Z=1: Yi(X,Z=1)= +yz.xXi+yx.z = (+yz.x)+yx.zXi L’unica cosa che cambia in tali due situazioni è infatti l’intercetta, mentre il coefficiente angolare (effetto di X) rimane invariato. Effetti di “interazione” E’ quello che abbiamo osservato nel nostro esempio: la criminalità cresce col reddito urbano grossomodo con una velocità di crescita simile per grandi e piccole città. Potrebbe però accadere che nei grandi centri l’effetto del benessere complessivo risulti assai più influente, determinando una regressione semplice (criminalità funzione del reddito) con pendenza più forte. Per tener conto di ciò il modello di regressione multipla deve assumere una forma più complessa, con un fattore in più: Yi(X,Z) = + yx.z Xi + yz.x Zi + Xi Zi Senza interazione Y Con interazione yx.z e zx.y Y sono detti effetti principali, η è detto effetto interazione X X Dalla retta al piano di regressione Svolgiamo l’esempio reddito(Y) – Età (X) – Scolarizzazione(Z=numero anni studio): mY=3,2; mX=30; mZ=13; Y=1,9189; X=6,4636; Z=4,7; YX=+0,969; YZ=+0,897; ZX=+0,912 Y=-5,215+0,267X+0,0313Z R2=0,941 Ma R2 della retta era 0,94: non c’è praticamente nessun guadagno di capacità esplicativa!!! Per capire il perché di questo fiasco ragioniamo sulla rappresentazione grafica dell’equazione: Y=aYX+bYX.ZX+cYZ.XZ. Y E’ intuitivo che non abbiamo più a che fare con l’equazione di una retta, bensì con quella di un piano di regressione. Ma un piano “retto” o un piano “curvo”? Nel caso della criminalità, le due rette distinte per grandi e piccole città hanno Grandi città0 pendenze se non uguali assai simili, con 0 una differenza costante di 1,5%. L’effetto Piccole 0 della terza variabile Z è quindi pura0 mente additivo. Z X Modelli additivi L’effetto di Z è additivo se possiamo passare da un modello lineare semplice Yi=a+byx.xi a un modello di regressione multipla per puro incremento di un fattore ki additivo, funzione della variabile z: Y Z Y=a+cz (ferma x) ki = cyz.x..zi Y=a+bx (ferma z) a La rappresentazione dell’equazione del piano di regressione X Y Z=z1 Yi = a + byx.z.xi + cyz.x.zi Z=z2 corrisponde alla rappresentazione dell’equazione di più rette con differenti intercette ma uguali pendenze Z=z3 Yi = a+ ki + byx.z.xi X Regressione ‘parziale’ Il piano di regressione multipla (limitata quindi a due sole variabili esplicative; non siamo capaci di immaginare iperpiani) è un piano in cui, per definizione, ogni sezione rispetto alla dimensione Z traccia una retta, funzione di X, parallela a quella ricavata con altre sezioni e, specularmente, ogni sezione rispetto alla dimensione X traccerà rette, funzioni di Z, tutte tra loro parallele. Questa spiega anche perché i coefficienti di regressione multipla byx.z vengono anche definiti COEFFICIENTI DI REGRESSIONE PARZIALE. Un coefficiente di regressione byx.z misura l’influenza di X su Y ferma restando z (ovvero) tenuta sotto controllo z (ovvero) depurata dell’effetto di z (ovvero) posta costante entro ogni subgruppo definito in base a z (sono tutti sinonimi tra loro). Ma che succede se al variare di Z varia non solo l’intercetta ma anche la pendenza della relazione lineare? Modelli moltiplicativi e effetto interazione Il modello diventa: Yi = a+ki + byx.z+hi.xi Y Z Entrambi i coefficienti di variazione ki e hi dipendono ora da Z, cioè: ki=+zi e hi=+zi Allora: Yi=a++zi + byx.z++zi .xi = =a+ + byx.z+.xi + zi + zixi o con le notazioni oramai familiari: Yi= ayx.z+byx.z.xi+cyz.x.zi+ dy.zxxizi Compare un fattore moltiplicativo in più, e la superficie di regressione NON è piana, ma curva. Le sezioni non sono più parallele tra loro ma variano al variare “sinergico”, cioè moltiplicativo delle due variabili. X Y Z=z1 Z=z2 Z=z3 X Effetti “diretti” e “indiretti” Insomma, la criminalità dipende dallo stato di ricchezza di una città, ma anche dalla sua dimensione. Proviamo a riflettere ancora su ciò. Indichiamo con un segmento la presenza di una relazione tra due variabili. Utilizziamo invece una freccia quando individuiamo un verso in tale relazione (ovvero un ordine causale). Il modello di regressione semplice può allora essere rappresentato graficamente nel seguente modo: Mentre in generale per il modello di regressione multipla con variabili esplicative X e Z (indicando con xy il legame tra le due variabili esplicative)si ha: X X xy Z yx Y yxz yzx Y Nella regressione multipla l’effetto totale di X su Y (yx) è distinto in due parti: a) un effetto diretto di X su Y (rappresentato da yx.z); b) un effetto indiretto di X su Y (pari al prodotto .yz.x). Due situazioni particolari (a) Il coefficiente della regressione multipla coincide con quello della regressione semplice (yx.z = yx) quando l’effetto indiretto è nullo. Ciò può accadere in due situazioni particolari. a) Z non ha alcun effetto (diretto) su Y. In tal caso infatti µi = + yx.z Xi + 0 Zi = + yx.z Xi Attenzione!! In genere non osserviamo casilimite ma un mix in cui valutare la significatività del contributo di ogni effetto particolare In tal caso la regressione multipla si riduce di fatto ad una regressione semplice, e quindi yx.z = yx Se infatti è assente il legame tra Z e Y l’unico percorso che da X porta ad Y è quello dell’azione diretta. Quindi Z risulta ininfluente nello studio della relazione tra X ed Y. X yx Y Z Due situazioni particolari (b) b) Il secondo caso particolare è quello in cui Z ed X non sono correlate tra loro. Si ottiene infatti in tal caso: yx.z = [covYX varZ – covYZ covZX] / [varX varZ – cov2XZ] = = [covYX varZ – covYZ 0] / [varX varZ – 0] = = [covYX varZ ] / [varX varZ] = yx X = covYX / varX = yx Anche in questo caso l’azione indiretta di X su Y attraverso Z non è praticabile (questa volta perché manca il legame tra X e Z: =0). Z Y yz Essendo incorrelate tra di loro, le due variabili esplicative X e Z forniscono due contributi indipendenti nello spiegare Y. Pertanto i parametri della regressione multipla coincidono con quelli delle due distinte regressioni semplici di X su Y e di Z su Y. Correlazione parziale Ricordate che il coefficiente di correlazione lineare XY si può ricavare an-che dalla media geometrica dei coefficienti di regressione opposti bXY, bYX: XY = bXYbYX? Qualcosa del genere vale anche i coefficienti di regressione multipla, tra loro complementari, bXY.Z e bYX.Z, definiti – abbiamo appena visto - in modo speculare in termini di coefficienti di correlazione lineare semplice. La media geometrica tra questi due coefficienti si chiama Coefficiente di correlazione parziale e ha forma: YX .Z YX XZ YZ 2 2 (1 XZ )(1 YZ ) IL COEFFICIENTE DI CORRELAZIONE PARZIALE misura la correlazione tra y e x ferma restando z, o tenuta sotto controllo z, o depurata dell’effetto di z. Torniamo all’esempio Reddito (Y) – Età (X) – Scolarità (Z), dove: Y=1,9189; X=6,4636; Z=4,7; YX=+0,969; YZ=+0,897; ZX=+0,912 . Risulta: Cioè: reddito ed età sono davvero correlati, anche a parità di scolarità YX .Z 0,969 (0,897 0,912) (1 0,897 2 )(1 0,912 2 ) 0,150936 0,8324 0,032876 Correlazione spuria Se YX.Z0 pur essendo YX0 allora la correlazione tra y e x è SPURIA o FITTIZIA. Una correlazione tra Y e X è spuria se è totalmente spiegata dalle relazioni di Y e X con una terza variabile Z. Per esempio, tra tre variabili intercorrono tre coefficienti di correlazione lineare di grado zero (YX,YZ,XZ) e tre coefficienti di correlazione parziale (YX.Z,YZ.X,XZ.Y). Se i 6 coefficienti sono tutti significativamente 0, tranne che XZ=0 (c’è cioè incorrelazione tra le due variabili indipendenti) possiamo adottare il modello di regressione multipla (A). Ma se si annulla un coefficiente di correlazione parziale YX.Z=0 allora si possono avere due situazioni assai diverse: Il caso (B) è quello di correlazione spuria: Z è qui una variabile antecedente Y X A Z Il caso (C) è quello di una catena causale: qui Z è una variabile interveniente X Y Z Y C Z B X Riepiloghiamo Sia il nostro obiettivo la stima dell’effetto causale di una data variabile X (explanans) su Y (explanandum). Supponiamo inoltre che Z (variabile unica o insieme di variabili) sia il solo potenziale fattore che può influenzare la dipendenza di Y da X. Operiamo nel seguente modo: Conduciamo una regressione semplice e misuriamo in tal modo l’effetto totale di X su Y (x). Passiamo poi ad una regressione multipla aggiungendo nel modello Z. Se Z non è correlato con X (=0), oppure se Z non ha alcun effetto su Y (z.x=0), allora non esiste alcuna azione indiretta di X su Y attraverso Z. Ne consegue che l’effetto di X al netto di Z coincide con l’effetto totale di X (x.z=x). La regressione multipla si riduce a quella semplice. Se Z è correlato con X e insieme ha un effetto su Y, allora l’effetto totale di X può essere scomposto in un’azione diretta e una indiretta (tramite Z). In tal caso, se Z è interveniente, è casuale l’effetto totale di X (diretto + indiretto), se Z è antecedente è causale solo l’effetto diretto. Due esempi per concludere Primo esempio. Dati i coefficienti di correlazione lineare YX=0,42, YZ=0,70, XZ=0,60 tra tre variabili X, Y e Z, ha senso stimare il modello di regressione multipla Y=a+bX+cZ? In questo caso basta analizzare il numeratore del coefficiente di correlazione parziale (YX-XZ.YZ)=[0,42-(0,6x0,7)]=0. Dunque la correlazione tra Y e X è spuria, il sentiero causale corretto non potrà essere quello A della regressione multipla ma uno degli altri (quale dei due proposti? Si tratta di identificare il ruolo di Z, se antecedente o interveniente: ma spesso nella valutazione entra in gioco l’equazione personale del ricercatore). Secondo esempio. Riprendiamo la base dati reddito(Y)–Età (X)-Perfor-mance(P), dove era YX=+0,977; YP=+0,534; PX=+0,555. Date le varianze e i coefficienti di correlazione, le correlazioni parziali di P con le due variabili “tenendo ferma l’altra” sono rispettivamente: YP.X=-0,0464; PX.Y=+0,1846 La correlazione tra performance e reddito “tenendo ferma l’età” si avvicina molto a zero (e cambia anche segno). E’ una correlazione spuria.