“Metodi per la Ricerca Sociale e Organizzativa” Corso di Laurea in Scienze dell’Organizzazione Facoltà di Sociologia Università degli Studi di Milano-Bicocca 2009 Simone Sarti 1 LOGICA TRIVARIATA 2 Logica trivariata Quando ad una relazione bivariata aggiungiamo una terza variabile operiamo un’analisi trivariata. 3 Perché considerare una terza variabile? Quando consideriamo un’ipotesi causale tra due fenomeni ed empiricamente corroboriamo l’esistenza di una relazione, non possiamo tuttavia escludere che i due fenomeni non siano dovuti ad un terzo che non abbiamo preso in considerazione. 4 La causa di un fenomeno in senso generico può essere definita come la somma totale delle condizioni , la totalità delle contingenze alla cui realizzazione segue invariabilmente il conseguente. (Campelli 1999) Tuttavia, “Nulla può meglio mostrare l’assenza di qualsiasi fondamento scientifico per la distinzione fra la causa d’un fenomeno e le sue condizioni della maniera capricciosa in cui scegliamo fra le condizioni quella che preferiamo chiamare causa “ (J.S.Mill) 5 Cause ed effetti ? 1.Il numero di pompieri impegnati nello spegnere un incendio è correlato con la stima finale dei danni provocati dall’incendio stesso. 2.I bambini nelle cui case vi sono più finestre mostrano migliori rendimenti scolastici. 6 Presenza di un effetto SPURIO, cioè di una terza variabile, antecedente alle due, che è la “vera” causa della relazione! 1. Considerando le dimensioni dell’incendio, la relazione tra numero di vigili del fuoco e stima dei danni sparisce. 2.Considerando la ricchezza patrimoniale dei genitori, la relazione tra numero di finestre e rendimento scolastico sparisce. 7 Posizione delle variabili Una volta ipotizzata una relazione tra due variabili X “indipendente” e Y “dipendente”, l’altra o le altre variabili considerate possono assumere quattro posizioni: variabili antecedenti, variabili intervenienti, variabili susseguenti, variabili concomitanti. 8 Variabili antecedenti Quelle variabili che nell’ordine causale precedono sia X che Y. A X Y 9 Variabili intervenienti Quelle variabili che nell’ordine causale precedono Y ma seguono X. I X Y 10 Variabili susseguenti Quelle variabili che nell’ordine causale seguono sia Y che X. S X Y 11 Variabili concomitanti Quelle variabili che nell’ordine causale precedono Y ma sono correlate (senza direzione causale) ad X. C X Y 12 LOGICA degli effetti EFFETTO SPURIO: X Y l’inserimento di una variabile di controllo Z, annulla la relazione tra X e Y. Z X Y 13 LOGICA degli effetti EFFETTO SOPPRESSO: X Y l’inserimento di una variabile di controllo Z, rende palese la relazione tra X e Y. Z X Y 14 SCOMPOSIZIONE degli effetti Variabili categoriali e differenze di probabilità 15 Esempio 1 ESEMPIO 1. tra variabili dicotomiche. Incrocio tra titolo di studio e fiducia nel sistema giudiziario … X Y X Titolo di studio (L – H) Y Fiducia nel sistema giudiziario (S – N) 16 Esempio 1 … controllato per la variabile antecedente Z Z X Z Y Coorte di nascita (G – A) 17 Esempio 1 Effetto bivariato XY= Effetto causale netto + Effetto spurio = dyx dyx.z + d(yx)z Z d(yx)z dyx X Y X Y dyx.z 18 Esempio 1 Tavola di contingenza educ * fidu fidu educ 1 Medio-bas sa 2 Alta Totale Conteggio % entro educ Conteggio % entro educ Conteggio % entro educ 1 Si 231 43.6% 90 58.1% 321 46.9% 2 No 299 56.4% 65 41.9% 364 53.1% Totale 530 100.0% 155 100.0% 685 100.0% Fonte: EB 60.1 Italia (30 e più anni) 19 Esempio 1 dyx Effetto bivariato: educaz. e fiducia giustizia In un incrocio dicotomico l’effetto bivariato è misurabile attraverso una semplice differenza di probabilità. dyx equivale alla differenza di probabilità sull’avere fiducia nella giustizia dato l’avere un titolo di studio alto piuttosto che basso. 20 Esempio 1 dyx Effetto bivariato: educaz. e fiducia giustizia Pr (Y=1 | X=2) – Pr (Y=1 | X=1) Equivale alla probabilità che la variabile Y assuma valore y, dato che la variabile X assume valore x: Pr (Y=y | X=x) La categoria di riferimento è la “SI” (Y=1). dyx = 0,581 - 0,436 = 0,145 21 Esempio 1 dyx = 0,581 - 0,436 = 0,145 La relazione tra possesso della laurea (piuttosto che un titolo di studio inferiore) e fiducia nella giustizia (“si” piuttosto che “no”) è positiva. 22 Esempio 1 GIOVANI Z=1 Tavola di contingenza educ * fidua fidu educ 1 Medio-bas sa 2 Alta Totale Conteggio % entro educ Conteggio % entro educ Conteggio % entro educ 1 Si 119 42.5% 64 59.3% 183 47.2% 2 No 161 57.5% 44 40.7% 205 52.8% Totale 280 100.0% 108 100.0% 388 100.0% 2 No 138 55.2% 21 44.7% 159 53.5% Totale 250 100.0% 47 100.0% 297 100.0% a. eta = 1 Giovani ANZIANI Z=2 Tavola di contingenza educ * fidua fidu educ 1 Medio-bas sa 2 Alta Totale Conteggio % entro educ Conteggio % entro educ Conteggio % entro educ 1 Si 112 44.8% 26 55.3% 138 46.5% a. eta = 2 Anziani 23 Esempio 1 Effetti condizionati di Z Considerando Z, troviamo diversi effetti di X su Y. dyx|z=1 = 0,593 -0,425 = 0,168 dyx|z=2 = 0,553 -0,448 = 0,105 24 Esempio 1 Effetto condizionato complessivo di Z Considerando che le numerosità in Z tra giovani ed anziani sono diverse, occorre ponderare gli effetti condizionati. Giovani= 388/685 = 0,567 quota di giovani (qg) Anziani= 297/685 = 0,433 quota di anziani (1 - qg) dyx.z = (0,168*0,567) + (0,105*0,433) = 0,141 25 Esempio 1 Effetto bivariato = Effetto causale + Effetto spurio dyx = dyx.z + d(yx)z d(yx)z Effetto spurio d(yx)z =dyx – dyx.z = 0,145 – (0,141) = 0,004 26 Esempio 1 L’effetto della variabile Z è sostanzialmente nullo, ossia la relazione tra titolo di studio e fiducia nella giustizia permane immutata anche a parità di fascia d’età. Non c’è effetto SPURIO. Z ~0 ~0 X + Y 27 Esempio 2 ESEMPIO 2. tra variabili dicotomiche. Incrocio tra genere e fiducia nei sindacati … X Y X Genere (M - F) Y Fiducia nei sindacati (S - N) 28 Esempio 2 … controllato per la variabile interveniente I condizione occupazionale (occupato/non occupato) I X Z Y Condizione occupazionale (O - D) 29 Esempio 2 Effetto bivariato XY = Effetto diretto + Effetto indiretto dyx = c + a*b I a X b c Y 30 Esempio 2 SI NO M 31,7 68,3 F 23,3 76,7 N=1000 31 Esempio 2 dyx Effetto bivariato: genere e fiducia nei sindacati In un incrocio dicotomico l’effetto bivariato è misurabile attraverso una semplice differenza di probabilità. dyx equivale alla differenza di probabilità sull’avere fiducia nei sindacati dato l’essere femmina piuttosto che maschio. 32 Esempio 2 dyx Effetto bivariato: genere e fiducia nei sindacati Pr (Y=1 | X=2) – Pr (Y=1 | X=1) Equivale alla probabilità che la variabile Y assuma valore y, dato che la variabile X assume valore x: Pr (Y=y | X=x) La categoria di riferimento è la “SI” (Y=1). dyx = 0,233 - 0,317 = -0,084 33 Esempio 2 dyx = 0,233 - 0,317 = -0,084 La relazione tra genere (essere femmina piuttosto che maschio) e fiducia nei sindacati (“si” piuttosto che “no”) è negativa. 34 Esempio 2 OCCUPATI I=1 SI NO M 33,9 66,1 F 30,8 69,2 Ni=1=750 NON OCCUPATI I=2 SI NO M 12,5 87,5 F 9,5 90,5 Ni=2=250 35 Esempio 2 Effetti condizionati di I Considerando I, troviamo diversi effetti di X su Y. dyx|i=1 = 0,308 - 0,339 = -0,031 dyx|i=2 = 0,095 -0,125 = -0,030 36 Esempio 2 Effetto diretto c a parità di I Considerando che le numerosità in I nella condizione occupazionale sono diverse, occorre ponderare gli effetti condizionati. Occupati= 750/1000 = 0,750 quota occupati (qo) Non occupati= 250/1000 = 0,250 quota non occupati (1-qo) dyx.i = (-0,031*0,750) + (-0,030*0,250) = -0,031 37 Esempio 2 Effetto bivariato XY = Effetto diretto + Effetto indiretto dyx = c + a*b -0,084 = -0,031 + Effetto indiretto Effetto indiretto = -0,084 - (-0,031) = -0,053 I a X b c Y Esempio 2 L’effetto indiretto della variabile I (occupazione) è circa due terzi (-0,053 di -0,084) dell’effetto complessivo tra genere e fiducia nei sindacati. Ciò significa che la tendenza a mostrare sfiducia nei sindacati da parte delle femmine è dovuta in buona parte alla condizione occupazionale. I X -0,084 a*b = -0,053 Y X c = -0,031 Y 39 SCOMPOSIZIONE degli effetti Le correlazioni 40 Ipotizziamo che la variabile Z influenzi la relazione tra Y e X. Come misurare l’effetto di X su Y al netto di Z ? Z X rYX Y X rYX .Z Y 41 Correlazioni tra le variabili: SYX rYX SY S X rXZ S XZ SZ S X SYZ rYZ S Z SY Matrice di correlazione, r.. osservati Z X X rYX .Z Y Z X 1 Z .453 Y .322 .596 Y .453 .322 1 .596 1 42 E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo costante” Z: rYX .Z rYX rXZ rYZ 1 R 1 R 2 XZ 2 YZ 43 Coefficiente di correlazione parziale tra X e Y “tenendo costante” Z: Correlazione lorda Correlazione di Z su X e Y Misura quanto Z spiega di X eY rYX .Z rYX rXZ rYZ 1 R 1 R 2 XZ Residui di Z-X e Z-Y 2 YZ Più la Z spiega X eY, più grande è il denominatore 44 E’ possibile calcolare il coefficiente di correlazione parziale tra X e Y “tenendo costante” Z: rYX .Z rYX rXZ rYZ 1 R 1 R 2 XZ Matrice di correlazione, r.. osservati Z X 2 YZ 0,073 rYX .Z rYX 0,322 rYX .Z 0,073 X Y Z X 1 Z .453 Y .322 .596 Y .453 .322 1 .596 1 45 La correlazione tra X e Y tenendo sotto controllo Z diventa praticamente nulla. Z X rYX .Z rYX 0,322 Y rYX .Z 0,073 46 Correlazioni fra tre variabili Correlations eta ascoli Anni di scolarità reddito Reddito mens ile (euro) Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N Pears on Correlation Sig. (2-tailed) N reddito Reddito ascoli Anni mens ile eta di s colarità (euro) 1 -.247** .168** . .000 .000 1414 1414 1414 -.247** 1 .211** .000 . .000 1414 1414 1414 .168** .211** 1 .000 .000 . 1414 1414 1414 **. Correlation is s ignificant at the 0.01 level (2-tailed). Calcolare la correlazione parziale tra anni di scolarità e reddito 47 SCOMPOSIZIONE degli effetti Regressione e correlazione 48 Ipotizziamo un’antecedenza (lineare) causale: Y b0 b1 X 1 b2 X 2 X1 b1 bYX1 Y X2 b2 bYX 2 49 La regressione trivariata La covariazione tra le variabili indipendenti X e la dipendente Y può essere ricostruita attraverso una figura complessa chiamata iperpiano. La regressione stima i valori dei parametri a e b che minimizzano i valori osservati e quelli predetti che costituiscono l’iperpiano. Più tecnicamente la regressione minimizza la somma degli errori di predizione al quadrato. 50 La regressione trivariata Il valore α esprime il valore predetto di Y, quando tutti i regressori Xk sono uguali a 0. I valori bk rappresentano la variazione (gli effetti) apportati dalle rispettive variabili Xk al netto degli effetti delle altre variabili incluse nel modello. O anche: “a parità di ogni altra condizione considerata”. 51 Assunti per la regressione trivariata a partire dai coefficienti campionari 1.Relazione lineare tra variabili dipendenti ed indipendenti. 2. Gli errori sono: -distribuiti normalmente, -il valore atteso è zero, -hanno varianze costanti (omoschedasticità), -sono tra loro indipendenti, 52 Pesi di correlazione e causazione Esistono legami bidirezionali, che si sostanziano in “coefficienti di correlazione” e legami unidirezionali (o causali) che si sostanziano in coefficienti di regressione. 53 Esempio di modello causale (regressione) Matrice di correlazione, r.. osservati X1 X1 b1* 0.453 X2 Y b2* eY X2 X1 1 X2 .453 Y .322 .596 Y .453 .322 1 .596 1 Yˆ 0.065 X 1 0.566 X 2 Stime effettuate con il metodo dei minimi quadrati Coefficienti standardizzati 54 Coefficiente di determinazione multiplo 2 Y X1 X 2 R b r * 1 YX1 b r * 2 YX 2 Il coefficiente di determinazione multiplo della variabile Y, è dato dall’insieme degli effetti beta delle variabili X che agiscono direttamente su essa, pesate per la correlazione osservata tra le X e la Y. In sostanza R2 è la somma degli effetti netti tra le X e la Y. 55 Esempio di modello causale (regressione) Yˆ 0.065 X 1 0.566 X 2 RY2. X1 X 2 b1*rYX 1 b2*rYX 2 RY2. X1 X 2 0.065 0.322 0.566 0.596 2 Y . X1 X 2 R 0.358 peY 1 RY2. X 1 X2 Matrice di correlazione X1 X2 X1 1 X2 .453 Y .322 .596 Y .453 .322 1 .596 1 0.801 56 Analisi dei coefficienti di regressione std Yˆ 0.065 X 1 0.566 X 2 X1 0.453 X2 b1* 0,065 Y b2* 0,566 Essendo std i beta possono essere confrontati direttamente. I due effetti sono positivi, ma l’effetto di X2 è molto più intenso. Precisamente l’aumento di una unità di X2 corrisponde all’aumento di 0.566 deviazioni standard di Y. Una unità di X produce solo lo 0,065 di aumento in Y. 57 Yˆ 0.065 X 1 0.566 X 2 X1 b1* 0,065 0.453 X2 Y b 0,566 * 2 Matrice di correlazione r.. X1 X2 X1 1 X2 .453 Y .322 .596 Y .453 .322 1 .596 1 RY2. X1 X 2 b1*rYX 1 b2*rYX 2 0.358 peY 1 RY2. X1 X 2 0.801 58 Analisi dei residui r 2 Y . X1 X 2 * 1 YX1 R r * 2 YX 2 0.358 Ciò significa che le variabili antecedenti del modello (X1 e X2 nell’esempio) contribuiscono a spiegare circa un terzo della varianza di Y. peY 1 R 2 Y . X1 X 2 0.801 Il peso causale del fattore residuale è 0,801. La correlazione con “altre” cause pesa 0,801. 59 REGRESSIONE TRIVARIATA UN’APPLICAZIONE 60 Ipotizziamo un’antecedenza (lineare) causale: Y b0 b1 X 1 b2 X 2 Anni scolarità padre X1 b1 bYX 1 Y Anni scolarità madre X2 Anni scolarità figlio b2 bYX 2 61 Regressione trivariata Matrice di correlazione, r.. osservati Correlazioni AS_pa AS_pa X1 b1 AS_ma 0.716 ascoli Y Correlazione di Pears on Sig. (2-code) N Correlazione di Pears on Sig. (2-code) N Correlazione di Pears on Sig. (2-code) N 1 1082 .716** .000 1082 .499** .000 1082 AS_ma .716** .000 1082 1 1082 .461** .000 1082 ascoli .499** .000 1082 .461** .000 1082 1 1082 **. La correlazione è s ignificativa al livello 0,01 (2-code). X2 b2 eY Yˆ 7,567 0,353 X 1 0,251X 2 Stime effettuate con il metodo dei minimi quadrati 62 Yˆ 7,567 0,353 X 1 0,251X 2 YˆZ 0,347 X z1 0,212 X z 2 Coefficientia Modello 1 (Costante) AS_pa AS_ma Coefficienti non s tandardizzati B Errore s td. 7.567 .213 .353 .038 .251 .044 Coefficienti s tandardizzati Beta .347 .212 t 35.503 9.320 5.707 Sig. .000 .000 .000 a. Variabile dipendente: as coli 63 Varianza spiegata dal modello 2 Y . X1 X 2 R peY 1 R 2 Y . X1 X 2 b r * 1 YX1 0.533 b r * 2 YX 2 0.270 Il peso causale del fattore residuale è 0,801. La correlazione con cause terze pesa 0,801. 64 Riepilogo del modello Modello 1 R R-quadrato .521 a .271 R-quadrato corretto .270 Errore s td. della stima 3.464 a. Stimatori: (Cos tante), AS_ma, AS_pa 65 L’effetto di interazione 66 L’effetto di interazione Quando l’effetto causale esercitato dalla variabile indipendente X sulla variabile indipendente Y si manifesta in modi diversi a seconda del valore assunto dalla variabile di controllo Z. Z X Y 67 Y=0 Y=1 X=0 X=1 0 1 1 3 Z=0 Z=1 Y=0 Y=1 X=0 X=1 0 1 0 0 Y=0 Y=1 X=0 0 0 X=1 1 3 68 Y Effetto di interazione di Z (dicotomica) su X e Y (cardinali) β>0 X Z=0 Z=1 Y Y βz=0>0 X βz=1<0 X 69 Esempi di effetti di interazione (titolo*età) 70