TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
Lezione 8
Più di due variabili
In questa lezione..
In questa lezione accenneremo a due ultime strategie per migliorare la
goodness of fit di una funzione interpolante, e ad alcune conseguenze.
La prima strategia consiste nella scomposizione della popolazione
analizzata per gruppi omogenei. Rientra così in scena il concetto di
eterogeneità della popolazione già usato nell’analisi univariata.
Ci rifletteremo a partire da alcuni paradossi applicati a distribuzioni congiunte anche non quantitative discrete.
La seconda strategia consiste nell’aumento delle variabili prese
come esplicative. Entriamo così nel mondo dell’analisi multivariata,
con il modello di regressione lineare multipla.
Parlando dei limiti di utilizzo della regressione multipla
ragioniamo infine su due errori in cui si è facilmente indotti
nell’analisi multi-variata. Il primo è quello della collinearità. Il
secondo è quello delle correlazioni spurie.
Ripartiamo da un esempio
Torniamo al solito esempio età-reddito e aggiungiamo al
database una informazione in più: la variabile Z = numero di
anni di istruzione dei 9 individui.
Per i primi 4 sia Z=8 (L=bassa scolarizzazione), per gli ultimi
4 sia Z=18 (H=alta scolarizzazione), mentre il quinto
individuo sia di media scolarità (13 anni di studio). Se
teniamo conto di questa informazione, e depuriamo il database del quinto individuo (visto come outlier), i dati ci
appaiono sotto una nuova prospettiva.
8
7
6
5
4
3
2
1
0
Xi
Yi
Zi
20
1,0
8
22
1,2
8
25
1,4
8
28
2,0
8
30
3,0
13
33
3,5
18
35
4,5
18
37
5,4
18
40
6,8
18
Sia i primi quattro punti tra loro che gli ultimi
quattro tra loro sembrano ottimamente interpolabili con rette di diversa pendenza. Le equazioni delle due rette MQ (calcolatele anche voi!)
rispettivamente per L e M sono:
YL = -1,45 + 0,12XL
18
22
26
30
34
38
42
(R2 = 0,941)
YH =-11,96+ 0,47XL (R2 = 0,999)
Scomposizione per gruppi
omogenei
8
7
6
5
4
3
2
1
0
18
22
26
30
34
38
Sovrapponiamo i due
grafici. Le due popolazioni hanno intercette diverse ma anche pendenze molto
diverse tra loro: il
che crea l’effetto di
curvilineità.
8
7
6
5
4
3
2
1
0
Almeno nel gruppo
H
l’adattamento è altissimo
(99,9% di varianza spiegata): la
scolarità pare influire sulla relazione reddito-età.
42
8
7
6
5
4
3
2
1
0
18
22
26
26
30
34
38
Ma sul
problema delle
differenti
pendenze
torneremo tra
poco..
outlier
18
22
30
34
38
42
42
Un secondo esempio
Piccole città
Xi
Yi
6
1,2
13
0,4
12
1,5
20
2,0
24
3,5
19
3,0
8
0,5
18
1,5
Facciamo un secondo esempio, un ‘classico’ della ricerca sociale. Per
20 città americane (8 piccole, 12 grandi) siano date due informazioni: X sia il reddito pro capite in migliaia di dollari, Y sia il tasso
di criminalità. L’equazione della retta MQ stimata sulle 20 città è:
Y = 0,468 + 0,138 X
(R2 = 0,488)
Xi
Yi
5
3,0
7
2,8
15
3,4
11
2,5
17
4,0
4,5
17
1,8
3
21
4,5
19
4,0
21
3,6
38
6,6
17
2,3
16
2,0
Il coefficiente di determinazione non è altissimo..
Che succede se separiamo le due po7,5
polazioni di piccole
e grandi città?
[Per inciso, non abbiate la massimizzazione di R2 come unica
stella polare. Per esempio la
grande città da 38mila dollari di
reddito potrebbe essere un dato
anomalo, ma se (correttamente)
la eliminassimo la retta (verde)
ai MQ avrebbe R2=0,226, minore
di quello complessivo].
Grandi città
6
1,5
0
0 4 8 12 16 20 24 28 32 36 40
Rette parallele o a diversa
pendenza
7,5
Piccole città
6
4,5
L’equazione della retta
MQ stimata separatamente per piccole e
grandi città risulta:
YP=-0,402+0,140 XP
(R2 = 0,635)
3
1,5
YG=+1,340+0,120
XG (R2 = 0,567)
0
0 4 8 12 16 20 24 28 32 36 40
In questo caso le due
relazioni lineari sono diverse nettamente per la
intercetta ma più o meno scorrono parallele
con pendenze simili.
Tra poco questa differenza si rivelerà importante.
7,5
6
4,5
3
1,5
0
0 4 8 12 16 20 24 28 32 36 40
7,5
Grandi città
6
4,5
3
1,5
0
0 4 8 12 16 20 24 28 32 36 40
Possiamo anche leggere
il grafico in modo assai
pregnante: il tasso di
criminalità sale comunque col reddito ma nelle
grandi città – a parità di
reddito – la criminalità
è un punto e ½ più alta
in percentuale.
Regressione multipla
Ripartiamo allora dai due esempi fatti. Il reddito è funzione dell’età ma varia anche col livello di scolarità. La criminalità è funzione del reddito ma varia anche
con la dimensione urbana. In entrambi i casi una terza variabile si intromette tra
explanans e explanandum, migliorando la goodness of fit.
Possiamo pensare quindi a una estensione del modello di regressione lineare, che
tenga conto non di una ma di due o più variabili indipendenti. Nei nostri esempi il
modello da minimizzare diventa
Y=aYX+bYX.ZX+cYZ.XZ
e i parametri a, b, c saranno quelli che minimizzino la funzione di danno:
D = (yj - i)2fij = (yj – aYX–bYX.xi-cYZ. zi)2 .fij = minimo
Ancora una volta si tratta di un modello in cui i regressori entrano in modo lineare
e additivo. Come per i precedenti modelli lineari (retta, parabola) le stime che si
ottengono col MMQ godono delle proprietà note.
I parametri di una regressione
a due variabili
Se la procedura di stima dei parametri è la stessa sviluppata per la retta, ci
aspettiamo che i tre parametri abbiano formule composte da statistiche a noi
familiari (medie, varianze delle tre variabili in gioco, e covarianze tra di loro),
ma forse un po’ troppo complesse.
In realtà noi le abbiamo già conosciute, quando nella stima della parabola
abbiamo considerato i quadrati come un nuovo regressore a sé stante. Se il
secondo regressore è la nostra seconda variabile indipendente Z, le stime MQ
dei parametri della regressione multipla sono:
bYX . Z
covYX varZ  cov XZ covYZ

var X varZ  cov 2XZ
E ovviamente
aY.XZ=mY–bYXmX-cYZmZ
cYZ . X
covYZ var X  cov XZ covYX

var X varZ  cov 2XZ
Ancora, notate che le formule
dei due coefficienti di
regressione sono speculari tra
loro, con poche inversioni di
variabili
Calcolo dei parametri
bYX . Z
covYX varZ  cov XZ covYZ

var X varZ  cov 2XZ
cYZ . X
covYZ var X  cov XZ covYX

var X varZ  cov 2XZ
La grande simmetria delle formule rende più facile la memorizzazione. In
particolare il denominatore dei due coefficienti di regressione è lo stesso ed è
tutto espresso in termini delle variabili indipendenti x e z.
Dividendo numeratori e denominatori dei due coefficienti per il prodotto delle
varianze delle variabili indipendenti (varX.varZ), li si può esprimere in termini di
coefficienti di correlazione lineare tra variabili, a meno di un fattore moltiplicativo
legato alle misure di dispersione delle variabili stesse:
bYX . Z 
YX   XZ YZ  Y

2
1   XZ
X
cYZ . X
YZ   XZ YX  Y


2
1   XZ
Z
Per stimare i parametri di una regressione multipla con due variabili
indipendenti basta dunque avere a disposizione medie e varianze delle variabili
coinvolte e i coefficienti di correlazione lineare di ordine zero YX YZ XZ
Correlazione multipla
Come valutare il modello di regressione multiplo che stimiamo così? Si può calcolare una misura analoga al coefficiente di determinazione formulata anch’esso
in termini di coefficienti di correlazione lineare semplice. La chiamiamo coefficiente di correlazione multipla. Esso misura quanta parte della varianza di Y
è spiegata dalla dipendenza lineare di
2
2



YX
YZ  2 YX  XZ YZ
Y dalle due variabili esplicative X e Z: R 2

Y . XZ
2
1   XZ
Poiché la regressione multipla rientra nella famiglia delle regressioni lineari nelle
variabili valgono le proprietà dei MQ e in particolare il principio di scomposizione
della varianza. R2Y.XZ è quindi comparabile con il coefficiente R2YX di determinazione della retta e si può valutare l’eventuale miglioramento di goodness of fit.
Svolgiamo l’esempio criminalità(Y)–reddito
(X)–urbanizzazione(Z) [misuriamo Z come
variabile dicotomica (dummy variable) pari
a 0 nelle piccole città, a 1 nelle grandi]:
mY=2,705; mX=16,2; mZ=0,6; Y=1,4354;
X=7,2636; Z=0,4899; YX=+0,699;
YZ=+0,572; ZX=+0,135
Y=-0,176+0,125X+1,425Z
R2=0,7209
R2 è assai più consistente dei
due coefficienti di determinazione. Il modello quindi migliora
la sua capacità esplicativa.
Collinearità
bYX . Z
cYZ . X
YX   XZ YZ  Y


2
1   XZ
X
   XZ YX  Y
 YZ

2
1   XZ
Z
Attenzione al denominatore dei coefficienti di regressione multipla. Se le variabili indipendenti sono linearmente correlate tra loro (e quindi YX1),
il denominatore sarà pericolosamente 0, e farà
‘esplodere’ i coefficienti, rendendoli estremamente
‘ballerini’!
Riprendiamo l’esempio reddito(Y)–Età (X) (ponendo y9=6 per renderle ancor più
correlate) e studiamo un indicatore di performance (P) in funzione di entrambi.
mY=3,111;mX=30;mP=13,33;Y=1,7622;X=6,4636;P=4,5216;
YX=+0,977;YP=+0,534;PX=+0,555. Il modello di regressione
È: P = -0,826 + 0,525X – 0,514Y
(R2
=0,310)
Ma le due variabili indipendenti sono davvero molto correlate: il
modello stimato risentirà di variazioni anche piccole delle variabili. Per es. se p3=12 invece che 15 il modello stimato diventa:
P = +2,094 + 0,322X + 0,397Y (R2 =0,380)
Il piano di regressione cambia molto: non ci si può certo fidare!
Xi
Yi
Pi
20
1,0
10
22
1,2
8
25
1,4
15
28
2,0
5
30
3,0
15
33
3,5
20
35
4,5
18
37
5,4
15
40
6,0
14
Coeteris paribus
Conviene riflettere sul fatto che nel modello Yi=+yx.z Xi+yz.xZi si
assume che X abbia un effetto pari a yx.z quale che sia il valore di Z.
Supponiamo per esempio che Z sia una variabile dicotomica (come nel
nostro caso della criminalità per città grandi e piccole). Si assume
quindi che X (dimensione urbana) abbia il medesimo effetto su Y, sia
per Z=0 (piccole città) che per Z=1 (grandi città).
Infatti, per Z=0 si ottiene: Yi(X,Z=0) =  + yx.z Xi
Mentre, per Z=1: Yi(X,Z=1)= +yz.xXi+yx.z = (+yz.x)+yx.zXi
L’unica cosa che cambia in tali due situazioni è infatti l’intercetta, mentre il coefficiente angolare (effetto di X) rimane invariato.
Effetti di “interazione”
E’ quello che abbiamo osservato nel nostro esempio: la criminalità
cresce col reddito urbano grossomodo con una velocità di crescita
simile per grandi e piccole città.
Potrebbe però accadere che nei grandi centri l’effetto del benessere
complessivo risulti assai più influente, determinando una regressione
semplice (criminalità funzione del reddito) con pendenza più forte.
Per tener conto di ciò il modello di regressione multipla deve
assumere una forma più complessa, con un fattore in più:
Yi(X,Z) =  + yx.z Xi + yz.x Zi +  Xi Zi
Senza interazione
Y
Con interazione
yx.z e zx.y
Y
sono detti
effetti principali, η è
detto
effetto
interazione
X
X
Dalla retta al piano di
regressione
Svolgiamo l’esempio reddito(Y) – Età (X) –
Scolarizzazione(Z=numero anni studio):
mY=3,2; mX=30; mZ=13;
Y=1,9189; X=6,4636; Z=4,7;
YX=+0,969; YZ=+0,897; ZX=+0,912
Y=-5,215+0,267X+0,0313Z
R2=0,941
Ma R2 della retta era 0,94: non
c’è praticamente nessun guadagno di capacità esplicativa!!!
Per capire il perché di questo fiasco ragioniamo sulla rappresentazione grafica dell’equazione: Y=aYX+bYX.ZX+cYZ.XZ.
Y
E’ intuitivo che non abbiamo più a che fare
con l’equazione di una retta, bensì con
quella di un piano di regressione. Ma un
piano “retto” o un piano “curvo”?
Nel caso della criminalità, le due rette distinte per grandi e piccole città hanno Grandi città0
pendenze se non uguali assai simili, con
0
una differenza costante di 1,5%. L’effetto
Piccole 0
della terza variabile Z è quindi pura0
mente additivo.
Z
X
Modelli additivi
L’effetto di Z è additivo se possiamo
passare da un modello lineare semplice Yi=a+byx.xi a un modello di regressione multipla per puro incremento di un fattore ki additivo,
funzione della variabile z:
Y
Z
Y=a+cz
(ferma x)
ki = cyz.x..zi
Y=a+bx (ferma z)
a
La rappresentazione dell’equazione
del piano di regressione
X
Y
Z=z1
Yi = a + byx.z.xi + cyz.x.zi
Z=z2
corrisponde alla rappresentazione
dell’equazione di più rette con differenti intercette ma uguali pendenze
Z=z3
Yi = a+ ki + byx.z.xi
X
Regressione ‘parziale’
Il piano di regressione multipla (limitata quindi a due sole variabili
esplicative; non siamo capaci di immaginare iperpiani) è un piano in cui, per
definizione, ogni sezione rispetto alla dimensione Z traccia una retta,
funzione di X, parallela a quella ricavata con altre sezioni e,
specularmente, ogni sezione rispetto alla dimensione X traccerà rette,
funzioni di Z, tutte tra loro parallele.
Questa spiega anche perché i coefficienti di regressione multipla byx.z vengono
anche definiti COEFFICIENTI DI REGRESSIONE PARZIALE.
Un coefficiente di regressione byx.z misura l’influenza di X su Y
ferma restando z (ovvero)
tenuta sotto controllo z (ovvero)
depurata dell’effetto di z (ovvero)
posta costante entro ogni subgruppo definito in base a z
(sono tutti sinonimi tra loro). Ma che succede se al variare di Z varia non
solo l’intercetta ma anche la pendenza della relazione lineare?
Modelli moltiplicativi e effetto
interazione
Il modello diventa:
Yi = a+ki + byx.z+hi.xi
Y
Z
Entrambi i coefficienti di variazione ki e
hi dipendono ora da Z, cioè:
ki=+zi e hi=+zi
Allora:
Yi=a++zi + byx.z++zi .xi =
=a+ + byx.z+.xi + zi + zixi
o con le notazioni oramai familiari:
Yi= ayx.z+byx.z.xi+cyz.x.zi+ dy.zxxizi
Compare un fattore moltiplicativo in
più, e la superficie di regressione NON è
piana, ma curva. Le sezioni non sono
più parallele tra loro ma variano al
variare “sinergico”, cioè moltiplicativo
delle due variabili.
X
Y
Z=z1
Z=z2
Z=z3
X
Effetti “diretti” e “indiretti”
Insomma, la criminalità dipende dallo stato di ricchezza di una città, ma anche
dalla sua dimensione. Proviamo a riflettere ancora su ciò.
Indichiamo con un segmento la presenza di una relazione tra due variabili.
Utilizziamo invece una freccia quando individuiamo un verso in tale relazione
(ovvero un ordine causale).
Il modello di regressione semplice può
allora essere rappresentato graficamente
nel seguente modo:
Mentre in generale per il modello di
regressione multipla con variabili esplicative X e Z (indicando con xy il legame tra le due variabili esplicative)si ha:
X
X
xy
Z
yx
Y
yxz
yzx
Y
Nella regressione multipla l’effetto totale di X su Y (yx) è distinto in
due parti: a) un effetto diretto di X su Y (rappresentato da yx.z); b)
un effetto indiretto di X su Y (pari al prodotto .yz.x).
Due situazioni particolari (a)
Il coefficiente della regressione multipla coincide con quello della regressione semplice (yx.z = yx) quando l’effetto indiretto è nullo.
Ciò può accadere in due situazioni particolari.
a) Z non ha alcun effetto (diretto) su Y.
In tal caso infatti
µi =  + yx.z Xi + 0 Zi =  + yx.z Xi
Attenzione!! In genere
non osserviamo casilimite ma un mix in cui
valutare la
significatività del
contributo di ogni
effetto particolare
In tal caso la regressione multipla si riduce di fatto ad una regressione
semplice, e quindi yx.z = yx
Se infatti è assente il legame tra Z e Y
l’unico percorso che da X porta ad Y è
quello dell’azione diretta.
Quindi Z risulta ininfluente nello studio
della relazione tra X ed Y.
X
yx
Y
Z
Due situazioni particolari (b)
b) Il secondo caso particolare è quello in cui Z ed X non sono correlate tra loro.
Si ottiene infatti in tal caso:
yx.z = [covYX varZ – covYZ covZX] / [varX varZ – cov2XZ] =
= [covYX varZ – covYZ 0] / [varX varZ – 0] =
= [covYX varZ ] / [varX varZ] =
yx
X
= covYX / varX = yx
Anche in questo caso l’azione indiretta di X su
Y attraverso Z non è praticabile (questa volta
perché manca il legame tra X e Z: =0).
Z
Y
yz
Essendo incorrelate tra di loro, le due variabili esplicative X e Z
forniscono due contributi indipendenti nello spiegare Y. Pertanto i
parametri della regressione multipla coincidono con quelli delle due
distinte regressioni semplici di X su Y e di Z su Y.
Correlazione parziale
Ricordate che il coefficiente di correlazione lineare XY si può ricavare an-che dalla
media geometrica dei coefficienti di regressione opposti bXY, bYX: XY = bXYbYX?
Qualcosa del genere vale anche i coefficienti di regressione multipla, tra loro
complementari, bXY.Z e bYX.Z, definiti – abbiamo appena visto - in modo speculare
in termini di coefficienti di correlazione lineare semplice. La media geometrica tra
questi due coefficienti si chiama Coefficiente di correlazione parziale e ha forma:
YX .Z 
YX   XZ YZ
2
2
(1   XZ
)(1  YZ
)
IL COEFFICIENTE DI CORRELAZIONE PARZIALE misura la correlazione tra y e x ferma restando
z, o tenuta sotto controllo z, o depurata dell’effetto di z.
Torniamo all’esempio Reddito (Y) – Età (X) – Scolarità (Z), dove: Y=1,9189;
X=6,4636; Z=4,7; YX=+0,969; YZ=+0,897; ZX=+0,912 . Risulta:
Cioè: reddito ed
età sono davvero
correlati, anche a
parità di scolarità
YX .Z 
0,969  (0,897  0,912)
(1  0,897 2 )(1  0,912 2 )

0,150936
 0,8324
0,032876
Correlazione spuria
Se YX.Z0 pur essendo YX0 allora la correlazione tra y e x è SPURIA o FITTIZIA.
Una correlazione tra Y e X è spuria se è totalmente spiegata dalle
relazioni di Y e X con una terza variabile Z.
Per esempio, tra tre variabili intercorrono tre coefficienti di correlazione lineare di
grado zero (YX,YZ,XZ) e tre coefficienti di correlazione parziale (YX.Z,YZ.X,XZ.Y).
Se i 6 coefficienti sono tutti significativamente 0, tranne che XZ=0 (c’è cioè
incorrelazione tra le due variabili indipendenti) possiamo adottare il modello di
regressione multipla (A). Ma se si annulla un coefficiente di correlazione
parziale YX.Z=0 allora si possono avere due situazioni assai diverse:
Il caso (B) è quello di correlazione spuria: Z è qui una
variabile antecedente
Y
X
A
Z
Il caso (C) è quello di una catena
causale: qui Z è una variabile
interveniente
X
Y
Z
Y
C
Z
B
X
Riepiloghiamo
Sia il nostro obiettivo la stima dell’effetto causale di una data
variabile X (explanans) su Y (explanandum).
Supponiamo inoltre che Z (variabile unica o insieme di variabili) sia il
solo potenziale fattore che può influenzare la dipendenza di Y da X.
Operiamo nel seguente modo:
Conduciamo una regressione semplice e misuriamo in tal modo
l’effetto totale di X su Y (x). Passiamo poi ad una regressione multipla
aggiungendo nel modello Z.
Se Z non è correlato con X
(=0), oppure se Z non ha alcun
effetto su Y (z.x=0), allora non
esiste alcuna azione indiretta di X
su Y attraverso Z. Ne consegue
che l’effetto di X al netto di Z
coincide con l’effetto totale di X
(x.z=x). La regressione multipla si riduce a quella semplice.
Se Z è correlato con X e insieme
ha un effetto su Y, allora l’effetto totale di X può essere scomposto in un’azione diretta e una
indiretta (tramite Z). In tal caso,
se Z è interveniente, è casuale
l’effetto totale di X (diretto + indiretto), se Z è antecedente è
causale solo l’effetto diretto.
Due esempi per concludere
Primo esempio. Dati i coefficienti di correlazione lineare YX=0,42, YZ=0,70,
XZ=0,60 tra tre variabili X, Y e Z, ha senso stimare il modello di regressione
multipla Y=a+bX+cZ?
In questo caso basta analizzare il numeratore del coefficiente di correlazione
parziale (YX-XZ.YZ)=[0,42-(0,6x0,7)]=0.
Dunque la correlazione tra Y e X è spuria, il sentiero causale corretto non potrà
essere quello A della regressione multipla ma uno degli altri (quale dei due proposti? Si tratta di identificare il ruolo di Z, se antecedente o interveniente: ma
spesso nella valutazione entra in gioco l’equazione personale del ricercatore).
Secondo esempio. Riprendiamo la base dati reddito(Y)–Età (X)-Perfor-mance(P),
dove era YX=+0,977; YP=+0,534; PX=+0,555.
Date le varianze e i coefficienti di correlazione, le correlazioni parziali di P con le
due variabili “tenendo ferma l’altra” sono rispettivamente:
YP.X=-0,0464; PX.Y=+0,1846
La correlazione tra performance e reddito “tenendo ferma l’età” si avvicina molto
a zero (e cambia anche segno). E’ una correlazione spuria.
Scarica

TQA.B09.MolteVariab - Dipartimento di Sociologia