IL PROBLEMA DEGLI EFFETTI ESTERNI:
LA CORRELAZIONE PARZIALE
a.a. 2011/12
La correlazione parziale
1
Correlazione semplice e Correlazione
Parziale
 Correlazione fra X e Y
X
Y
 Correlazione Parziale fra X e Y dopo che è stato statisticamente
sottratto (rimosso, controllato, tenuto costante o parzializzato)
l’effetto lineare di una o più variabili diciamo Z e V.
X
Z
Y
Ogni linea indica una correlazione
V
15 La correlazione parziale
200910
2
UN ESEMPIO DI CORRELAZIONE SPURIA
Consideriamo tre indicatori socioeconomici disponibili per 47
province di un paese in via di sviluppo.
I tre indicatori considerati sono:
 1. una misura di fertilità (nati per donna) standardizzata in
maniera tale che vari tra 0 e 100 [FERTILITA].
 2. la percentuale degli occupati in agricoltura sul totale degli
occupati (che può anche essere vista come un indicatore di
quanto è urbanizzata la provincia) [AGRICOLTURA].
 3. il logaritmo della percentuale della popolazione con un
istruzione superiore alla scuola primaria (il logaritmo è stato
scelto perchè ci occuperemmo di relazioni lineari e la linearità
sembra maggiore utilizzando questa
trasformazione)[ISTRUZIONE o EDUCAZIONE].
Il problema che ci poniamo è di cercare di descrivere le relazioni
esistenti tra i tre indicatori..
15 La correlazione parziale
200910
3
La matrice dei diagrammi di dispersione
Il grafico mostra la matrice dei diagrammi di dispersione di tutte le
possibili coppie di variabili.
0
20
40
60
80
90
70
1
50
FERTILITA
30
80
60
2
40
AGRICOLTURA
20
0
4
3
EDUCAZIONE
3
2
1
0
30
50
70
90
0
1
15 La correlazione parziale
200910
2
3
4
4
Commenti
I grafici precedenti mostrano che:
1)
2)
3)
4)
5)
la percentuale di occupati in agricoltura e fertilità sono .positivamente
associati: provincie con una alta percentuale di occupati in agricoltura hanno
anche una alta fertilità, viceversa, basse percentuali di occupati in agricoltura
si osservano in provincie con bassi livelli di fertilità;
esiste una .associazione negativa. tra istruzione e fertilità; ovvero provincie
con un alto livello di istruzione hanno una fertilità più bassa delle provincie
con un basso livello di istruzione.
lo stesso (associazione negativa) può essere detto per la relazione tra
agricoltura e istruzione
almeno in prima approssimazione le relazioni sembrano lineari. la relazione
tra agricoltura e fertilità sembra più debole della relazione esistente tra
agricoltura ed istruzione (si pensi, ad esempio, alla dispersione intorno a
delle ipotetiche rette di regressione).
Meno facile è valutare la forza relativa delle relazioni intercorrenti tra
istruzione e, rispettivamente, agricoltura e fertilità. La prima (istruzione verso
agricoltura) sembra però in una qualche misura più forte della seconda (si
osservi in particolare l'allargarsi del grafico fertilità verso istruzione per valori
bassi dell'istruzione
15 La correlazione parziale
200910
5
Coefficienti di correlazione delle tre variabili
considerate. La matrice di correlazione
 cor(fertilità,agricoltura) =
0;35;
 cor(fertilità,istruzione) =
-0;52;
 cor(agricoltura,istruzione) = -0;68:
Similmente a quanto visto per le covarianze spesso, i coefficienti di
correlazione sono organizzati in una matrice, detta matrice di
correlazione, del tipo

X
Y
Z
fertilita’
agricoltura
istruzione
X
fertilita’
1,00
0,35
-0,52
Y
agricoltura
0,35
1,00
-0,68
Z
istruzione
-0,52
-0,68
1,00
15 La correlazione parziale
200910
6
Una congettura ovvero Cenno alla
correlazione parziale
Si supponga che un sociologo faccia le seguenti ipotesi sulle
relazioni intercorrenti tra i tre indicatori socio-economici:
1. Tra agricoltura e istruzione esiste una sostanziale
interdipendenza. Nelle province “molto agricole”. i bimbi vanno
meno a scuola perchè servono braccia per lavorare i campi,
l'istruzione è percepita come inutile per fare il contadino, la
minore urbanizzazione rende più difficile il raggiungimento della
scuola stessa,…... Quindi le province “molto agricole”
rimangono associate a bassi livelli di istruzione. Dall'altra parte,
possiamo pensare che un buon livello di istruzione faciliti la
“transizione” verso attività secondarie e terziarie. Quindi, esiste
anche un effetto, diciamo di ritorno, dall'istruzione
all'agricoltura.
15 La correlazione parziale
200910
7
Una congettura ovvero Cenno alla
correlazione parziale
2. L'istruzione ha un effetto diretto sulla fertilità. Coppie con buona scolarità
vogliono (e riescono a) controllare la natalità. Simultaneamente, famiglie
con pochi figli hanno più disponibilità di reddito e quindi sono più
“portate “ a mandare i figli a scuola.
3. Per
quanto riguarda la fertilità province “molto agricole e colte” si
comportano come le “province poco agricole e colte”. E
simultaneamente province “molto agricole e poco colte” si
comportano come le province “poco agricole e poco colte”.
Ovvero, non esiste nessuna relazione diretta tra agricoltura e
fertilità. La relazione osservata precedentemente ( r = 0.35) è,
come si dice comunemente, spuria. E' una conseguenza delle
relazioni descritte ai punti 1 e 2 precedenti. Ovvero osservo una
associazione positiva tra agricoltura e fertilità semplicemente
perchè “tanta agricoltura” risulta in “bassa istruzione” e “bassa
istruzione” risulta in “alta fertilità
15 La correlazione parziale
200910
8
CORRELAZIONE PARZIALE
In definitiva, il tipo di relazione che il sociologo ipotizza tra le tre
variabili può essere rappresentato schematicamente come.
agricoltura  istruzione  fertilità
 dove le freccie indicano un effetto diretto. Il punto cruciale della
congettura è l'inesistenza di una freccia che metta in relazione
diretta agricoltura e fertilità senza “passare” per l'istruzione. Il
problema è: cosa possiamo fare per dire se i dati disponibili
“votano” a favore o contro la congettura.
 Ovvero, cosa possiamo fare per capire se eliminata la
dipendenza tra agricoltura e fertilità attribuibile alle relazione
che ambedue le variabili hanno con istruzione rimane ancora
qualcosa.
15 La correlazione parziale
200910
9
CORRELAZIONE PARZIALE
Hmmm...
é spuria?
r = -0.52
r = 0.35
r = -0.68
15 La correlazione parziale
200910
10
CORRELAZIONE PARZIALE
15 La correlazione parziale
200910
11
CORRELAZIONE PARZIALE
Una possibile interpretazione è che possiamo guardare a
agricoltura e fertilità come divise in due parti:
 agricoltura = (parte legata all'istruzione)+ (parte non
legata all'istruzione)
 fertilità
= (parte legata all'istruzione)+ (parte non
legata all'istruzione)
e che la congettura postuli l'inesistenza di una relazione
tra le due parti non legate all'istruzione.
Accettata questa interpretazione della congettura,
possiamo allora verificarla “estraendo” le due parti non
legate all'istruzione e studiandone le relazioni.
15 La correlazione parziale
200910
12
Attuazione pratica del programma precedente
Se assumiamo che le relazioni intercorrenti tra le variabili sono
lineari possiamo procedere nella seguente maniera:
 1. Determiniamo la retta di regressione di agricoltura su
istruzione. Ovvero, costruiamo un modello di regressione
lineare semplice in cui agricoltura è la variabile risposta e
istruzione è la variabile esplicativa. Possiamo poi identificare
con i residui del modello la parte dell'agricoltura non legata
all'istruzione.
 2. In maniera analoga, ”estraiamo” la parte della fertilità non
legata all'istruzione calcolando i residui di un modello di
regressione lineare semplice in cui la fertilità gioca il ruolo di
variabile risposta e istruzione quello di variabile esplicativa.
 3. Infine, valutiamo la relazione esistente tra le due parti non
legate all'istruzione semplicemente calcolando il coefficiente di
correlazione tra i residui calcolati ai passi 1 e 2.
15 La correlazione parziale
200910
13
CORRELAZIONE PARZIALE
 Nella terminologia statistica, il coefficiente suggerito
al passo 3 viene usualmente chiamato:
 coefficiente di correlazione parziale tra
agricoltura e fertilità data (al netto di, a parità di)
l'istruzione.
 Calcolato con i dati disponibili vale -0.0021. E' molto
vicino allo zero e quindi ci indica che tra i residui dei
due modelli di regressione non esiste una relazione
lineare importante. In realtà come ci mostra la figura
della pagina seguente, tra i residui dei due modelli
non sembra esistere nessuna relazione rilevante. La
conclusione è quindi che i dati sembrano andare
d'accordo con la congettura fatta.
15 La correlazione parziale
200910
14
Diagram m a di dispersione dei residui dei due m odelli di regressione
25
20
15
residui FERT= f(ISTRUZ)
10
5
0
-50
-40
-30
-20
-10
0
10
20
30
40
-5
-10
-15
-20
-25
residui AGRI= f(ISTRUZ)
15 La correlazione parziale
200910
15
CORRELAZIONE PARZIALE
 La correlazione parziale è quindi la correlazione tra
due variabili dopo che è stato statisticamente
sottratto (rimosso, controllato, tenuto costante o
parzializzato) l’effetto lineare di una o più variabili.

Se la variabile da controllare è (Z), il
coefficiente (rXY.Z) è detto parziale di 1°
ordine e si calcola nel modo seguente
15 La correlazione parziale
200910
16
Formula del coefficiente di Correlazione
Parziale fra X e Y, al netto dell’effetto di Z
correl
fra x e z
correl
fra x e y
Correlaz
ione
parziale
fra x e y
rxy. z 
Quadrato della
correl fra x e z
correl
fra y e z
rxy  (rxz  ryz )
1 r
2
xz
 1 r
Moltiplicata
per
15 La correlazione parziale
200910
2
yz
Quadrato della
correl fra y e z
17
CORRELAZIONE PARZIALE
 Al numeratore di questa formula abbiamo la differenza tra la
correlazione totale (detta di ordine zero) e un fattore di
correzione; al denominatore abbiamo due fattori di correzione:
la varianza residua di X, dopo aver eliminato il contributo di Z, e
la varianza residua di Y, dopo aver eliminato il contributo di Z.
 La correlazione parziale è un coefficiente di correlazione di
Pearson e viene interpretato in modo simile. Può assumere
qualsiasi valore compreso tra + 1 e –1.
 Il coefficiente di correlazione parziale elevato al quadrato
esprime la quantità di varianza che X e Y condividono quando
Z è sotto controllo (se Y è la variabile dipendente, l’r parziale al
quadrato indica la quota di varianza di Y spiegata da X, quando
Z viene mantenuta costante).
15 La correlazione parziale
200910
18
CORRELAZIONE SEMPLICE E PARZIALE
ryx.z= 0.0021
ryx = 0.35
r = 0.35
r = -0.52
r = -0.52
r = -0.68
15 La correlazione parziale
200910
19
Correlazione parziale (esempio con tre
variabili)
1 ryx1

R
1


ryx2 

rx1x2 
1 
ryx1 . x2 

ryx1  ryx2 rx1x2
 1 r

2
yx2
1  r 
2
x1 x2
1/ 2
misura della relazione tra y ed x1 al netto di x2
ryx1 . x2  ryx1
SSE ryx2  0 ed ryx2 = 0
Se non vi è relazione tra y ed x2 e neppure tra x1 ed x2 la
correlazione parziale e la correlazione semplice coincidono
15 La correlazione parziale
200910
20
Correlazione parziale
 Il coefficiente di correlazione parziale tra tre variabili
non è unico, ma dipende da quale variabile vogliamo
parzializzare: con tre variabili i coefficienti possibili
sono tre, che si ottengono eliminando di volta in
volta l’influenza di ciascuna variabile dalla
correlazione tra le altre due (la scelta è dettata da
ipotesi).
 Possiamo calcolare r parziali di ordine superiore
rimuovendo gli effetti di due o più variabili da una
relazione.
 Esempio: correlazione parziale di 2° ordine:
15 La correlazione parziale
200910
21
Correlazione parziale
r12.34 
r12.3  r14.3 r24.3
1  r142 .3 1  r242 .3
(2)
15 La correlazione parziale
200910
22
ESERCIZIO
Utilizzando la formula della pag. precedente
completare la matrice dei coefficienti di
correlazione parziale dell’esempio delle
provincie.
15 La correlazione parziale
200910
23
Come i diagrammi di Venn possono aiutarci a capire la
correlazione multipla e parziale
Una var. dip. (Y) e 2 indipendenti (X1 e
X2)— presentano 3 correlazioni da
esaminare:
• Correlazioni fra ciascuna var. indip. e
la var. dip. Y: rY1 and rY2
• Correlazione fra le var. indip.: r12
Il nostro obiettivo: capire le interrelazioni
fra le correlazioni.
• Quanta variabilità di Y è spiegata da X1
e X2 insieme
• Quanta variabilità di Y è spiegata da X1
dopo aver tenuto conto di X2
• Quanta variabilità di Y è spiegata da
X2 dopo aver tenuto conto di X1
Y
X1
Y
X2
X1
15 La correlazione parziale
200910
X2
24
Diagrammi di Venn con variabili indipenedenti non correlate e correlate
Variabili esplicative non correlate
Le variabili indipendenti non correlate sono
molto rare, sono prevalentemente presenti nei
disegni di esperimenti.
In tal caso possiamo calcolare l’ R2 totale
(overall R2) sommando i vari singoli R2.
RY2|12

RY2|1

R2 spiegare Y
utilizzando solo
X2:
X1
RY2|1
RY2|12  a  b  c
RY2|2
R2 spiegare Y
utilizzando solo
X1
Y R2
Variabili esplicative correlate
Le variabili indipendenti correlate sono molto
comuni, sono presenti in quasi tutti gli studi.
In tal caso non possiamo sommare i vari singoli R2
a causa della intersezione dei contributi.
Y |2
RY2|1  a  c
a
X1
X2
Come la correlazione fra le variabili espilicative
influenza il loro effetto congiunto?
• Variabili esplicative altamente correlate: la quota
parte spiegata congiuntamente “c” è grande; Le
quote parti indipendenti addizionali “a” e “b”
sono piccole
• Variabili esplicative scarsamente correlate : la
quota parte spiegata congiuntamente “c” à piccola;
Y
c
RY2|2  b  c
b
X2
Y
a
c
X1
correlazione parziale
Le quote parti indipendenti addizionali 15
“a”La
e“b”
200910
sono grandi
Y
b
a
b
X2
X1
c
X2
25
Misurazione del contributo esplicativo addizionale di una variabile esplicativa
addizionale
Supponendo, che X1 sia già nel modello, come possiamo misurare il contributo addizionale
di X2, in aggiunta a quello già spiegato da X1?
Varianza (Y )  a  b  c  d
d
a
X1
Y
c
RY2 2 
b
X2
VarianzaRe sidua var(Y | X1 )  b  d
bc
abcd
b
 Prop di VarRes (Y | X 1 ) spiegatada X 2
bd
RY22  correlazio ne semplice
RY22|.1  correlazio ne parziale
 rY 2
Terminologia e annotazioni
• Correlazione semplice, rY2 and RY22 :
Proporzione di variabilità di Y spiegata
da X2
• Correlazione multipla, RY.122 :
Proporzione di variabilità di Y spiegata
da entrambe X1 e X2
• Correlazione parziale, rY2.1 : Y2
identifica la variabile correlata con Y;
.1 identifica la variabile(i) tenuta
costante (o tenuta ferma,
parzializzata)
 rY 2.1
Come i coefficienti parziali sono legati a quelli
semplici?
Correlaz. Parziale2
Correlaz.Semplice2
rY 2 
2
bc
abcd
rY 2 .1 
2
b
bd
Confrontando queste 2 equazioni, possiamo notare
che b e d sono in entrambi i denominatori.
Pertanto la relazione fra semplice e parziale
dipende dalla dimensione di “a” e “c” rispetto a
“b” e “d”
15 La correlazione parziale
200910
26
Capire il rapporto fra la correlazione parziale e la correlazione semplice
Parziale può essere
uguale a semplice
Parziale può essere
maggiore di semplice
Parziale può essere
più piccolo di semplice
Quando “a” and “c”
Sono piccoli:
Semplice  Parziale
Quando “a” è grande (e
“c” è grande o piccolo):
Parziale > Semplice
Quando “c” è grande
(e “a” non è molto
grande): Parziale <
Semplice
Y
d
a
X1
c
Y
Y
d
b
a
b
X2
X1
d
a
c
X2
b
bc

bd abcd
b
bc

bd abcd
Il motivo più frequente:
X1 è scarsamente
correlato con Y
Il motivo più frequente :
X1 è altamente correlato
con Y
15 La correlazione parziale
200910
X1
c
b
X2
b
bc

bd abcd
Il motivo più frequente :
X1 è altamente correlato
con X2
27
Esercizio 1 – Calcolare la matrice dei coefficienti di
correlazione parziale
X2
X1
X1
1
X2
0.20
1
X3
0.35
0.15
15 La correlazione parziale
200910
X3
1
28
Esercizio 1– Calcolare la matrice dei coefficienti di
correlazione parziale
X1
X1
X2
X3
r13.2 
X2
X3
1
0.20
1
0.35
.15
1
r13  r12 r32
1  r122
r13.2 
2
1  r32
.35  (.2)(. 15)
1  .2 2 1  .152
15 La correlazione parziale
200910
 .33
29
Esercizio 2
 Consideriamo le variabili Y, X1, X2 e la seguente
matrice di correlazione
Y
X1
X2
Y
1
0.251
0.777
X1
0.251
1
0.612
X2
0.777
0.612
1
 Calcolare il coefficiente di correlazione parziale tra le
variabili Y e X1, al netto di X2.
15 La correlazione parziale
200910
30
Esercizio 3
Relativamente a tre variabili :
X, Y e Z si è ottenuta la
seguente matrice di
correlazione tra le tre
variabili. La matrice
contiene un dato
impossibile, quale?
Perchè?
X
Y
Z
X
0.00
0.48
0.75
Y
0.48
1.00
0.81
Z
0.75
0.81
1.00
15 La correlazione parziale
200910
31
Scarica

la correlazione parziale