TQuArs – a.a. 2010/11
Tecniche quantitative per l’analisi nella ricerca sociale
Giuseppe A. Micheli
Lezione B.7
Correlare
In questa lezione…
In questa lezione facciamo conoscenza con la principale misura di associazione, il coefficiente di correlazione lineare (xy). Esso si applica a variabili entrambe quantitative, ed è efficace soprattutto se immaginiamo ci possa essere un particolare tipo di relazione, quella definita
da una funzione rettilinea.
Procederemo nella presentazione con questi passi:
Identificheremo la Covarianza come misura per eccellenza di
calcolo del grado di ‘covariazione’ tra due fenomeni.
Perverremo al coefficiente xy normalizzando la covarianza e
svolgeremo tramite esempi le procedure di calcolo.
Esamineremo le capacità diagnostiche di xy con riferimento
alle opposte situazioni di perfetta indipendenza e di perfetta dipendenza. Concluderemo confrontando le tre misure fin qui introdotte.
Ripartiamo da uno scatter
n.
Età al I f
Mesi interc
1
16
56
2
16
72
3
17
66
4
19
75
5
20
48
75
6
22
54
7
23
66
65
8
25
36
9
25
42
10
26
48
11
26
36
12
27
39
13
29
36
14
30
33
3515
32
36
16
33
27
Ripartiamo da un esempio già usato. Nel diagramma di
dispersione la coordinata orizzontale indica l’età della
madre al primo figlio, quella verticale il numero di mesi
intercorsi tra il 2° e il 3° figlio.
Abbiamo già imparato
che la linea ellissoidale blu ci dà la sensazione che tra età al
primo figlio (coordinata orizzontale) e intervallo di tempo tra le
nascite successive
(coordinata verticale)
esista una sorta di associazione inversa
(più precoce la prima
nascita, più ritardate
le successive).
55
45
35
25
15
20
25
30
Possiamo trovare qualche strumento per diagnosticare il
tipo di relazione (diretta, inversa) e per misurarla?
e ripartiamo da Durkheim
La prima cosa che va chiarita è che ‘studiare l’associazione tra variabili’
non è un concetto unico, ma ne include due ben distinti:
una cosa è diagnosticare il tipo di associazione (quando aumenta X che fa Y: aumenta, cala, aumenta e poi cala, o cosa altro?)
altra cosa è studiare la strettezza dell’associazione individuata.
A noi basta fermarci (per ora) alla seconda proprietà. Ma come? Nel
1895, Durkheim aveva formulato in proposito il
Principio delle variazioni concomitanti: “se due
fenomeni collettivi variano in modo concomitante tra
loro o l’uno è causa dell’altro o ne è l’effetto, o
comunque v’è tra essi una qualche relazione causale
che passa attraverso altri caratteri intermedi”.
Il centroide
Per capire il concetto di ‘variazione
concomitante’ identifichiamo il 17.mo
punto inserito nel nostro diagramma, e
che mettiamo in evidenza con una
stella. E’ il punto che ha per coordinate la media di X e la media di Y.
Y-my
Y
75
P= (my, mx)
65
X-mX
55
my=48,12 45
Sappiamo che la media è una specie di
baricentro della distribuzione che sintetizza. Il punto all’incrocio delle due medie è allora il baricentro della distribuzione congiunta: non a caso lo si
definisce centroide.
35
X
25
15
20
25
30
35
mx =
24,12
Prolunghiamo allora le due semirette, perpendicolari tra loro, delle coordinate di P.
Esse costituiscono una nuova coppia di coordinate del grafico. Spostando
l’attenzione su questa nuova coppia di assi è come se avessimo traslato l’origine
degli assi nel centroide stesso.
Ora al posto della coordinata X abbiamo una sua trasformata (X - mX), e al posto
della coordinata Y abbiamo la sua trasformata (Y - mY).
Buoni e cattivi
Ora il grafico è
diviso in quattro
parti, lungo le linee dei baricentri
delle due variabili e si distinguono
i buoni e i cattivi,
ossia quelli sopra e quelli sotto
la media.
Sopra l’asse orizzontale i valori di
Y sono sopra la
media, sotto sono inferiori alla
media. A destra
dell’asse verticale i valori di X
sono sopra la
media, a sinistra
sotto la media.
(Y-my)>0 e (X-mX)<0
(Y-my)>0 e (X-mX)>0
75
65
55
II
I
III
IV
my
45
35
(Y-my)<0 e (X-mX)<0
(Y-my)<0 e (X-mX)>0
25
15
20
25
mx
30
35
Variazioni concomitanti
Ora le osservazioni si collocano
tutte o quasi nel
II e IV quadrante, in cui le due
coordinate hanno
segno opposto:
chi ha il primo figlio sotto i 24
anni frappone più
di 48 mesi tra il
secondo e il terzo, chi ha il primo figlio oltre i
24 anni ha invece intervalli inferiori ai 4 anni tra
secondo e terzo.
Tra i 2 caratteri
le variazioni sono ‘concomitanti’
(Y-my)>0 e (X-mX)<0
(Y-my)>0 e (X-mX)>0
75
65
55
II
I
45
III
IV
my
35
(Y-my)<0 e (X-mX)<0
(Y-my)<0 e (X-mX)>0
25
15
20
25
mx
30
35
Distinguere tipo e intensità
dell’associazione
A
B
X Età
Y Mesi
16
40
18
40
18
45
55
20
45
54
45
20
48
48
22
54
23
53
24
56
24
61
25
58
75
65
35
25
15
20
25
30
35
66
60
42
36
15
18
21
24
27
Confrontiamo le situazioni A (già nota) e B: due sono le differenze importanti:
In A la relazione tra X e Y è inversa (al crescere di X cala Y), in B è diretta
In B la relazione è più stretta, in A è più lasca (lo si intuisce guardando la
‘larghezza’ delle ellissoidi con cui circoscriviamo le nuvole di punti)
I caratteri da diagnosticare e misurare sono due: tipo e intensità dell’associazione
I prodotti degli scarti come
spie di una relazione
Cerchiamo allora una misura del grado di strettezza (e del tipo) dell’associazione.
Dicotomizzando le variabili con i due nuovi assi abbiamo fatto assumere loro valori
positivi (superiori alla media) e negativi (inferiori alla media). Diamo un’occhiata
al segno delle nuove coordinate: nel I e III quadrante (quelli in cui si dovrebbero
addensare i punti se c’è una relazione diretta, come nel caso B) i segni delle
coordinate sono uguali tra loro, entrambi positivi (I quadrante) o entrambi
negativi (III); negli altri due quadranti invece i segni sono alternati.
IDEA!! Facciamo il prodotto delle coordinate y*=Y-m e x*=X-m:
quad
rante
Segno della funzione:
y*=Y-m
66
y*>0
y*>0
Positivo
60
X*<0
X*>0
Positivo
Negativo
54
Negativo
Negativo
Positivo
48
Positivo
Negativo
Negativo
(X-mx)
(Y-my)
I
Positivo
Positivo
II
Negativo
III
IV
(X-mx)
x
(Y-my)
A coordinate di segno uguale corrisponde un
prodotto positivo; a coordinate di segno opposto corrisponde un prodotto negativo.
x*=X-m
42
y*<0
y*<0
X*<0
X*>0
36
15
18
21
24
27
Fare la media tra i prodotti
degli scarti
75
65
y*>0
y*>0
X*<0
X*>0
55
y*<0
35
66
60
II
45
A
III
I
IV
y*<0
X*>0
X*<0
20
y*>0
X*<0
X*>0
54
II
48
y*<0 III
42
X*<0
B
I
IV
y*<0
X*>0
36
25
15
y*>0
25
30
35
15
18
21
24
27
Che succede ai prodotti (X-mx)(Y-my) in A e in B? in A i punti si collocano nel II e
IV qua-drante e i pro-dotti sono tutti negativi. Nel caso B i punti si collocano nel I
e III quadrante, i prodotti sono tutti positivi, la somma è una misura positiva
assai elevata. Situazioni intermedie porteranno a misure intermedie.
Covarianza è la media aritmetica dei
prodotti delle variabili-scarto ponderate per le rispettive frequenze.
Covxy  E  X  mx Y  m y 
Calcolo della covarianza
Covxy  E  X  mx Y  m y  
( x
i
 mx )  ( yi  m y )ni
i
N
Calcoliamo la covarianza nel caso B, affiancando alle colonne delle x e delle y le
colonne con i corrispondenti scarti dalle rispettive medie, poi quella dei prodotti
tra gli scarti. In questo caso ogni coppia di osservazione è rilevata singolarmente
quindi con numerosità 1 (la colonna delle numerosità è superflua).
Xi
Yi
ni
(Xi-m) ni
(Yi-m) ni
(Xi-m) (Yi-m) ni
16
40
1
-5
-10
+50
18
40
1
-3
-10
+30
18
45
1
-3
-5
+15
20
45
1
-1
-5
+5
20
48
1
-1
-2
+2
22
54
1
1
4
+4
23
53
1
2
3
+6
24
56
1
3
6
+18
24
61
1
3
11
+33
25
58
1
4
8
+32
210
500
10
0
0
+195
Calcoli intermedi:
E(X) = 210/10=21
E(Y) = 500/10=50
E[(X-mX)(Y-mY)]=19,5
La covarianza è positiva, il
che conferma la relazione
diretta tra X e Y: ma
quanto è stretta? Ancora
non sappiamo valutarlo..
Formula operativa per il calcolo
della covarianza
Come per la varianza, passare attraverso gli scarti dalle medie è una procedura
lunga e carica di decimali. MA anche per la covarianza esiste una procedura
operativa più snella. Si dimostra che la formula definitoria della CovXY equivale a
Covxy 
(x
i
 mx )  ( yi  m y )ni
i
Xi
Yi
XiYi
16
40
640
18
40
720
18
45
810
20
45
900
20
48
960
22
54
1188
23
53
1219
24
56
1344
24
61
1464
25
58
1450
210
500
10695
N

x y n
i
i
N
i
i
  xi ni  yi ni 

 i
 i
 N
N 


La covarianza è pari alla differenza tra la media della
variabile prodotto XY e il prodotto delle medie di X e Y
Covxy  E  X  mx Y  m y   E ( XY )  E ( X ) E (Y )
Calcoli intermedi:
E(X)=210/10=21
E(Y)=500/10=50
E(XY)=1069,5
Cov(XY)=19,5
Il risultato è proprio lo stesso. Ma
attenti a non invertire minuendo
e sottraendo, in tal caso senza
accorgervene invertireste il
segno..
Proprietà della covarianza
La covarianza è la misura di base della ‘covariazione’ tra due caratteri statistici. Essa possiede queste proprietà:
CovXY è una misura che cresce al crescere dell’associazione tra
X e Y, sia che essa sia diretta, sia che sia inversa.
Il segno di CovXY riflette fedelmente il tipo di relazione: diretta
se il segno è positivo, inversa se è negativo.
Si può mostrare che se X e Y sono tra loro indipendenti
(stocasticamente o in media) allora CovXY è pari a zero.
Non possiamo invece dire con certezza che, se CovXY=0, allora
c’è indipendenza stocastica, e nemmeno semplicemente indipendenza in media. La covarianza nulla può essere il risultato di mere compensazioni interne di calcolo. In tal caso si parla di indipendenza correlativa.
Indipendenza e covarianza
6
5
4
3
2
1
0
0
1
2
X
Y
XY
1
4
4
2
1
2
3
5
15
4
1
4
5
3
1
3
4
5
6
In queste due situazioni di indipendenza
stocastica (azzurro)
e in media (giallo)
troviamo
conferma
a quanto detto.
Calcoli intermedi:
E(X) = 30/10=3
E(Y) = 30/10=3
E(XY)=9
CovXY=0
10
8
6
4
2
0
0
1
Calcoli intermedi:
E(X) = 30/10=3
E(Y) = 50/10=5
E(XY)=15
CovXY=0
2
3
4
5
6
X
Y
XY
1
4
4
2
3
6
3
2
6
4
1
4
15
5
0
0
2
2
1
6
6
2
3
6
2
7
14
3
4
12
3
8
24
4
5
20
4
9
36
5
2
10
5
10
50
30
30
90
30
50
150
Se tra X e Y c’è indipendenza stocastica o anche solo in media allora
CovXY è pari a zero
La fallacy della covarianza nulla
In questa terza simulazione la covarianza è nulla.
Eppure la forma così ‘lisciata’ del grafico non lascia
ombra di dubbi che tra X e Y una qualche relazione
esiste, anzi una relazione esatta!
25
20
15
10
Y = (X-mX)2
5
0
0
2
4
X
Y
XY
0
25
0
1
16
16
2
9
18
3
4
12
4
1
4
6
1
6
7
4
28
8
9
72
9
16
144
10
25
250
50
110
550
6
8
Calcoli
intermedi:
E(X)=5
E(Y) =11
E(XY)=55
CovXY=0
10
Ribadiamo allora la regola generale:
Se tra X e Y c’è indipendenza stocastica o in media allora CovXY = 0,
ma se CovXY = 0 possiamo solo
dire che tra X e Y c’è
indipendenza ‘correlativa’
Da che dipende questa trappola imbarazzante? Guardando il
grafico si nota come la relazione è esatta, ma non rettilinea (è
una parabola). Ha a che fare con questa ‘insofferenza alle regole
’ di CovXY?
Normalizzare la covarianza
Per rispondere all’ultima domanda occorre concludere l’elenco delle proprietà
della covarianza, esaminando quelle che concernono il suo massimo
Sia in positivo sia in negativo, CovXY raggiunge lo stesso massimo quando l’associazione tra X e Y non solo è perfetta (conosciamo
già il significato di perfetta dipendenza funzionale) ma si esprime in
una relazione di tipo rettilineo.
A differenza della varianza, che non aveva un massimo (dipendendo dall’ordine di grandezza e dalla numerosità della popolazione),
CovXY possiede un massimo in valore assoluto (‘in modulo’),
identificato dalla disuguaglianza di Cauchy:
  x y  cov xy   x y
ovvero
cov xy   x y
Usiamo separatamente le due proprietà. Con la seconda possiamo normalizzare la
covarianza, rapportandola al suo massimo. Riprenderemo poi la prima proprietà,
per dare una risposta alla domanda sulla fallacy della covarianza nulla.
Il coefficiente di correlazione
lineare
Chiamiamo la CovXY normalizzata coefficiente di CORRELAZIONE LINEARE:
 1   xy 
cov xy
 x y
 1
Se guardiamo dentro alla formula, esplicitando le formule di covarianza e varianze,
scopriamo che il coefficiente di correlazione lineare è la media del prodotto
tra variabili standardizzate:
 xy
( xi  mx ) ( yi  m y ) ni


  xi* yi*ni / N  E (xi* yi* )
 x y
x
y
N
i
i
cov xy
xy ha lo stesso segno della covarianza, perché il denominatore a
cui viene rapportato è il prodotto di misure sempre positive (xy).
xy vale 1 in caso di perfetta correlazione lineare (cioè rettilinea)
diretta, vale –1 in caso di perfetta correlazione lineare inversa. Se
c’è indipendenza stocastica vale zero: ma non vale l’inverso..
In caso di relazione non lineare..
X
Y
XY
X
Y
XY
10
1
10
10
1
10
10
8
2
5
10
2
8
16
6
3
3,3
10
3
6
18
4
4
2,5
10
4
4
16
2
5
2
10
5
2
10
0
6
1,7
10
6
0
0
21
24,5
60
21
30
70
0
1
2
3
4
5
6
7
Facciamo l’ipotesi di una relazione iperbolica
Y=10/X. In tal caso tra X e Y c’è una relazione di
perfetta dipendenza funzionale ma il coefficiente di
correlazione non è massimo (confrontatelo col caso
rettilineo a fianco). Come mai?
Il fatto è che in caso di relazioni - monotone almeno
non decrescenti - anche perfette ma non lineari tra X
e Y, pur essendoci perfetta associazione la covarianza non sarà massima perché alcuni punti della
nuvola, non essendo rettilinea, si collocheranno nel
quadrante ‘sbagliato’!
10
8
6
4
2
0
0
1
2
3
4
5
Per l’iperbole è
cov=-4,29. Per
la retta invece
cov=-5,83. Ma
per confrontarle
occorre passare
ai coefficienti
rxy
(rispettivament
e -0,879 e –1)
6
7
..mantenere opportune cautele
La trappola si complica ancora se la relazione non solo non è lineare,
ma nemmeno monotona. Se i punti della nuvola giacciono tutti su una
parabola a due rami, come nell’esempio già fatto (ma anche su altre
funzioni esatte, come una sinusoide), i segni dei prodotti degli scarti
delle coordinate si compenseranno tra loro e produrranno addirittura
una covarianza nulla!
Questi sono casi limite. Ma in generale possiamo affermare che
Un xy=0 non è garanzia di indipendenza tra X e Y, perché
si può ottenere anche solo per mera compensazione interna
tra i segni dei prodotti; meglio limitarsi a dire che tra X e Y
sussiste indipendenza correlativa.
Un xy<1 non è garanzia di assenza di dipendenza
funzionale perché questa misura isola come caso a sé solo
quello della perfetta relazione lineare.
Un primo esempio
L’European Community Household Pa- regione
nel (1995), mette in relazione per 12 Italia
paesi europei due indicatori di ‘pari op- Portogallo
portunità’: X è la % di donne che lavo- Gran Bret.
ra, Y una misura ritenuta robusta della Grecia
disuguaglianza nella distribuzione dei Spagna
redditi familiari (niente di più del buon Irlanda
vecchio coefficiente di variazione!).
Olanda
X
Y
X2
Y2
XY
0,42
0,82
0,176
0,672
0,344
0,59
0,76
0,348
0,578
0,448
0,65
0,74
0,422
0,548
0,481
0,44
0,68
0,194
0,462
0,299
0,32
0,67
0,102
0,449
0,214
0,39
0,67
0,152
0,449
0,261
0,60
0,61
0,360
0,372
0,366
Austria
0,56
0,51
0,314
0,260
0,286
Belgio
0,60
0,50
0,360
0,250
0,300
Germania
0,53
0,50
0,281
0,250
0,265
0,9
Finlandia
0,72
0,45
0,518
0,202
0,324
0,8
Danimarca
0,78
0,42
0,608
0,177
0,328
0,7
TOTALE/N
0,55
0,61
0,320
0,389
0,326
0,6
E(X)=0,55; E(X2)=0,320; V(X)=0,0175
E(Y)=0,61; E(Y2)=0,389; V(Y)=0,0169
E(XY)=0,326; E(X)E(Y)=0,3355;
Cov=-0,0095; XY= 0,0172;
XY=-(0,0095/0,0172)=-0,55
Cinque colonne bastano per calcolare
deviazioni standard e covarianza.
0,5
0,4
0,3
0,4
0,5
0,6
0,7
0,8
Altro esempio altra trappola
Un altro esempio su 19 regioni italiane (senza la Val d’Aosta). Sia X=
tasso di occupazione giovani 25-34
anni e Y=suicidi per milione di abitanti (‘92). Dalle colonne si ottiene
Cov=+0,0258 XY= 0,0353, quindi
XY=+0,73. Il coefficiente  è molto elevato: ma siamo davvero sicuri
che occupazione e suicidio vadano
di pari passo? (si considerino separatamente le due cerchie delle regioni del centronord e del sud)
1,3
1,1
regione
X
Y
X2
Y2
XY
Piemonte
0,88
1,14
0,7744
1,2996
1,0032
Lombardia
0,88
0,75
0,7744
0,5625
0,6600
Trentino
0,91
1,00
0,8281
1,0000
0,9100
Veneto
0,89
0,85
0,7921
0,7225
0,7565
Friuli
0,85
1,23
0,7225
1,5129
1,0455
Liguria
0,80
0,96
0,6400
0,9216
0,7680
Emilia
0,88
1,29
0,7744
1,6641
1,1352
Toscana
0,84
0,86
0,7056
0,7396
0,7224
Umbria
0,83
1,01
0,6889
1,0201
0,8383
Marche
0,84
0,82
0,7056
0,6724
0,6888
Lazio
0,70
0,60
0,4900
0,3600
0,4200
Abruzzi
0,76
0,61
0,5776
0,3721
0,4636
Molise
0,71
0,58
0,5041
0,3364
0,4118
Campania
0,58
0,38
0,3364
0,1444
0,2204
0,9
Puglie
0,70
0,48
0,4900
0,2304
0,3360
0,7
Basilicata
0,64
0,67
0,4096
0,4489
0,4288
0,5
Calabria
0,55
0,46
0,3025
0,2116
0,2530
Sicilia
0,63
0,67
0,3969
0,4489
0,4221
1 Sardegna
0,65
0,86
0,4225
0,7396
0,5590
0,3
0,5
0,6
0,7
0,8
0,9
Calcolare la covarianza su
tabelle a due entrate
Il calcolo della covarianza e di  può essere effettuato su qualunque coppia di variabili quantitative, anche se in forma di tabella. In questo caso nella formula
compare correttamente il doppio suffisso per riga (i) e colonna (j).
Covxy 
(x
i
 mx )  ( y j  m y )nij
i
N

x y n
i
i
N
j ij
  xi ni  y j n j 

 i
 i
 N
N 


Come per le serie disaggregate le statistiche intermedie da calcolare sono 6:
la numerosità N
La media di X E(X)
La media di Y E(Y)
Il momento secondo di X E(X2)
Il momento secondo di Y E(Y2)
La media del prodotto, E(XY).
L’unica statistica noiosa da calcolare, in
questo caso, è E(XY). Occorre infatti,
per ogni casella non nulla della tabella,
calcolare il prodotto tra le due modalità
di riga e di colonna e la numerosità
riportata in casella (xiyjnij), sommarle
poi tutte e dividerle per N.
Un ultimo esempio
Riprendiamo l’esempio della distribuzione delle 20 regioni per indice di vecchiaia e
numero di posti letto geriatrici. In blu le numerosità congiunte, in nero modalità e
numerosità, in rosso le elaborazioni successive, in marrone il calcolo di E(XY).
60-120
y1=90
120-180
y2=150
180-240
y3=210
Nj
Xi ni
Xi2ni
100-250[x1=125]
1
2
1
4
500
62500
50-100
[x2=75]
4
2
0
6
450
33750
0-50
[x3=25]
3
4
3
10
250
6250
8
8
4
N=20
1200
102500
Yj nj
720
1200
840
2760
Yj2nj
64800
180000
176400
421200
Yj =I.Vec
Xi=P.Letto
N.j
E(XY)={(125x90x1)+(125x150x2)+(125x210x1)+
(75x90x4)+(75x150x2)+(25x90x3)+(25x150x4)+
(25x210x3)}/20= {11250+37500+26250+27000+
22500+6750+15000+15750}/20 = 8100
Cov = E(XY) – E(X)E(Y) = 8100-(60x138)= -180
XY=rXY=(-180)/(39,05x44,90)= -180/1753 = -0,10
E(X)=60
E(X2)=5125
E(Y)=138
E(Y2)=21060
V(X)=1525
V(Y)=2016
X=39,05
y=44,90
Confrontare tre misure
Il coefficiente di correlazione è dunque per certi versi molto occhiuto (separa attentamente diversi tipi di dipendenza perfetta), per altri molto miope (non distingue diversi tipi di indipendenza). Confrontiamo allora le capacità diagnostiche delle
tre misure di associazione studiate: 2 , 2 , ||
2 =
2 =
|| =
0
0
0
Indipendenza in media
Tra 0 e 1
0
0
Indipendenza correlativa
Tra 0 e 1
Tra 0 e 1
0
Situazioni di Dipendenza
2 =
2 =
|| =
Relazione non lineare non monotona
1
1
<1
Relazione non lineare monotona
1
1
>0 e <1
Relazione lineare
1
1
1
Situazioni di Indipendenza
Indipendenza stocastica
Misure diverse sono sensibili a situazioni limite differenti.
Utilizzarne dunque più di una permette un miglior dettaglio nella diagnosi
Scarica

TQA.B07.Correlare - Dipartimento di Sociologia