Associazione tra due variabili
Oltre a descrivere un singola variabile, la
statistica descrittiva è utile anche per
descrivere contemporaneamente due variabili,
ossia per capire il grado di associazione tra
due variabili.
• Variabili quantitative: si parla di correlazione
tra variabili e si utilizza il grafico di dispersione
• Variabili qualitative: si parla di dipendenza tra
variabili e si usa la tabella di frequenza doppia
Variabili quantitative
SOGGETTI
1
2
3
4
5
6
ANSIA
5
2
1
3
7
6
DEPRESSIONE
7
5
2
5
9
8
La relazione tra due variabili quantitative si rappresenta
sul “grafico di dispersione”, utilizzando i punteggi di
ciascun soggetto in X e in Y come coordinate.
Per interpretare il grafico si usano le medie delle due
variabili, che vanno a formare 4 quadranti.
Grafico crescente: ansia e depressione
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
Grafico decrescente: ansia e voto
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
Punteggi sparsi: ansia e intelligenza
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
Il grafico di dispersione
• Quando la nuvola di punti è inclinata verso
l’alto, da sinistra a destra, vi è una relazione
crescente : le variabili sono direttamente
proporzionali.
• Quando la nuvola di punti è inclinata verso il
basso, da sinistra a destra, vi è una relazione
decrescente : le variabili sono inversamente
proporzionali.
• Quando la nuvola di punti è sparsa, ossia vi
sono dei punti in tutti i quadranti, vi è assenza
di correlazione.
La correlazione
• La correlazione è un “valore” che esprime la relazione
lineare tra due variabili quantitative, ossia indica se e
quanto due variabili “variano” insieme.
• È necessario pertanto calcolare la “covarianza” e poi,
per standardizzare, ossia dividere per il prodotto delle
due deviazioni standard.
• Essendo un coefficiente standardizzato varia tra -1 e 1.
-1<r<-0,5
Correlazione alta
e negativa
-0,5<r<0,5
Assenza di
correlazione
0,5<r<1
Correlazione alta
e positiva
Calcolo della varianza
La varianza indica quanto variano i punteggi di una
variabile e consiste nel calcolare la somma degli
scarti quadratici, diviso N

2



X

X
X

X


N
Per calcolare la covarianza, invece, bisogna
considerare due variabili contemporaneamente.
Per calcolare la correlazione, la covarianza deve
essere standardizzata per il prodotto delle due
deviazioni standard.
Calcolo del coefficiente r
 X  X Y  Y 
rxy 
N
 XY
rxy= Coefficiente di correlazione di Pearson
Numeratore = covarianza (σ2XY)
Denominatore = prodotto delle deviazioni
standard
Calcolo del coefficiente r
Sog
1
2
3
4
5
6
X
5
2
1
3
7
6
Y
7
5
2
5
9
8
Ẍ
4
Ȳ
6
(X-4) (Y-6)
1
-2
-3
-1
3
2
1
-1
-4
-1
3
2
(X-4) (Y-6)
1
2
12
1
9
4
Σ29
Cov=29/6
Cov=4,83
(X-4)2
(Y-6)2
1
1
4
1
9
16
1
1
9
9
4
4
Σ28/6 Σ32/6
σ=√4,67 σ=√5,33
σx
σy
2,16
2,31
σxσy 4,99
Coefficiente r
 X  X Y  Y 
rxy 
N
 XY
29
4,83
6


4,99 4,99
rxy=0,97
Essendo r compreso tra 0,5 e 1, e come anticipato
dal grafico la correlazione è alta e positiva.
Formule alternative: punti z
(da non usare)
rxy 
 zx z y
N
Procedura:
1) Calcolare i punti z per X e Y;
2) Moltiplicare i punti z relativi allo stesso
soggetto;
3) Sommare tutti i prodotti
4) Dividere per N
Calcolo del coefficiente r: Punti z
Sog
1
2
3
4
5
6
X
5
2
1
3
7
6
Y
7
5
2
5
9
8
Zx
Zy
Zx Zy
0,46
-0,93
-1,39
-0,46
1,39
0,93
0,43
-0,43
-1,73
-0,43
1,30
0,87
0,2
0,4
2,4
0,2
1,8
0,8
Σ5,8
Ẍ
4
σx
2,16
Ȳ
6
σy
2,31
σxσy 4,99
5,8
rxy 
6
rxy  0,97
Formula alternativa “semplificata”
(da non usare)
rxy 
 XY  X Y
N
 XY
Procedura:
1)Moltiplicare ciascun punteggio di X per il relativo
punteggio di Y
2)Sommare tali prodotti
3)Dividere per N
4)Sottrarre per il prodotto delle medie di X e Y
5)Dividere il numeratore per il prodotto delle DS
Calcolo del coefficiente r: f. sempl.
S
1
2
3
4
5
6
X
5
2
1
3
7
6
Y
7
5
2
5
9
8
X*Y
35
10
2
15
63
48
Σ173
Mx
4
σx 2,16
My
6
σy 2,31
MxMy 24
σxσy 4,99
173
 24
6
rxy 
4,99
rxy  0,97
Interpretazione di r
• Il coefficiente r di Pearson è sempre compreso
tra -1 ed 1. In particolare:
-1<r<-0,5
-0,5<r<0,5
0,5<r<1
Correlazione alta
e negativa:
grafico
decrescente
Assenza di
correlazione:
assenza di
linearità
Correlazione alta
e positiva: grafico
crescente
Esercitazione 1: Costruire il grafico di
dispersione e calcolare la correlazione
Soggetti
Depressione Intelligenza
1
2
5
2
3
2
3
3
5
4
4
4
Grafico di dispersione
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Commento:
Possiamo supporre che vi sia assenza di correlazione,
poiché i punti sono sparsi
Calcolo del coefficiente r
Sog
1
2
3
4
X Y
Ẍ
3
Ȳ
4
2
3
3
4
5
2
5
4
(X-3) (Y-4)
-1
0
0
1
1
-2
1
0
(X-3) (Y-4)
-1
0
0
0
Σ-1
Cov=-1/4
Cov=-0,25
(X-3)2
(Y-4)2
1
1
0
4
0
1
1
0
Σ2/4
Σ6/4
σ=√0,5 σ=√1,5
σx
σy
0,71
1,22
σxσy 0,87
Calcolo del coefficiente r
 X  X Y  Y 
rxy 
N
 XY
1
4   0,25  0,29
0,87
0,87
Commento:
Poiché il coefficiente r di Pearson è compreso tra
–0,5 e +05 (r = -0,29) non vi è correlazione tra
depressione e intelligenza.
Testare l’associazione tra “disregolazione emotiva” (DERS) e
“disturbo ossessivo compulso” (DOC) e commentare i risultati.
Soggetti
DERS
DOC
1
4
3
2
5
2
3
4
3
4
3
4
5
2
3
6
3
4
7
6
1
8
2
4
9
1
5
10
3
2
11
2
4
12
2
4
13
2
4
14
3
3
Grafico di dispersione
6
5
4
3
2
1
0
0
1
2
3
4
5
6
Commento:
Poiché la nuvola di punti si distribuisce in maniera
decrescente, possiamo supporre che vi sia una
correlazione alta e negativa.
7
Calcolo del coefficiente r
Sog
X
Y
(X-3)
(Y-3,29)
(X-3) (Y-3,29)
(X-3)2
(Y-3,29)2
1
4
3
1
-0,29
-0,29
1
0,08
2
5
2
2
-1,29
-2,58
4
1,66
3
4
3
1
-0,29
-0,29
1
0,08
4
3
4
0
0,71
0
0
0,50
5
2
3
-1
-0,29
0,29
1
0,08
6
3
4
0
0,71
0
0
0,50
7
6
1
3
-2,29
-6,87
9
5,24
8
2
4
-1
0,71
1
0,50
9
-0,71
1
5
1,71
-3,42
4
2,92
10
-2
3
2
-1,29
0
0
1,66
11
0
2
4
12
2
4
13
2
4
14
3
3
-1
-1
-1
0
0,71
0,71
0,71
-0,29
-0,71
-0,71
-0,71
0
1
1
1
0
0,50
0,50
0,50
0,08
Calcolo del coefficiente r
 X  X Y  Y 
rxy 
N
 XY
 16
1,14
14

 0,84
1,31 1,03
1,35
Commento:
Poiché il coefficiente r di Pearson è compreso tra -1
e –0,5 (r = -0,84) vi è correlazione alta e negativa
tra disregolazione emotiva e disturbo ossessivo
compulsivo.
Scarica

8 Correlazione