Introduzione alla
Regressione Lineare
e alla
Correlazione
1
esempio 1
Supponiamo di avere misurato la
statura di 10 bambini di età compresa
tra 6 e 12 anni e di riportare i dati su
una tabella:
soggetto
1
2
3
4
5
6
7
8
9
10
et€
(anni)
X
6
6
7
8
8
9
10
10
11
12
statura
(centimetri)
Y
115
120
122
130
128
134
136
140
147
151
2
diagrammi di dispersione
• un diagramma di dispersione è
una rappresentazione grafica in cui
si rappresentano i valori di due
variabili
• i valori della variabile indipendente (X) vengono rappresentati
sull’asse orizzontale (asse delle
ascisse)
• i valori della variabile dipendente
(Y) vengono rappresentati sull’asse
verticale (asse delle ordinate)
• ciascuna coppia di valori (X,Y)
viene rappresentata sul grafico con
un punto
3
esempio 1(2)
Riportando i valori su un diagramma di
dispersione otterremo il seguente
grafico:
155
150
145
Altezza (cm)
140
135
130
125
120
115
110
5
6
7
8
9
10
11
12
13
Età (anni)
4
esempio 1(3)
Si evidenzia una netta tendenza, tale
per cui al crescere dell’età, si registra
un aumento dell’altezza:
155
y = 5,5879x + 83,685
R2 = 0,9735
150
145
Altezza (cm)
140
135
130
125
120
115
110
5
6
7
8
9
10
11
12
13
Età (anni)
5
esempio 2
Fonte: www.venganza.org
6
tipi di relazioni
7
coefficiente di correlazione
• il coefficiente di correlazione (lineare) misura l’intensità della relazione (lineare) tra due variabili X e
Y;
• i valori che esso assume sono
compresi tra –1 e +1;
• quando vale +1 significa perfetta
correlazione positiva: i valori della
Y si dispongono esattamente su una
retta con pendenza positiva;
• quando vale –1 significa perfetta
correlazione negativa: i valori della
Y si dispongono esattamente su una
retta con pendenza negativa
8
coefficiente di correlazione
da un punto di vista matematico, il
coefficiente di correlazione
(Bravais-Pearson) è definito come
cov XY
r
s X sY
in cui:
cov XY
sX
sY
è la covarianza tra X e Y;
è la deviazione standard di X
è la deviazione standard di Y
9
covarianza
• la covarianza esprime l’intensità
con cui due variabili “variano
insieme”
• matematicamente si esprime con
cov XY
X  X Y  Y 



N
in cui:
X
Y
N
è la media di X;
è la media di Y;
è la numerosità del campione
10
covarianza
• la covarianza si può calcolare più
comodamente con la formula
semplificata:
cov XY 

X Y

XY 
N
N
in cui:
 XY è la somma dei prodotti XY;
 X è la somma dei valori di X;
è la somma dei valori di Y
Y

11
esempio 1(3)
Dalla tabella dell’esempio 1 ricaviamo
i seguenti valori:
 XY  11723
 X  87
Y  1323
Con questi possiamo calcolare la
covarianza:
cov XY
87 1323
11723 
10

 21.29
10
12
esempio 1(4)
Ora calcoliamo le deviazioni standard:
 X  87  X
sx 
87 

795 
2
10
 2, 057
10
Y  1323  Y
sy 
 795
2
2
 176255
1323

176255 
10
10
2
 11, 65
13
esempio 1(5)
A questo punto possiamo calcolare il
coefficiente di correlazione:
cov XY
r

s X sY
21.29

 0.973
2.05 11.65
abbiamo ottenuto un’alta correlazione
positiva.
14
esempio 2
10 soggetti di età superiore ai 60 anni
sono stati sottoposti ad un test di abilità
motorie con i seguenti risultati:
soggetto
1
2
3
4
5
6
7
8
9
10
età
(anni)
X
60
65
72
80
67
75
77
79
81
77
abilità
motorie
Y
40
25
16
18
35
14
10
15
12
18
15
esempio 2
Si calcoli la correlazione tra età
e punteggio di abilità motorie.
soggetto
1
2
3
4
5
6
7
8
9
10
età
(anni)
X
60
65
72
80
67
75
77
79
81
77
abilità
motorie
Y
40
25
16
18
35
14
10
15
12
18
16
esempio 2
prima calcoliamo le somme:
 X  733  X
Y  203 Y
 XY  14325
2
 54183
2
 5019
poi, da questi valori possiamo ricavare
le deviazioni standard e la covarianza:
s X  7,10 sY  9,99
cov XY  61,66
infine otteniamo la correlazione:
cov XY
r
 0,87
s X sY
17
esempio 2
Riportando i valori su un diagramma di
dispersione otteniamo:
18
esercizio
Si calcoli il coefficiente di correlazione
tra le due variabili riportate in tabella.
soggetto
1
2
3
4
5
6
7
X
1
3
5
7
9
11
13
Y
7
4
13
16
10
22
8
19
esercizio
prima calcoliamo le somme:
 X  49  X
Y  80 Y
 XY  632
2
2
 455
 1138
poi, le deviazioni standard e la covarianza:
s X  4,32 sY  6,11
cov XY  12
infine otteniamo la correlazione:
cov XY
r
 0,45
s X sY
20
ATTENZIONE
Il coefficiente r misura l’intensità della
relazione lineare;
se r è basso (vicino a zero) vuol dire
che non c’è relazione lineare ma
potrebbe esserci una relazione di altro
genere.
21
esempio 3
In questo caso, anche se r = -0,2, risulta
evidente che esista una relazione tra le
due variabili.
22
Scarica

m03