Corso di Laurea magistrale in
Psicologia Clinica, dello Sviluppo e Neuropsicologia
Esame di
Analisi Multivariata dei Dati
La regressione lineare semplice
martedì 15 ottobre 2013
A cura di
Matteo Forgiarini
1
Relazioni tra variabili
Esercitazione N° 2 – La regressione lineare semplice
Quando siamo interessati a studiare la relazione tra due variabili, occorre prendere in
considerazione 3 caratteristiche principali:
-La forma che assume la relazione.
-La sua direzione.
-L’entità osservata.
In questo contesto verranno analizzate solo
relazioni lineari: il modello matematico
utilizzato è la retta di regressione, quindi si
ipotizza una forma lineare.
La direzione della relazione può essere
positiva (i valori delle due variabili crescono
in modo concorde) o negativa (al crescere dei
valori di una variabile diminuiscono i valori
dell’altra).
L’entità della relazione fa riferimento
alla quantificazione della relazione
stessa: la relazione può essere molto
forte o modesta; oppure può essere
pari a zero, in questo caso si parla di
relazione nulla, le variabili sono
dunque indipendenti.
2
Varianza e correlazione
Esercitazione N° 2 – La regressione lineare semplice
Per analizzare la relazione tra le variabili occorre fare riferimento ai concetti di varianza e di
correlazione.

Cov(v, x) 
n
i 1
n
rxv 
 (z
i 1
iv
(vi  M v ) * ( xi  M x )
n 1
 0) * ( zix  0)
n 1
n

z
i 1
iv
* zix
n 1
La correlazione può variare solo tra -1 ed 1; l’entità della relazione è quindi agevole da
comprendere ed è possibile confrontare 2 o più valori fra loro.
La direzione della relazione è indicata dal segno del valore della correlazione: una
correlazione positiva indica che le variabili si “muovono” in modo concorde; una
correlazione negativa indica che quando i valori di una variabile crescono, i valori
dell’altra mininuiscono.
3
Scatter plot
Esercitazione N° 2 – La regressione lineare semplice
Menù:grafici->scatter plot
prezzo da catalogo (lire)
peso (in Kg)
Spesso è utile costruire una
matrice di grafici che
permette di visualizzare la
natura delle relazioni tra
due o più variabili; ogni
cerchietto rappresenta un
“caso”
che
viene
posizionato sul grafico
usando i valori delle due
variabili come coordinate
cartesiane.
potenza del motore
Con questo strumento è
possibile studiare la forma
della relazione tra le
coppie di variabili.
peso (in Kg)
prezzo da catalogo (lire)
potenza del motore
Per
quantificare
la
relazione tra due variabili
occorre calcolare la loro
correlazione.
4
Esercitazione N° 2 – La regressione lineare semplice
La correlazione
Descriptive Statistics
Mean
pes o (in Kg)
1252,7653
lunghezza (cm) 447,3575
Std. Deviation
171,18530
26,76908
N
24
24
Correlations
lunghezza (cm)
pes o (in Kg)
Pears on Correlation
Sig. (2-tailed)
Sum of Squares and
Cross -products
Covariance
N
Pears on Correlation
Sig. (2-tailed)
Sum of Squares and
Cross -products
Covariance
N
lunghezza
(cm)
1
pes o (in Kg)
,762**
,000
16481,419
80331,158
716,583
24
,762**
,000
3492,659
24
1
80331,158
674001,338
3492,659
24
29304,406
24
**. Correlation is s ignificant at the 0.01 level (2-tailed).
La correlazione risulta significativa (p-value<0,001);
Possiamo quindi rifiutare l’ipose nulla H0: corr(peso,lunghezza)=0
ed accettare H1: corr(peso,lunghezza)≠0
Si noti che la matrice di correlazione prodotta è quadrata e simmetrica: infatti corr(x,y)=corr(y,x).
5
I punteggi z
Esercitazione N° 2 – La regressione lineare semplice
Costruiamo 2 nuove variabili con i valori z delle variabili “lunghezza” e “peso”;
Ora calcoliamo la varianza e la correlazione tra queste due nuove variabili.
6
La varianza dei punteggi z
Correlations
Zscore: lunghezza (cm)
Zscore: pes o (in Kg)
Pears on Correlation
Sig. (2-tailed)
Sum of Squares and
Cross -products
Covariance
N
Pears on Correlation
Sig. (2-tailed)
Sum of Squares and
Cross -products
Covariance
N
Esercitazione N° 2 – La regressione lineare semplice
Descriptive Statistics
Zscore:
lunghezza
(cm)
1
23,000
1,000
24
,762**
,000
Zscore:
pes o (in Kg)
,762**
,000
Mean
,0000000
,0000000
Std. Deviation
1,00000000
1,00000000
N
24
24
17,530
,762
24
1
17,530
23,000
,762
24
1,000
24
**. Correlation is s ignificant at the 0.01 level (2-tailed).
Zscore: lunghezza (cm)
Zscore: pes o (in Kg)
Come ci si attendeva la deviazione standard
delle due variabili è 1; la correlazione
calcolata è pari a quella tra le due variabili
non standardizzate (cfr. slide 4); la varianza
tra le due variabili è pari alla
correlazione: le variabili sono infatti
7
standardizzate.
La retta di regressione semplice
Esercitazione N° 2 – La regressione lineare semplice
Se esiste una correlazione significativa tra due variabili, è possibile ipotizzare che una variabile
sia causa dell’altra.
Chiamiamo variabile indipendente la variabile che causa un cambiamento dei valori dell’altra
che per tanto è dipendente dalla prima variabile.
Se si ipotizza che vi sia una relazione causale diretta tra le due variabili e che tale relazione
abbia forma lineare, è possibile stimare i parametri della equazione di regressione semplice tra
la variabile indipendente e la dipendente.
Y=a + b*x
a=intercetta; b=pendenza della retta
L’intercetta viene calcolata con la formula:
Nella regressione lineare semplice, se
le due variabili sono standardizzate b
corrisponde alla correlazione tra x e y
cov( x, y)
rxv 
s y sx
a  M y  bxy M x
Se x e y non sono standardizzate, b corrisponde
alla covarianza tra x e y divisa per la varianza di x
sy
cov( x, y )
byx  rxv

sx
s x2
8
La retta di regressione semplice
Esercitazione N° 2 – La regressione lineare semplice
Coefficientsa
Model
1
(Cons tant)
lunghezza (cm)
Uns tandardized
Coefficients
B
Std. Error
-927,675
395,523
4,874
,883
Standardized
Coefficients
Beta
,762
t
-2,345
5,522
Sig.
,028
,000
a. Dependent Variable: peso (in Kg)
Intercetta (a) e pendenza (b) risultano
significativamente diversi da zero:
entrambi i p-values<0.05
Si noti che la pendenza standardizzata
corrisponde alla corr(x,y).
Model Summary
Model
1
R
R Square
,762 a
,581
Adjus ted
R Square
,562
a. Predictors : (Constant), lunghezza (cm)
Std. Error of
the Es timate
113,31046
La proporzione di varianza della y
spiegata dalla x corrisponde al quadrato
della corr(x.y).
9
La retta di regressione semplice
Esercitazione N° 2 – La regressione lineare semplice
Chiediamo a spss di costruire il grafico
della retta di regressione semplice con
x=lunghezza e y=peso.
10
La retta di regressione semplice

Esercitazione N° 2 – La regressione lineare semplice
Linear Regression
1600,00
peso (in Kg)

peso (in Kg) = -927,67 + 4,87 * lungh

R-Square =0,58
1400,00










1200,00



1000,00


400,00



425,00
450,00
475,00
lunghezza (cm)
a= -927.67; b= +4.87; la proporzione di varianza della y spiegata dalla x è=0.58 (58%).
Le due variabili non sono standardizzate: risulta interessante verificare che le stime di a e b siano
coerenti alle formule teoriche.
11
La retta di regressione semplice

Esercitazione N° 2 – La regressione lineare semplice
Linear Regression
Zscore: peso (in Kg)
2,00000


Zscore: peso (in Kg) = 0,00 + 0,76 * Zlungh

R-Square = 0,58 
1,00000








0,00000




-1,00000






-1,00000
0,00000
1,00000
Zscore: lunghezza (cm)
X= punteggi z:lunghezza; y=punteggi z:peso
Le variabili sono standardizzate: la retta di regressione passa per l’origine degli assi, infatti a=0.
La pendenza (b)=corr(x,y).
12
Correlazione e causazione
Esercitazione N° 2 – La regressione lineare semplice
Correlations
lunghezza (cm)
capienza bagagliaio (litri)
pes o (in Kg)
potenza del motore
capienza s erbatoio (litri)
prezzo da catalogo (lire)
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
Pears on Correlation
Sig. (2-tailed)
N
lunghezza
(cm)
1
24
-,003
,990
24
,762**
,000
24
,314
,135
24
,605**
,002
24
,442*
,031
24
capienza
bagagliaio
(litri)
-,003
,990
24
1
24
-,003
,990
24
,043
,842
24
,119
,579
24
,009
,968
24
capienza
potenza
s erbatoio
prezzo da
pes o (in Kg) del motore
(litri)
catalogo (lire)
,762**
,314
,605**
,442*
,000
,135
,002
,031
24
24
24
24
-,003
,043
,119
,009
,990
,842
,579
,968
24
24
24
24
1
,789**
,742**
,770**
,000
,000
,000
24
24
24
24
,789**
1
,691**
,837**
,000
,000
,000
24
24
24
24
,742**
,691**
1
,764**
,000
,000
,000
24
24
24
24
,770**
,837**
,764**
1
,000
,000
,000
24
24
24
24
**. Correlation is s ignificant at the 0.01 level (2-tailed).
*. Correlation is s ignificant at the 0.05 level (2-tailed).
La matrice di correlazione delle 6 variabili mostra che la correlazione tra “capienza del
serbatoio” e “prezzo” è significativamente diversa da 0. Sembra dunque possibile ipotizzare un
legame causale tra queste variabili.
13
Esercitazione N° 2 – La regressione lineare semplice
Correlazione e causazione
Model Summary
Model
1
R
R Square
,764 a
,583
Adjus ted
R Square
,564
Std. Error of
the Es timate
14452263,2
a. Predictors : (Constant), capienza s erbatoio (litri)
Coefficientsa
Model
1
(Cons tant)
capienza s erbatoio (litri)
Uns tandardized
Coefficients
B
Std. Error
-6,2E+07
1,8E+07
1654877
298280,5
Standardized
Coefficients
Beta
,764
t
-3,366
5,548
Sig.
,003
,000
a. Dependent Variable: prezzo da catalogo (lire)
I due parametri della retta risultano significativamente diversi da 0; sembra possibile costruire la
retta di regressione.
Ma ha davvero senso il modello proposto? È davvero ipotizzabile che la capienza del serbatoio sia
una causa diretta del prezzo dell’auto?
Occorre riflettere: una correlazione significativa tra due variabili non è mai una condizione
sufficiente perché vi sia un legame causale diretto tra le due variabili.
Non sempre se sue variabili correlano in modo significativo è possibile ipotizzare un legame
causale diretto; può succedere che vi siano altre variabili che intervengono nella relazione e
rendono più complesso il legame: in questi casi un modello di causalità lineare non è sufficiente a
spiegare la correlazione osservata.
14
Scarica

Lucidi 2_1 - e