Lezione 18
A. Iodice
Regressione
lineare
semplice
Lezione 18
Assunzioni sul
modello di
regressione
semplice
Statistica
Stimatore
della varianza
Alfonso Iodice D’Enza
[email protected]
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Università degli studi di Cassino
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
1 / 45
Outline
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
1
Regressione lineare semplice
2
Assunzioni sul modello di regressione semplice
3
Stimatore della varianza
4
Verifica di ipotesi sul coefficiente angolare della retta di
regressione
5
Regressione su tabella a doppia entrata
A. Iodice ()
Lezione 18
Statistica
2 / 45
Modello di regressione lineare semplice
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
In molte applicazioni il ruolo delle variabili x ed Y non è lo stesso, in particolare,
assegnato un certo valore al predittore x (indicato pertanto con la lettera
minuscola), il valore che Y assume dipende in qualche modo da x. La relazione
più semplice tra le variabili è quella lineare, e il modello corrispondente è
Y = β0 + β1 x;
tale modello presuppone che, stabiliti i parametri β0 e β1 , sia possibile
determinare esattamente il valore di Y conoscendo il valore di x: salvo eccezioni,
questo non si verifica mai.
Il modello
Alla determinazione del valore di Y , oltre che la componente deterministica
β0 + β1 x, concorre anche una componente casuale detta errore non osservabile ,
una variabile casuale con media 0
Y = β0 + β1 x + .
Analogamente, la relazione di regressione lineare semplice può essere espressa in
termini di valore atteso
E[Y |x] = β0 + β1 x.
poichè E[] = 0.
A. Iodice ()
Lezione 18
Statistica
3 / 45
Modello di regressione lineare semplice
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Si consideri di voler analizzare la relazione tra il peso del rullo di un taglia erba e l’entità della depressione
riscontrata nel prato da tagliare. Sia Y la depressione (depression) e x il peso del rullo utilizzato (weight).
Per vedere se l’utilizzo del modello di regressione lineare semplice sia ragionevole in questo caso occorre
raccogliere delle coppie di osservazioni (xi , yi ) e rappresentarle graficamente attraverso il diagramma di
dispersione.
Il diagramma di dispersione (scatter plot)
units
1
2
3
4
5
6
7
8
9
10
weight
1.9
3.1
3.3
4.8
5.3
6.1
6.4
7.6
9.8
12.4
depression
2.0
1.0
5.0
5.0
20.0
20.0
23.0
10.0
30.0
25.0
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
4 / 45
La retta di regressione
Lezione 18
La retta di regressione
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
La retta di regressione fornisce una
approssimazione della dipendenza dei valori
di Y dai valori di X. La relazione di
dipendenza non è esattamente riprodotta
dalla retta; i valori ŷi = β0 + β1 xi sono
dunque i valori teorici, ovvero i valori che la
variabile Y assume, secondo il modello
Y = β0 + β1 x, in corrispondenza dei
valori xi osservati.
Le differenze ei tra i valori teorici ŷi e i
valori osservati yi vengono definite residui.
Questo perchè per ciascuna osservazione il
modello è dato da
yi =
β0 + β1 xi
|
{z
}
comp. deterministica
+
rette passanti per la nube di punti
i
|{z}
comp. casuale
Determinazione della retta di regressione
L’identificazione della retta avviene attraverso la determinazione dei valori di B0 , e B1 , stime dell’intercetta
e del coefficiente angolare o pendenza, rispettivamente. La retta ’migliore’ è quella che passa più ’vicina’ ai
punti osservati. In altre parole, si vuole trovare la retta per la quale le differenze tra i valori teorici ŷi e i
valori osservati yi siano minime.
A. Iodice ()
Lezione 18
Statistica
5 / 45
La retta di regressione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Metodo dei minimi quadrati
La retta di regressione è tale che la somma dei residui al
quadrato sia minima. Formalmente
n
n
n
X
X
X
2
2
2
ei =
(yi − ŷi ) =
(yi − B0 − B1 xi )
i=1
i=1
Il problema consiste dunque nel ricercare B0 e B1 che
minimizzano la precedente espressione. Da un punto di
vista operativo bisogna risolvere il seguente sistema di
equazioni (condizioni del primo ordine o stazionarietà).
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
i=1
∂
n
X
∂B0 i=1
Stimatori dei parametri della retta di
regressione:(B0 )
−2
n
X
(yi − B0 − B1 xi ) =
i=1
2
(yi − B0 − B1 xi )
=0
n
X
yi − n ∗ B0 − B1
i=1
∂
n
X
∂B1 i=1
2
(yi − B0 − B1 xi )
=0
n
X
xi = 0
i=1
B0 = ȳ − B1 x̄
Nota: si tratta di punti di minimo perchè le derivate
seconde ∂B0 B0 f (B0 , B1 ) = −2(−n),
P
2
∂B1 B1 f (B0 , B1 ) = −2 n
i (−xi )
sono sempre non negative.
A. Iodice ()
Lezione 18
Statistica
6 / 45
La retta di regressione
Lezione 18
A. Iodice
Stimatori dei parametri della retta di
regressione:(B1 )
Regressione
lineare
semplice
I residui
Assunzioni sul
modello di
regressione
semplice
le differenze tra i valori stimati ŷi e i valori
osservati yi vengono definite residui. La
retta di regressione è tale che la somma dei
residui al quadrato sia minima.
Formalmente
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
n
n
X
X
2
2
RSS =
ei =
(yi − ŷi ) =
i=1
=
n
X
i=1
−2
xi (yi − B0 − B1 xi ) = 0
i=1
n
X
x i y i − B0
i=1
B1
B1
n
X
2
xi =
n
n
X
2
xi
RSS (residual sum of squares)
B1 =
A. Iodice ()
n
Lezione 18
n
X
xi y i −
Pn
i=1
xi
n
i=1
−(
n
X
!
2
xi )
=n
n
X
i=1
Pn
yi
Pn
− B1
i=1
n
X
n
X
xi yi −
xi
i=1
xi
!
n
yi
i=1
Pn
σxy
xi yi − i=1 xi i=1 yi
=
Pn
2 − (Pn
2
2
x
x
)
σx
i
i=1 i
i=1
i=1
n
2
xi = 0
i=1
i=1
Pn
n
X
xi − B1
i=1
n
X
i=1
Regressione su
tabella a
doppia entrata
n
X
i=1
i=1
2
(yi − B0 − B1 xi )
i=1
n
X
Statistica
7 / 45
Determinazione della retta di regressione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
...statistiche descrittive
P10
P10
i=1 xi = 6.07
i=1 yi = 14.1
ȳ =
10
10
rP
rP
10 (x −x̄)2
10 (y −ȳ)2
i
i
i=1
i=1
sx =
=
3.04
sy =
10
10
P10
i=1 (xi −x̄)(yi −ȳ) = 24.7
sxy =
10
σxy
rxy = σ σ = 0.8
x y
x̄ =
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
= 10.1
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
8 / 45
Determinazione della retta di regressione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Calcolo dei coefficienti
Richiamando le quantità calcolate in precedenza e le formule per il calcolo dei parametri si ha
σ
B1 = σxy
B0 = ȳ − B1 x̄ = 14.1 − (2.66 ∗ 6.07) = −2.04
2 = 2.66
x
Y = −2.04 + 2.66x rappresenta la retta di regressione stimata
La retta ’migliore’
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
9 / 45
Interpretazione dei valori dei coefficienti di
regressione
Lezione 18
A. Iodice
Regressione
lineare
semplice
B0 rappresenta l’intercetta della retta di regressione ed
indica il valore della variabile di risposta Y quando il
predittore x assume valore 0.
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
B1 rappresenta l’inclinazione della retta di regressione,
ovvero la variazione della variabile di risposta Y in
conseguenza di un aumento unitario del predittore x.
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
10 / 45
Assunzioni sul modello
Lezione 18
A. Iodice
Il modello di regressione lineare semplice è
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Y = β0 + β1 x + e l’errore non osservabile è una variabile aleatoria con valore atteso pari a 0. Per
poter fare inferenza sono necessarie alcune assunzioni:
la variabile aleatoria i si distribuisce come una Normale di parametri 0 e
σ 2 : dunque la varianza dell’errore non osservabile i non dipende dal
predittore xi ;
Stimatore
della varianza
cov(i , j ) = 0, ∀i 6= j (i, j = 1, . . . , n), questo comporta che la risposta
relativa al predittore xi è indipendente da quella relativa al predittore xj ;
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
x è nota e non stocastica (priva di errore);
dalle precedenti assunzioni segue che ∀i la variabile di risposta Yi si
distribuisce secondo una Normale di parametri
Regressione su
tabella a
doppia entrata
E[Yi ] = β0 + β1 xi
A. Iodice ()
Lezione 18
e
var(Yi ) = σ 2 .
Statistica
11 / 45
Assunzioni sul modello
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
fonte: Statistics for Business and Economics (Anderson, Sweeney and Williams, (2011))
A. Iodice ()
Lezione 18
Statistica
12 / 45
Lo stimatore della varianza σ 2
Lezione 18
A. Iodice
La quantità σ 2 è incognita e deve essere stimata a partire dai dati. A questo
scopo si consideri che la standardizzazione di Yi si distribuisce secondo una
normale
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
Yi − (β0 + β1 xi )
Yi − E[Yi ]
p
=
.
σ
var(Yi )
La somma dei quadrati delle Yi standardizzate è
Pn
2
i=1 (Yi − β0 − β1 xi )
2
σ
ed essendo la somma di n normali standardizzate indipendenti, si distribuisce
come una variabile aleatoria chi-quadro con n gradi di libertà.
Sostituendo i parametri β0 e β1 con gli stimatori dei minimi quadrati B0 e B1 la
precedente diventa
Pn
2
i=1 (Yi − B0 − B1 xi )
σ2
è un chi-quadro con n-2 gradi di libertà, in quanto si perde un grado di libertà per
ogni parametro stimato.
A. Iodice ()
Lezione 18
Statistica
13 / 45
Lo stimatore della varianza σ 2
Lezione 18
A. Iodice
Il numeratore della precedente rappresenta la somma dei quadrati dei residui
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
n
X
(Yi − B0 − B1 xi )2 =
i=1
n
X
e2 = RSS;
i=1
è un chi-quadro con n-2 gradi
da quanto trovato in precedenza, la quantità RSS
σ2
di libertà.
Poichè il valore atteso di un chi-quadro è uguale ai gradi di libertà possiamo
scrivere
E[RSS]
RSS
=
n
−
2
da
cui
E
= σ2 ,
σ2
n−2
lo stimatore della varianza σ 2 è dunque RSS
. Lo stimatore dello scarto
n−2
quadratico
medio
σ
viene
definito
errore
standard
della stima e corrisponde a
q
RSS
.
n−2
A. Iodice ()
Lezione 18
Statistica
14 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Un’ipotesi molto importante da verificare nel modello di regressione lineare
semplice è che il coefficiente angolare della retta di regressione sia pari a 0: se
infatti β1 = 0 allora la variabile di risposta non dipende dal predittore, in altre
parole non c’è regressione sul predittore.
Per ottenere il test H0 : β1 = 0 vs H1 : β1 6= 0 è necessario studiare la
distribuzione dello stimatore B1 di β1 : se B1 si discosta da 0 allora si rifiuta H0 ,
altrimenti non si rifiuta. Ma di quanto B1 deve discostarsi da 0?
A questo scopo si consideri che B1 si distribuisce come una Normale e occorre
definirne i parametri.
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
15 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
A. Iodice
Si consideri la seguente formalizzazione alternativa dello stimatore B1
Regressione
lineare
semplice
B1 =
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
σxy
=
σx2
Pn
Pn
(xi − x̄) Yi − Ȳ /n
i=1 (xi − x̄) Yi − Ȳ
=
=
Pn
P
2
n
2
i=1 (xi − x̄) /n
i=1 (xi − x̄)
i=1
=0
z
}|
{
n
X
Pn
(xi − x̄)
i=1 (xi − x̄) Yi − Ȳ
Pn
(xi − x̄) Yi − (xi − x̄) Ȳ
=
Pn
2
i=1 (xi − x̄)
!
n
n
X
X
(xi − x̄)
=
Yi =
δ i Yi
Pn
2
i=1 (xi − x̄)
i=1
i=1
{z
}
|
=
i=1
i=1
Pn
i=1
(xi − x̄)2
=
ponendo tale quantità=δi
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
16 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
A. Iodice
Due relazioni interessanti che riguardano δi :
Regressione
lineare
semplice
=0
n
X
Assunzioni sul
modello di
regressione
semplice
δi =
i=1
n
X
i=1
1
(xi − x̄)
= Pn
Pn
2
2
(x
−
x̄)
(x
i
i − x̄)
i=1
i=1
}|
{
z
n
X
(xi − x̄) = 0
i=1
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
n
X
i=1
δi2
=
n
X
"
(xi − x̄)
Pn
i=1
= Pn
i=1
Regressione su
tabella a
doppia entrata
A. Iodice ()
i=1
#2
(xi − x̄)2
= hP
n
n
X
1
2
i=1 (xi − x̄)
i2
(xi − x̄)2 =
i=1
1
(xi − x̄)2
Lezione 18
Statistica
17 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
E’ a questo punto possibile dimostrare che lo stimatore B1 di β1 è non distorto.
A. Iodice
"
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
E[B1 ] = E
n
X
#
δ i Yi =
i=1
=
n
X
n
X
δi β0 + β1
Regressione su
tabella a
doppia entrata
δ i xi
= β1
i=1
| {z }
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
δi E [Yi ] =
| {z }
i=1
β0 +β1 xi
i=1
n
X
δi (β0 + β1 xi ) =
i=1
n
X
i=1
(xi − x̄)
Pn
2
i=1 (xi − x̄)
!
xi =
| {z }
=0
Stimatore
della varianza
n
X
δi = Pn
(xi −x̄)
(xi −x̄)2
i=1
= β1 P n
i=1
n
X
1
2
(xi − x̄)
(xi − x̄) xi = β1 Pn
i=1
i=1
n
X
1
2
(xi − x̄)
x2i − x̄
i=1
n
X
xi =
i=1
| {z }
=nx̄
= β1 P n
i=1
1
(xi − x̄)2
n
X
Pn
2
i=1 (xi − x̄)
x2i − nx̄2 = β1 Pn
i=1
i=1
|
{z
(xi − x̄)2
= β1
}
P
2
= n
i=1 (xi −x̄)
A. Iodice ()
Lezione 18
Statistica
18 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
La varianza dello stimatore B1 è data da

2
= bY , b è una costante, var(Z) = b var(Yi ))
= costante
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione

 X

 n


var (B1) = var 
Y
δ
i  = ( poichè se Z
i

 i=1

| {z }
n
X
=
(δi )2
i=1
|
= Pn
{z
i=1
}
σ2
var(Yi ) = Pn
2
| {z }
(x
i − x̄)
i=1
=σ 2
1
(xi −x̄)2
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
19 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
A. Iodice
la Normale standard
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
sP
n
i=1
(xi − x̄)2
(B1 − β1 )
σ2
non consente ancora di costruire una statistica test perchè è ancora presente il
parametro incognito σ 2 : tuttavia si può stimare tale parametro attraverso RSS
n−2
che, come visto in precedenza, si distribuisce secondo un chi-quadrato con n-2
gradi di libertà; sostituendo a σ 2 il suo stimatore si ha
s
P
2
(n − 2) n
i=1 (xi − x̄)
(B1 − β1 ).
RSS
Poichè questa quantità ha al numeratore una Normale standard ed al
denominatore un chi-quadro rapportato ai propri gradi di libertà, si distribuisce
come una distribuzione t di student con n-2 gradi di libertà.
A. Iodice ()
Lezione 18
Statistica
20 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
A questo punto la statistica test da utilizzare sotto H0 (β1 = 0) è
s
ST =
Pn
2
i=1 (xi − x̄)
B1 ∼ tn−2
RSS
Il test di livello α di H0 è ha la seguente regola di decisione:
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
(n − 2)
se
| ST |≥ tn−2,α/2
allora si rifiuta H0
se
| ST |< tn−2,α/2
allora non si rifiuta H0
Nell’esempio roller, il valore della statistica test è ST = 3.808,
il p − value corrispondente è 0.00518.
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
21 / 45
Intervallo di confidenza su β1
Lezione 18
A. Iodice
Regressione
lineare
semplice
A partire dalla statistica test per il test su β1 , è possibile definire l’intervallo di
confidenza, i cui estremi sono:
Assunzioni sul
modello di
regressione
semplice
s
B1 ± t(α/2,n−2)
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
RSS
Pn
2
i=1 (xi − x̄)
{z
}
√
(n − 2)
|
var(B1 )
con riferimento all’esempio roller, gli estremi dell’intervallo sono, ad un livello di
confidenza del 95% sono [1.05, 4.28].
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
22 / 45
Bontà di adattamento e diagnostica
Lezione 18
A. Iodice
Regressione
lineare
semplice
Una volta stimato il modello di regressione, è necessario misurare la bontà
dell’adattamento del modello ai dati e analizzare i residui per controllare che le
assunzioni di normalità con media nulla e varianza costante dei residui siano
rispettate.
Strumenti analitici: coefficiente di determinazione lineare R2
Assunzioni sul
modello di
regressione
semplice
Strumenti grafici: plot dei residui
plot variabili esplicative vs. residui: in caso di relazione non lineare
nella configurazione dei punti allora la relazione con la variabile
esplicativa potrebbe non essere di primo grado (lineare), ma di grado
superiore;
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
plot valori stimati dal modello vs. residui: se i residui aumentano
all’aumentare dei valori stimati dal modello, allora potrebbe essere
necessario effettuare una trasformazione della variabile di risposta;
Normal probability plot: confronto tra i quantili della distribuzione
dei residui osservati e quella di una normale standardizzata;
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
23 / 45
Plot dei residui
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed
X è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio,
all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe
non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
variabili esplicative vs residui
Per verificare che l’andamento dei residui sia effettivamente casuale rispetto ad x, è possibile utilizzare un
diagramma di dispesione tra i valori xi ed i corrispondenti residui ei (i = 1, . . . , n)
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
24 / 45
Plot dei residui
Lezione 18
A. Iodice
Regressione
lineare
semplice
Perchè la retta possa essere considerata una buona approssimazione della relazione che intercorre tra Y ed x
è necessario che i residui abbiano un andamento casuale rispetto ai valori della x. Se, ad esempio,
all’aumentare dei valori della x aumentassero sistematicamente anche i residui, allora la relazione potrebbe
non essere non lineare: la retta di regressione ne sarebbe dunque una cattiva approssimazione.
valori stimati ŷ vs residui
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
25 / 45
Quantile-quantile plot
Lezione 18
A. Iodice
Regressione
lineare
semplice
Per controllare che l’assunzione della normalità dei residui sia rispettata si ricorre al confronto tra i quantili
della distribuzione Normale standard ed i quantili della distribuzione dei residui osservati.
Q-Q plot
Quanto più i punti del grafico risultano allineati lungo la bisettrice del primo quadrante, tanto migliore sarà
l’adattamento dei residui osservati alla distribuzione normale.
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
26 / 45
coefficiente di determinazione lineare R2
Lezione 18
Ricordando che la devianza il numeratore della varianza...
A. Iodice
SSy =
n
X
2
(yi − ȳ)
i=1
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
=
=
2
(yi − ŷi + ŷi − ȳ)
=
i=1
2
(yi − ŷi ) +
n
X
n
X
2
(ŷi − ȳ) + 2
i=1
i=1
i=1
n
X
n
X
n
X
2
(yi − ŷi ) +
i=1
2
(ŷi − ȳ) + 2(
i=1
(yi − ŷi )(ŷi − ȳ)
yi −
i=1
n
X
ŷi )(
i=1
n
X
ŷi − nȳ)
i=1
Poiché ŷi è una trasformazione lineare di xi , allora
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
n
X
n
X
=
µŷ = B0 + B1 x̄ = (ricordando che B0 = ȳ − B1 x̄)
= ȳ − B1 x̄ +B1 x̄ = ȳ
| {z }
B0
dunque µŷ = ȳ →
Regressione su
tabella a
doppia entrata
Pn
i=1 ŷi
n
SSy =
n
X
=
Pn
i=1 yi
n
2
(yi − ŷi ) +
i=1
=
n
X
i=1
A. Iodice ()
da cui
n
X
Pn
i=1
ŷi −
2
2
n
X
i=1
yi = 0, quindi
(ŷi − ȳ) + 2 ∗ 0 ∗ (
i=1
(ŷi − ȳ) +
Pn
n
X
ŷi − nȳ)
i=1
2
(yi − ŷi )
= SSr + RSS
i=1
Lezione 18
Statistica
27 / 45
Decomposizione della devianza
Lezione 18
La devianza può essere decomposta dunque nelle seguenti quantità SSy = SSr + RSS
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
SSy =
Pn
(yi − ȳ)2 devianza totale
SSr =
Pn
(ŷi − ȳ)2 devianza di regressione
RSS =
i=1
i=1
Pn
i=1
(yi − ŷi )2 devianza dei residui
Interpretazione grafica
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
28 / 45
Bontà dell’adattamento
Lezione 18
A. Iodice
Intituitivamente, l’adattamento della retta è migliore quanto maggiore sarà proporzione di variabilità totale
che la retta di regressione riesce a spiegare; ovvero, l’adattamento della retta è migliore quanto minore sarà
la variabilità residua. Una misura di come il modello approssima i dati osservati è data dal coefficiente di
determinazione lineare R2 , dato da
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
R
2
SSr
SSy
Pn
= Pi=1
n
i=1
ovvero
R
2
RSS
=1−
SSy
(ŷi − µy )2
(yi − µy )2
Pn
= 1 − P i=1
n
(yi − ŷi )2
2
i=1 (yi − µy )
esempio di calcolo R2
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
SSy =
Pn
i=1
(yi − ȳ)2 = 1020.9
2
i=1 (ŷi − ȳ) = 657.97
Pn
RSS =
(y
−
ŷ
)2 = 362.93
i
i
i=1
SSr =
Pn
R
Regressione su
tabella a
doppia entrata
=
ovvero
R
A. Iodice ()
2
=1−
2
=
RSS
SSy
SSr
SSy
=1−
Lezione 18
=
657.97
1020.9
282.1862
5058.4
= 0.64
= 1 − 0.36 = 0.64
Statistica
29 / 45
Bande di confidenza e di previsione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
Utilizzo del modello per stima e previsione
Se il modello stimato si adatta bene ai dati e se la relazione tra Y e X è
significativa, si può utilizzare la retta di regressione stimata per la stima e la
previsione.
Banda di confidenza
La banda di confidenza è composta dalle stime intervallari, ognuna costruita sul
valore atteso di Y dato il valore corrispondente di xi .
Banda di previsione
La banda di previsione è composta dalle stime intervallari, ognuna costruita sul
singolo valore di Y dato il valore corrispondente di xi .
A. Iodice ()
Lezione 18
Statistica
30 / 45
Bande di confidenza e di previsione
Lezione 18
A. Iodice
Regressione
lineare
semplice
...qualche definizione
Assunzioni sul
modello di
regressione
semplice
xp è un valore specifico assunto dalla variabile indipendente X;
yp è il valore assunto da Y quando X = xp ;
Stimatore
della varianza
E [yp ] è il valore atteso di Y quando X = xp ;
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
ŷp = B0 + B1 xp , il valore stimato dalla retta di regressione,
dunque è la stima di E [xp ] per X = xp .
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
31 / 45
Bande di confidenza e di previsione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Intervallo di confidenza su E[Y | X = xp ] = E[yp ]
Per costruire lo stimatore intervallare su E[yp ] dato che X = xp è necessario
stimarne la varianza, lo stimatore in questione è
s2ŷp
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
RSS
=
n−2
"
1
(xp − x̄)2
+ Pn
2
n
i=1 (xi − x̄)
#
pertanto l’intervallo di confidenza è dato da
ŷp ± t α ,(n−2) sŷp
2
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
32 / 45
Bande di confidenza e di previsione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Intervallo di previsione su yp
Per costruire lo stimatore intervallare su yp è necessario stimarne la varianza, lo
stimatore in questione consiste di due componenti
Assunzioni sul
modello di
regressione
semplice
la varianza
di un singolo di valore Y rispetto alla sua media E[yp ]
la varianza associata all’utilizzo di un singolo valore ŷp per stimare E[yp ]
(già stimata in precedenza s2ŷp )
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
RSS
n−2
s2singolo =
RSS
+ s2ŷp
n−2
pertanto l’intervallo di previsione è dato da
ŷp ± t α ,(n−2) ssingolo
2
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
33 / 45
Intervallo di confidenza su E(yp )
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
Bande di confidenza
A. Iodice ()
Lezione 18
Statistica
34 / 45
Intervallo di previsione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
Bande di previsione
A. Iodice ()
Lezione 18
Statistica
35 / 45
Bande di confidenza e previsione
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
36 / 45
Regressione su distribuzione doppia di frequenze
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Si consideri di aver osservato su 10 rivenditori di componenti
informatiche le variabili numero di punti vendita e Fatturato
settimanale complessivo. Si studi la dipendenza del fatturato dal
numero di punti vendita.
fino a 5000
tra 5000 e 10000
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
fino a 2
3
1
tra 2 e 4
2
2
tra 4 e 6
0
2
Si stimino i coefficienti della retta di regressione.
Si valuti la bontà di adattamento della retta ai dati.
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
37 / 45
Regressione distribuzione doppia di frequenze
Lezione 18
A. Iodice
Essendo le modalità delle variabili qualitative espresse in intervalli di valori, è necessario fare riferimento ai
centri di ciascun intervallo. La tabella è dunque data da
Regressione
lineare
semplice
Y /X
2500
7500
Tot
Assunzioni sul
modello di
regressione
semplice
1
3
1
4
3
2
2
4
5
0
2
2
Tot
5
5
10
Le medie aritmetiche si ottengono a partire dalle distribuzioni marginali di frequenze:
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
µx =
µy =
Regressione su
tabella a
doppia entrata
k
1 X
n j=1
h
1X
n i=1
xj n.j =
yi ni. =
1
10
1
10
× (1 × 4) + (3 × 4) + (5 × 2) =
× (2500 × 5) + (7500 × 5) =
4 + 12 + 10
10
12500 + 37500
10
= 2.6
= 5000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Lezione 18
Statistica
38 / 45
Regressione: distribuzione doppia di frequenze
Lezione 18
Per calcolare le varianze si fa riferimento agli scarti dalla media al quadrato
A. Iodice
Y /X
(2500 − 5000)2
(7500 − 5000)2
Tot
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
(1 − 2.6)2
3
1
4
(3 − 2.6)2
2
2
4
(5 − 2.6)2
0
2
2
Tot
5
5
10
Le varianze si ottengono a partire dalle distribuzioni marginali di frequenze:
Stimatore
della varianza
2
σx =
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
k
1 X
2
n j=1
(xj − µx ) n.j =
2
+ ((5 − 2.6) × 2) =
2
σy =
Regressione su
tabella a
doppia entrata
=
h
1X
n i=1
1
10
2
10.24 + 0.64 + 11.52
10
2
(yi − µy ) ni. =
31250000 + 31250000
10
2
× ((1 − 2.6) × 4) + ((3 − 2.6) × 4)+
1
10
= 2.24
2
2
× (2500 × 5) + (7500 × 5)
= 6250000
dove h rappresenta numero di righe della tabella, k il numero di colonne della tabella.
A. Iodice ()
Lezione 18
Statistica
39 / 45
Esercizio regressione: distribuzione doppia di
frequenze
Lezione 18
Per calcolare la covarianza si deve fare riferimento alle distribuzioni condizionate di frequenza.
Y /X
(2500 − 5000)
(7500 − 5000)
Tot
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
σxy =
h X
k
1 X
n i=1 j=1
(1 − 2.6)
3
1
4
(3 − 2.6)
2
2
4
(5 − 2.6)
0
2
2
yi
xi
yi − µ y
xi − µx
2500
2500
2500
2500
2500
7500
7500
7500
7500
7500
1
1
1
3
3
1
3
3
5
5
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(2500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(7500-5000)
(1-2.6)
(1-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(1-2.6)
(3-2.6)
(3-2.6)
(5-2.6)
(5-2.6)
Tot
5
5
10
(yi − µy ) × (xj − µx ) × nij =
1
((2500 − 5000)(1 − 2.6) × 3 + (2500 − 5000)(3 − 2.6) × 2+
10
+ (7500 − 5000)(1 − 2.6) × 1 + (7500 − 5000)(3 − 2.6) × 2+
Regressione su
tabella a
doppia entrata
=
+ (7500 − 5000)(5 − 2.6) × 2) =
A. Iodice ()
12000 − 2000 − 4000 + 2000 + 12000
Lezione 18
10
= 2000
Statistica
40 / 45
Esercizio regressione: distribuzione doppia di
frequenze
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Avendo calcolato le quantità µx = 2.6, µy = 5000, σx2 = 2.24 e
σxy = 2000, è possibile calcolare i coefficienti della retta di
regressione
Calcolo dei coefficienti
b1 =
σxy
σx2
=
2000
2.24
= 892.571
b0 = µy − b1 µx = 5000 − (892.571 ∗ 2.6) = 2679.315
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
quindi l’equazione della retta di regressione è
Regressione su
tabella a
doppia entrata
Dunque, il valore stimato ŷi corrispondente ad un valore xi
assegnato è ŷi = b0 + b1 x.
y = b0 + b1 x = 2679.315 + 892.571x
A. Iodice ()
Lezione 18
Statistica
41 / 45
Valutazione della bontà di adattamento
Lezione 18
A. Iodice
Ricordando che
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Regressione su
tabella a
doppia entrata
R
2
=
Devr
Devy
Pn
= Pi=1
n
i=1
ovvero
R
2
=1−
Deve
Devy
(ŷi − ȳ)2
(yi − ȳ)2
Pn
(yi − ŷi )2
2
i=1 (yi − ȳ)
= 1 − Pi=1
n
con Devy = Devr + Deve
SSy =
Pn
(yi − ȳ)2 devianza totale
SSr =
Pn
(ŷi − ȳ)2 devianza di regressione
RSS =
i=1
i=1
Pn
i=1
(yi − ŷi )2 devianza dei residui
Per ottenere R2 , misura della bontà di adattamento, si deve calcolare solo la devianza dei residui, avendo
2
già calcolato σy
.
A. Iodice ()
Lezione 18
Statistica
42 / 45
Calcolo della devianza dei residui
Lezione 18
A. Iodice
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
RSS =
Pn
i=1
(yi − ŷi )2 devianza dei residui
in base alla retta di regressione stimata, i valori ŷi stimati in funzione
dei valori xi sono
Stimatore
della varianza
ŷ1 = b0 + b1 x1 = 2679.315 + 892.571 × 1 = 3571.886
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
ŷ2 = b0 + b1 x2 = 2679.315 + 892.571 × 3 = 5357.028
ŷ3 = b0 + b1 x3 = 2679.315 + 892.571 × 5 = 7142.17
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
43 / 45
Calcolo della devianza dei residui
Lezione 18
Per calcolare i residui yi − ŷi nel caso di tabella a doppia entrata si procede come segue
A. Iodice
yi /ŷj
y1 = 2500
y2 = 7500
Tot
Regressione
lineare
semplice
Assunzioni sul
modello di
regressione
semplice
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
RSS =
Ph
i=1
ŷ1 = 3571.886
3
1
4
Pk
i=1
ŷ2 = 5357.028
2
2
4
ŷ3 = 7142.17
0
2
2
Tot
5
5
10
((yi − ŷj )2 ) × nij devianza dei residui per tabella doppia
calcolo della devianza dei residui
RSS =
h X
k
X
2
2
2
((yi − ŷj ) ) × nij = ((2500 − 3571.886) ) × 3 + ((2500 − 5357.028) ) × 2+
i=1 j=1
2
2
2
+ ((7500 − 3571.886) ) × 1 + ((7500 − 5357.028) ) × 2 + ((7500 − 7142.17) ) × 2 =
= 44642859
SSy =
Regressione su
tabella a
doppia entrata
n
X
2
(yi − ȳ)
2
= σy × n = 6250000 × 10 = 62500000
i=1
R
A. Iodice ()
2
=1−
RSS
SSy
Lezione 18
= 1 − 0.71 = 0.29
Statistica
44 / 45
Verifica dell’ipotesi che β1 = 0
Lezione 18
A. Iodice
Regressione
lineare
semplice
A questo punto il valore della statistica test (stimatore standardizzato di β1 ) è
Assunzioni sul
modello di
regressione
semplice
s
ST =
(n − 2)
Pn
(xi − x̄)2
B1 =
RSS
i=1
Stimatore
della varianza
Verifica di
ipotesi sul
coefficiente
angolare della
retta di
regressione
Tenuto conto del fatto che
P10
i=1
r
(10 − 2)22.4
2679.315 = 5.37
44642859
(xi − x̄)2 = n × σ 2 = 10 × 2.24 = 22.4.
Poiché il p − value corrispondente è 2 × 0.0003, non si può rifiutare H0 .
Regressione su
tabella a
doppia entrata
A. Iodice ()
Lezione 18
Statistica
45 / 45
Scarica

Lezione 18 - Statistica - Università degli Studi di Cassino