Regressione lineare con un regressore
(SW Cap 4)
La regressione lineare è uno strumento che ci
permette di stimare e di fare inferenza sui
coefficienti angolari di una popolazione. Il nostro
scopo è di stimare l’effetto causale misurato come
effetto che l’incremento una unità di X ha su Y. Per
ora, restringiamo il problema e pensiamo a far
passare una linea retta fra i dati di 2 variabili, Y e
X.
1
Il problema di inferenza che ci poniamo è lo stesso di
quello che ci siamo posti per le medie, differenze fra le
medie etc. Inferenza sulla pendenza di una retta
comprende:
Stima:
Test di ipotesi:
In che maniera dovremmo tracciare una linea attraverso i dati
per stimarne la pendenza? (risposta: minimi quadrati OLS).
Quali sono gli svantaggi e i vantaggi dei OLS?
Come testare se la pendenza è zero?
Intervallo di confidenza:
Come costruire un intervallo di confidenza per tale pendenza?
2
La retta di regressione della popolazione:
Voti = 0 + 1STR
1 = pendenza della retta di regressione della popolazione
=
Voti
STR
= di quanto cambia il voto quando STR cambia di una unità
Perchè 0 e 1 sono parametri della “popolazione”?
Ciò che vorremmo sapere è il vero valore della popolazione
di 1.
Non conosciamo 1, dobbiamo stimarlo usando i dati
3
Notazione generale
Yi = 0 + 1Xi + ui, i = 1,…, n
X è la variabile indipendente o regressore
Y è la variabile dependente
0 = intercetta
1 = pendenza
ui = l’errore di regressione
l’errore di regressione contiene i fattori omessi, o gli errori di
misurazione di Y. In genere, questi fattori omessi sono altri
fattori, oltre alla variabile X, che influenzano Y.
4
La retta di regressione e il termine di errore
5
Le stime “Ordinary Least Squares”
Come possiamo ottenere delle stime di 0 e 1 dai dati?
Ricordiamo che Y e lo stimatore dei minimi quadrati di Y: Y è
la soluzione di,
n
min m (Yi m) 2
i 1
Analogamente, ci concentreremo sullo stimatore dei minimi
quadrati di (“ordinary least squares” o “OLS”) dei parametri
sconosciuti 0 e 1, che sono la soluzione di
n
min b0 ,b1 [Yi (b0 b1 X i )]2
i 1
6
Retta di regressione della popolazione: Voti = 0 + 1STR
1 =
Voti
STR
= ??
7
n
Lo stimatore OLS risolve : min b ,b [Yi (b0 b1 X i )]2
0
1
i 1
Lo stimatore OLS minimizza la media delle differenze fra i
valori attuali Yi e valori predetti dalla retta di regressione, al
quadrato. Dimostrazione(App. 4.2).
I risultati di queste operazioni sono gli stimatori OLS di 0
e 1.
8
Applicazione: Voti – STR
Pendenza stimata = ˆ1 = – 2.28
Intercetta stimata = ˆ = 698.9
0
Linea di regressione stimata: Vˆoti = 698.9 – 2.28STR
9
Intercetta e coefficiente angolare
Vˆoti = 698.9 – 2.28STR
I distretti con uno studente in più per insegnante in media
ricevono voti di 2.28 punti più bassi.
Voti
Cioè, STR = –2.28
L’intercetta (letteralmente) significa che, secondo le nostre
stime i distretti senza studenti avrebbero un voto predetto di
698.9.
Questa interpretazione non ha senso. È estrapolata fuori
dall’intervallo dei dati e in questo caso non ha senso
economicamente
10
Valori previsti e residui:
Un dei distretti nel campione è Antelope, CA, per cui STR =
19.33 e Voti = 657.8
Yˆ
Valore predetto:
= 698.9 – 2.2819.33 = 654.8
Antelope
residui:
uˆ Antelope = 657.8 – 654.8 = 3.0
11
OLS : esempio di output - stata
regress testscr str, robust
Regression with robust standard errors
Number of obs
F( 1,
418)
Prob > F
R-squared
Root MSE
=
=
=
=
=
420
19.26
0.0000
0.0512
18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------str | -2.279808
.5194892
-4.39
0.000
-3.300945
-1.258671
_cons |
698.933
10.36436
67.44
0.000
678.5602
719.3057
-------------------------------------------------------------------------
Vˆoti = 698.9 – 2.28STR
(discuteremo dopo del resto)
12
Misure di “bontà”
Una domanda che sorge spontanea è: quanto è buona l’approssimazione della
retta di regressione o quanto riesce a spiegare i dati. Ci sono due statistiche di
riferimento complementari che forniscono misure di adeguatezza:
L’ R2 della regressione misura la frazione della varianza di Y che è
spiegata da X; è priva di unità di misura e può assumere valori che
vanno da 0 (non c’è approssimazione) a 1 (approssimazione perfetta)
Errore standard della regressione (SER) misura la grandezza dei residui
di regressione in termini delle unità di Y
13
L’ R2 è la frazione della varianza campionaria di Yi “spiegata”
dalla regressione
Yi = Yˆi + uˆi = previsioni OLS + residui OLS
var (Y) campionaria = var(Yˆ )campionaria + var( uˆi )campionaria (???)
i
Somma totale dei quadrati = “spiegata” SS + “residua” SS
TSS = ESS + RSS
n
2
Definizione di R :
ESS
R =
=
TSS
2
2
ˆ
ˆ
(
Y
Y
)
i
i 1
n
2
(
Y
Y
)
i
i 1
R2 = 0 significa che ESS = 0
R2 = 1 significa che ESS = TSS
0 ≤ R2 ≤ 1
Nota: Per le regressioni con un solo X, R2 = il quadrato del
coefficiente di correlazione X e Y
14
Lo Standard Error della Regressione (SER)
SER misura la distanza dalla media della distribuzione di u. SER
è (circa) la deviazione standard campionaria dei residui OLS:
SER =
=
1 n
2
ˆ
ˆ
(
u
u
)
i
n 2 i 1
1 n 2
uˆi
n 2 i 1
1 n
(dato che û = uˆi = 0).
n i 1
15
SER =
1 n 2
uˆi
n 2 i 1
Ha come unità di misura le stesse di u, e dunque di Y
Misura in media quanto sono “grandi” i residui OLS (l’errore
medio fatto imponendo una certa retta di regressione)
La radice della media degli errori al quadrato- root mean
squared error (RMSE) è simile al SER:
RMSE =
1 n 2
uˆi
n i 1
Misura la stessa cosa del SER – l’unica differenza è la
divisione per 1/n invece che per 1/(n–2). Correzione gradi di
libertà 2 parametri stimati.
16
Vˆoti = 698.9 – 2.28STR, R2 = .05, SER = 18.6
STR spiega solo una piccola parte della variazione nei voti. Ha
senso questa conclusione? Possiamo dunque concludere che STR
non è importante dal punto di vista della nostra domanda
politica?
17
Le Assunzioni
Quali sono le proprietà dello stomatore OLS? Deve essere
corretto e con una varianza piccola. Sotto quali condizioni ciò
accade?
Iniziamo facendo alcune assunzioni su come Y e X sono
correlate e come i dati sono stati raccolti (schema campionario)
Assunzioni dei Minimi Quadrati
18
Yi = 0 + 1Xi + ui, i = 1,…, n
1. La distribuzione di u condizionata a X ha media zero:
E(u|X = x) = 0.
Ciò implica che ˆ1 è corretto (lo vediamo successivamente)
2. (Xi,Yi), i =1,…,n, sono i.i.d.
Questo è vero se X, Y sono raccolte con un campionamento
casuale semplice
Questo ci conduce alla distribuzione campionaria di ˆ0 e ˆ1
3. “outliers” di X e/o Y sono rari.
Tecnicamente, X e Y hanno un momento di 4° ordine finito
Outliers possono dare origine ad un valore di ˆ1 privo di
significato
19
Assunzione #1: E(u|X = x) = 0.
Per ogni dato valore di X, la media di u è zero:
Es: Votii = 0 + 1STRi + ui, ui = altri fattori
Cosa sono questi “altri fattori”?
E(u|X=x) = 0 è plausibile?
20
Consideriamo un esperimento ideale casuale e controllato:
X casualmente assegnata (studenti casualmente assegnati a
classi di diversa grandezza; pazienti casualmente assegnati a
trattamenti medici). Un computer assegna X casualmente
senza informazioni sugli individui.
Poichè X è assegnata casualmente, tutte le altre caratteristiche
inidividuali, u,sono indipendentemente distribuite rispetto a X
Dunque, un esperimento ideale casuale e controllato,
E(u|X = x) = 0 (Assunzione #1 verificata)
Negli esperimenti reali, o nel caso di dati osservati dobbiamo
stare più attenti.
21
Assunzione #2: (Xi,Yi), i = 1,…,n
sono i.i.d.
Ciò si verifica automaticamente se le entità (individui,
distretti) sono campionate con un campionamento casuale
semplice: prima l’entità è selezionata poi, per quella entità, X e Y
sono osservate.
Un caso in cui il campionamento è tipicamente non-i.i.d. si
verifica con le “serie storiche”
22
Assunzione #3: E(X4) < and E(Y4) <
Un grande outlier è un valore estremo di X o Y
tecnicamente, se i valori di X e Y cadono all’interno di un
intervallo chiuso, allora hanno quarto momento finito.
Un outlier molto grande può fortemente influenzare i risultati
23
Un’altra ragione per cui è utile il diagramma a nuvola!
24
Distribuzione campionaria dello
stimatore OLS
Lo stimatore OLS è calcolato usando un campione di dati; un
campione diverso darà origine a valori diversi di ˆ1 . Questa è la
ragione per cui si parla di “incertezza campionaria” di ˆ1 . Dunque
abbiamo bisogno di:
quantificare l’incertezza campionaria associata a ˆ1
usare ˆ1 per testare l’ipotesi che 1 = 0
costruire un intervallo di confidenza per 1
tutto ciò richiede la conoscenza della distribuzione campionaria
dello stimatore OLS. In 2 passi…
Nozioni di probabilità
Distribuzione dello stimatore OLS
25
Elementi di probabilità
Quello che concerne la probabilità può essere riassunto in 3
ipotesi.
Popolazione
Il gruppo di interesse (es: tutti i possibili distretti scolastici)
Variabili casuali: Y, X (es: Voti, STR)
Distribuzione congiunta di (Y, X)
La funzione di regressione per la popolazione è lineare
E(u|X) = 0 (Assunzione #1)
X, Y hanno quarto momento finito (Assunzione #3)
Dati raccolti da campionamento casuale semplice:
{(Xi, Yi)}, i = 1,…, n, sono i.i.d. (Assunzione #2)
26
Come per Y , ˆ1 ha una distribuzione campionaria.
Cos’è E( ˆ1 )? (qual’è il centro della distribuzione?)
se E( ˆ1 ) = 1, OLS è corretto
Cos’è var( ˆ1 )? (misura della incertezza campionaria)
Qual’è la distribuzione campionaria di ˆ1 nei piccoli campioni?
Può essere molto complicato
Qual’è la distribuzione campionaria di ˆ1 nei grandi campioni?
Relativamente semplice, ˆ1 nei grandi campioni è normalmente
distribuito.
27
Appendice 4.3
Algebra:
Yi = 0 + 1Xi + ui
Y = 0 + 1 X + u
sottraendo
Yi – Y = 1(Xi – X ) + (ui – u )
Dalla minimizzazione,
n
n
min b0 ,b1 [Yi (b0 b1 X i )]
2
i 1
ˆ1 =
( X
i 1
i
X )(Yi Y )
n
2
(
X
X
)
i
i 1
n
( X
=
i 1
i
X )[ 1 ( X i X ) (ui u )]
n
2
(
X
X
)
i
i 1
28
n
ˆ1 = 1
( X
i 1
i
X )( X i X )
n
2
(
X
X
)
i
n
( X
i 1
i 1
ˆ1 – 1 =
X )(ui u )
n
2
(
X
X
)
i
i 1
n
dunque
i
( X
i 1
i
X )(ui u )
n
2
(
X
X
)
i
.
i 1
n
(
X
X
)
(
X
X
)(
u
u
)
(
X
X
)
u
=
–
i
i
i
i
i
u
i 1
i 1
i 1
n
Ora
n
n
= ( X i X )u i – X i nX u
i 1
i 1
n
n
=
( X
i 1
i
X )u i
29
n
Sostituiamo
( X
i 1
i
X )(u i u ) =
n
( X
i 1
i
X )u i
nell’espressione per ˆ1 – 1:
n
ˆ1 – 1 =
( X
i 1
i
X )(ui u )
n
2
(
X
X
)
i
i 1
dunque
n
ˆ1 – 1 =
( X
i 1
n
i
X )u i
2
(
X
X
)
i
i 1
30
n
(
X
X
)
u
i
i
E( ˆ1 ) – 1 = E i n1
( X X )2
i
i 1
n
( X i X )u i
i 1
= E E n
X 1 ,..., X n
( X i X )2
i 1
= 0 poichè E(ui|Xi=x) = 0 da Ass.#1
L’Assunzione #1 implica che E( ˆ1 ) = 1
Cioè, ˆ è uno stimatore corretto di 1.
1
Per dettagli App. 4.3
31
scriviamo
n
ˆ1 – 1=
( X
i 1
n
i
X )u i
2
(
X
X
)
i
= moltiplicando e dividendo per 1/n
i 1
1 n
vi
n i 1
abbiamo
dove vi = (Xi – X )ui.
n 1 2
sX
n
n 1
Se n è grande, s e
1, ˆ1 – 1
n
2
X
2
X
1 n
vi
n i 1
2
X
,
(App. 4.3)
32
ˆ1 – 1
dunque
1 n
vi
n i 1
X2
var( ˆ1 – 1) = var( ˆ1 )
=
var(v ) / n
( X2 )2
dunque
1 var[( X i x )ui ]
ˆ
var( 1 – 1) =
.
4
n
X
Riassumendo
ˆ è corretto: E( ˆ ) = 1 , proprio come Y !
1
1
var( ˆ1 ) è inversamente proportionale a n, proprio come Y !
33
L’esatta distribuzione campionaria è complicata – dipende
dalla distribuzione di (Y, X) – ma quando n è grande c’è una
buona approssimazione:
(1) Poiché var( ˆ ) è proporzionale a 1/n e E( ˆ ) = 1
1
1
p
ˆ1 1
(2) quando n è grande, la distribuzione campionaria di ˆ1 si
approssima alla distribuzione normale (CLT)
Richiamando CLT: supponiamo che {vi}, i = 1,…, n è i.i.d. con
1 n
E(v) = 0 e var(v) = . Allora, quando n è grande, vi si
n i 1
2
distribuisce approssimativamente come N(0, v2 / n ).
34
Approssimazione a n-grande
1 n
1 n
vi
vi
n i 1
n
ˆ1 – 1 =
i 12 , dove vi = (Xi – X )ui
X
n 1 2
sX
n
Quando n è grande, vi = (Xi – X )ui (Xi – X)ui, che è i.i.d.
1 n
(???) e var(vi) < (???). Dunque, dal CLT, vi si
n i 1
distribuisce approssimativamente come N(0, v2 / n ).
così, per n grande, ˆ si distribuisce approssimativamente
1
2
ˆ1 ~ N 1 , v4
n X
, dove vi = (Xi – X)ui
35
Matematicamente
1 var[( X i x )ui ]
ˆ
var( 1 – 1) =
n
X4
dove X2 = var(Xi). La varianza di X appare al quadrato al
denominatore – quanto più cresce la distanza della media di X più
diminuisce la varianza di 1.
Intuitivamente
Quanto più X varia, più c’è informazione nei dati e questa
informazione può essere utilizzata per approssimare meglio la
retta di regressione…
36
C’è lo stesso numero di punti blu e neri – quali punti forniscono
una retta di regressione più accurata?
37
Riassunto sulla distribuzione di
Se le Assunzioni sono verificate, allora
̂1
La distribuzione campionaria esatta (con piccolo n) di ˆ1 ha:
E( ˆ ) = 1 ( ˆ corretto)
1
1
1 var[( X i x )ui ]
1
ˆ
var( 1 ) =
(proporzionale) .
4
n
X
n
A parte media e varianza la distribuzione campionaria esatta
di ˆ1 è complicata e dipende dalla distribuzione di (X,u)
p
ˆ1 1 ( ˆ1 consistente)
ˆ1 E ( ˆ1 )
Quando n è grande,
~ N(0,1) (CLT)
var( ˆ1 )
Tutto ciò richiama quanto già visto per Y .
Ora possiamo andare avanti con test e intervalli di confidenza…
38
Test d’ipotesi e intervalli di confidenza
Sommario
Ora che conosciamo la distribuzione campionaria dello
stimatore OLS, possiamo condurre dei test d’ipotesi su 1 e
costruire un intervalli di confidenza
Inoltre daremo uno sguardo ai seguenti argomenti:
Regressioni quando X è binaria (0/1)
eteroschedasticità e omoschedasticità
Efficienza dello stimatore OLS
Uso della statistica-t nel test di ipotesi
39
4 passi principali:
1. definire la popolazione oggetto di interesse
2. derivare la distribuzione campionaria dello stimatore
3. stimare la varianza della distribuzione campionaria (per il
TLC è l’unica cosa di cui abbiamo bisogno se n è grande)
– cioè trovare gli standard error (SE) dello stimatore
usando solo i dati a disposizione
4. Usare ˆ1 per ottenere una stima puntuale e il suo SE per
test di ipotesi e intervallo di confidenza.
STATISTICA II
Prof. Campobasso
40
Oggetto di interesse: 1 in,
Yi = 0 + 1Xi + ui, i = 1,…, n
1 = Y/X, per un cambio in X (effetto causale)
41
ˆ
Test d’ipotesi e SE 1
L’obiettivo è di testare un’ipotesi, come 1 = 0
test di significativita’
usando i dati per cercare di concludere se l’H0 è vera o no.
General setup
Ipotesi nulla e alternativa a due-code:
H0: 1 = 1,0 vs. H1: 1 1,0
1,0 il valore ipotizzato sotto la nulla.
Ipotesi nulla e alternativa a una-coda:
H0: 1 = 1,0 vs. H1: 1 < 1,0
42
Approccio generale: construiamo una statistica t, calcoliamo il pvalore (o confrontiamolo con il valore critico di N(0,1))
In generale:
t =(stima-valore ipotizzato)/SE(stimatore)
dove SE(stimatore) è la radice quadrata di uno stimatore della
varianza dello stimatore.
Y Y ,0
Per testare la media di Y:
t=
sY / n
ˆ1 1,0
Per testare 1,
t=
,
SE ( ˆ1 )
Dove SE( ˆ1 ) = la radice quadrata di uno stimatore della
varianza della distribuzione campionaria di ˆ
1
43
Formula per SE(ˆ1 )
Richiamando che l’espressione per la varianza di ˆ1 (n grande):
2
]
u
)
X
var[(
v
i
x
i
var( ˆ1 ) =
=
, dove vi = (Xi – X)ui.
4
2 2
n( X )
n X
stimando la varianza di ˆ si sostituiscono i valori sconosciuti
1
della popolazione di 2 e X4 con stimatori calcolati dai dati:
1 n 2
vˆi
2
1
1
estimator of v
n 2 i 1
2
ˆ ˆ =
=
2
2 2
1
n 1 n
n (estimator of X )
2
n ( Xi X )
i 1
dove vˆi = ( X i X )uˆi .
44
1 n 2
vˆi
n 2 i 1
1
, dove vˆi = ( X i X )uˆi .
2
1
n 1 n
2
n ( Xi X )
i 1
SE( ˆ ) = ˆ 2 = standard error di ˆ
ˆ 2ˆ =
1
ˆ1
1
Al numeratore c’è la stima di var(v), al denominatore la stima
di var(X).
Aggiustamento di n – 2 gradi di libertà perchè due sono i
parametri che abbiamo stimato (0 e 1).
SE( ˆ ) è calcolato dal sowftware
1
.
45
Riassunto: H0: 1 = 1,0 vs
H1: 1 1,0,
t-statistica
ˆ1 1,0 ˆ1 1,0
t=
=
ˆ
SE ( 1 )
ˆ 2ˆ
1
Rifiutiamo al 5% se |t| > 1.96
Il p-valore è p = Pr[|t| > |tatt|] = probabilità nelle code della
distribuzione fuori da |tatt|; rifiutiamo al 5% se il p-valore è <
5%.
Approssimazione valida per n grande.
46
Esempio:
Retta di regressione stimata: Vˆoti = 698.9 – 2.28STR
standard errors forniti dal software:
SE( ˆ0 ) = 10.4
SE( ˆ1 ) = 0.52
ˆ1 1,0 2.28 0
statistica t per testare che1,0 = 0 =
=
= –4.38
ˆ
0.52
SE ( 1 )
All’ 1% il valore critico è di 2.58, perciò…
Alternativamente abbiamo il p-valore
47
The p-valore è di 0.00001 (10–5)
48
Intervalli di confidenza per 1
Poichè la statistica t per 1 è N(0,1) nei grandi campioni,
costruire un intervallo di confidenza al 95% è la stessa cosa del
caso della media campionaria:
intervallo di confidenza al 95% per 1 = { ˆ 1.96SE( ˆ )}
1
1
49
Retta di regressione stimata: Vˆoti = 698.9 – 2.28STR
SE( ˆ0 ) = 10.4
SE( ˆ1 ) = 0.52
95% intervallo di confidenza di ˆ1 :
{ ˆ1 1.96SE( ˆ1 )} = {–2.28 1.960.52}
= (–3.30, –1.26)
Le seguenti conclusioni sono identiche:
L’intervallo di confidenza al 95% non include lo zero;
L’ipotesi 1 = 0 è rifiutata al livello di significatività del 5%
50
Vˆoti = 698.9 – 2.28STR, R2 = .05, SER = 18.6
(10.4) (0.52)
Questa espressione ci da molte informazioni:
La retta stimata è
Vˆoti = 698.9 – 2.28STR
Lo SE( ˆ ) è 10.4
0
Lo SE( ˆ1 ) è 0.52
L’ R2 è 0.05; lo standard error della regressione è 18.6
51
Come leggere un’output
regress testscr str, robust
Regression with robust standard errors
Number of obs =
420
F( 1,
418) =
19.26
Prob > F
= 0.0000
R-squared
= 0.0512
Root MSE
= 18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------str | -2.279808
.5194892
-4.38
0.000
-3.300945
-1.258671
_cons |
698.933
10.36436
67.44
0.000
678.5602
719.3057
-------------------------------------------------------------------------
so:
Vˆoti = 698.9 – 2.28STR, , R2 = .05, SER = 18.6
(10.4) (0.52)
t (1 = 0) = –4.38,
p-valore = 0.000 (2-code)
95% 2-code intervallo conf. per 1 è (–3.30, –1.26)
52
Sommario di inferenza su 0 e 1:
Stima:
Stime OLS di ˆ0 e ˆ1
ˆ e ˆ hanno approssimativamente distribuzione
0
1
campionaria normale in grandi campioni
Test:
H0: 1 = 1,0 v. 1 1,0 (1,0 è il valore di 1 sotto H0)
t = ( ˆ1 – 1,0)/SE( ˆ1 )
p-valore = area sotto la normale standard fuori tatt (n grande)
Inervallo di confidenza:
intervallo di confidenza al 95% per 1 è { ˆ1 1.96SE( ˆ1 )}
questo è l’insieme di valori di 1 per cui non si rifiuta l’ipotesi
nulla al 5%.
Il 95% CI contiene il vero 1 nel 95% di tutti i campioni.
53
Regressione quando X è Binaria
A volte il regressore è binario:
X = 1 se le classi sono piccolo, = 0 se non lo sono
X = 1 se donna, = 0 se uomo
X = 1 se trattato, = 0 se non lo è
I regressori binari sono a volte chiamati variabili “dummy”.
Fino ad ora, abbiamo chiamato 1 “pendenza” ma questo non ha
senso se X è binaria
Come interpretare il coefficiente se il regressore è binario?
54
Interpretazione
Yi = 0 + 1Xi + ui, dove Xi = 0 o 1:
quando Xi = 0, Yi = 0 + ui
La media di Yi è 0
cioè, E(Yi|Xi=0) = 0
quando Xi = 1, Yi = 0 + 1 + ui
la media di Yi è 0 + 1
cioè, E(Yi|Xi=1) = 0 + 1
perciò
1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= differenza della popolazione fra medie di gruppo
55
Es
1 if STRi 20
Di =
0 if STRi 20
Vˆoti = 650.0 + 7.4D
(1.3) (1.8)
Grandezza Classe
Std. dev. (sY)
Voto medio(Y )
Piccola (STR > 20)
657.4
19.4
Grande(STR ≥ 20)
17.9
650.0
Regressione OLS
Differenza nelle medie:
Standard error:
N
238
182
Ysmall Ylarge = 657.4 – 650.0 = 7.4
ss2 sl2
19.4 2 17.9 2
SE =
=
= 1.8
238
182
ns nl
56
Sommario
Yi = 0 + 1Xi + ui
0 = media di Y quando X = 0
0 + 1 = media Y quando X = 1
1 = differenza nelle medie di gruppo, X =1 meno X = 0
SE( ˆ ) ha la solita interpretazione
1
Statistica-t, intervallo di confidenza come al solito
È semplicemente un’altra maniera per fare un’analisi di
differenze fra medie
57
Eteroschedasticità e omoschedasticità
Cosa sono?
Conseguenze dell’omoschedasticità
Implicazioni per il calcolo degli standard errors
Se var(u|X=x) è costante – cioè, la varianza della
distribuzione di u condizionata a X non dipende da X – allora
u si dice omoschedastica. Altrimenti, u si dice
eteroschedastica.
58
Es: etero/omoschedasticità nel caso di regressore binario)
Standard error quando le varianze dei gruppi sono diverse:
ss2 sl2
SE =
ns nl
Standard error quando le varianze dei gruppi sono uguali:
SE = s p
1 1
ns nl
2
2
(
n
1)
s
(
n
1)
s
s
l
l
dove s 2p = s
(SW, Sez 3.6)
ns nl 2
sp = “sima complessiva di 2” dove l2 = s2
varianze dei gruppi uguali = omoschedasticità
varianze dei gruppi diverse = eteroschedasticità
59
Omoschedasticità
E(u|X=x) = 0 (u soddisfa Assunzione #1)
La varianza di u NON dipende da x
60
Eteroschedasticità
E(u|X=x) = 0 (u soddisfa Assunzione #1)
La varianza di u DIPENDE da x: u è eteroschedastico.
61
Es: guadagno medio vs anni di istruzione
Eteroschedastico o omoschedastico?
62
Eteroschedastico o omoschedastico?
63
u eteroschedastico?.
Richiamiamo le 3 Assunzioni OLS:
1. E(u|X = x) = 0
2. (Xi,Yi), i =1,…,n, sono i.i.d.
3. grandi “outliers” sono rari
Eteroschedasticità e omoschedasticità hanno a che fare con la
var(u|X=x). Poiché non abbiamo fatto alcuna assunzione
esplicita sull’ omoschedasticità, abbiamo implicitamente assunto
la presenza di eteroschedasticità.
64
Possiamo provare che lo stimatore OLS ha la varianza minore
fra gli stimatori lineari in Y… ( teorema Gauss-Markov)
La formula per la varianza di ˆ e degli standard error OLS è:
1
Se var(ui|Xi=x) = u2 , allora
2 2
E
[(
X
)
ui ]
var[(
X
)
u
]
i
x
i
x
i
ˆ
var( 1 ) =
=
2 2
n( X2 )2
n( X )
u2
=
n X2
Nota: var( ˆ1 ) è inversamente proporzionale a var(X): più
variabilità in X significa più informazione su ˆ1
65
Di conseguenza gli standard error omoschedastici sono
SE( ˆ1 ) =
1 n 2
uˆi
n 2 i 1
1
.
n
n 1
2
(
X
X
)
i
n i 1
66
gli standard error omoschedastici sono validi solo se gli
errori sono omoschedastici.
Di solito conviene usare gli standard error eteroschedasticistandard error robusti perchè sono validi in tutti e due i casi.
Il principale vantaggio degli standard error omoschedastici è
la semplicità della formula. Il maggiore svantaggio è che sono
validi solo con errori omoschedastici
Dato che le due formule coincidono nel caso di
omoschedasticità conviene sempre usare standard error
robusti !
67