Regressione lineare con un regressore
(SW Cap 4)

La regressione lineare è uno strumento che ci
permette di stimare e di fare inferenza sui
coefficienti angolari di una popolazione. Il nostro
scopo è di stimare l’effetto causale misurato come
effetto che l’incremento una unità di X ha su Y. Per
ora, restringiamo il problema e pensiamo a far
passare una linea retta fra i dati di 2 variabili, Y e
X.
1
Il problema di inferenza che ci poniamo è lo stesso di
quello che ci siamo posti per le medie, differenze fra le
medie etc. Inferenza sulla pendenza di una retta
comprende:

Stima:



Test di ipotesi:


In che maniera dovremmo tracciare una linea attraverso i dati
per stimarne la pendenza? (risposta: minimi quadrati OLS).
Quali sono gli svantaggi e i vantaggi dei OLS?
Come testare se la pendenza è zero?
Intervallo di confidenza:

Come costruire un intervallo di confidenza per tale pendenza?
2
La retta di regressione della popolazione:
Voti = 0 + 1STR
1 = pendenza della retta di regressione della popolazione
=
Voti
STR
= di quanto cambia il voto quando STR cambia di una unità
 Perchè 0 e 1 sono parametri della “popolazione”?
 Ciò che vorremmo sapere è il vero valore della popolazione
di 1.
 Non conosciamo 1, dobbiamo stimarlo usando i dati
3
Notazione generale
Yi = 0 + 1Xi + ui, i = 1,…, n
 X è la variabile indipendente o regressore
 Y è la variabile dependente
 0 = intercetta
 1 = pendenza
 ui = l’errore di regressione
 l’errore di regressione contiene i fattori omessi, o gli errori di
misurazione di Y. In genere, questi fattori omessi sono altri
fattori, oltre alla variabile X, che influenzano Y.
4
La retta di regressione e il termine di errore
5
Le stime “Ordinary Least Squares”
Come possiamo ottenere delle stime di 0 e 1 dai dati?
Ricordiamo che Y e lo stimatore dei minimi quadrati di Y: Y è
la soluzione di,
n
min m  (Yi  m) 2
i 1
Analogamente, ci concentreremo sullo stimatore dei minimi
quadrati di (“ordinary least squares” o “OLS”) dei parametri
sconosciuti 0 e 1, che sono la soluzione di
n
min b0 ,b1 [Yi  (b0  b1 X i )]2
i 1
6
Retta di regressione della popolazione: Voti = 0 + 1STR
1 =
Voti
STR
= ??
7
n
Lo stimatore OLS risolve : min b ,b [Yi  (b0  b1 X i )]2
0
1
i 1
 Lo stimatore OLS minimizza la media delle differenze fra i
valori attuali Yi e valori predetti dalla retta di regressione, al
quadrato. Dimostrazione(App. 4.2).
 I risultati di queste operazioni sono gli stimatori OLS di 0
e  1.
8
Applicazione: Voti – STR
Pendenza stimata = ˆ1 = – 2.28
Intercetta stimata = ˆ = 698.9
0
Linea di regressione stimata: Vˆoti = 698.9 – 2.28STR
9
Intercetta e coefficiente angolare
Vˆoti = 698.9 – 2.28STR
 I distretti con uno studente in più per insegnante in media
ricevono voti di 2.28 punti più bassi.
Voti
 Cioè, STR = –2.28
 L’intercetta (letteralmente) significa che, secondo le nostre
stime i distretti senza studenti avrebbero un voto predetto di
698.9.
 Questa interpretazione non ha senso. È estrapolata fuori
dall’intervallo dei dati e in questo caso non ha senso
economicamente
10
Valori previsti e residui:
Un dei distretti nel campione è Antelope, CA, per cui STR =
19.33 e Voti = 657.8
Yˆ
Valore predetto:
= 698.9 – 2.2819.33 = 654.8
Antelope
residui:
uˆ Antelope = 657.8 – 654.8 = 3.0
11
OLS : esempio di output - stata
regress testscr str, robust
Regression with robust standard errors
Number of obs
F( 1,
418)
Prob > F
R-squared
Root MSE
=
=
=
=
=
420
19.26
0.0000
0.0512
18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------str | -2.279808
.5194892
-4.39
0.000
-3.300945
-1.258671
_cons |
698.933
10.36436
67.44
0.000
678.5602
719.3057
-------------------------------------------------------------------------
Vˆoti = 698.9 – 2.28STR
(discuteremo dopo del resto)
12
Misure di “bontà”
Una domanda che sorge spontanea è: quanto è buona l’approssimazione della
retta di regressione o quanto riesce a spiegare i dati. Ci sono due statistiche di
riferimento complementari che forniscono misure di adeguatezza:
 L’ R2 della regressione misura la frazione della varianza di Y che è
spiegata da X; è priva di unità di misura e può assumere valori che
vanno da 0 (non c’è approssimazione) a 1 (approssimazione perfetta)
 Errore standard della regressione (SER) misura la grandezza dei residui
di regressione in termini delle unità di Y
13
L’ R2 è la frazione della varianza campionaria di Yi “spiegata”
dalla regressione
Yi = Yˆi + uˆi = previsioni OLS + residui OLS
 var (Y) campionaria = var(Yˆ )campionaria + var( uˆi )campionaria (???)
i
 Somma totale dei quadrati = “spiegata” SS + “residua” SS
 TSS = ESS + RSS
n
2
Definizione di R :
ESS
R =
=
TSS
2
2
ˆ
ˆ
(
Y

Y
)
 i
i 1
n
2
(
Y

Y
)
 i
i 1
 R2 = 0 significa che ESS = 0
 R2 = 1 significa che ESS = TSS
 0 ≤ R2 ≤ 1
 Nota: Per le regressioni con un solo X, R2 = il quadrato del
coefficiente di correlazione X e Y
14
Lo Standard Error della Regressione (SER)
SER misura la distanza dalla media della distribuzione di u. SER
è (circa) la deviazione standard campionaria dei residui OLS:
SER =
=
1 n
2
ˆ
ˆ
(
u

u
)

i
n  2 i 1
1 n 2
uˆi

n  2 i 1
1 n
(dato che û =  uˆi = 0).
n i 1
15
SER =
1 n 2
uˆi

n  2 i 1
 Ha come unità di misura le stesse di u, e dunque di Y
 Misura in media quanto sono “grandi” i residui OLS (l’errore
medio fatto imponendo una certa retta di regressione)
 La radice della media degli errori al quadrato- root mean
squared error (RMSE) è simile al SER:
RMSE =
1 n 2
uˆi

n i 1
Misura la stessa cosa del SER – l’unica differenza è la
divisione per 1/n invece che per 1/(n–2). Correzione gradi di
libertà 2 parametri stimati.
16
Vˆoti = 698.9 – 2.28STR, R2 = .05, SER = 18.6
STR spiega solo una piccola parte della variazione nei voti. Ha
senso questa conclusione? Possiamo dunque concludere che STR
non è importante dal punto di vista della nostra domanda
politica?
17
Le Assunzioni
Quali sono le proprietà dello stomatore OLS? Deve essere
corretto e con una varianza piccola. Sotto quali condizioni ciò
accade?
Iniziamo facendo alcune assunzioni su come Y e X sono
correlate e come i dati sono stati raccolti (schema campionario)
Assunzioni dei Minimi Quadrati
18
Yi = 0 + 1Xi + ui, i = 1,…, n
1. La distribuzione di u condizionata a X ha media zero:
E(u|X = x) = 0.
Ciò implica che ˆ1 è corretto (lo vediamo successivamente)
2. (Xi,Yi), i =1,…,n, sono i.i.d.
 Questo è vero se X, Y sono raccolte con un campionamento
casuale semplice
 Questo ci conduce alla distribuzione campionaria di ˆ0 e ˆ1
3. “outliers” di X e/o Y sono rari.
 Tecnicamente, X e Y hanno un momento di 4° ordine finito
 Outliers possono dare origine ad un valore di ˆ1 privo di
significato
19
Assunzione #1: E(u|X = x) = 0.
Per ogni dato valore di X, la media di u è zero:
Es: Votii = 0 + 1STRi + ui, ui = altri fattori
 Cosa sono questi “altri fattori”?
 E(u|X=x) = 0 è plausibile?
20
Consideriamo un esperimento ideale casuale e controllato:
 X casualmente assegnata (studenti casualmente assegnati a
classi di diversa grandezza; pazienti casualmente assegnati a
trattamenti medici). Un computer assegna X casualmente
senza informazioni sugli individui.
 Poichè X è assegnata casualmente, tutte le altre caratteristiche
inidividuali, u,sono indipendentemente distribuite rispetto a X
 Dunque, un esperimento ideale casuale e controllato,
E(u|X = x) = 0 (Assunzione #1 verificata)
 Negli esperimenti reali, o nel caso di dati osservati dobbiamo
stare più attenti.
21
Assunzione #2: (Xi,Yi), i = 1,…,n
sono i.i.d.
Ciò si verifica automaticamente se le entità (individui,
distretti) sono campionate con un campionamento casuale
semplice: prima l’entità è selezionata poi, per quella entità, X e Y
sono osservate.
Un caso in cui il campionamento è tipicamente non-i.i.d. si
verifica con le “serie storiche”
22
Assunzione #3: E(X4) <  and E(Y4) < 
 Un grande outlier è un valore estremo di X o Y
 tecnicamente, se i valori di X e Y cadono all’interno di un
intervallo chiuso, allora hanno quarto momento finito.
 Un outlier molto grande può fortemente influenzare i risultati
23
Un’altra ragione per cui è utile il diagramma a nuvola!
24
Distribuzione campionaria dello
stimatore OLS
Lo stimatore OLS è calcolato usando un campione di dati; un
campione diverso darà origine a valori diversi di ˆ1 . Questa è la
ragione per cui si parla di “incertezza campionaria” di ˆ1 . Dunque
abbiamo bisogno di:
 quantificare l’incertezza campionaria associata a ˆ1
 usare ˆ1 per testare l’ipotesi che 1 = 0
 costruire un intervallo di confidenza per 1
 tutto ciò richiede la conoscenza della distribuzione campionaria
dello stimatore OLS. In 2 passi…
 Nozioni di probabilità
 Distribuzione dello stimatore OLS
25
Elementi di probabilità
Quello che concerne la probabilità può essere riassunto in 3
ipotesi.
Popolazione
Il gruppo di interesse (es: tutti i possibili distretti scolastici)
Variabili casuali: Y, X (es: Voti, STR)
Distribuzione congiunta di (Y, X)
La funzione di regressione per la popolazione è lineare
E(u|X) = 0 (Assunzione #1)
X, Y hanno quarto momento finito (Assunzione #3)
Dati raccolti da campionamento casuale semplice:
{(Xi, Yi)}, i = 1,…, n, sono i.i.d. (Assunzione #2)
26
Come per Y , ˆ1 ha una distribuzione campionaria.
 Cos’è E( ˆ1 )? (qual’è il centro della distribuzione?)
se E( ˆ1 ) = 1, OLS è corretto
 Cos’è var( ˆ1 )? (misura della incertezza campionaria)
 Qual’è la distribuzione campionaria di ˆ1 nei piccoli campioni?
Può essere molto complicato
 Qual’è la distribuzione campionaria di ˆ1 nei grandi campioni?
Relativamente semplice, ˆ1 nei grandi campioni è normalmente
distribuito.
27
Appendice 4.3
Algebra:
Yi = 0 + 1Xi + ui
Y = 0 + 1 X + u
sottraendo
Yi – Y = 1(Xi – X ) + (ui – u )
Dalla minimizzazione,
n
n
min b0 ,b1 [Yi  (b0  b1 X i )]
2
i 1
ˆ1 =
( X
i 1
i
 X )(Yi  Y )
n
2
(
X

X
)
 i
i 1
n
( X
=
i 1
i
 X )[ 1 ( X i  X )  (ui  u )]
n
2
(
X

X
)
 i
i 1
28
n
ˆ1 = 1
( X
i 1
i
 X )( X i  X )
n
2
(
X

X
)
 i
n

( X
i 1
i 1
ˆ1 – 1 =
 X )(ui  u )
n
2
(
X

X
)
 i
i 1
n
dunque
i
( X
i 1
i
 X )(ui  u )
n
2
(
X

X
)
 i
.
i 1
 n

(
X

X
)
(
X

X
)(
u

u
)
(
X

X
)
u
=
–


i
i
i
i
 i
u
i 1
i 1
 i 1

n
Ora
n
 n


=  ( X i  X )u i –   X i   nX  u
i 1
 i 1 

n
n
=
( X
i 1
i
 X )u i
29
n
Sostituiamo
( X
i 1
i
 X )(u i  u ) =
n
( X
i 1
i
 X )u i
nell’espressione per ˆ1 – 1:
n
ˆ1 – 1 =
( X
i 1
i
 X )(ui  u )
n
2
(
X

X
)
 i
i 1
dunque
n
ˆ1 – 1 =
( X
i 1
n
i
 X )u i
2
(
X

X
)
 i
i 1
30
 n

(
X

X
)
u
i 
 i
E( ˆ1 ) – 1 = E  i n1

 ( X  X )2 
i
 

i 1
  n


   ( X i  X )u i 



i 1
= E E  n
 X 1 ,..., X n 
   ( X i  X )2 


  i 1

= 0 poichè E(ui|Xi=x) = 0 da Ass.#1
 L’Assunzione #1 implica che E( ˆ1 ) = 1
 Cioè, ˆ è uno stimatore corretto di 1.
1
 Per dettagli App. 4.3
31
scriviamo
n
ˆ1 – 1=
( X
i 1
n
i
 X )u i
2
(
X

X
)
 i
= moltiplicando e dividendo per 1/n
i 1
1 n
vi

n i 1
abbiamo
dove vi = (Xi – X )ui.
 n 1 2

 sX
 n 
n 1
Se n è grande, s   e
 1, ˆ1 – 1 
n
2
X
2
X
1 n
vi

n i 1

2
X
,
(App. 4.3)
32
ˆ1 – 1 
dunque
1 n
vi

n i 1
 X2
var( ˆ1 – 1) = var( ˆ1 )
=
var(v ) / n
( X2 )2
dunque
1 var[( X i   x )ui ]
ˆ
var( 1 – 1) = 
.
4
n
X
Riassumendo
 ˆ è corretto: E( ˆ ) = 1 , proprio come Y !
1
1
 var( ˆ1 ) è inversamente proportionale a n, proprio come Y !
33
L’esatta distribuzione campionaria è complicata – dipende
dalla distribuzione di (Y, X) – ma quando n è grande c’è una
buona approssimazione:
(1) Poiché var( ˆ ) è proporzionale a 1/n e E( ˆ ) = 1
1
1
p
ˆ1  1
(2) quando n è grande, la distribuzione campionaria di ˆ1 si
approssima alla distribuzione normale (CLT)
Richiamando CLT: supponiamo che {vi}, i = 1,…, n è i.i.d. con
1 n
E(v) = 0 e var(v) =  . Allora, quando n è grande,  vi si
n i 1
2
distribuisce approssimativamente come N(0, v2 / n ).
34
Approssimazione a n-grande
1 n
1 n
vi
vi


n i 1
n
ˆ1 – 1 =
 i 12 , dove vi = (Xi – X )ui
X
 n 1 2

 sX
 n 
 Quando n è grande, vi = (Xi – X )ui  (Xi – X)ui, che è i.i.d.
1 n
(???) e var(vi) <  (???). Dunque, dal CLT,  vi si
n i 1
distribuisce approssimativamente come N(0,  v2 / n ).
 così, per n grande, ˆ si distribuisce approssimativamente
1
2


ˆ1 ~ N  1 , v4
 n X

 , dove vi = (Xi – X)ui

35
Matematicamente
1 var[( X i   x )ui ]
ˆ
var( 1 – 1) = 
n
 X4
dove  X2 = var(Xi). La varianza di X appare al quadrato al
denominatore – quanto più cresce la distanza della media di X più
diminuisce la varianza di 1.
Intuitivamente
Quanto più X varia, più c’è informazione nei dati e questa
informazione può essere utilizzata per approssimare meglio la
retta di regressione…
36
C’è lo stesso numero di punti blu e neri – quali punti forniscono
una retta di regressione più accurata?
37
Riassunto sulla distribuzione di
Se le Assunzioni sono verificate, allora
̂1
 La distribuzione campionaria esatta (con piccolo n) di ˆ1 ha:
 E( ˆ ) = 1 ( ˆ corretto)
1
1
1 var[( X i   x )ui ]
1
ˆ
 var( 1 ) = 
 (proporzionale) .
4
n
X
n
 A parte media e varianza la distribuzione campionaria esatta
di ˆ1 è complicata e dipende dalla distribuzione di (X,u)
p
 ˆ1  1 ( ˆ1 consistente)
ˆ1  E ( ˆ1 )
 Quando n è grande,
~ N(0,1) (CLT)
var( ˆ1 )
Tutto ciò richiama quanto già visto per Y .
Ora possiamo andare avanti con test e intervalli di confidenza…
38
Test d’ipotesi e intervalli di confidenza
Sommario
 Ora che conosciamo la distribuzione campionaria dello
stimatore OLS, possiamo condurre dei test d’ipotesi su 1 e
costruire un intervalli di confidenza
 Inoltre daremo uno sguardo ai seguenti argomenti:
 Regressioni quando X è binaria (0/1)
 eteroschedasticità e omoschedasticità
 Efficienza dello stimatore OLS
 Uso della statistica-t nel test di ipotesi
39
4 passi principali:
1. definire la popolazione oggetto di interesse
2. derivare la distribuzione campionaria dello stimatore
3. stimare la varianza della distribuzione campionaria (per il
TLC è l’unica cosa di cui abbiamo bisogno se n è grande)
– cioè trovare gli standard error (SE) dello stimatore
usando solo i dati a disposizione
4. Usare ˆ1 per ottenere una stima puntuale e il suo SE per
test di ipotesi e intervallo di confidenza.
STATISTICA II
Prof. Campobasso
40
Oggetto di interesse: 1 in,
Yi = 0 + 1Xi + ui, i = 1,…, n
1 = Y/X, per un cambio in X (effetto causale)
41
ˆ

Test d’ipotesi e SE 1
L’obiettivo è di testare un’ipotesi, come 1 = 0
test di significativita’
usando i dati per cercare di concludere se l’H0 è vera o no.
General setup
Ipotesi nulla e alternativa a due-code:
H0: 1 = 1,0 vs. H1: 1  1,0
1,0 il valore ipotizzato sotto la nulla.
Ipotesi nulla e alternativa a una-coda:
H0: 1 = 1,0 vs. H1: 1 < 1,0
42
Approccio generale: construiamo una statistica t, calcoliamo il pvalore (o confrontiamolo con il valore critico di N(0,1))
 In generale:
t =(stima-valore ipotizzato)/SE(stimatore)
dove SE(stimatore) è la radice quadrata di uno stimatore della
varianza dello stimatore.
Y  Y ,0
 Per testare la media di Y:
t=
sY / n
ˆ1  1,0
 Per testare 1,
t=
,
SE ( ˆ1 )
Dove SE( ˆ1 ) = la radice quadrata di uno stimatore della
varianza della distribuzione campionaria di ˆ
1
43
Formula per SE(ˆ1 )
Richiamando che l’espressione per la varianza di ˆ1 (n grande):
2

]
u
)


X
var[(
v
i
x
i
var( ˆ1 ) =
=
, dove vi = (Xi – X)ui.
4
2 2
n( X )
n X
stimando la varianza di ˆ si sostituiscono i valori sconosciuti
1
della popolazione di  2 e  X4 con stimatori calcolati dai dati:
1 n 2
vˆi

2
1
1
estimator of  v
n  2 i 1
2
ˆ ˆ = 
= 
2
2 2
1
n 1 n
n (estimator of  X )
2
 n ( Xi  X ) 
 i 1

dove vˆi = ( X i  X )uˆi .
44
1 n 2
vˆi

n  2 i 1
1

, dove vˆi = ( X i  X )uˆi .
2
1
n 1 n
2
 n ( Xi  X ) 
 i 1

SE( ˆ ) = ˆ 2 = standard error di ˆ
ˆ 2ˆ =
1
ˆ1
1
 Al numeratore c’è la stima di var(v), al denominatore la stima
di var(X).
 Aggiustamento di n – 2 gradi di libertà perchè due sono i
parametri che abbiamo stimato (0 e 1).
 SE( ˆ ) è calcolato dal sowftware
1
.
45
Riassunto: H0: 1 = 1,0 vs
H1: 1  1,0,
 t-statistica
ˆ1  1,0 ˆ1  1,0
t=
=
ˆ
SE ( 1 )
ˆ 2ˆ
1
 Rifiutiamo al 5% se |t| > 1.96
 Il p-valore è p = Pr[|t| > |tatt|] = probabilità nelle code della
distribuzione fuori da |tatt|; rifiutiamo al 5% se il p-valore è <
5%.
 Approssimazione valida per n grande.
46
Esempio:
Retta di regressione stimata: Vˆoti = 698.9 – 2.28STR
standard errors forniti dal software:
SE( ˆ0 ) = 10.4
SE( ˆ1 ) = 0.52
ˆ1  1,0 2.28  0
statistica t per testare che1,0 = 0 =
=
= –4.38
ˆ
0.52
SE ( 1 )
 All’ 1% il valore critico è di 2.58, perciò…
 Alternativamente abbiamo il p-valore
47
The p-valore è di 0.00001 (10–5)
48
Intervalli di confidenza per 1
Poichè la statistica t per 1 è N(0,1) nei grandi campioni,
costruire un intervallo di confidenza al 95% è la stessa cosa del
caso della media campionaria:
intervallo di confidenza al 95% per 1 = { ˆ  1.96SE( ˆ )}
1
1
49
Retta di regressione stimata: Vˆoti = 698.9 – 2.28STR
SE( ˆ0 ) = 10.4
SE( ˆ1 ) = 0.52
95% intervallo di confidenza di ˆ1 :
{ ˆ1  1.96SE( ˆ1 )} = {–2.28  1.960.52}
= (–3.30, –1.26)
Le seguenti conclusioni sono identiche:
 L’intervallo di confidenza al 95% non include lo zero;
 L’ipotesi 1 = 0 è rifiutata al livello di significatività del 5%
50
Vˆoti = 698.9 – 2.28STR, R2 = .05, SER = 18.6
(10.4) (0.52)
Questa espressione ci da molte informazioni:
 La retta stimata è
Vˆoti = 698.9 – 2.28STR
 Lo SE( ˆ ) è 10.4
0
 Lo SE( ˆ1 ) è 0.52
 L’ R2 è 0.05; lo standard error della regressione è 18.6
51
Come leggere un’output
regress testscr str, robust
Regression with robust standard errors
Number of obs =
420
F( 1,
418) =
19.26
Prob > F
= 0.0000
R-squared
= 0.0512
Root MSE
= 18.581
------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
--------+---------------------------------------------------------------str | -2.279808
.5194892
-4.38
0.000
-3.300945
-1.258671
_cons |
698.933
10.36436
67.44
0.000
678.5602
719.3057
-------------------------------------------------------------------------
so:
Vˆoti = 698.9 – 2.28STR, , R2 = .05, SER = 18.6
(10.4) (0.52)
t (1 = 0) = –4.38,
p-valore = 0.000 (2-code)
95% 2-code intervallo conf. per 1 è (–3.30, –1.26)
52
Sommario di inferenza su 0 e 1:
Stima:
 Stime OLS di ˆ0 e ˆ1
 ˆ e ˆ hanno approssimativamente distribuzione
0
1
campionaria normale in grandi campioni
Test:
 H0: 1 = 1,0 v. 1  1,0 (1,0 è il valore di 1 sotto H0)
 t = ( ˆ1 – 1,0)/SE( ˆ1 )
 p-valore = area sotto la normale standard fuori tatt (n grande)
Inervallo di confidenza:
 intervallo di confidenza al 95% per 1 è { ˆ1  1.96SE( ˆ1 )}
 questo è l’insieme di valori di 1 per cui non si rifiuta l’ipotesi
nulla al 5%.
 Il 95% CI contiene il vero 1 nel 95% di tutti i campioni.
53
Regressione quando X è Binaria
A volte il regressore è binario:
 X = 1 se le classi sono piccolo, = 0 se non lo sono
 X = 1 se donna, = 0 se uomo
 X = 1 se trattato, = 0 se non lo è
I regressori binari sono a volte chiamati variabili “dummy”.
Fino ad ora, abbiamo chiamato 1 “pendenza” ma questo non ha
senso se X è binaria
Come interpretare il coefficiente se il regressore è binario?
54
Interpretazione
Yi = 0 + 1Xi + ui, dove Xi = 0 o 1:
quando Xi = 0, Yi = 0 + ui
 La media di Yi è 0
 cioè, E(Yi|Xi=0) = 0
quando Xi = 1, Yi = 0 + 1 + ui
 la media di Yi è 0 + 1
 cioè, E(Yi|Xi=1) = 0 + 1
perciò
1 = E(Yi|Xi=1) – E(Yi|Xi=0)
= differenza della popolazione fra medie di gruppo
55
Es
1 if STRi  20
Di = 
0 if STRi  20
Vˆoti = 650.0 + 7.4D
(1.3) (1.8)
Grandezza Classe
Std. dev. (sY)
Voto medio(Y )
Piccola (STR > 20)
657.4
19.4
Grande(STR ≥ 20)
17.9
650.0
Regressione OLS
Differenza nelle medie:
Standard error:
N
238
182
Ysmall  Ylarge = 657.4 – 650.0 = 7.4
ss2 sl2
19.4 2 17.9 2

SE =
=
= 1.8

238
182
ns nl
56
Sommario
Yi = 0 + 1Xi + ui
 0 = media di Y quando X = 0
 0 + 1 = media Y quando X = 1
 1 = differenza nelle medie di gruppo, X =1 meno X = 0
 SE( ˆ ) ha la solita interpretazione
1
 Statistica-t, intervallo di confidenza come al solito
 È semplicemente un’altra maniera per fare un’analisi di
differenze fra medie
57
Eteroschedasticità e omoschedasticità
 Cosa sono?
 Conseguenze dell’omoschedasticità
 Implicazioni per il calcolo degli standard errors
Se var(u|X=x) è costante – cioè, la varianza della
distribuzione di u condizionata a X non dipende da X – allora
u si dice omoschedastica. Altrimenti, u si dice
eteroschedastica.
58
Es: etero/omoschedasticità nel caso di regressore binario)
 Standard error quando le varianze dei gruppi sono diverse:
ss2 sl2
SE =

ns nl
 Standard error quando le varianze dei gruppi sono uguali:
SE = s p
1 1

ns nl
2
2
(
n

1)
s

(
n

1)
s
s
l
l
dove s 2p = s
(SW, Sez 3.6)
ns  nl  2
sp = “sima complessiva di 2” dove  l2 =  s2
 varianze dei gruppi uguali = omoschedasticità
 varianze dei gruppi diverse = eteroschedasticità
59
Omoschedasticità
 E(u|X=x) = 0 (u soddisfa Assunzione #1)
 La varianza di u NON dipende da x
60
Eteroschedasticità
 E(u|X=x) = 0 (u soddisfa Assunzione #1)
 La varianza di u DIPENDE da x: u è eteroschedastico.
61
Es: guadagno medio vs anni di istruzione
Eteroschedastico o omoschedastico?
62
Eteroschedastico o omoschedastico?
63
u eteroschedastico?.
Richiamiamo le 3 Assunzioni OLS:
1. E(u|X = x) = 0
2. (Xi,Yi), i =1,…,n, sono i.i.d.
3. grandi “outliers” sono rari
Eteroschedasticità e omoschedasticità hanno a che fare con la
var(u|X=x). Poiché non abbiamo fatto alcuna assunzione
esplicita sull’ omoschedasticità, abbiamo implicitamente assunto
la presenza di eteroschedasticità.
64
 Possiamo provare che lo stimatore OLS ha la varianza minore
fra gli stimatori lineari in Y… ( teorema Gauss-Markov)
 La formula per la varianza di ˆ e degli standard error OLS è:
1
Se var(ui|Xi=x) =  u2 , allora
2 2
E
[(
X


)
ui ]
var[(
X


)
u
]
i
x
i
x
i
ˆ
var( 1 ) =
=
2 2
n( X2 )2
n( X )
 u2
=
n X2
Nota: var( ˆ1 ) è inversamente proporzionale a var(X): più
variabilità in X significa più informazione su ˆ1
65
 Di conseguenza gli standard error omoschedastici sono
SE( ˆ1 ) =
1 n 2
uˆi

n  2 i 1
1
.
 n
n 1
2
(
X

X
)

i
n i 1
66
 gli standard error omoschedastici sono validi solo se gli
errori sono omoschedastici.
 Di solito conviene usare gli standard error eteroschedasticistandard error robusti perchè sono validi in tutti e due i casi.
 Il principale vantaggio degli standard error omoschedastici è
la semplicità della formula. Il maggiore svantaggio è che sono
validi solo con errori omoschedastici
 Dato che le due formule coincidono nel caso di
omoschedasticità conviene sempre usare standard error
robusti !
67
Scarica

i = 1