Regressioni Non Lineari
• Fino ad ora abbiamo solo considerato realazioni lineari
• Ma le relazioni lineari non costituiscono sempre le migliori
approssimazioni
• La regressione multipla può anche essere formulata utilizzando
relazioni non lineari
Sommario
1. Funzioni di Regressioni Non Lineari – commenti generali
2. Funzioni Non Lineari di una variabile
3. Funzioni Non Lineari di due variabile: interazioni
1
Voti e STR sembra lineare…
2
Voti e Reddito sembra non lineare...
3
Considerazioni generali
Se la relazione fra X e Y è non lineare:
• L’effetto su Y di un cambio in X dipende dai valori di X –
cioè, l’effetto marginale di X non è costante
• Una regressione lineare non è specificato correttamente (misspecified) – la forma funzionale è errata
• Lo stimatore dell’effetto su Y di X è “biased”
La soluzione è di stimare una funzione di regressione non
lineare in X
4
Funzioni di regressione non lineari
Yi = f(X1i, X2i,…, Xki) + ui, i = 1,…, n
Assunzioni
1. E(ui| X1i,X2i,…,Xki) = 0 .
2. (X1i,…,Xki,Yi) sono i.i.d.
3. Grandi outliers sono rari.
4. Non c’è multicollinearità perfetta.
5
Funzioni Nonlineari di una Singola
Variabile Independente
2 approcci complementari:
1. Polinomio in X
quadratico, cubico, o di ordine maggiore
2. Trasformazioni logaritmiche
• Y e/o X sono trasformate prendendo i logaritmi
• Ciò conduce ad una interpretazione in “percentuale”
6
1. Polinomi in X
Yi = β0 + β1Xi + β2 X i2 +…+ βr X ir + ui
• Questo è come un modello di regressione multipla – eccetto
che i regressori sono elevate a potenza! (lineare nei parametri)
• Stima e test d’ipotesi come per OLS
• I coefficienti hanno diversa interpretazione
7
Es: Voti e Reddito
Incomei = reddito medio nell’ imo distretto
Specificazione quadratica:
Votii = β0 + β1Redditoi + β2(Redditoi)2 + ui
Cubica:
Votii = β0 + β1Redditoi + β2(Redditoi)2 +
+ β3(Redditoi)3 +ui
8
Stima della specificazione
quadratica
generate avginc2 = avginc*avginc;
reg testscr avginc avginc2, r;
Regression with robust standard errors
Create a new regressor
Number of obs
F( 2,
417)
Prob > F
R-squared
Root MSE
=
=
=
=
=
420
428.52
0.0000
0.5562
12.724
-----------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------avginc |
3.850995
.2680941
14.36
0.000
3.32401
4.377979
avginc2 | -.0423085
.0047803
-8.85
0.000
-.051705
-.0329119
_cons |
607.3017
2.901754
209.29
0.000
601.5978
613.0056
------------------------------------------------------------------------------
È come testare la specificazione quadratica vs quella lineare
9
Interpretazione del coefficiente:
(a) guardiamo ai valori previsti
V̂oti = 607.3 + 3.85Redditoi – 0.0423(Redditoi)2
(2.9) (0.27)
(0.0048)
10
(b) Calcoliamo gli “effetti” per diversi valori di X
V̂oti = 607.3 + 3.85Redditoi – 0.0423(Redditoi)2
(2.9) (0.27)
(0.0048)
Variazione predetta nei Voti medi dovuta ad una variazione del
reddito da $5,000 a $6,000:
∆ V̂oti = 607.3 + 3.85×6 – 0.0423×62
– (607.3 + 3.85×5 – 0.0423×52)
= 3.4
11
V̂oti = 607.3 + 3.85Redditoi – 0.0423(Redditoi)2
“Effetti” previsti per diversi valori di X:
∆Reddito ($1000 per capita)
da 5 a 6
da 25 a 26
da 45 a 46
∆ V̂oti
3.4
1.7
0.0
L’ “effetto” è maggiore per livelli di reddito più bassi
12
Stima della specificazione cubica
gen avginc3 = avginc*avginc2;
reg testscr avginc avginc2 avginc3, r;
Regression with robust standard errors
Create the cubic regressor
Number of obs
F( 3,
416)
Prob > F
R-squared
Root MSE
=
=
=
=
=
420
270.18
0.0000
0.5584
12.707
-----------------------------------------------------------------------------|
Robust
testscr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------avginc |
5.018677
.7073505
7.10
0.000
3.628251
6.409104
avginc2 | -.0958052
.0289537
-3.31
0.001
-.1527191
-.0388913
avginc3 |
.0006855
.0003471
1.98
0.049
3.27e-06
.0013677
_cons |
600.079
5.102062
117.61
0.000
590.0499
610.108
------------------------------------------------------------------------------
13
Testare l’ipotesi nulla di linearità, contro l’alternativa che la
regressione è quadratica e/o cubica:
H0: i coefficienti di Reddito2 e Reddito3 = 0
H1: almeno uno dei due è diverso da zero.
test avginc2 avginc3;
( 1)
( 2)
Execute the test command after running the regression
avginc2 = 0.0
avginc3 = 0.0
F( 2,
416) =
37.69
Prob > F =
0.0000
.
14
Riassunto
Yi = β0 + β1Xi + β2 X i2 +…+ βr X ir + ui
• Stima: con OLS dopo aver definito dei i nuovi regressori
• I coefficienti hanno un’interpretazine più complicata
• Per interpretare le funzioni di regressione stimate:
• Fare un plot dei valori predetto come funzione di X
• Calcolare ∆Y/∆X a diversi valori di X
• Le varie ipotesi possono essere testate usando t- e F-tests
• Scelta del grado del polinomio, r
• plot; t- e F-tests,
• Oppure usiamo criteri di selezione che vedremo
successivamente (Cap.7)
15
2. Funzioni logaritmiche di Y e/o X
• ln(X) = logaritmo naturale di X
• La trasformazione logaritmica permette di considerare le
relazioni in termini di “percentuale” (come l’elasticità),
piuttosto che linearmente.
• Logaritmi e percentuali: quando ∆x è piccolo
ln(x + ∆x)
⎛ ∆x ⎞ ∆x
ln(x+∆x) – ln(x) = ln(x) = ln ⎜ 1 +
⎟≅
x ⎠
x
⎝
variazione percentuale di x divisa per 100.
Numericamente:
ln(1 + 0.01) = ln(1.01) = .00995 ≅ 0.01;
ln(1 + 0.10) = ln(1.10) = .0953 ≅ 0.10 (approx)
16
3 specificazioni:
Casi
Funzioni di regressione della
popolazione
I. lineare-log
Yi = β0 + β1ln(Xi) + ui
II. log-lineare
ln(Yi) = β0 + β1Xi + ui
III. log-log
ln(Yi) = β0 + β1ln(Xi) + ui
L’ interpretazione del coefficiente β1 è diversa in ogni caso.
17
I. Lineare-logaritmica
Prima:
Y = β0 + β1ln(X)
Dopo ∆X:
Y + ∆Y = β0 + β1ln(X + ∆X)
(a) – (b):
∆Y = β1[ln(X + ∆X) – ln(X)]
poichè
dunque
oppure
(b)
(a)
∆X
ln(X + ∆X) – ln(X) ≅
,
X
∆X
∆Y ≅ β1
X
∆Y
β1 ≅
(per piccoli ∆X)
∆X / X
18
Yi = β0 + β1ln(Xi) + ui
Per piccoli ∆X,
∆Y
β1 ≅
∆X / X
∆X
In termini percentuali 100×
è la percentuale di variazione in X,
X
∆X
Se X crescesse di 1% allora
=0.01 e di conseguenza Y
X
crescerebbe di 0.01*β1.
un incremento di 1% di X ⇒ 0.01 di incremento in ln(X)
⇒ 0.01β1 di incremento in Y
19
• Definiamo il nuovo regressore, ln(Reddito)
• Il modello lineare-log può essere stimato usando OLS:
V̂oti = 557.8 + 36.42×ln(Redditoi)
(3.8) (1.40)
Un incremento di 1% del Reddito corrisponde ad un
incremento dei Voti di (0.01*36.42)=0.36 punti.
• Errori standard, intervalli di confidenza, R2 ,come al solito.
20
La regressione lineare-log e la
regressione cubica
21
II. Log-lineare
Prima:
ln(Y) = β0 + β1X
(b)
Dopo ∆X:
ln(Y + ∆Y) = β0 + β1(X + ∆X)
(a)
(a) – (b):
ln(Y + ∆Y) – ln(Y) = β1∆X
dunque
oppure
∆Y
≅ β1∆X
Y
∆Y / Y
β1 ≅
(per piccoli ∆X)
∆X
22
ln(Yi) = β0 + β1Xi + ui
∆Y / Y
per piccoli ∆X,
β1 ≅
∆X
∆Y
In termini percentuali 100×
= cambio in percentuale in Y, una
Y
variazione di una unità in X (∆X = 1) è associata ad una
variazione di 100β1% in Y.
∆X× β1= (∆Y/Y)
un aumento di una unità in X ⇒ aumento pari a β1 in ln(Y)
⇒ aumento di 100β1% in Y
23
III. Log-log
Prima:
ln(Yi) = β0 + β1ln(Xi) + ui
(b)
Dopo ∆X:
ln(Y + ∆Y) = β0 + β1ln(X + ∆X)
(a)-(b):
ln(Y + ∆Y) – ln(Y) = β1[ln(X + ∆X) – ln(X)]
dunque
o
(a)
∆Y
∆X
≅ β1
Y
X
∆Y / Y
β1 ≅
(per piccoli ∆X)
∆X / X
24
ln(Yi) = β0 + β1ln(Xi) + ui
per piccoli ∆X,
∆Y / Y
β1 ≅
∆X / X
∆Y
∆X
= variazione in percentuale di Y, e 100×
=
qui 100×
Y
X
variazione in percentuale di X, un variazione pari all’1% di X è
associata a una variazione pari al β1% in Y.
• Nella specificazione log-log, β1 ha si interpreta come
elasticità.
25
• Definiamo una nuova variabile dipendente, ln(Voti), e un nuovo
regressore, ln(Reddito)
• Il modello è lineare e può essere stimato usando OLS:
ln( V̂oti )= 6.336 + 0.0554×ln(Incomei)
(0.006) (0.0021)
Una variazione dell’ 1% nel Reddito è associata ad una
variazione dello 0.0554% dei Voti (se il Reddito cresce di un
fattore 1.01, Voti salgono di un fattore 1.000554)
26
ln( V̂oti )= 6.336 + 0.0554×ln(Incomei)
(0.006) (0.0021)
• Per esempio, supponiamo che il reddito cresca da $10,000 a
$11,000, o del 10%. Allora la variabile Voti cresce approx di
0.0554×10% = .554%. Se Voti = 650 → 0.00554×650 = 3.6
punti.
• Come paragonare questo con il modello lineare-log? Teoria
economica e interpretazione percentuale , R2 non utile
27
Le specificazioni log-lineare e log-log :
• Nota l’asse verticale
• Nessuna delle due sembra approssimarsi tanto bene
Quanto la cubica o la lineare-log
28
Riassunto delle trasformazioni
lineari
•
•
•
•
•
3 casi distinti.
Le regressioni sono lineari e possono essere stimate con OLS.
Test d’ipotesi e intervalli di confidenza come al solito
L’iterpretazione di β1 cambia da caso a caso.
La scelta fra le diverse specificazioni dipende dal giudizio del
ricercatore, guidato da test di significatività e plot dei valori
previsti
29
Interazioni fra Variabili indipendenti
• Forse la grandezza della classe può essere più importante in
alcuni casi rispetto ad altri …
• classi più piccole sono più opportune quando ci sono molti
bimbi non di madre lingua (possono avere più attenzione)
∆TestScore
potrebbe dipendere da PctEL
• cioè,
∆STR
∆Y
•e
potrebbe dipendere da X2
∆X 1
• Come modellare queste “interazioni” fra X1 e X2?
• Prima di tutto consideriamo una specificazione di X binaria
piuttosto che continua.
30
(a) Interazioni fra 2 variabili binarie
Yi = β0 + β1D1i + β2D2i + ui
• D1i, D2i sono binarie
• β1 è l’effetto di una variazione da D1=0 a D1=1. Qui questo
effetto non dipende dal valore di D2.
• Per permettere a D1 di dipendere da D2, includiamo un termine
di “interazione” D1i×D2i come regressoe:
Yi = β0 + β1D1i + β2D2i + β3(D1i×D2i) + ui
31
Interpretazione dei coefficienti
Yi = β0 + β1D1i + β2D2i + β3(D1i×D2i) + ui
Regola generale: paragonare i vari casi
E(Yi|D1i=0, D2i=d2) = β0 + β2d2
(b)
E(Yi|D1i=1, D2i=d2) = β0 + β1 + β2d2 + β3d2
(a)
(a) – (b):
E(Yi|D1i=1, D2i=d2) – E(Yi|D1i=0, D2i=d2) = β1 + β3d2
• L’effetto di D1 depende da d2
• β3 = in/decremento all’effetto di D1, quando D2 = 1
32
Poniamo
⎧ 1 if STR ≥ 20
e HiEL =
HiSTR = ⎨
⎩ 0 if STR < 20
⎧ 1 if PctEL ≥ l0
⎨
⎩ 0 if PctEL < 10
Vˆoti = 664.1 – 18.2HiEL – 1.9HiSTR – 3.5(HiSTR×HiEL)
(1.4) (2.3)
(1.9)
(3.1)
• L’“effetto” di HiSTR quando HiEL = 0 è –1.9
• L’“effetto” di HiSTR quando HiEL = 1 è (–1.9 – 3.5) = –5.4
• Si stima che una riduzione delle classi abbia un effetto maggiore
quando la percentuale di bambini che non sono di lingua madre
è grande
• Tuttavia questa iterazione non è statisticamente significativa: t =
3.5/3.1
33
(b) Interazione fra una variabile
continua ed una binaria
Yi = β0 + β1Di + β2Xi + ui
• Di è binaria, X è continua
• Come specificato sopra, l’effetto di X su Y(tenendo costante D)
= β2, non dipende da D
• Per far si che l’effetto di X dipenda da D, includiamo un
termine di “interazione” Di×Xi come reressore:
Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui
34
Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui
Per le osservazioni per cui Di= 0 (il gruppo “D = 0”) vale la:
Yi = β0 + β2Xi + ui
regressione D=0
Per le osservazioni per cui Di= 1 (il gruppo “D = 1”) vale la:
Yi = β0 + β1 + β2Xi + β3Xi + ui
= (β0+β1) + (β2+β3)Xi + ui regressione D=1
35
36
Interpretazione dei coefficienti
Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui
Regola generale, Prima
Y = β0 + β1D + β2X + β3(D×X)
(b)
Dopo ∆X:
Y + ∆Y = β0 + β1D + β2(X+∆X) + β3[D×(X+∆X)] (a)
(a) – (b):
∆Y
= β2 + β3D
∆Y = β2∆X + β3D∆X or
∆X
• L’effetto di X dipende da D
• β3 = incremento dell’effetto di X, quando D = 1
37
Es
V̂oti = 682.2 – 0.97STR + 5.6HiEL – 1.28(STR×HiEL)
(11.9) (0.59)
(19.5)
(0.97)
• se HiEL = 0:
V̂oti = 682.2 – 0.97STR
• se HiEL = 1,
V̂oti = 682.2 – 0.97STR + 5.6 – 1.28STR
= 687.8 – 2.25STR
• due rette di regressione: una per ogni gruppo di HiSTR.
• Si stima che una riduzione della grandezza delle classi abbia un
effetto maggiore nel caso in cui la percentuale dei bimbi non di
madre lingua sia più alta
38
V̂oti = 682.2 – 0.97STR + 5.6HiEL – 1.28(STR×HiEL)
(11.9) (0.59)
(19.5) (0.97)
• Le due regressioni hanno lo stesso coefficiente angolare ⇔ il
coefficiente di STR×HiEL è zero: t = –1.28/0.97 = –1.32
• Le due regressioni hanno la stessa intercetta ⇔ il coefficiente
di HiEL è zero: t = –5.6/19.5 = 0.29
• Le due rette di regressione sono uguali ⇔ HiEL = 0 and
STR×HiEL = 0: F = 89.94 (p-value < .001)
• Rifiutiamo l’ipotesi congiunta ma non quelle individuali
(correlazione alta fra STR×HiEL e HiEL)
39
(c) Interazioni fra due variabili
continue
Yi = β0 + β1X1i + β2X2i + ui
• X1, X2 sono continue
• L’effetto di X1 non dipende da X2
• L’effetto di X2 non dipende da X1
• Per permettere a X1 di influenzare X2, includiamo il termine di
interazione X1i×X2i come regressore:
Yi = β0 + β1X1i + β2X2i + β3(X1i×X2i) + ui
40
Interpretazione dei coefficienti:
Yi = β0 + β1X1i + β2X2i + β3(X1i×X2i) + ui
Prima
(b)
Y = β0 + β1X1 + β2X2 + β3(X1×X2)
Dopo ∆X1:
(a)
Y+ ∆Y = β0 + β1(X1+∆X1) + β2X2 + β3[(X1+∆X1)×X2]
(a) – (b):
∆Y
∆Y = β1∆X1 + β3X2∆X1 or
= β1 + β3X2
∆X 1
• L’effetto di X1 depende da X2
• β3 = l’incremento in X1 dovuto a un cambio unitario in X2
41
Es
V̂oti = 686.3 – 1.12STR – 0.67PctEL + .0012(STR×PctEL),
(11.8) (0.59)
(0.37)
(0.019)
L’effetto di una riduzione della grandezza della classe è non
lineare poichè la grandezza dell’effetto dipende da PctEL:
∆TestScore
= –1.12 + .0012PctEL
∆STR
∆TestScore
PctEL
∆STR
0
–1.12
20%
–1.12+.0012×20 = –1.10
42
V̂oti = 686.3 – 1.12STR – 0.67PctEL + .0012(STR×PctEL),
(11.8) (0.59)
(0.37)
(0.019)
• Il coefficiente di STR×PctEL = 0?
t = .0012/.019 = .06
• Il coefficiente di STR = 0?
t = –1.12/0.59 = –1.90
• Il coefficiente di STR e STR×PctEL = 0?
F = 3.89 (p-value = .021) (Multicollinearità imperfetta)
43
Applicazione
1. Ci sono degli effetti non lineari della riduzione della
grandezza delle classi nei voti medi? (Una riduzione da 35 a
30 ha lo stesso effetto di una riduzione da 20 a 15?)
2. è opportuno includere delle interazioni non lineari fra PctEL e
STR? (Le classi più piccole sono più efficaci quando ci sono
più studenti di madre lingua non inglese?)
44
Domanda #1
• Stimiamo funzioni lineari e non lineari di STR, tenendo costante
variabili demografiche rilevanti
• PctEL
• Reddito
• LunchPCT
• Vediamo se inserire dei termini nonlineari migliora nel senso
dell’interpretazione economica le nostre stime.
• Testiamo se i termini non lineari sono significativi
45
Domanda #2
• Stimiamo le funzioni, lineari e non, di STR, iterate con PctEL.
• Usiamo anche interazioni fra variabili binarie e continue
HiEL×STR, HiEL×STR2, e HiEL×STR3.
46
Quale può essere considerata una
buona specificazione di base?
Voti – Reddito
La specificazione logaritmica si comporta meglio agli estremi
del campione, specialmente per grandi valori del reddito.
47
48
Test di ipotesi congiunta
Cosa possiamo dire rispetto alla domanda #1 e # 2?
49
Interpretazione della funzione di
regressione usando i grafici:
Paragoniamo le specificazioni lineari e quelle non lineari:
50
Paragoniamo le regressioni con le
interazioni:
51
Riassunto:
• Usando ln(X) o X1×X2, possiamo catturare l’effetto di
numerose relazioni nonlineari.
• Stima e inferenza, come prima.
• Interpretazione dei coefficienti e specifica rispetto ai vari
modelli
• Dobbiamo sempre chiederci:
• Che effetto non lineare vogliamo analizzare?
• Cosa ha senso nella nostra applicazione?
52
Scarica

prendendo i logaritmi