Regressioni Non Lineari • Fino ad ora abbiamo solo considerato realazioni lineari • Ma le relazioni lineari non costituiscono sempre le migliori approssimazioni • La regressione multipla può anche essere formulata utilizzando relazioni non lineari Sommario 1. Funzioni di Regressioni Non Lineari – commenti generali 2. Funzioni Non Lineari di una variabile 3. Funzioni Non Lineari di due variabile: interazioni 1 Voti e STR sembra lineare… 2 Voti e Reddito sembra non lineare... 3 Considerazioni generali Se la relazione fra X e Y è non lineare: • L’effetto su Y di un cambio in X dipende dai valori di X – cioè, l’effetto marginale di X non è costante • Una regressione lineare non è specificato correttamente (misspecified) – la forma funzionale è errata • Lo stimatore dell’effetto su Y di X è “biased” La soluzione è di stimare una funzione di regressione non lineare in X 4 Funzioni di regressione non lineari Yi = f(X1i, X2i,…, Xki) + ui, i = 1,…, n Assunzioni 1. E(ui| X1i,X2i,…,Xki) = 0 . 2. (X1i,…,Xki,Yi) sono i.i.d. 3. Grandi outliers sono rari. 4. Non c’è multicollinearità perfetta. 5 Funzioni Nonlineari di una Singola Variabile Independente 2 approcci complementari: 1. Polinomio in X quadratico, cubico, o di ordine maggiore 2. Trasformazioni logaritmiche • Y e/o X sono trasformate prendendo i logaritmi • Ciò conduce ad una interpretazione in “percentuale” 6 1. Polinomi in X Yi = β0 + β1Xi + β2 X i2 +…+ βr X ir + ui • Questo è come un modello di regressione multipla – eccetto che i regressori sono elevate a potenza! (lineare nei parametri) • Stima e test d’ipotesi come per OLS • I coefficienti hanno diversa interpretazione 7 Es: Voti e Reddito Incomei = reddito medio nell’ imo distretto Specificazione quadratica: Votii = β0 + β1Redditoi + β2(Redditoi)2 + ui Cubica: Votii = β0 + β1Redditoi + β2(Redditoi)2 + + β3(Redditoi)3 +ui 8 Stima della specificazione quadratica generate avginc2 = avginc*avginc; reg testscr avginc avginc2, r; Regression with robust standard errors Create a new regressor Number of obs F( 2, 417) Prob > F R-squared Root MSE = = = = = 420 428.52 0.0000 0.5562 12.724 -----------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------avginc | 3.850995 .2680941 14.36 0.000 3.32401 4.377979 avginc2 | -.0423085 .0047803 -8.85 0.000 -.051705 -.0329119 _cons | 607.3017 2.901754 209.29 0.000 601.5978 613.0056 ------------------------------------------------------------------------------ È come testare la specificazione quadratica vs quella lineare 9 Interpretazione del coefficiente: (a) guardiamo ai valori previsti V̂oti = 607.3 + 3.85Redditoi – 0.0423(Redditoi)2 (2.9) (0.27) (0.0048) 10 (b) Calcoliamo gli “effetti” per diversi valori di X V̂oti = 607.3 + 3.85Redditoi – 0.0423(Redditoi)2 (2.9) (0.27) (0.0048) Variazione predetta nei Voti medi dovuta ad una variazione del reddito da $5,000 a $6,000: ∆ V̂oti = 607.3 + 3.85×6 – 0.0423×62 – (607.3 + 3.85×5 – 0.0423×52) = 3.4 11 V̂oti = 607.3 + 3.85Redditoi – 0.0423(Redditoi)2 “Effetti” previsti per diversi valori di X: ∆Reddito ($1000 per capita) da 5 a 6 da 25 a 26 da 45 a 46 ∆ V̂oti 3.4 1.7 0.0 L’ “effetto” è maggiore per livelli di reddito più bassi 12 Stima della specificazione cubica gen avginc3 = avginc*avginc2; reg testscr avginc avginc2 avginc3, r; Regression with robust standard errors Create the cubic regressor Number of obs F( 3, 416) Prob > F R-squared Root MSE = = = = = 420 270.18 0.0000 0.5584 12.707 -----------------------------------------------------------------------------| Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------avginc | 5.018677 .7073505 7.10 0.000 3.628251 6.409104 avginc2 | -.0958052 .0289537 -3.31 0.001 -.1527191 -.0388913 avginc3 | .0006855 .0003471 1.98 0.049 3.27e-06 .0013677 _cons | 600.079 5.102062 117.61 0.000 590.0499 610.108 ------------------------------------------------------------------------------ 13 Testare l’ipotesi nulla di linearità, contro l’alternativa che la regressione è quadratica e/o cubica: H0: i coefficienti di Reddito2 e Reddito3 = 0 H1: almeno uno dei due è diverso da zero. test avginc2 avginc3; ( 1) ( 2) Execute the test command after running the regression avginc2 = 0.0 avginc3 = 0.0 F( 2, 416) = 37.69 Prob > F = 0.0000 . 14 Riassunto Yi = β0 + β1Xi + β2 X i2 +…+ βr X ir + ui • Stima: con OLS dopo aver definito dei i nuovi regressori • I coefficienti hanno un’interpretazine più complicata • Per interpretare le funzioni di regressione stimate: • Fare un plot dei valori predetto come funzione di X • Calcolare ∆Y/∆X a diversi valori di X • Le varie ipotesi possono essere testate usando t- e F-tests • Scelta del grado del polinomio, r • plot; t- e F-tests, • Oppure usiamo criteri di selezione che vedremo successivamente (Cap.7) 15 2. Funzioni logaritmiche di Y e/o X • ln(X) = logaritmo naturale di X • La trasformazione logaritmica permette di considerare le relazioni in termini di “percentuale” (come l’elasticità), piuttosto che linearmente. • Logaritmi e percentuali: quando ∆x è piccolo ln(x + ∆x) ⎛ ∆x ⎞ ∆x ln(x+∆x) – ln(x) = ln(x) = ln ⎜ 1 + ⎟≅ x ⎠ x ⎝ variazione percentuale di x divisa per 100. Numericamente: ln(1 + 0.01) = ln(1.01) = .00995 ≅ 0.01; ln(1 + 0.10) = ln(1.10) = .0953 ≅ 0.10 (approx) 16 3 specificazioni: Casi Funzioni di regressione della popolazione I. lineare-log Yi = β0 + β1ln(Xi) + ui II. log-lineare ln(Yi) = β0 + β1Xi + ui III. log-log ln(Yi) = β0 + β1ln(Xi) + ui L’ interpretazione del coefficiente β1 è diversa in ogni caso. 17 I. Lineare-logaritmica Prima: Y = β0 + β1ln(X) Dopo ∆X: Y + ∆Y = β0 + β1ln(X + ∆X) (a) – (b): ∆Y = β1[ln(X + ∆X) – ln(X)] poichè dunque oppure (b) (a) ∆X ln(X + ∆X) – ln(X) ≅ , X ∆X ∆Y ≅ β1 X ∆Y β1 ≅ (per piccoli ∆X) ∆X / X 18 Yi = β0 + β1ln(Xi) + ui Per piccoli ∆X, ∆Y β1 ≅ ∆X / X ∆X In termini percentuali 100× è la percentuale di variazione in X, X ∆X Se X crescesse di 1% allora =0.01 e di conseguenza Y X crescerebbe di 0.01*β1. un incremento di 1% di X ⇒ 0.01 di incremento in ln(X) ⇒ 0.01β1 di incremento in Y 19 • Definiamo il nuovo regressore, ln(Reddito) • Il modello lineare-log può essere stimato usando OLS: V̂oti = 557.8 + 36.42×ln(Redditoi) (3.8) (1.40) Un incremento di 1% del Reddito corrisponde ad un incremento dei Voti di (0.01*36.42)=0.36 punti. • Errori standard, intervalli di confidenza, R2 ,come al solito. 20 La regressione lineare-log e la regressione cubica 21 II. Log-lineare Prima: ln(Y) = β0 + β1X (b) Dopo ∆X: ln(Y + ∆Y) = β0 + β1(X + ∆X) (a) (a) – (b): ln(Y + ∆Y) – ln(Y) = β1∆X dunque oppure ∆Y ≅ β1∆X Y ∆Y / Y β1 ≅ (per piccoli ∆X) ∆X 22 ln(Yi) = β0 + β1Xi + ui ∆Y / Y per piccoli ∆X, β1 ≅ ∆X ∆Y In termini percentuali 100× = cambio in percentuale in Y, una Y variazione di una unità in X (∆X = 1) è associata ad una variazione di 100β1% in Y. ∆X× β1= (∆Y/Y) un aumento di una unità in X ⇒ aumento pari a β1 in ln(Y) ⇒ aumento di 100β1% in Y 23 III. Log-log Prima: ln(Yi) = β0 + β1ln(Xi) + ui (b) Dopo ∆X: ln(Y + ∆Y) = β0 + β1ln(X + ∆X) (a)-(b): ln(Y + ∆Y) – ln(Y) = β1[ln(X + ∆X) – ln(X)] dunque o (a) ∆Y ∆X ≅ β1 Y X ∆Y / Y β1 ≅ (per piccoli ∆X) ∆X / X 24 ln(Yi) = β0 + β1ln(Xi) + ui per piccoli ∆X, ∆Y / Y β1 ≅ ∆X / X ∆Y ∆X = variazione in percentuale di Y, e 100× = qui 100× Y X variazione in percentuale di X, un variazione pari all’1% di X è associata a una variazione pari al β1% in Y. • Nella specificazione log-log, β1 ha si interpreta come elasticità. 25 • Definiamo una nuova variabile dipendente, ln(Voti), e un nuovo regressore, ln(Reddito) • Il modello è lineare e può essere stimato usando OLS: ln( V̂oti )= 6.336 + 0.0554×ln(Incomei) (0.006) (0.0021) Una variazione dell’ 1% nel Reddito è associata ad una variazione dello 0.0554% dei Voti (se il Reddito cresce di un fattore 1.01, Voti salgono di un fattore 1.000554) 26 ln( V̂oti )= 6.336 + 0.0554×ln(Incomei) (0.006) (0.0021) • Per esempio, supponiamo che il reddito cresca da $10,000 a $11,000, o del 10%. Allora la variabile Voti cresce approx di 0.0554×10% = .554%. Se Voti = 650 → 0.00554×650 = 3.6 punti. • Come paragonare questo con il modello lineare-log? Teoria economica e interpretazione percentuale , R2 non utile 27 Le specificazioni log-lineare e log-log : • Nota l’asse verticale • Nessuna delle due sembra approssimarsi tanto bene Quanto la cubica o la lineare-log 28 Riassunto delle trasformazioni lineari • • • • • 3 casi distinti. Le regressioni sono lineari e possono essere stimate con OLS. Test d’ipotesi e intervalli di confidenza come al solito L’iterpretazione di β1 cambia da caso a caso. La scelta fra le diverse specificazioni dipende dal giudizio del ricercatore, guidato da test di significatività e plot dei valori previsti 29 Interazioni fra Variabili indipendenti • Forse la grandezza della classe può essere più importante in alcuni casi rispetto ad altri … • classi più piccole sono più opportune quando ci sono molti bimbi non di madre lingua (possono avere più attenzione) ∆TestScore potrebbe dipendere da PctEL • cioè, ∆STR ∆Y •e potrebbe dipendere da X2 ∆X 1 • Come modellare queste “interazioni” fra X1 e X2? • Prima di tutto consideriamo una specificazione di X binaria piuttosto che continua. 30 (a) Interazioni fra 2 variabili binarie Yi = β0 + β1D1i + β2D2i + ui • D1i, D2i sono binarie • β1 è l’effetto di una variazione da D1=0 a D1=1. Qui questo effetto non dipende dal valore di D2. • Per permettere a D1 di dipendere da D2, includiamo un termine di “interazione” D1i×D2i come regressoe: Yi = β0 + β1D1i + β2D2i + β3(D1i×D2i) + ui 31 Interpretazione dei coefficienti Yi = β0 + β1D1i + β2D2i + β3(D1i×D2i) + ui Regola generale: paragonare i vari casi E(Yi|D1i=0, D2i=d2) = β0 + β2d2 (b) E(Yi|D1i=1, D2i=d2) = β0 + β1 + β2d2 + β3d2 (a) (a) – (b): E(Yi|D1i=1, D2i=d2) – E(Yi|D1i=0, D2i=d2) = β1 + β3d2 • L’effetto di D1 depende da d2 • β3 = in/decremento all’effetto di D1, quando D2 = 1 32 Poniamo ⎧ 1 if STR ≥ 20 e HiEL = HiSTR = ⎨ ⎩ 0 if STR < 20 ⎧ 1 if PctEL ≥ l0 ⎨ ⎩ 0 if PctEL < 10 Vˆoti = 664.1 – 18.2HiEL – 1.9HiSTR – 3.5(HiSTR×HiEL) (1.4) (2.3) (1.9) (3.1) • L’“effetto” di HiSTR quando HiEL = 0 è –1.9 • L’“effetto” di HiSTR quando HiEL = 1 è (–1.9 – 3.5) = –5.4 • Si stima che una riduzione delle classi abbia un effetto maggiore quando la percentuale di bambini che non sono di lingua madre è grande • Tuttavia questa iterazione non è statisticamente significativa: t = 3.5/3.1 33 (b) Interazione fra una variabile continua ed una binaria Yi = β0 + β1Di + β2Xi + ui • Di è binaria, X è continua • Come specificato sopra, l’effetto di X su Y(tenendo costante D) = β2, non dipende da D • Per far si che l’effetto di X dipenda da D, includiamo un termine di “interazione” Di×Xi come reressore: Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui 34 Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui Per le osservazioni per cui Di= 0 (il gruppo “D = 0”) vale la: Yi = β0 + β2Xi + ui regressione D=0 Per le osservazioni per cui Di= 1 (il gruppo “D = 1”) vale la: Yi = β0 + β1 + β2Xi + β3Xi + ui = (β0+β1) + (β2+β3)Xi + ui regressione D=1 35 36 Interpretazione dei coefficienti Yi = β0 + β1Di + β2Xi + β3(Di×Xi) + ui Regola generale, Prima Y = β0 + β1D + β2X + β3(D×X) (b) Dopo ∆X: Y + ∆Y = β0 + β1D + β2(X+∆X) + β3[D×(X+∆X)] (a) (a) – (b): ∆Y = β2 + β3D ∆Y = β2∆X + β3D∆X or ∆X • L’effetto di X dipende da D • β3 = incremento dell’effetto di X, quando D = 1 37 Es V̂oti = 682.2 – 0.97STR + 5.6HiEL – 1.28(STR×HiEL) (11.9) (0.59) (19.5) (0.97) • se HiEL = 0: V̂oti = 682.2 – 0.97STR • se HiEL = 1, V̂oti = 682.2 – 0.97STR + 5.6 – 1.28STR = 687.8 – 2.25STR • due rette di regressione: una per ogni gruppo di HiSTR. • Si stima che una riduzione della grandezza delle classi abbia un effetto maggiore nel caso in cui la percentuale dei bimbi non di madre lingua sia più alta 38 V̂oti = 682.2 – 0.97STR + 5.6HiEL – 1.28(STR×HiEL) (11.9) (0.59) (19.5) (0.97) • Le due regressioni hanno lo stesso coefficiente angolare ⇔ il coefficiente di STR×HiEL è zero: t = –1.28/0.97 = –1.32 • Le due regressioni hanno la stessa intercetta ⇔ il coefficiente di HiEL è zero: t = –5.6/19.5 = 0.29 • Le due rette di regressione sono uguali ⇔ HiEL = 0 and STR×HiEL = 0: F = 89.94 (p-value < .001) • Rifiutiamo l’ipotesi congiunta ma non quelle individuali (correlazione alta fra STR×HiEL e HiEL) 39 (c) Interazioni fra due variabili continue Yi = β0 + β1X1i + β2X2i + ui • X1, X2 sono continue • L’effetto di X1 non dipende da X2 • L’effetto di X2 non dipende da X1 • Per permettere a X1 di influenzare X2, includiamo il termine di interazione X1i×X2i come regressore: Yi = β0 + β1X1i + β2X2i + β3(X1i×X2i) + ui 40 Interpretazione dei coefficienti: Yi = β0 + β1X1i + β2X2i + β3(X1i×X2i) + ui Prima (b) Y = β0 + β1X1 + β2X2 + β3(X1×X2) Dopo ∆X1: (a) Y+ ∆Y = β0 + β1(X1+∆X1) + β2X2 + β3[(X1+∆X1)×X2] (a) – (b): ∆Y ∆Y = β1∆X1 + β3X2∆X1 or = β1 + β3X2 ∆X 1 • L’effetto di X1 depende da X2 • β3 = l’incremento in X1 dovuto a un cambio unitario in X2 41 Es V̂oti = 686.3 – 1.12STR – 0.67PctEL + .0012(STR×PctEL), (11.8) (0.59) (0.37) (0.019) L’effetto di una riduzione della grandezza della classe è non lineare poichè la grandezza dell’effetto dipende da PctEL: ∆TestScore = –1.12 + .0012PctEL ∆STR ∆TestScore PctEL ∆STR 0 –1.12 20% –1.12+.0012×20 = –1.10 42 V̂oti = 686.3 – 1.12STR – 0.67PctEL + .0012(STR×PctEL), (11.8) (0.59) (0.37) (0.019) • Il coefficiente di STR×PctEL = 0? t = .0012/.019 = .06 • Il coefficiente di STR = 0? t = –1.12/0.59 = –1.90 • Il coefficiente di STR e STR×PctEL = 0? F = 3.89 (p-value = .021) (Multicollinearità imperfetta) 43 Applicazione 1. Ci sono degli effetti non lineari della riduzione della grandezza delle classi nei voti medi? (Una riduzione da 35 a 30 ha lo stesso effetto di una riduzione da 20 a 15?) 2. è opportuno includere delle interazioni non lineari fra PctEL e STR? (Le classi più piccole sono più efficaci quando ci sono più studenti di madre lingua non inglese?) 44 Domanda #1 • Stimiamo funzioni lineari e non lineari di STR, tenendo costante variabili demografiche rilevanti • PctEL • Reddito • LunchPCT • Vediamo se inserire dei termini nonlineari migliora nel senso dell’interpretazione economica le nostre stime. • Testiamo se i termini non lineari sono significativi 45 Domanda #2 • Stimiamo le funzioni, lineari e non, di STR, iterate con PctEL. • Usiamo anche interazioni fra variabili binarie e continue HiEL×STR, HiEL×STR2, e HiEL×STR3. 46 Quale può essere considerata una buona specificazione di base? Voti – Reddito La specificazione logaritmica si comporta meglio agli estremi del campione, specialmente per grandi valori del reddito. 47 48 Test di ipotesi congiunta Cosa possiamo dire rispetto alla domanda #1 e # 2? 49 Interpretazione della funzione di regressione usando i grafici: Paragoniamo le specificazioni lineari e quelle non lineari: 50 Paragoniamo le regressioni con le interazioni: 51 Riassunto: • Usando ln(X) o X1×X2, possiamo catturare l’effetto di numerose relazioni nonlineari. • Stima e inferenza, come prima. • Interpretazione dei coefficienti e specifica rispetto ai vari modelli • Dobbiamo sempre chiederci: • Che effetto non lineare vogliamo analizzare? • Cosa ha senso nella nostra applicazione? 52