Funzioni di regressione non lineari
(Sintesi dal cap. 8 del libro di testo “Introduzione all’econometria”, J.H. Stock e M.W. Watson,
2009, Pearson Education)
Nelle funzioni di regressione lineari studiate finora, la pendenza della
curva è costante e l’effetto su Y di una variazione unitaria di una
variabile esplicativa non dipende dai particolari valori che la variabile
esplicativa assume.
Tuttavia, potremmo trovarci in una delle seguenti situazioni.
1. L’effetto su Y della variazione di una variabile indipendente X1
dipende dal valore di X1. Esempio della variazione del numero di
studenti
per
insegnante
sui
punteggi
in
un
test
sull’apprendimento.
2. L’effetto su Y di una variazione in X1 dipende dal valore di
un’altra variabile indipendente X2. Esempio dell’effetto sulle
retribuzioni del genere e del possesso della laurea.
Analizzeremo entrambi i casi. In entrambi i casi si ottengono funzioni
non lineari nelle variabili ma ancora lineari nei parametri, per cui i
parametri possono ancora essere stimati con il “metodo dei minimi
quadrati” (OLS).
1
Come modellare funzioni di regressione non lineari
La figura che segue mostra un grafico a nuvola in cui i distretti della
California sono rappresentati rispetto al reddito medio (X) e al
punteggio medio nel test per il quinto grado di istruzione.
(Esempio tratto dal cap. 8 del libro di testo “Introduzione all’econometria”, J.H. Stock e M.W.
Watson, 2009, Pearson Education)
Dove si trovano i punti rispetto alla retta di regressione quando il
reddito è particolarmente alto o basso?
2
Sembra esserci una “curvatura” nella relazione fra le due variabili che
non viene catturata dalla regressione lineare.
Quale funzione potrebbe adattarsi meglio ai dati?
Il grafico riporta un modello di regressione quadratica:
Che di fatto è un modello di regressione …………….
Come potremmo verificare l’ipotesi che la regressione quadratica non
sia adatta a rappresentare i dati, poiché in realtà la relazione fra le
due variabili è lineare?
Osserviamo che, nel modello di regressione non lineare, la variazione
in Y di una variazione in X1, ∆X 1 , tenendo costanti le altre variabili
indipendenti, non è più data semplicemente dal coefficiente di
regressione poiché dipende dai valori di X 1 . Ma può essere stimata
da:
3
∆Ŷ = ˆf ( X 1 + ∆X 1 ,X 2 ,...,X p ) − ˆf ( X 1 ,X 2 ,...,X p )
Dove f̂ ( X 1 , X 2 ,..., X p ) è il valore previsto per Y sulla base del modello
di regressione stimato.
Come rappresentare la non linearità nella regressione multipla
E’ possibile seguire le seguenti fasi.
1. Specificare una possibile relazione non lineare. Anche, se
possibile, sulla base della teoria economica.
2. Stimare i parametri con gli OLS.
3. Confrontare il modello non lineare con quello lineare mediante
opportuni test.
4. Stimare gli effetti di variazioni di X su Y.
In generale è possibile partire dalla specificazione di un modello di
regressione polinomiale di grado r:
Yi = β 0 + β1 X i + β 2 X i2 + ... + β r X ir + ε i
4
Quale grado di polinomio scegliere? Un r elevato rende la funzione
più flessibile, ma un r basso permette di avere un modello più
parsimonioso e semplice da interpretare.
Un modo pratico consiste nel verificare se i coefficienti associati ai
valori più elevati di r siano nulli. Si può procedere sequenzialmente
come segue:
1. Si sceglie un valore per r e si stima un modello di regressione
polinomiale di grado r.
2. Si verifica l’ipotesi che β r sia nullo. Se si rifiuta l’ipotesi si usa il
polinomio di grado r.
3. Se non si rifiuta l’ipotesi precedente, si verifica se il coefficiente
β r −1 sia nullo. Se si rifiuta questa ipotesi si sceglie un polinomio
di grado r-1.
4. Se non si rifiuta l’ipotesi β r −1 = 0 , si ripete il procedimento finché
il coefficiente della potenza massima del polinomio diventa
significativo.
La trasformata logaritmica
Un altro modo per specificare una funzione non lineare consiste
nell’usare il logaritmo naturale di Y e/o di X.
5
Importante: i logaritmi convertono variazioni nelle variabili in variazioni
percentuali e molte relazioni sono espresse in modo naturale in
termini
percentuali.
Esempio
della
relazione
fra
incremento
percentuale dei prezzi e variazione percentuale della domanda che ne
consegue.
Si prospettano tre possibilità:
1. X logaritmica e Y non logaritmica.
2. X non logaritmica e Y logaritmica.
3. X logaritmica e Y logaritmica.
X logaritmica e Y non logaritmica
Il modello di regressione in questo caso è detto modello linearelogaritmico:
Yi = β 0 + β1 ln ( X i ) + ε i
i = 1,...,n
In questo modello il coefficiente di regressione si interpreta come
segue:
6
ad una variazione di X dell’1% è associata una variazione di Y pari a
0 ,01 ⋅ β1 .
I coefficienti possono essere stimati con gli OLS e valgono le usuali
procedure di verifica della ipotesi e di costruzione degli intervalli di
confidenza.
Tornando all’esempio della relazione fra il reddito e il punteggio nel
test dei distretti della California, questo modello può essere
un’alternativa alla regressione quadratica:
(Esempio tratto dal cap. 8 del libro di testo “Introduzione all’econometria”, J.H. Stock e M.W.
Watson, 2009, Pearson Education)
7
La scelta fra le due specificazioni può essere guidata dall’ R 2 .
Y logaritmica e X non logaritmica
In questo caso il modello è detto log-lineare:
ln (Y )i = β 0 + β1 X i + ε i
i = 1,...,n
In questo modello il coefficiente di regressione può essere interpretato
come segue:
ad una variazione unitaria di X è associata una variazione del
100 ⋅ β1% di Y.
I coefficienti possono essere stimati con gli OLS e valgono le usuali
procedure di verifica della ipotesi e di costruzione degli intervalli di
confidenza.
Esempio della relazione fra età (X) e retribuzioni (Y) di un insieme di
lavoratori. Molti contratti di impiego specificano che, per ogni anno di
servizio aggiuntivo, un lavoratore ha diritto a un certo incremento
percentuale del proprio salario.
8
Supponiamo che i risultati della stima OLS siano (standard error delle
stime fra parentesi):
lnˆ (Y )i = 2 ,655 + 0 ,0086 X i
( 0,019 ) ( 0,0005)
Diremmo che le retribuzioni crescono mediamente dell’0,86% per ogni
anno d’età in più.
Y e X entrambe logaritmiche
In questo caso il modello è detto log-log:
ln (Y )i = β 0 + β1 ln ( X i ) + ε i
i = 1,...,n
In questo modello il coefficiente di regressione può essere interpretato
come segue:
ad una variazione di X dell’1% è associata una variazione di Y del
β1% : quindi in questo caso β1 è l’elasticità di Y rispetto ad X.
9
β1 =
∆Y Y
∆X X
I coefficienti possono essere stimati con gli OLS e valgono le usuali
procedure di verifica della ipotesi e di costruzione degli intervalli di
confidenza.
Se, ad esempio, stimato questo modello sui dati della relazione fra
reddito (X) e punteggio nel test (Y) dei distretti, si ottenessero i
seguenti risultati (standard error delle stime fra parentesi):
lnˆ (Y )i = 6 ,336 + 0 ,0554 ln ( X i )
( 0,006 ) ( 0,0021)
Diremmo che un incremento del reddito dell’1% corrisponde ad un
incremento medio dello 0,0554% del punteggio del test.
Come confrontare le tre specificazioni logaritmiche
Possiamo usare R 2 per confrontare modelli che hanno la stessa
variabile dipendente come, ad esempio, il modello log-lineare e il
modello log-log, la regressione lineare e la regressione logaritmica.
Ciò deriva dalla definizione dell’ R 2 …….
10
Mentre per la scelta fra specificazioni la cui variabile dipendente è
diversa possono venire in aiuto la teoria economica e l’esperienza.
Importante: se si è stimato un modello la cui variabile dipendente è
stata trasformata con i logaritmi si può prevedere ln(Y) a partire dal
modello, mentre è molto più complicato prevedere un valore per Y.
Infatti, se consideriamo il modello di regressione log-lineare e
applichiamo la funzione inversa del logaritmo, l’esponenziale, ad
ambo i lati del modello:
Yi = exp ( β 0 + β1 X i + ε i ) = e β0 + β1X i eε i
Il cui valore atteso è:
( )
E (Y )i = e β0 + β1X i ⋅ E eε i
ˆ
ˆ
Se si prevede Y calcolando semplicemente Ŷi = e β0 + β1X i , questo valore
( )
è distorto a causa dell’omissione del fattore E eε i che è diverso da 1.
Interazioni fra variabili indipendenti
Consideriamo tre casi:
11
1. interazione fra due variabili dummy;
2. interazione fra una dummy ed una variabile continua;
3. interazione fra due variabili continue.
Interazione fra due variabili dummy
Supponiamo che le retribuzioni di un insieme di lavoratori possano
dipendere dal genere e dal fatto di essere o meno laureati,
rappresentati da due dummy, D1 e D2 :
Yi = β 0 + β1 D1i + β 2 D2i + ε i
Ma il valore del titolo di studio sul mercato del lavoro potrebbe essere
diverso fra maschi e femmine: potrebbe esserci un’interazione fra il
genere e il titolo di studio.
Allora potremmo aggiungere come variabile esplicativa il prodotto fra
le due dummy:
Yi = β 0 + β1 D1i + β 2 D2i + β3 ( D1i ⋅ D2i ) + ε i
12
In questo modo l’effetto della variazione di una delle due dummy
dipende dal valore dell’altra.
Come diventa il valore atteso di Y per:
- i maschi laureati?
- le femmine laureate?
- i maschi non laureati?
- le femmine non laureate?
Interazione fra una variabile continua ed una variabile dummy
Supponiamo ora che le retribuzioni possano dipendere dal possesso
o meno della laurea (D) e dagli anni di esperienza lavorativa
dell’individuo (X):
Yi = β 0 + β1 X i + β 2 Di + ε i
Possiamo supporre che l’effetto di un anno aggiuntivo di esperienza
lavorativa differisca fra laureati e non laureati. Per tener conto di ciò
aggiungiamo un termine d’interazione al modello:
Yi = β 0 + β1 X i + β 2 Di + β 3 ( X i ⋅ Di ) + ε i
13
Questa specificazione dà luogo a diverse rette di regressione che
legano Y e X a seconda del valore assunto da D. Infatti, come diventa
il valore atteso di Y per:
- i laureati?
- i non laureati?
In questo caso non cambiano solo le intercette delle rette ma anche le
pendenze.
Oppure la dummy indicante il titolo di studio potrebbe comparire solo
nel termine di interazione:
Yi = β 0 + β1 X i + β 3 ( X i ⋅ Di ) + ε i
In questo caso le rette hanno pendenze diverse ma stessa intercetta.
14
(Esempio tratto dal cap. 8 del libro di testo “Introduzione all’econometria”, J.H. Stock e M.W.
Watson, 2009, Pearson Education)
Interazione fra due variabili continue
Supponiamo che le retribuzioni possano dipendere dal numero di anni
di esperienza lavorativa (X1) e dal numero di anni di frequenza
scolastica (X2).
Yi = β 0 + β1 X 1i + β 2 X 2i + ε i
15
Supponiamo che l’effetto sulle retribuzioni di un anno addizionale di
esperienza lavorativa possa dipendere dal numero di anni di
istruzione. Aggiungiamo il prodotto delle due variabili fra le esplicative:
Yi = β 0 + β1 X 1i + β 2 X 2i + β 3 ( X 1i ⋅ X 2i ) + ε i
In questo caso l’effetto su Y di una variazione in X1 tenendo costante
X2 è:
∆Y
= β1 + β 3 X 2
∆X 1
Cioè dipende da X2: l’effetto sulle retribuzioni di un anno in più di
esperienza lavorativa varia di un ammontare pari a β 3 per ogni anno
in più di istruzione posseduta.
Lo stesso ragionamento vale per l’effetto su Y di una variazione in X2
tenendo costante X1.
Pertanto il coefficiente β 3 si interpreta come l’effetto aggiuntivo di un
incremento unitario di X1 e X2, che si somma all’effetto individuale di
un incremento unitario in X1 da sola e in X2 da sola.
16
Ad esempio, supponendo di aver stimato il seguente modello in cui Y
rappresenta le retribuzioni in migliaia di euro, X1 gli anni di esperienza
lavorativa e X2 gli anni di istruzione, si interpretino i risultati ottenuti
dalla stima OLS dei coefficienti, nell’ipotesi che siano tutti significativi:
Yi = 1,721 + 0 ,023 X 1i + 0 ,021X 2i + 0 ,003 ( X 1i ⋅ X 2i )
17
Scarica

Come modellare funzioni di regressione non lineari