Una “soluzione d’angolo”
Di solito la scelta del consumatore è identificata
dal punto di tangenza tra retta del bilancio e
y2
A
0
B
y1
Una corner solution
curva di indifferenza.
Ma non sempre.
Nella figura, la tangenza
sarebbe nel punto B,
in cui y2 < 0.
Ma un consumo negativo
è impossibile.
Il paniere preferito sulla
retta del bilancio è A,
in cui y2 = 0.
Il modello di Regressione
yi   ' xi   i
E  yi      ' xi
V  yi   
2
Ricordando che:
TRONCAMENTO :
E(x/x>a) =  +  (a) e V(x/x>a) = ²[1- (a)]
CENSURA:
E ( ycens )  ( )  a  1  ( )(    )



Var ( ycens )   2 1  ( ) 1       2 ( )

ATTENZIONE notazione importantissima:
Finora abbiamo considerato distribuzioni con un punto di troncamento a
che viene poi standardizzato sottraendo la media e dividendo per 
Quando consideriamo i modelli di regressione
1. Il punto di troncamento rimane unico
2. Lo scarto rimane unico
Ma….
1. Il valor medio cambia, infatti sappiamo che E(yi) = xi cioè è diverso
per ciascun soggetto
QUINDI il punto (UNICO) di troncamento ha un valore standardizzato
DIVERSO per ciascun individuo e quindi avremo:
i

a   ' xi 


 ( i )
2
i 
 i  i   i i
1   ( i )
Regressione troncata:
yi   ' xi   i
yi  a
E yi / yi  a    ' xi  i
V  yi / yi  a    2 1   i 
Regressione censurata: modello modello Tobin o Tobit
(censura al punto 0)
yi*   ' xi   i
yi  0 se
yi  yi*
se
yi*  a  0
yi*  a  0
E yi cens    i  ' xi  i 




Var ycens    2 1   i  1   i     i  i 
2
Quindi OLS distorti e inconsistenti
Regressione troncata: verosimiglianza
1 
1
2
ln( L)    ln( 2 )  2 ln(  )  2  yi   ' xi   
2 i 



 a   ' xi  
  ln 1   





i

Regressione censurata: verosimiglianza
1 
1
2
ln( L)    ln( 2 )  2 ln(  )  2  yi   ' xi   
2 yi  0 



 a   ' xi  
  ln 1   





yi  0

Regressione troncata: effetto marginale:
  yi 

xi
  yi / y i  a 
  1   i 
xi
Il fattore 1- (che deriva dalla varianza troncata) è compreso tra 0 e
1 quindi per ciascuna variabile l’effetto marginale è MINORE del
corrispondente coefficiente, si verifica una sorta di
ATTENUAZIONE dell’effetto
Questo avviene nella sottopopolazione NON troncata, naturalmente a
volte siamo interessati a tutta la popolazione e quindi guarderemo
semplicemente al coefficiente β che rappresenta l’effetto marginale
nell’intera popolazione
Un risultato utile: abbiamo visto che
yi   ' xi   i
yi  a
E yi / yi  a    ' xi  i
V  yi / yi  a    2 1   i 
Questo implica che:
distorsione
yi / yi  a  E  yi / yi  a    i   ' xi  i   i
con
E  i   0
ma


V  i    2 1  i2  i i   2 1   i 
La varianza contiene le x (incluse nei i) quindi è ETEROSCHEDASTICO
Alcune domande fondamentali:
• Quale variabile è di interesse (cosa vogliamoprevedere)?
– y*? (I non censurati) Probabilmente NO – di solito non rilevante
– y? (la distribuzione latente) Di solito SI, il valore per una unità
scelta a caso dalla popolazione
– y | y>0? Forse. Dipende da ciò che ci interessa
• Qual’è il residuo?
– (y – previsto)? Probabilmente no, come consideriamo
gli zeri?
– (qualcosa - x) ? Probabilmente no. x Non è la media.
• Quindi quali sono gli effetti marginali e le medie
condizionate alle x?
Regressione censurata: effetto marginale con censura a sx nel punto 0

 E ( y *i / x)
xi

   ' xi 
 E ( yi / xi ) 
   

xi
   
 E ( yi / xi ; yi  0) 
  1   i 
xi
Che può essere scomposta in due parti:
 E ( yi / xi ) 
   i  
xi
  i 1  i2  i i    i  i  


 E ( y *i / xi )
  prob( yi  0) 
Pr ob( yi  0)
 E ( y *i / xi )
xi
xi
Si vede così che un cambiamento nelle x ha un DOPPIO effetto:
1. Condiziona la media della parte NON censurata
2. Modifica la prob. di essere censurati
In altri termini l’effetto marginale non è costante, quindi la lettura dei
coefficienti del modello NON è sufficiente.
L’effetto sulle Y di una variazione delle X DIPENDE dal valore delle X,
quindi, ad esempio, è diversa per ogni individuo (perché ha un vettore
di X diverso)
Se vogliamo una indicazione di sintesi rappresentiamo l’effetto delle X
nel “punto medio” o per “l’individuo medio”.
Cioè sostituiamo nelle formule di calcolo
 ' xi
con  ' x
Se il modello ha più esplicativedue possibilità:
1. valutazione effettuata nel punto medio per UN coefficiente, e per
un valore pari a 0 per le altre variabili
2. Valutazione nei punti medi di tutte le variabili, questo ultimo
processo equivale a calcolare la media dei valori stimati individuali,
modificando una sola variabile indipendente
Con lo stesso principio è possibile misurare l’effetto di modificazioni
delle variabili per tipologie di unità .
Lo stesso principio si utilizza per il calcolo dei valori previsti e dei residui:
Il metodo di calcolo dei valori previsti e quindi dei residui
Poiché il modello precede una “mistura” il metodo deve simultaneamente
rendere conto della parte censurata (Ripartizione) e della parte ossservata:
Naturalmente dipende dalla distribuzione ipotizzata a priori:
Per residui normali è:
In sostanza avremo un y=0 per coloro che date le x non superano la soglia
stimata di censura
Esempio di stima:
modello per le ore lavorate da un campione di donne (USA)
Quester e Greene (1982)
Obiettivo: verificare se le le donne il cui matrimonio sta per
dissolversi, tendono a passare più o meno ore al lavoro
Variabile
MLE
stima
Effetto
Marginale
Punto medio
OLS
OLS / % non
censurati
Figli
piccoli
-824.19
-376.53
-352.63
-766.59
Titolo
studio
22.59
10.32
11.47
24.93
Salario
286.39
130.93
123.95
269.46
Secondo
matrimonio
25.33
11.57
13.14
28.57
Bassa prob.
divorzio
481.02
219.75
219.22
476.57
Alta prob.
divorzio
578.66
264.36
244.17
530.80
Esempio 2: Acquisto di carne = f(reddito)
Dati artificiali, censura artificiale
addetti sportelli Osservati addetti sportelli Osservati
777
37
0
1314
125
0
636
43
0
1605
149
0
458
46
0
2280
164
0
605
46
0
2674
194
0
581
48
0
3114
207
0
604
49
0
2299
211
0
577
55
0
3161
234
0
603
55
0
3988
246
0
775
56
0
5890
275
0
660
56
0
4299
310
0
698
61
0
4492
311
0
764
62
0
4853
312
0
630
68
0
3857
377
0
702
72
0
2772
387
0
659
79
0
5081
401
401
1120
81
0
6490
430
430
789
81
0
14437
648
648
1312
88
0
7832
654
654
1510
89
0
11179
672
672
479
89
0
19885
675
675
1147
107
0
13905
810
810
1305
121
0
21340
1181
1181
20612
1286
1286
troncata
Log L
AIC
Intercept
Se
t
sig(t)
Reddito
Se
t
sig(t)
_Sigma
-257,1
520,2
-115,1
60,1
-1,9
0,0553
0,06236
0,00500
12,5
<,0001
130,459
censurata OLS con Ols "Vero" OLS solo
zeri
Osservati
-173,8
353,6
-72,9
36,7
-2,0
0,0468
0,06004
0,00452
13,3
<,0001
153,929
-206,3
418,5
54,3
16,7
3,3
0,0022
0,05037
0,00243
20,7
<,0001
89,833
-198,9
403,8
13,7
19,0
0,7
0,4765
0,05343
0,00277
19,3
<,0001
102,377
-116,4
238,9
101,9
33,9
3,0
0,0063
0,04675
0,00369
12,7
<,0001
114,325
Esempio 2: Sportelli bancari = f(addetti)
Dati effettivi, censura artificiale
1400
1200
1000
800
sportelli
Osservati
OLS vero
600
OLS con zeri
Troncati
censurati
400
200
0
0
-200
5000
10000
15000
20000
25000
Esempio 2: Sportelli bancari = f(addetti)
Zoom sulla parte troncata/censurata
400
300
200
spesa
Osservati
OLS vero
100
OLS con zeri
Troncati
censurati
0
0
-100
-200
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
Osservati (censurati) -previsti
1400
1200
1000
800
previsti
OLS vero
OLS con zer
600
Troncati
censurati
equi
400
200
0
0
-200
200
400
600
800
Osservati censurati
1000
1200
1400
Zoom sulla censura
Osservati (censurati) -previsti
100
80
60
40
previsti
20
-1
OLS vero
OLS con zeri
0
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
Troncati
censurati
-20
-40
-60
-80
-100
Osservati censurati
osservati (veri) - previsti
1400
1200
1000
800
Previsti
OLS vero
OLS con zeri
600
Troncati
censurati
equi
400
200
0
0
-200
200
400
600
800
Osservati non censurati
1000
1200
1400
osservati (veri) - previsti
100
80
60
40
20
Previsti
OLS vero
OLS con zeri
0
30
40
50
60
70
80
90
100
Troncati
censurati
-20
equi
-40
-60
-80
-100
Osservati non censurati
residui
600
400
200
0
0
-200
-400
-600
5000
10000
15000
20000
25000
ols
ols-zeri
trunc
tobin
Eteroschedasticità
Problema, in generale risolto sostituendo nella MLE
 2 con  i2
Naturalmente è necessario specificare una “forma per l’eteroschedasticità
Ad esempio:
 i2   2 exp wi 2
Non normalità stimatore robusto: LAD (Least Absolute Deviation) estimator
Molto complesso
Test di chester e Irish (1987) sui residui generalizzati
Stima con dati panel
= problema ancora aperto
Problema principale sono i processi “double hurdle” con doppia decisione
 Sample selection models
Scarica

Regressione troncata e censurata