Una “soluzione d’angolo” Di solito la scelta del consumatore è identificata dal punto di tangenza tra retta del bilancio e y2 A 0 B y1 Una corner solution curva di indifferenza. Ma non sempre. Nella figura, la tangenza sarebbe nel punto B, in cui y2 < 0. Ma un consumo negativo è impossibile. Il paniere preferito sulla retta del bilancio è A, in cui y2 = 0. Il modello di Regressione yi ' xi i E yi ' xi V yi 2 Ricordando che: TRONCAMENTO : E(x/x>a) = + (a) e V(x/x>a) = ²[1- (a)] CENSURA: E ( ycens ) ( ) a 1 ( )( ) Var ( ycens ) 2 1 ( ) 1 2 ( ) ATTENZIONE notazione importantissima: Finora abbiamo considerato distribuzioni con un punto di troncamento a che viene poi standardizzato sottraendo la media e dividendo per Quando consideriamo i modelli di regressione 1. Il punto di troncamento rimane unico 2. Lo scarto rimane unico Ma…. 1. Il valor medio cambia, infatti sappiamo che E(yi) = xi cioè è diverso per ciascun soggetto QUINDI il punto (UNICO) di troncamento ha un valore standardizzato DIVERSO per ciascun individuo e quindi avremo: i a ' xi ( i ) 2 i i i i i 1 ( i ) Regressione troncata: yi ' xi i yi a E yi / yi a ' xi i V yi / yi a 2 1 i Regressione censurata: modello modello Tobin o Tobit (censura al punto 0) yi* ' xi i yi 0 se yi yi* se yi* a 0 yi* a 0 E yi cens i ' xi i Var ycens 2 1 i 1 i i i 2 Quindi OLS distorti e inconsistenti Regressione troncata: verosimiglianza 1 1 2 ln( L) ln( 2 ) 2 ln( ) 2 yi ' xi 2 i a ' xi ln 1 i Regressione censurata: verosimiglianza 1 1 2 ln( L) ln( 2 ) 2 ln( ) 2 yi ' xi 2 yi 0 a ' xi ln 1 yi 0 Regressione troncata: effetto marginale: yi xi yi / y i a 1 i xi Il fattore 1- (che deriva dalla varianza troncata) è compreso tra 0 e 1 quindi per ciascuna variabile l’effetto marginale è MINORE del corrispondente coefficiente, si verifica una sorta di ATTENUAZIONE dell’effetto Questo avviene nella sottopopolazione NON troncata, naturalmente a volte siamo interessati a tutta la popolazione e quindi guarderemo semplicemente al coefficiente β che rappresenta l’effetto marginale nell’intera popolazione Un risultato utile: abbiamo visto che yi ' xi i yi a E yi / yi a ' xi i V yi / yi a 2 1 i Questo implica che: distorsione yi / yi a E yi / yi a i ' xi i i con E i 0 ma V i 2 1 i2 i i 2 1 i La varianza contiene le x (incluse nei i) quindi è ETEROSCHEDASTICO Alcune domande fondamentali: • Quale variabile è di interesse (cosa vogliamoprevedere)? – y*? (I non censurati) Probabilmente NO – di solito non rilevante – y? (la distribuzione latente) Di solito SI, il valore per una unità scelta a caso dalla popolazione – y | y>0? Forse. Dipende da ciò che ci interessa • Qual’è il residuo? – (y – previsto)? Probabilmente no, come consideriamo gli zeri? – (qualcosa - x) ? Probabilmente no. x Non è la media. • Quindi quali sono gli effetti marginali e le medie condizionate alle x? Regressione censurata: effetto marginale con censura a sx nel punto 0 E ( y *i / x) xi ' xi E ( yi / xi ) xi E ( yi / xi ; yi 0) 1 i xi Che può essere scomposta in due parti: E ( yi / xi ) i xi i 1 i2 i i i i E ( y *i / xi ) prob( yi 0) Pr ob( yi 0) E ( y *i / xi ) xi xi Si vede così che un cambiamento nelle x ha un DOPPIO effetto: 1. Condiziona la media della parte NON censurata 2. Modifica la prob. di essere censurati In altri termini l’effetto marginale non è costante, quindi la lettura dei coefficienti del modello NON è sufficiente. L’effetto sulle Y di una variazione delle X DIPENDE dal valore delle X, quindi, ad esempio, è diversa per ogni individuo (perché ha un vettore di X diverso) Se vogliamo una indicazione di sintesi rappresentiamo l’effetto delle X nel “punto medio” o per “l’individuo medio”. Cioè sostituiamo nelle formule di calcolo ' xi con ' x Se il modello ha più esplicativedue possibilità: 1. valutazione effettuata nel punto medio per UN coefficiente, e per un valore pari a 0 per le altre variabili 2. Valutazione nei punti medi di tutte le variabili, questo ultimo processo equivale a calcolare la media dei valori stimati individuali, modificando una sola variabile indipendente Con lo stesso principio è possibile misurare l’effetto di modificazioni delle variabili per tipologie di unità . Lo stesso principio si utilizza per il calcolo dei valori previsti e dei residui: Il metodo di calcolo dei valori previsti e quindi dei residui Poiché il modello precede una “mistura” il metodo deve simultaneamente rendere conto della parte censurata (Ripartizione) e della parte ossservata: Naturalmente dipende dalla distribuzione ipotizzata a priori: Per residui normali è: In sostanza avremo un y=0 per coloro che date le x non superano la soglia stimata di censura Esempio di stima: modello per le ore lavorate da un campione di donne (USA) Quester e Greene (1982) Obiettivo: verificare se le le donne il cui matrimonio sta per dissolversi, tendono a passare più o meno ore al lavoro Variabile MLE stima Effetto Marginale Punto medio OLS OLS / % non censurati Figli piccoli -824.19 -376.53 -352.63 -766.59 Titolo studio 22.59 10.32 11.47 24.93 Salario 286.39 130.93 123.95 269.46 Secondo matrimonio 25.33 11.57 13.14 28.57 Bassa prob. divorzio 481.02 219.75 219.22 476.57 Alta prob. divorzio 578.66 264.36 244.17 530.80 Esempio 2: Acquisto di carne = f(reddito) Dati artificiali, censura artificiale addetti sportelli Osservati addetti sportelli Osservati 777 37 0 1314 125 0 636 43 0 1605 149 0 458 46 0 2280 164 0 605 46 0 2674 194 0 581 48 0 3114 207 0 604 49 0 2299 211 0 577 55 0 3161 234 0 603 55 0 3988 246 0 775 56 0 5890 275 0 660 56 0 4299 310 0 698 61 0 4492 311 0 764 62 0 4853 312 0 630 68 0 3857 377 0 702 72 0 2772 387 0 659 79 0 5081 401 401 1120 81 0 6490 430 430 789 81 0 14437 648 648 1312 88 0 7832 654 654 1510 89 0 11179 672 672 479 89 0 19885 675 675 1147 107 0 13905 810 810 1305 121 0 21340 1181 1181 20612 1286 1286 troncata Log L AIC Intercept Se t sig(t) Reddito Se t sig(t) _Sigma -257,1 520,2 -115,1 60,1 -1,9 0,0553 0,06236 0,00500 12,5 <,0001 130,459 censurata OLS con Ols "Vero" OLS solo zeri Osservati -173,8 353,6 -72,9 36,7 -2,0 0,0468 0,06004 0,00452 13,3 <,0001 153,929 -206,3 418,5 54,3 16,7 3,3 0,0022 0,05037 0,00243 20,7 <,0001 89,833 -198,9 403,8 13,7 19,0 0,7 0,4765 0,05343 0,00277 19,3 <,0001 102,377 -116,4 238,9 101,9 33,9 3,0 0,0063 0,04675 0,00369 12,7 <,0001 114,325 Esempio 2: Sportelli bancari = f(addetti) Dati effettivi, censura artificiale 1400 1200 1000 800 sportelli Osservati OLS vero 600 OLS con zeri Troncati censurati 400 200 0 0 -200 5000 10000 15000 20000 25000 Esempio 2: Sportelli bancari = f(addetti) Zoom sulla parte troncata/censurata 400 300 200 spesa Osservati OLS vero 100 OLS con zeri Troncati censurati 0 0 -100 -200 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 Osservati (censurati) -previsti 1400 1200 1000 800 previsti OLS vero OLS con zer 600 Troncati censurati equi 400 200 0 0 -200 200 400 600 800 Osservati censurati 1000 1200 1400 Zoom sulla censura Osservati (censurati) -previsti 100 80 60 40 previsti 20 -1 OLS vero OLS con zeri 0 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 Troncati censurati -20 -40 -60 -80 -100 Osservati censurati osservati (veri) - previsti 1400 1200 1000 800 Previsti OLS vero OLS con zeri 600 Troncati censurati equi 400 200 0 0 -200 200 400 600 800 Osservati non censurati 1000 1200 1400 osservati (veri) - previsti 100 80 60 40 20 Previsti OLS vero OLS con zeri 0 30 40 50 60 70 80 90 100 Troncati censurati -20 equi -40 -60 -80 -100 Osservati non censurati residui 600 400 200 0 0 -200 -400 -600 5000 10000 15000 20000 25000 ols ols-zeri trunc tobin Eteroschedasticità Problema, in generale risolto sostituendo nella MLE 2 con i2 Naturalmente è necessario specificare una “forma per l’eteroschedasticità Ad esempio: i2 2 exp wi 2 Non normalità stimatore robusto: LAD (Least Absolute Deviation) estimator Molto complesso Test di chester e Irish (1987) sui residui generalizzati Stima con dati panel = problema ancora aperto Problema principale sono i processi “double hurdle” con doppia decisione Sample selection models