Analisi Statistica del Reddito e delle Condizioni di Vita Capitolo 3 Povertà a livello locale Concetti introduttivi - Modelli con effetti casuali di area - Poverty mapping - Metodo Empirica Best per la stima di misure di povertà tradizionali e Fuzzy per piccole aree* -Applicazioni e sviluppi * Questo paragrafo costituisce un approfondimento. 2 Concetti introduttivi - 1 • La stima per piccole aree rappresenta uno strumento molto utile quando si deve misurare la povertà e la disuguaglianza a livello regionale, ma i dati campionari sono disponibili solo a livello nazionale. In questo caso sono necessarie tecniche statistiche e metodologie economiche per utilizzare informazioni ausiliarie. • Il termine piccola area può essere riferito (Rao, 2003) sia ad aree geografiche di piccole dimensioni, sia a domini formati da subpopolazioni definite sulla base di particolari caratteristiche demografiche o sociali. 3 Concetti introduttivi - 2 • In letteratura sono classificati come modelli per piccole aree quei modelli che utilizzano informazioni ausiliarie disponibili a livello di piccola area e a livello di singola unità campionaria (nucleo familiare o individuo). • Esiste una vasta gamma di tecniche di stima per piccole aree, e si tratta di un ambito di ricerca in continua espansione. L’adattabilità e l’efficienza di una tecnica rispetto ad un’altra, varia a seconda della specificità delle situazioni e della natura dei dati a disposizione. 4 Concetti introduttivi - 3 • • • • I metodi di stima per piccole aree possono essere classificati secondo il tipo di inferenza in tre gruppi: i) metodi basati sul disegno (o campionari); ii) metodi assistiti da modello; iii) metodi basati sul modello (approccio predittivo). 5 Concetti introduttivi - 4 • • Per i metodi del gruppo (i) il parametro di interesse viene stimato utilizzando i procedimenti campionari classici basati sulla distribuzione di probabilità indotta dal disegno di campionamento. Con questo metodo il parametro è pensato come una costante e gli stimatori sono corretti rispetto al disegno di campionamento applicato. La loro variabilità però, cresce al diminuire della numerosità del campione e può accadere che nessuna unità campionaria sia presente nella piccola area, impedendo così di ottenere una stima del parametro di interesse di piccola area. Questa classe è composta solo da metodi diretti, e ne fanno parte gli stimatori classici, tra i quali il più utilizzato è quello di Horvitz e Thompson. 6 Concetti introduttivi - 5 • • Per i metodi del gruppo (ii) l’inferenza è basata sul disegno e sul modello. L’obiettivo è quello di ottenere stimatori corretti indipendentemente dalla scelta del modello, sfruttando le informazioni derivanti dal disegno campionario. Questa classe è formata dallo stimatore diretto di regressione e da molti altri indiretti, tra i quali gli stimatori sintetici e quelli combinati. 7 Concetti introduttivi - 6 • • • Per i metodi del gruppo (iii) l’aspetto rilevante è costituito dal fatto che il parametro oggetto di studio non è pensato come una costante, ma come una variabile casuale. Appartengono a questa categoria i modelli di piccola area (Small Area Models). Questi modelli prevedono la presenza di effetti casuali di area (Area Level Random Effects Model, Fay e Herriot, 1979), che vengono utilizzati quando l’informazione ausiliaria è disponibile solo a livello di area. 8 Modelli con effetti casuali di area - 1 • Come già anticipato, questi modelli possono essere utilizzati quando l’informazione ausiliaria esiste allo stesso livello di disaggregazione territoriale per il quale devono essere calcolati gli indici di povertà e disuguaglianza. • Questi modelli collegano i parametri di interesse alle variabili ausiliarie a livello di piccole aree, considerando gli effetti casuali indipendenti. Il modello base include gli effetti casuali specifici di ogni area. Il vettore di p variabili ausiliarie a livello di piccola area è: • x i xi ,1 , xi , 2 ,..., xi , p (5.1) 9 Modelli con effetti casuali di area - 2 • I parametri di interesse θi (totali, medie, proporzioni, eccetera) possono essere così indicati: • (5.2) x z v i i i i • dove i=1,…,m, zi sono costanti positive note, β è il parametro di regressione del vettore px1, m sono le piccole aree e vi sono variabili casuali indipendenti e identicamente distribuite con media 0 e varianza σv2. 10 Modelli con effetti casuali di area - 3 • Inoltre si ipotizza che gli stimatori diretti siano disponibili per le piccole aree, non distorti dal disegno, e che sia valido il seguente modello: • (5.3) ˆ e i i i • dove ei sono gli errori campionari nell’area i, indipendenti, con media 0 e varianza ψi, questo significa che si tratta di stimatori corretti rispetto al disegno. 11 Modelli con effetti casuali di area - 4 • Combinando le equazioni (5.2) e (5.3) riportate sopra, si ottiene il seguente modello lineare ad effetti misti di Fay e Herriot (1979): • ˆi xi zi vi ei (5.4) • Esso considera gli effetti casuali di area vi, gli errori di campionamento ei ed assume la loro indipendenza. • Questo è un caso particolare del modello lineare misto con una struttura della covarianza diagonale, così come la maggior parte dei modelli di stima per piccole aree suggeriti in letteratura. 12 Stimatore BLUP e EBLUP • Utilizzando i risultati generali del modello lineare ad effetti fissi e casuali si può determinare il predittore ottimo lineare e corretto, BLUP (Best Linear Unbiased Predictor) per il modello di stima per piccole aree a livello di area per θi: • ˆi iˆi 1 i xi ˆ (5.5) • dal quale si deduce che esso è una media ponderata dello stimatore diretto ˆi e dello stimatore sintetico di regressione xi ̂ , dove ˆ è lo stimatore BLUE (Best Linear Unbiased 13 Estimator) di β. Poverty mapping - 1 Questa metodologia, facente parte delle metodologie di stima per piccole aree, combina le informazioni censuarie e quelle campionarie per produrre delle mappe disaggregate a livello territoriale. Queste mappe sono necessarie per descrivere la distribuzione spaziale della povertà e della disuguaglianza in un paese; non si tratta però esclusivamente di mappe, ma di database ad alta disaggregazione. 14 Poverty mapping - 2 • La procedura è più impegnativa rispetto al metodo EBLUP per quanto riguarda i dati che sono necessari (dati censuari a livello micro), benché non sia richiesto un abbinamento tra i dati censuari e campionari a livello di micro disaggregazioni. • L’idea di base è quella di stimare un modello di regressione lineare con le componenti della varianza a livello locale (small area), utilizzando le informazioni provenienti dai campioni più piccoli, le informazioni aggregate dei censimenti, e dove possibile, integrarle con altre fonti. 15 Poverty mapping - 3 • La variabile dipendente del modello di regressione è costituita dal reddito disponibile familiare o dal consumo. La stima della distribuzione di queste variabili può essere utilizzata per generare la distribuzione in ogni sottopopolazione censuaria, condizionata alle caratteristiche osservate nella sottopopolazione stessa. • Dalla stima della distribuzione di una variabile monetaria nei dati censuari, o in ogni sottopopolazione, può essere fatta una stima delle misure di povertà o di ineguaglianza. • Per valutare la precisione delle stime è necessario che gli errori standard di queste misure siano calcolati utilizzando le procedure appropriate che vedremo successivamente. 16 Poverty mapping - 4 BASIC IDEA To estimate a linear regression model with local variance components on the LSMS data (the dependent variable is a monetary variable) – ESTIMATION (Stage 1) The distribution of the dependent variable is used to generate the distribution for any subpopulation in the Census conditional to the observed data – IMPUTATION or SIMULATION (Stage 2) 17 Poverty mapping - 5 Stage 1: Estimation The model: it is a linear approximation to the conditional distribution of the logarithm consumption expenditure of household h in cluster c, T T ln y ch E ln y ch | xch u ch xch u ch The error component is specified to allow for a within cluster correlation in disturbances. IMPORTANT: six different models have been estimated. 18 Poverty mapping - 6 Stage 2: Simulation The estimates obtained are applied to the Census data to simulate the expenditure for each household in the Census. 100 simulation has been conducted The simulated values are: T yˆch exp xch c ch ~ The beta coefficients , are drawn from a ̂ with mean multivariate normal distribution and variance covariance matrix equal ̂to the one associated to . 19 Poverty mapping - 7 For the residual, any specific distributional form assumption has been avoided so the residual are drawn directly from the estimated residuals. For each of the simulated consumption expenditure distributions a set of poverty and inequality measures has been calculated. Mean over all the simulations point estimates Standard deviation over all the simulations bootstrapping standard error. 20 Caso di Studio: Albania POVERTY AND INEQUALITY MEASURES The procedure for estimating the poverty and inequality measures has been applied for the whole of Albania and disaggregated at seven levels: a) Rural – urban level; b) The four strata used in sampling the LSMS; c) The six strata for which the linear regression models have been estimated; d) The 12 Prefectures; e) The 36 Districts; f) The 374 Communes/Municipalities; g) The 11 Mini-municipalities in which the city of Tirana is divided. 21 Table 1: Head Count Ratio and Per-capita Consumption: comparison between LSMS and Census Head count Head count Consumption Consumption LSMS Census LSMS Census ALBANIA 25.39 28.60 7,800.82 7,569.67 STRATUM 1 STRATUM 2 STRATUM 3 STRATUM 4 (1.32) (1.28) (117.68) (120.21) 20.60 26.64 8,419.25 8,148.48 (2.22) (1.94) (218.07) (249.18) 25.57 29.49 7,496.12 7,177.76 (2.32) (2.32) (193.63) (222.95) 44.54 40.85 6,168.34 6,181.78 (2.51) (1.60) (149.86) (120.69) 17.82 18.01 9,042.59 8,981.39 (2.06) (1.09) (304.96) (140.85) 22 • THE MAPS • Maps 1,2: Very spatial heterogeneity among Prefectures • Maps 3,4: Low heterogeneity among Districts within the Prefecture to which they belong • Maps 5,6: Heterogeneity among Municipalities within the same District 23 Analysis of the relationship between inequality in the whole Country and inequality within and between its regions • Maps 7,8: 2/3 of the Prefecture have HCR and C significantly different from the National level. • Maps 9,10: less than 20% of the District have HCR and C significantly different from the Prefecture they belong • Maps 11,12: more than 40% of the Municipality have HCR and C significantly different from the District to which they belong 24 Figure 1. Head Count Ratio Figure 2. Per Capita Consumption by Prefectures. 25 Figure 3. Head Count Ratio Figure 4. Per Capita Consumption by District. 26 Figure 5. Head Count Ratio Figure 6. Per Capita Consumption by Municipality. 27 Figure 7. Prefectures Level Head Count Ratio versus Albania Head Count Ratio Figure 8. Prefecture Level Per Capita Consumption versus Albania Per Capita Consumption 28 Figure 9. District Level Head Count Ratio versus Prefecture Level Head Count Ratio Figure 10. District Level Per Capita Consumption versus Prefecture Level Per Capita Consumption 29 Figure 11. Commune Level Head Count Ratio versus District Level Head Count Ratio Figure 12. Commune Level Per Capita Consumption versus District Level Per Capita Consumption 30 Empirical Best* - 1 Consideriamo un vettore casuale y contenente i valori di una variabile casuale per le unità di una popolazione finita tale che y (y 's , y 'r ) dove ys è il subvettore degli elementi campionati e yr il sub-vettore degli elementi non campionati. L’obiettivo è predire il valore di una funzione misurabile reale h(y ) del vettore casuale y usando i dati campionati ys. Il miglior stimatore (BP) di delta è la funzione di ys che minimizza l’errore quadratico medio dello stimatore. Formalmente: (3.1) ˆ B 0 E y ( | y s ) r * Questo paragrafo consiste in un approfondimento 31 Empirical Best - 2 Generalmente, ˆ B dipende da un vettore di parametri non noti theta che può essere sostituito con un opportuno stimatore, ottenendo così un BP empirico di h(y ) (EB). E’ interessante notare che, quando y segue una distribuzione Normale con vettore medio μ Xβ per una matrice nota X, matrice di covarianza positiva V, e la quantità da predire è una funzione lineare di y, allora lo stimatore EB è uguale allo stimatore BLUP visto nella lezione di Lunedì 12 Aprile. 32 Case Study: Small Area Estimation of poverty and inequality measures: EBLUP and R software Gianni Betti SSCU – Kiev, Ukraine 8 April 2010 33 Scope of the presentation • Introduce the problem • Small area estimation techniques • The BLUP and EBLUP • EBLUP at Oblast level in Ukraine • Codes in R software 34 Why small area estimators ? • Sample household surveys as EU-SILC, ECHP and HBS are traditionally designed for performing estimates at National level. • In certain cases, when the sample size is particularly large, the estimates may also be significant at (large) regional level. • However, often the sub-samples are large enough for large regions, but not sufficient for smaller regions. 35 Example of yesterday: Gini coefficent at Oblast level: how large are the standard errors ? 36 Why small area estimators ? • We have taken into account a simpler statistic: • Head Count Ratio: HCR=FGT(0) • Monetary variable: Total “equivalent” consumption expenditure • Equivalence scale: 70-70 Academy of Science 37 Results of direct estimates and standard errors Oblast 1 5 7 12 14 18 21 23 26 32 35 44 46 48 51 53 56 59 61 63 65 68 71 73 74 80 85 AR Crimea Vinnytska Volynska Dnipropetrovska Donetska Zhytomyrska Zakarpatska Zaporizka Ivano-Frankivska Kyivska Kirovogradska Luganska Lvivska Mykolaivska Odeska Poltavska Rivnenska Sumska Ternopilska Kharkivska Khersonska Khmelnytska Cherkaska Chernivetska Chernigivska Kyiv Sevastopil n (1) est (2) se (3) 462 426 287 760 734 326 310 441 300 350 291 566 563 312 393 432 287 315 250 585 319 328 394 237 366 494 94 24,89% 24,30% 47,30% 27,22% 25,58% 34,22% 20,30% 24,39% 20,09% 21,17% 47,09% 29,20% 29,25% 19,81% 38,48% 27,47% 39,28% 29,07% 42,77% 20,59% 32,96% 29,79% 18,37% 29,60% 28,62% 9,63% 2,70% 3,50% 3,38% 5,92% 3,59% 2,85% 6,04% 4,99% 4,04% 3,41% 4,86% 5,05% 3,12% 2,81% 3,53% 4,53% 3,23% 6,02% 5,92% 7,16% 2,28% 4,66% 4,02% 3,72% 4,27% 4,34% 1,63% 3,23% 38 So: small area estimators • Fundamental aspects of our approach • Making the best use of survey data (precise standard errors) • Aggregated information from diverse sources (as administrative registers or other surveys) • Using them in combination – small area estimation 39 Choice of the “Region” - 1 • Oblast level could be the first administrative level of disaggregation • It could be necessary to go further, i.e. to estimate measures at a smaller level • So: how to choose the unit which serves as a “region” ? 40 Choice of the “Region” - 2 Basic choices: • Geographical units based on or defined according to some functional criteria. Example: Labour Market Regions - useful for specific policy purposes; less suited for general use, and for comparisons across regions of the Europe (EU and non EU countries) • Units defined in terms of the urban-rural classification (more elaborate than a simple ‘urban-rural’ dichotomy) - but no agreed criteria as to the definition of Urban-Rural • Units based on administrative/political criteria, specifically NUTS regions Most suited, but must be supplemented by analysis using - other types of units - also by (non-geographical) population subgroups 41 Choice of the “Region” - 3 In the European Union the NUTS classification has been officially chosen by Eurostat The Nomenclature of Territorial Units for Statistics (NUTS) was established by Eurostat more than 30 years ago in order to provide a single uniform breakdown of territorial units for the production of regional statistics for the European Union. 42 Choice of the “Region” - 4 1. 2. 3. 4. 5. 6. Most commonly used for social policy (e.g., National Action Plans/incl) Comparability facilitated by a common framework Exhaustive and non-overlapping coverage of the population Hierarchical structure provides framework for integration of the information across levels Communication: this type of units already widely understood, accepted, and used Data availability – e.g. Eurostat Free Dissemination Database (NewCronos) Links with information from many other sources based on NUTS classification 43 Application to the HCR=FGT(0) Table 1. Covariates available at NUTS1 (OBLAST) level Average monthly wage, hrn 1 Disposable income 2 GDP GDP per capita 2007 3 Activity rate Activity rate for 2008; Males, Females and Total 4 Unemployment rate Unemployment rate 2008; Males, Females and Total 5 Urbanisation Percentage of urban population 6 Population density Population closeness, persons on 1 km2 7 IMR Infant mortality rate 2008; death rate of children under 1 year old 8 HH Size Mean size of household, 2008 9 Turnover Turnover for one person 2008, hrn 10 Youths Percentage of children under 14 years old 11 Elderly people Percentage of people 65 year old and older 44 Performance measures • • • • Table 2 below shows some performance measures of the SAE Model, where three interesting measures are shown: the model parameter gamma (γ). It is the ratio between the model variance and the total variance, and is the share of the weight given to the direct survey estimate in the final composite estimate; the ratio between the EBLUP estimated value and the corresponding direct estimate. This is to check the extent to which the modelling changes the input direct estimates; the ratio between mean square error (MSE) of the EBLUP estimate of the Oblast, and the MSE of direct survey estimate (which in this case is simply the variance, since the estimates are unbiased). This is to check the extent to which the modelling has improved precision of the estimates. 45 Application to the HCR=FGT(0) Table 2. Small area (EBLUP) estimates of at-risk-of-poverty rates for Oblasts Oblast AR Crimea Vinnytska Volynska Dnipropetrovska Donetska Zhytomyrska Zakarpatska Zaporizka Ivano-Frankivska Kyivska Kirovogradska Luganska Lvivska Mykolaivska Odeska Poltavska Rivnenska Sumska Ternopilska Kharkivska Khersonska Khmelnytska Cherkaska Chernivetska 74 Chernigivska 80 Kyiv 85 Sevastopil 1 5 7 12 14 18 21 23 26 32 35 44 46 48 51 53 56 59 61 63 65 68 71 73 n (1) est (2) se (3) gamma est (4) (5) 462 426 287 760 734 326 310 441 300 350 291 566 563 312 393 432 287 315 250 585 319 328 394 237 24,89% 24,30% 47,30% 27,22% 25,58% 34,22% 20,30% 24,39% 20,09% 21,17% 47,09% 29,20% 29,25% 19,81% 38,48% 27,47% 39,28% 29,07% 42,77% 20,59% 32,96% 29,79% 18,37% 29,60% 3,50% 3,38% 5,92% 3,59% 2,85% 6,04% 4,99% 4,04% 3,41% 4,86% 5,05% 3,12% 2,81% 3,53% 4,53% 3,23% 6,02% 5,92% 7,16% 2,28% 4,66% 4,02% 3,72% 4,27% 0,74 0,75 0,50 0,73 0,81 0,49 0,58 0,68 0,75 0,60 0,58 0,78 0,82 0,74 0,63 0,77 0,49 0,50 0,41 0,87 0,62 0,69 0,72 0,66 23,75% 26,79% 43,10% 29,38% 25,02% 34,59% 23,17% 22,91% 22,41% 18,39% 42,42% 29,45% 28,96% 20,34% 36,91% 28,10% 39,23% 27,85% 38,32% 20,43% 30,44% 28,49% 20,23% 28,74% 366 494 94 28,62% 9,63% 2,70% 4,34% 1,63% 3,23% 0,65 0,93 0,77 29,22% 9,56% 4,81% stat_se (6) ratio_est (7)=(5)/(2) ratio_MSE (8)=(6)/(3) 3,36% 3,22% 5,08% 3,43% 2,79% 4,82% 4,80% 3,70% 3,34% 4,52% 4,37% 3,08% 2,73% 3,30% 4,18% 3,16% 5,22% 4,78% 5,86% 2,26% 4,03% 3,59% 3,44% 3,80% 0,95 1,10 0,91 1,08 0,98 1,01 1,14 0,94 1,12 0,87 0,90 1,01 0,99 1,03 0,96 1,02 1,00 0,96 0,90 0,99 0,92 0,96 1,10 0,97 0,96 0,95 0,86 0,96 0,98 0,80 0,96 0,92 0,98 0,93 0,86 0,99 0,97 0,93 0,92 0,98 0,87 0,81 0,82 0,99 0,86 0,89 0,93 0,89 3,94% 1,66% 3,20% 1,02 0,99 1,78 1,02 0,91 1,02 0,99 0,92 46 Comment to the results • • • For what it concerns the weights given to direct estimate (gamma), those are lower for those Oblasts with lower sub-sample sizes. In these cases, the gain in terms of MSE can reach 20% for Oblasts like Zhytomyrska, Sumska and Ternopilska. Moreover, the direct estimates for the City of Sevastopil (2,70%), is considered a too value by any expert in poverty analysis. The final estimate (4,81%) should be a much more unbiased value. Here, the gain in terms of MSE is not large, since the reduction in the original standard error, is compensated by the increase of the real MSE, which is obviously proportional to the magnitude of the estimated measure. 47 Future research • • • • • • Define a smaller disaggregation level compared to Oblast level; Estimate poverty and inequality (direct) measures at that level; Estimate standard errors with Jackknife Repeated Replications (or BRR); Identify variables to be used as regressors in the EBLUP model available for that disaggregation; Perform EBLUP estimates; Evaluate the gain in terms of variance (greater compared to Oblast level). 48