Problemi di copertura e gestione della qualità dei dati in Whip Roberto Quaranta * *contatti http://sites.carloalberto.org/quaranta/ Problemi di copertura e gestione della qualità dei dati in Whip WHIP è una banca dati di storie lavorative. Permette di studiare i fenomeni socio-economici legati al mercato del lavoro. 20% Tempi di rientro nell’occupazione dipendente Italia 15% 45% 20% Rientro immediato 2-6 mesi 7-12 mesi Più di un anno 16 Transizioni tra lavoro dipendente e altre gestioni Individui sopra i 50 anni 14 12 10 8 6 4 2 0 1990 1991 Dipendente 1992 1993 1994 Mobilità e disoccupazione 1995 Autonomo 1996 Pensione 0,90 0,80 Turnover, tassi di associazione, separazione e gwt negli anni 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 1987 1988 Gwt 1989 1990 1991 Tass 1992 1993 1994 Tsep 1995 1996 1997 1998 Gwt pop standard 1999 Per far questo è importante affrontare e definire il tipo di copertura e la gestione della qualità dei dati • definire bene di chi e di quali storie lavorative stiamo parlando • garantire un’informazione coerente e allo stesso tempo che permetta un utilizzo agevole da parte del ricercatore I dati che permettono la costruzione di WHIP sono di natura amministrativa e provengono dall’INPS. I dati che ci vengono forniti non sono raccolti per scopi di ricerca ma per scopi gestionali e amministrativi. Chi è presente è definito per legge, le leggi possono cambiare. Le informazioni contenute sono stabilite da normative, circolari... Non tutte le informazioni raccolte servono agli scopi amministrativi e gestionali WHIP da dove nasce... La fonte originaria dei dati è costituita dagli archivi amministrativi dell’Inps, dai quali viene estratto un ampio campione casuale di record (1/90). le informazioni presenti riguardano gli individui che nell’arco della loro vita lavorativa e di pensionamento hanno avuto rapporti con Inps. … perché hanno versato contributi per la pensione … perché percepiscono delle prestazioni pensionistiche (trattamenti diretti, assegni di invalidità …) e non pensionistiche (sussidio di disoccupazione, mobilità …) WHIP contiene... Adesso... • Episodi di lavoro parasubordinato • Episodi di disoccupazione (sussidiate) • Episodi di mobilità • Episodi di lavoro dipendente nel settore privato • Attività di lavoro autonomo (artigiano e commerciante) • Episodi di pensionamento erogate dall’Inps In futuro... • Episodi di LSU (lavori socialmente utili) • CIG • Casellario delle pensioni Mancano ... • Gli episodi lavorativi da dipendente pubblico • quasi tutti gli agricoli • Gli episodi lavorativi da liberi professionisti dotati di una cassa previdenziale autonoma (notai, avvocati, ...) La banca dati WHIP deve permettere di effettuare delle analisi socio-economiche, per fare questo si deve fare in modo che l’oggetto che si vuole studiare sia ben definito. La banca dati deve essere costruita da un campione rappresentativo dell’“oggetto” d’analisi. Per fare questo si deve passare da una popolazione Inps ad una popolazione adatta ad indagini di tipo statistico – economico si devono armonizzare le informazioni in particolare le informazioni che riguardano i lavoratori dipendenti Perché non tutti presenti in INPS restringendo il nostro interesse al settore PRIVATO non agricolo. Uniformiamo i dati prendendo solo alcuni settori (Ateco81). Non consideriamo: Settore Agricolo e ... 91 Enti e aziende pubbliche 92 Servizi d'igiene pubblica ed amministrazione di cimiteri 93 Istruzione 95 Sanità e servizi veterinari 96 Altri servizi sociali Pubblicazione rapporti di lavoro ricostruiti Periodo 1985 – 1999 RL ricostruiti RL presenti in WHIP 702.125 544.219 Eliminati circa il 22% Enti ed imprese con prestazioni pensionistiche alternative e/o sostitutive all’INPS Ente FS (ferrovie dello stato) presenti anche nell’INPS nel campo di osservazione n. dipendenti (assicurati) NO SI 125.848 (31.12.95) NO (SI solo contratti a tempo determinato) SI 189.016 (31.12.95) ANAS (confluita nella CTRS INPDAP dal 1996) NO, (Si solo i nuovi assunti dal 1997) SI 9.261 (31.12.96) INPGI (Giornalisti) SI - assicurati per fondi minori SI 11.019 (31.12.96) INPDAI (dirigenti di aziende industriali) SI - assicurati per fondi minori SI 118.267 (31.12.96) Fondo nazionale previdenza impiegati imprese di spedizione e agenzie marittime IPSMA) SI - assicurati per fondi minori SI 40.356 (31.12.96) in parte assicurati per fondi minori NO 155.500 (31.12.96) NO SI IPOST (istituto postelegrafonici) ENPALS (lavoratori dello spettacolo) Altri Enti di minore dimensione (*) 300 circa ENPAIA, Ente naz. prev. Addetti impiegati agricoli NO NO 31.611 (31.12.96) ENAV, Ente nazionale di assistenza al volo NO, Si solo i nuovi assunti dal 1997, il resto Tesoro SI 3.100 (31.12.97) ? SI 681 (31.12.96) Fondo previdenza personale INA INPDAP-INS (asilo e scuole elementari NO NO 21.700 (31.12.96) parificate) Documento ISTAT: “L'utilizzo dei dati INPS per la stima trimestrale del numero dei dipendenti, le retribuzioni, il costo del lavoro e le ore lavorate” Gestione della qualità dei dati e successiva pubblicazione La gestione della qualità è eseguita in due fasi: IN ENTRATA - ricezione e lavorazione dei dati si raccolgono: • • • • informazioni sugli archivi e sulle variabili informazioni normative e altro informazioni sulle codifiche dei dati individuazione dati mancanti e/o scorretti e gestiscono le informazioni mancanti e quelle scorrette IN USCITA - fase di pubblicazione • si ricodificano le informazioni, le informazioni mancanti e/o scorrette • si integrano, si correggono o si evidenzia che l’informazione è mancante L’analisi di qualità dei dati ricevuti e la ricodifica delle informazioni La procedura di costruzione di WHIP può esser vista come una scatola nera che prende in input gli archivi forniti da Inps, li elabora, e restituisce come risultato degli archivi che rispondono a finalità di analisi statistico-economica. Le operazioni fondamentali della procedura sono: • • • • La normalizzazione, pulizia e ricodifica L'identificazione longitudinale delle imprese L'identificazione longitudinale dei rapporti di lavoro Il consolidamento dei record contributivi in dati annui dei rapporti di lavoro Inputs Archivi forniti da Inps Outputs ricezione dei dati raccolta documentazione analisi qualità dei dati documentazione on line ricodifica delle informazioni identificazione longitudinale delle imprese identificazione longitudinale dei rapporti di lavoro archivio di storie lavorative Normalizzazione, pulizia e ricodifica Le Istruzioni di compilazione dei moduli Inps Le Circolari Inps I CUD e la normativa ricezione degli archivi sorgente raccolta documentazione analisi qualità dei dati ricodifica delle informazioni Personale INPS Codifica Correzione Ricodifica L’analisi di qualità dei dati ricevuti ricodifica delle informazioni archivi sorgente Gestiamo: • valori mancanti • codici non riconosciuti codifiche Esempi di correzione e ricodifica Variabile: Qualifica Inps (originale) Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 84074 54.63 84074 54.63 2 51767 33.64 135841 88.26 3 1529 0.99 137370 89.25 4 413 0.27 137783 89.52 5 7102 4.61 144885 94.14 6 722 0.47 145607 94.61 7 288 0.19 145895 94.79 8 252 0.16 146147 94.96 9 2 0.00 146149 94.96 D 2 0.00 146151 94.96 O 3681 2.39 149832 97.35 R 106 0.07 149938 97.42 S 1 0.00 149939 97.42 T 1 0.00 149940 97.42 W 829 0.54 150769 97.96 X 3 0.00 150772 97.96 Y 3136 2.04 153908 100.00 Valori missing 493 Qualifica Inps (ricodificata) codifica variabile, ricodifica e segnalazione informazioni mancanti e non corrette Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 8454 5.49 153907 100.00 2 88477 57.49 88477 57.49 3 55445 36.02 143922 93.51 5 1531 0.99 145453 94.51 1 0.00 153908 100.00 ood missing 493 Correzione mesi retribuiti Tipo correzione N dicembrini Tipo correzione N totale 1985 dicembrini 319 mm_retribuiti 577 896 1986 dicembrini 302 mm_retribuiti 708 1.010 1987 dicembrini 324 mm_retribuiti 1014 1.338 1988 dicembrini 361 mm_retribuiti 1319 1.680 1989 dicembrini 286 mm_retribuiti 1057 1.343 1990 dicembrini 330 mm_retribuiti 1466 1.796 1991 dicembrini 319 mm_retribuiti 1800 2.119 1992 dicembrini 248 mm_retribuiti 1271 1.519 1993 dicembrini 256 mm_retribuiti 1087 1.343 1994 dicembrini 210 mm_retribuiti 1983 2.193 1995 dicembrini 203 mm_retribuiti 2462 2.665 1996 dicembrini 185 mm_retribuiti 2816 3.001 1997 dicembrini 223 mm_retribuiti 3149 3.372 1998 dicembrini 183 mm_retribuiti 883 1.066 1999 dicembrini 207 mm_retribuiti 425 632 Correzione codice contratto anno osservazioni imputazioni 1985 102504 140.6‰ 1986 109522 138.8‰ 1987 117866 195.6‰ 1988 122306 180‰ 1989 125941 109.8‰ 1990 129447 128.2‰ 1991 129071 111.2‰ 1992 127273 112.8‰ 1993 120075 124.6‰ 1994 118772 123.8‰ 1995 121203 122.6‰ 1996 122346 131.2‰ 1997 122523 112.4‰ 1998 125272 133.8‰ 1999 132009 114.8‰ Correzione Inquadramento anno osservazioni imputazioni 1985 102504 406.6‰ 1986 109522 377.8‰ 1987 117866 378.8‰ 1988 122306 371.6‰ 1989 125941 389.2‰ 1990 129447 371.6‰ 1991 129071 379.8‰ 1992 127273 375.6‰ 1993 120075 369.0‰ 1994 118772 378.6‰ 1995 121203 380.6‰ 1996 122346 377.0‰ 1997 122523 364.6‰ 1998 125272 332.6‰ 1999 132009 313.0‰ Inquadramento: Situazione iniziale Valori originali Frequenze ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 7 0.45 7 0.45 00 1 0.06 8 0.52 000 2 0.13 10 0.64 0000 1 0.06 11 0.71 0002 4 0.26 15 0.97 0003 5 0.32 20 1.29 0004 1 0.06 21 1.35 0007 1 0.06 22 1.42 001 11 0.71 33 2.13 002 4 0.26 37 2.38 07 1 0.06 101 6.51 1 51 3.29 152 9.79 1 / 3 0.19 155 9.99 1 L 1 0.06 156 10.05 10 2 0.13 158 10.18 11 3 0.19 161 10.37 1150 1 0.06 162 10.44 12 2 0.13 164 10.57 130 1 0.06 165 10.63 14 1 0.06 166 10.70 160 1 0.06 167 10.76 18 1 0.06 168 10.82 198 1 0.06 169 10.89 1^ 2 0.13 171 11.02 1^LI 1 0.06 172 11.08 2 375 24.16 547 35.24 2 GR 1 0.06 548 35.31 2 L 4 0.26 552 35.57 2 LI 3 0.19 555 35.76 ancora... 2 LV 2' 2'L. 2. 2.L 2/L 20 25 254 2B 2D 2L 2LIV 2O 2^ 2^L D D2 DIR DIR. DOM E/2 EP II IM.5 L L.2 L.4 L.DO L3 L4 L5 L6 LD LV3 OP. QD V 1 2 1 17 1 5 8 1 1 1 2 38 12 1 3 3 8 1 1 1 1 2 1 2 1 2 3 1 1 5 1 5 1 3 1 1 1 1 0.06 0.13 0.06 1.10 0.06 0.32 0.52 0.06 0.06 0.06 0.13 2.45 0.77 0.06 0.19 0.19 0.52 0.06 0.06 0.06 0.06 0.13 0.06 0.13 0.06 0.13 0.19 0.06 0.06 0.32 0.06 0.32 0.06 0.19 0.06 0.06 0.06 0.06 556 558 559 576 577 582 590 591 592 593 595 633 645 646 649 652 1516 1517 1518 1519 1520 1522 1523 1525 1526 1528 1531 1532 1533 1538 1539 1544 1545 1548 1549 1550 1551 1552 35.82 35.95 36.02 37.11 37.18 37.50 38.02 38.08 38.14 38.21 38.34 40.79 41.56 41.62 41.82 42.01 97.68 97.74 97.81 97.87 97.94 98.07 98.13 98.26 98.32 98.45 98.65 98.71 98.78 99.10 99.16 99.48 99.55 99.74 99.81 99.87 99.94 100.00 Risultato finale Valori Frequenze % V. cumulati % ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 76 5.17 76 5.17 2 520 35.35 596 40.52 3 407 27.67 1003 68.18 4 180 12.24 1183 80.42 5 162 11.01 1345 91.43 6 66 4.49 1411 95.92 7 51 3.47 1462 100.00 Missing 105 Correzione Retribuzione Numero di correzioni fatte su ogni anno o1m_1985 retribuzione 4 o1m_1986 retribuzione 2 o1m_1987 retribuzione 7 o1m_1988 retribuzione 1 o1m_1989 retribuzione 2 o1m_1990 retribuzione 1 o1m_1991 retribuzione 0 o1m_1992 retribuzione 0 o1m_1993 retribuzione 3 o1m_1994 retribuzione 1 o1m_1995 retribuzione 2 o1m_1996 retribuzione 0 o1m_1997 retribuzione 3 o1m_1998 retribuzione 202 o1m_1999 retribuzione 134 Sembrano poche correzioni Correzione Retribuzione 1997 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 22.118 21.349 1062.980 comp_altre 3.514 6.025 641.240 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1998 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 39.284 1.488.292 504.035.062 comp_altre 6.702 130.853 16.836.674 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1999 Variabile media Std Dev Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ comp_correnti 28.304 964.855 234.219.252 comp_altre 4.665 293.959 117.575.969 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ L’analisi di qualità dei dati pubblicati In fase di pubblicazione vengono eseguiti ulteriori controlli: • sui dati mancanti • sui dati scorretti ... Correzioni meno consistenti • Provincia di lavoro Anno Imputazioni 1986 0.02% 1987 0.02% 1988 0.06% ... e più consistenti: Correzione codice contratto anno osservazioni missing imputazioni 1985 102504 79.2‰ 140.6‰ 1986 109522 77.8‰ 138.8‰ 1987 117866 73.8‰ 195.6‰ 1988 122306 67.6‰ 180.0‰ 1989 125941 47.8‰ 109.8‰ 1990 129447 67.8‰ 128.2‰ 1991 129071 59.8‰ 111.2‰ 1992 127273 62.8‰ 112.8‰ 1993 120075 51.8‰ 124.6‰ 1994 118772 41.4‰ 123.8‰ 1995 121203 35.6‰ 122.6‰ 1996 122346 41.0‰ 131.2‰ 1997 122523 43.4‰ 112.4‰ 1998 125272 30.4‰ 133.8‰ 1999 132009 33.0‰ 114.8‰ Correzione Inquadramento anno osservazioni missing imputazioni 1985 102504 132.2‰ 406.6‰ 1986 109522 131.0‰ 377.8‰ 1987 117866 135.0‰ 378.8‰ 1988 122306 119.8‰ 371.6‰ 1989 125941 119.6‰ 389.2‰ 1990 129447 121.4‰ 371.6‰ 1991 129071 116.6‰ 379.8‰ 1992 127273 112.6‰ 375.6‰ 1993 120075 99.2‰ 369.0‰ 1994 118772 86.2‰ 378.6‰ 1995 121203 78.8‰ 380.6‰ 1996 122346 85.6‰ 377.0‰ 1997 122523 83.0‰ 364.6‰ 1998 125272 70.2‰ 332.6‰ 1999 132009 68.2‰ 313.0‰ L'identificazione longitudinale delle imprese e delle trasformazioni societarie Serve per poter avere dati di impresa affidabili (e di conseguenza anche per poter identificare i rapporti di lavoro) E’ necessaria perché WHIP ha una dimensione longitudinale che è ben superiore al numero di anni (cinque) per i quali l'Inps costruisce i record dell'Osservatorio delle Imprese, dal quale è estratto il campione oggetto di fornitura. Tra edizioni successive dell'Osservatorio possono cambiare i codici identificativi delle imprese, e può cambiare la composizione stessa dell'impresa per scorpori, fusioni e altre trasformazioni societarie. L'identificazione longitudinale dei rapporti di lavoro Non esistendo una relazione uno a uno tra gli episodi di contribuzione dichiarati e rapporti di lavoro instaurati dalla persona (la relazione è del tipo molti a molti). Non è registrata esplicitamente una data di inizio del rapporto di lavoro, e la data di cessazione - seppur presente - è di qualità carente, sia in termini di valori missing che di valori scorretti Impatto della ricostruzione sulla identificazione dei rapporti di lavoro Periodo 1985 - 1999 RL ricostruiti Ricuciture 702.125 82.055 (almeno * 2 rl) 1 - passaggio diretti in un intervallo breve - 76% di cui il 40% nella stessa impresa, 10% nella stessa posizione, 50% è un flusso spurio 2 – uguale al 1 ma con intervallo maggiore senza altri rapporti di lavoro - 10% (il 99% nella stessa impresa) 3 - buchi dicembre-gennaio - 10% (il 99% nella stessa impresa) 4 - militari – 5% (il 99% nella stessa impresa)