WHIP Work Histories Italian Panel roberto leombruni Laboratorio Revelli e Università di Torino Moncalieri, 5 luglio 2007 Indice della presentazione L’uso di dati amministrativi a fini scientifici Introduzione a Whip Dati e metadati: la “fabbrica” di Whip L’uso di Whip per studi sul mercato del lavoro [ 1/6 ] [ l’uso di dati amministrativi . intro ] L’uso di dati amministrativi a fini scientifici Tre tipi di dati per lo studio dei fenomeni sociali: • Dati survey (field study) • Dati sperimentali • Dati amministrativi (poco diffusi) [ 2/6 ] [ l’uso di dati amministrativi . intro ] Dati survey Dati amministrativi Viene rilevato esattamente il fenomeno di interesse Vengono raccolti a fini amministrativi, e non tutti gli aspetti interessanti per il ricercatore vengono rilevati Alta standardizzazione delle definizioni e delle codifiche a livello internazionale Poco confrontabili a livello internazionale Elevato know how nel loro uso da parte della comunità scientifica Spesso i ricercatori “non sanno usarli” Il fenomeno di interesse viene rilevato solo se c’è una domanda di ricerca Vengono raccolti a prescindere da interessi di ricerca: si può interrogare la storia! Molto costosi, in soldi e response burden scarsa estensione campionaria scarsa profondità temporale Enormemente più economici che qualunque indagine CAPI/CATI [ l’uso di dati amministrativi . intro ] [ 3/6 ] Principali esperienze italiane e internazionali Leader, nonché pionieri, sono la Finlandia e altri paesi nordici. Circa il 96% dei dati raccolti da Statistics Finland ha origine amministrativa. Archivi su tutta la popolazione, che coprono tematiche dal lavoro, alla famiglia, alla salute. Su base campionaria, dati su lavoratori e imprese sono utilizzati per scopi di ricerca ormai nei principali paesi sviluppati, presso gli Istituti nazionali di statistica (es: l’Insee in Francia), gli Istituti previdenziali (es: la SSA negli Stati Uniti), centri di ricerca (ex: lo IAB in Germania). A livello OCSE, importante lavoro della Short-Term Economic Statistics (STES) Taskforce on Administrative Data, per l’armonizzazione e standardizzazione delle metodologie In Italia, oltre a Whip e a panel “cugini” (quali CLAP o il panel Isfol-La Sapienza), sono da citare importanti esperienze per l’analisi di mercati del lavoro locali: . Il progetto Aspo (Archivio statistico provinciale per l’occupazione) . Il progetto AMeRIcA (Anagrafe Milanese e Redditi Individuali) . Il progetto GIOVE (dati dei centri per l’impiego) [ l’uso di dati amministrativi . definizione e sfide ] [ 4/6 ] Definizione di dati amministrativi Secondo la STES Taskforce on Administrative Data i dati amministrativi son definiti dalle seguenti caratteristiche: • L’agente che fornisce i dati all’agenzia statistica e l’unità cui i dati si riferiscono sono di solito diversi, al contrario che nelle indagini survey ( non chiedo direttamente ad A, ma chiedo a B di riferirmi su A); • I dati sono raccolti per un preciso scopo, non statistico, che potrebbe incidere sul trattamento della unità di indagine; • lo scopo è una copertura completa della popolazione; • il controllo dei metodi con cui i dati amministrativi sono raccolti e processati sono in capo alla agenzia amministrativa (e non all’agenzia statistica) ( problema di comunicazione: non so come B abbia “intervistato” A). Aggiungiamo: • L’agente che raccoglie i dati non è estraneo rispetto al fenomeno in esame [ l’uso di dati amministrativi . definizione e sfide ] [ 5/6 ] Sfide, per i produttori di dati amministrativi Sempre secondo la STES, le principali sfide cui si trovano di fronte i produttori di dati amministrativi: • Timeliness (tempestività): i dati amministrativi sono in genere disponibili troppo lentamente perché possano essere usati direttamente per produrre statistiche di breve termine, vale a dire come “termometro” per gli operatori, pubblici e privati; • Qualità: le principali criticalità rispetto alla qualità dei dati riguarda: questioni di definizione sistemi di classificazione utilizzati validazione dei dati; • Copertura informativa: anche se garantiscono una copertura, di solito, sulla intera popolazione oggetto di studio, vengono rilevate solo le variabili pertinenti l’attività gestionale dell’agenzia. La sfida, è quella di recepire nel disegno della raccolta dei dati le esigenze principali degli altri operatori; [ l’uso di dati amministrativi . definizione e sfide ] [ 6/6 ] Sfide, per gli utilizzatori di dati amministrativi La principale sfida cui si trovano di fronte gli utilizzatori di dati amministrativi è quella di sviluppare un know how analogo a quello a disposizione nell’uso dei dati survey. Le principali criticalità: • Problemi di selezione: in una survey la rappresentatività dei dati è garantita dal disegno della rilevazione, e dalle metodologie per svolgere la rilevazione stessa. Su entrambi i punti c’è una amplissima letteratura scientifica, ed esistono standard e metodologie ampiamente condivise. • Mappatura delle informazioni: essendoci una diversità tra l’informazione raccolta (ad esempio: la retribuzione base per il calcolo dei contributi) e l’informazione di interesse per lo studioso (ad esempio: la retribuzione lorda, o costo del lavoro), la prima va mappata nella seconda. • Conversione delle codifiche: una mappatura analoga, anche a parità di variabile osservata, è necessaria tra le codifiche utilizzate nella raccolta, e le codifiche standard utilizzate nella letteratura scientifica [ 1/6 ] [ cos’è WHIP ] WHIP sta per Work Histories Italian Panel microdati che registrano tutti i principali eventi delle storie lavorative individuali lavoro autonomo 1985 lavoro dipendente disoccupazione pensione 2004 [ cos’è WHIP ] [ 2/6 ] Fonte dei dati e copertura campionaria WHIP è basato principalmente su dati amministrativi forniti dall’INPS al Laboratorio Revelli in base a una convenzione tra l’istituto previdenziale e l’Università di Torino. Un’altra fonte importante per Whip sono i dati amministrativi forniti dall’INAIL, in base a una convenzione analoga, relativi agli infortuni sul lavoro e alle malattie professionali. Il campionamento è sistematico, in base a quattro date di nascita. Ne risulta un campione di circa 1:90 individui (4/365), seguiti con grande dettaglio a partire dal 1985, e con minor dettaglio per gli anni precedenti (dato riassuntivo degli Estratti Conto). [ 3/6 ] [ cos’è WHIP ] struttura della banca dati imprese serie dipendenti lavoro dipendente dati annui RL pensioni infortuni / MP individui lavoro autonomo prestazioni sociali anagrafiche episodi dati annuali [ 4/6 ] [ cos’è WHIP ] Come si colloca nel “mercato” delle banche dati statistiche Occupazione e mobilità Retribuzioni Dinamiche di impresa [ cos’è WHIP . I “competitori” ] I principali competitori Rilevazione Trimestrale delle forze di lavoro (Istat) Indagine sui bilanci delle famiglie italiane (Banca d’Italia) Indagine sull’occupazione, gli orari di lavoro e le retribuzioni presso le grandi imprese dell’industria e dei servizi (Istat) Indagine sulle retribuzioni e orari contrattuali (Istat) ...banche dati varie sulle imprese... [ 5/6 ] [ 6/6 ] [ cos’è WHIP . la danza dei sette veli… ] 1999 2000 2001 [ 6/6 ] [ cos’è WHIP . la danza dei sette veli… ] 1999 2000 2001 [ 6/6 ] [ cos’è WHIP . la danza dei sette veli… ] 1999 2000 2001 [ 6/6 ] [ cos’è WHIP . la danza dei sette veli… ] 1999 2000 2001 [ 6/6 ] [ cos’è WHIP . la danza dei sette veli… ] 1999 2000 2001 [ 6/6 ] [ cos’è WHIP . la danza dei sette veli… ] 1999 2000 2001 [ cos’è WHIP . schede ] Rilevazione Trimestrale delle Forze di Lavoro Periodicità Trimestrale Copertura Costituisce la principale fonte statistica sul mercato del lavoro in Italia. Da essa vengono derivate le stime ufficiali a livello aggregato degli occupati e delle persone in cerca di lavoro. L’universo di riferimento dell’indagine è costituito da tutti i componenti delle famiglie residenti in Italia, anche se temporaneamente emigrati all’estero. Sono esclusi i membri permanenti delle convivenze (collegi, convitti, conventi, caserme, ecc.). L'unità di rilevazione è la famiglia di fatto. Questa va intesa come un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da vincoli affettivi, coabitanti ed aventi dimora abituale nello stesso comune (anche se non residenti secondo l’anagrafe nello stesso domicilio). L'indagine viene svolta trimestralmente a gennaio, aprile, luglio e ottobre di ogni anno al fine di cogliere la stagionalità dei fenomeni rilevati. (estratto da www.istat.it) [ cos’è WHIP . schede ] Indagine sui bilanci delle famiglie italiane Periodicità Biennale Copertura L'indagine sui bilanci delle famiglie italiane nasce negli anni '60 con l'obiettivo di raccogliere informazioni sui redditi e i risparmi delle famiglie italiane. Nel corso degli anni l'oggetto della rilevazione si è andato estendendo includendo anche la ricchezza e altri aspetti inerenti i comportamenti economici e finanziari delle famiglie, come ad esempio l'uso dei mezzi di pagamento. Nelle ultime indagini il campione è formato da circa 8.000 famiglie (24.000 individui), distribuite in circa 300 comuni italiani. I risultati dell'indagine vengono regolarmente pubblicati nei Supplementi al Bollettino Statistico della Banca. I dati raccolti presso le famiglie, in forma anonima, sono disponibili gratuitamente per elaborazioni e ricerche. [ cos’è WHIP . schede ] Indagine sull'occupazione, gli orari di lavoro e le retribuzioni presso le grandi imprese dell'industria e dei servizi Periodicità Mensile Copertura I dati vengono diffusi sotto forma di indici (dicembre 2000=100) delle retribuzioni orarie e per dipendente. Essi vengono ricavati dall’indagine sulle imprese con 500 e più addetti del settore industriale (estrazione minerali, attività manufatturiere, energia, gas e acqua e costruzioni) e di quello dei servizi (commercio, alberghi e attività pubbliche, trasporti e comunicazioni, servizi di produzione). L’indice delle retribuzioni lorde per dipendente viene calcolato per le seguenti tre categorie: operai e apprendisti, impiegati e intermedi e totale dei lavoratori (esclusi i dirigenti). La retribuzione lorda considerata comprende tutti i pagamenti, regolari e irregolari, comprensivi dei contributi previdenziali, delle tasse e della liquidazione e al netto dei pagamenti fatti per conto di enti di previdenza sociale. (estratto da www.istat.it) [ cos’è WHIP . schede ] Indagine sulle retribuzioni e orari contrattuali Periodicità Mensile Copertura I dati vengono diffusi sotto forma di indici (dicembre 2000=100) delle retribuzioni orarie e per dipendente. Essi vengono definiti sulla base dei più rappresentativi contratti collettivi nazionali di lavoro e, per i soli settori dell’agricoltura e delle costruzioni, anche utilizzando contratti provinciali. I numeri indice delle retribuzioni contrattuali per dipendente forniscono una misura delle variazioni dei compensi che spetterebbero, nell’arco di un anno, al lavoratore dipendente sulla base dei contenuti dei contratti nazionali di lavoro e della normativa in vigore. La retribuzione viene espressa in forma “mensilizzata”, cioè calcolata come dodicesimo della retribuzione spettante, nell’arco di un anno. Gli indici delle retribuzioni contrattuali prendono a riferimento i rapporti di lavoro dipendente a tempo pieno, senza considerare alcuna detrazione per eventuali periodi di assenza, né altre motivazioni che giustifichino una riduzione dei compensi previsti contrattualmente. (estratto da www.istat.it) [ What is WHIP ] . the source data (1/2) …alcuni pro e contro… l’offerta di dati è consistente: about 700.000 individuals observed; around 1.400 million observations (records per variables) the coverage is wide: INPS administrates pensions and social security benefits of all italian workers but those employed in the public sector, and some categories of professionals working as self-employed. no survey-like attrition: no individuals lost due to missing records... ...but: if an individual go black, nothing is recorded certified information: high average quality of the information recorded the information is collected for administrative purposes, not for research ones (2/2) Quant’è la distanza tra gli archivi gestionali dell’INPS e un database disegnato per scopi di ricerca scientifica? le codifiche normalmente sono differenti: un ricercatore ha bisogno di classificazioni standard internazionali, all’Inps interessano codifiche rilevanti per i suoi scopi gestionali normalizzazione dei dati: anche le categorie nelle quali le informazioni sono organizzate possono essere differenti “no purpose, no quality”: quanto una informazione non è strettamente necessaria ai fini gestionali Inps, la sua qualità può essere molto scadente informazioni fondamentali (per il ricercatore) non sono rilevate: inizio-fine lavoro identificativo di impresa univoco istruzione, famiglia … [ cos’è WHIP ] . la fabbrica (1/3) “la fabbrica” Inputs docs Inps’ archives sample Outputs data reception docs collection data cleansing on line documentation data normalization longitudinal identification of firms longitudinal identification of job spells work histories database [ cos’è WHIP ] . la fabbrica (2/3) fotografia sulla relazione molti a molti O1M-RL year #records 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 150544 150686 153052 156779 159849 165975 166427 163017 154316 152669 156097 158730 158429 141219 157774 multiple records within job 4,7% 5,2% 6,9% 8,1% 8,9% 9,4% 9,5% 9,0% 8,8% 9,2% 9,3% 10,7% 10,0% 9,9% 10,0% [ cos’è WHIP ] . la fabbrica (3/3) fotografia sulla rilevanza della identificazione longitudinale di impresa contibutive episodes with a discontinuity: 15,02% by break length: short (<2 months) 5367 medium (<6 month) 34031 year + 12390 TOTAL 51788 discontinuities removed LIF LIF within business exploiting the register EE linkage 31 1642 0,6% 30,6% 2834 7629 8,3% 22,4% 7 149 0,1% 1,2% 2872 9420 5,5% 18,2% WHIP’s datahouse: http://www.laboratoriorevelli.it/whip Indicatori di mobilità nel ciclo 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 1987 1988 Gwt 1989 1990 1991 Tass 1992 1993 1994 Tsep 1995 1996 1997 1998 Gwt pop standard 1999 Tasso di riallocazione nel ciclo, per area geografica 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 1987 1988 1989 Centro 1990 1991 1992 Nord-Est 1993 1994 1995 Nord-Ovest 1996 1997 1998 Sud-Isole 1999 Transizioni tra lavoro dipendente e altre gestioni Individui sopra i 50 anni 16 14 12 10 8 6 4 2 0 1990 1991 Dipendente 1992 1993 Mobilità e disoccupazione 1994 1995 Autonomo 1996 Pensione Migrazioni interne “guidate” da cambi di lavoro giovani (20-29), Nord Est vs Sud e Isole 30% 25% 20% 15% 10% 5% 0% 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 North East South Tempi di rientro nell’occupazione dipendente Italia 20% 15% 45% 20% Rientro immediato 2-6 mesi 7-12 mesi Più di un anno Tempi di rientro nell’occupazione dipendente Confronto Nord-Est / Sud e Isole Sud e Isole Nord Est 19% 22% 21% 12% 51% 31% 15% 29% Rientro immediato 2-6 mesi Rientro immediato 2-6 mesi 7-12 mesi Più di un anno 7-12 mesi Più di un anno Tempi di rientro nell’occupazione dipendente Individui over 50, piccole e grandi imprese 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 1 6 9 13 17 21 25 29 <20 addetti 33 37 41 45 49 >=200 addetti 53 57 mesi Disuguaglianza retribuzioni impiegati P90/P10 ratio