WHIP
Work Histories Italian Panel
roberto leombruni
Laboratorio Revelli e Università di Torino
Moncalieri, 10 maggio 2007
Indice della presentazione
L’uso di dati amministrativi a fini scientifici
Introduzione a Whip
Dati e metadati: la “fabbrica” di Whip
L’uso di Whip per studi sul mercato del lavoro
[ 1/6 ]
[ l’uso di dati amministrativi . intro ]
L’uso di dati amministrativi a fini scientifici
Tre tipi di dati per lo studio dei fenomeni sociali:
•
Dati survey (field study)
•
Dati sperimentali
•
Dati amministrativi
(poco diffusi)
[ 2/6 ]
[ l’uso di dati amministrativi . intro ]
Dati survey
Dati amministrativi
Viene rilevato esattamente il fenomeno
di interesse
Vengono raccolti a fini amministrativi,
e non tutti gli aspetti interessanti per il
ricercatore vengono rilevati
Alta standardizzazione delle
definizioni e delle codifiche a livello
internazionale
Poco confrontabili a livello
internazionale
Elevato know how nel loro uso da parte
della comunità scientifica
Spesso i ricercatori “non sanno usarli”
Il fenomeno di interesse viene rilevato
solo se c’è una domanda di ricerca
Vengono raccolti a prescindere da
interessi di ricerca: si può interrogare
la storia!
Molto costosi, in soldi e response burden
 scarsa estensione campionaria
 scarsa profondità temporale
Enormemente più economici che
qualunque indagine CAPI/CATI
[ l’uso di dati amministrativi . intro ]
[ 3/6 ]
Principali esperienze italiane e internazionali
Leader, nonché pionieri, sono la Finlandia e altri paesi nordici. Circa il 96% dei
dati raccolti da Statistics Finland ha origine amministrativa. Archivi su tutta la
popolazione, che coprono tematiche dal lavoro, alla famiglia, alla salute.
Su base campionaria, dati su lavoratori e imprese sono utilizzati per scopi di
ricerca ormai nei principali paesi sviluppati, presso gli Istituti nazionali di
statistica (es: l’Insee in Francia), gli Istituti previdenziali (es: la SSA negli Stati
Uniti), centri di ricerca (ex: lo IAB in Germania).
A livello OCSE, importante lavoro della Short-Term Economic Statistics (STES)
Taskforce on Administrative Data, per l’armonizzazione e standardizzazione delle
metodologie
In Italia, oltre a Whip e a panel “cugini” (quali CLAP o il panel Isfol-La Sapienza),
sono da citare importanti esperienze per l’analisi di mercati del lavoro locali:
. Il progetto Aspo (Archivio statistico provinciale per l’occupazione)
. Il progetto AMeRIcA (Anagrafe Milanese e Redditi Individuali)
. Il progetto GIOVE (dati dei centri per l’impiego)
[ l’uso di dati amministrativi . definizione e sfide ]
[ 4/6 ]
Definizione di dati amministrativi
Secondo la STES Taskforce on Administrative Data i dati amministrativi son definiti
dalle seguenti caratteristiche:
• L’agente che fornisce i dati all’agenzia statistica e l’unità cui i dati si
riferiscono sono di solito diversi, al contrario che nelle indagini survey
( non chiedo direttamente ad A, ma chiedo a B di riferirmi su A);
• I dati sono raccolti per un preciso scopo, non statistico, che potrebbe
incidere sul trattamento della unità di indagine;
• lo scopo è una copertura completa della popolazione;
• il controllo dei metodi con cui i dati amministrativi sono raccolti e
processati sono in capo alla agenzia amministrativa (e non all’agenzia
statistica)
( problema di comunicazione: non so come B abbia “intervistato” A).
Aggiungiamo:
• L’agente che raccoglie i dati non è estraneo rispetto al fenomeno in esame
[ l’uso di dati amministrativi . definizione e sfide ]
[ 5/6 ]
Sfide, per i produttori di dati amministrativi
Sempre secondo la STES, le principali sfide cui si trovano di fronte i produttori di
dati amministrativi:
• Timeliness (tempestività): i dati amministrativi sono in genere disponibili
troppo lentamente perché possano essere usati direttamente per produrre
statistiche di breve termine, vale a dire come “termometro” per gli
operatori, pubblici e privati;
• Qualità: le principali criticalità rispetto alla qualità dei dati riguarda:
 questioni di definizione
 sistemi di classificazione utilizzati
 validazione dei dati;
• Copertura informativa: anche se garantiscono una copertura, di solito,
sulla intera popolazione oggetto di studio, vengono rilevate solo le variabili
pertinenti l’attività gestionale dell’agenzia. La sfida, è quella di recepire nel
disegno della raccolta dei dati le esigenze principali degli altri operatori;
[ l’uso di dati amministrativi . definizione e sfide ]
[ 6/6 ]
Sfide, per gli utilizzatori di dati amministrativi
La principale sfida cui si trovano di fronte gli utilizzatori di dati amministrativi è
quella di sviluppare un know how analogo a quello a disposizione nell’uso dei dati
survey. Le principali criticalità:
• Problemi di selezione: in una survey la rappresentatività dei dati è
garantita dal disegno della rilevazione, e dalle metodologie per svolgere la
rilevazione stessa. Su entrambi i punti c’è una amplissima letteratura
scientifica, ed esistono standard e metodologie ampiamente condivise.
• Mappatura delle informazioni: essendoci una diversità tra l’informazione
raccolta (ad esempio: la retribuzione base per il calcolo dei contributi) e
l’informazione di interesse per lo studioso (ad esempio: la retribuzione
lorda, o costo del lavoro), la prima va mappata nella seconda.
• Conversione delle codifiche: una mappatura analoga, anche a parità di
variabile osservata, è necessaria tra le codifiche utilizzate nella raccolta, e le
codifiche standard utilizzate nella letteratura scientifica
[ 1/6 ]
[ cos’è WHIP ]
WHIP sta per Work Histories Italian Panel
microdati che registrano tutti i principali eventi
delle storie lavorative individuali
lavoro autonomo
1985
lavoro dipendente
disoccupazione
pensione
2004
[ cos’è WHIP ]
[ 2/6 ]
Fonte dei dati e copertura campionaria
WHIP è basato principalmente su dati amministrativi forniti dall’INPS al
Laboratorio Revelli in base a una convenzione tra l’istituto previdenziale e
l’Università di Torino.
Un’altra fonte importante per Whip sono i dati amministrativi forniti
dall’INAIL, in base a una convenzione analoga, relativi agli infortuni sul
lavoro e alle malattie professionali.
Il campionamento è sistematico, in base a quattro date di nascita. Ne
risulta un campione di circa 1:90 individui (4/365), seguiti con grande
dettaglio a partire dal 1985, e con minor dettaglio per gli anni precedenti
(dato riassuntivo degli Estratti Conto).
[ 3/6 ]
[ cos’è WHIP ]
struttura della banca dati
imprese
serie dipendenti
lavoro dipendente
dati annui RL
pensioni
infortuni / MP
individui
lavoro autonomo
prestazioni sociali
anagrafiche
episodi
dati annuali
[ 4/6 ]
[ cos’è WHIP ]
Come si colloca nel “mercato” delle banche
dati statistiche
Occupazione
e mobilità
Retribuzioni
Dinamiche di impresa
[ cos’è WHIP . I “competitori” ]
I principali competitori
Rilevazione Trimestrale delle forze di lavoro (Istat)
Indagine sui bilanci delle famiglie italiane (Banca d’Italia)
Indagine sull’occupazione, gli orari di lavoro e le retribuzioni
presso le grandi imprese dell’industria e dei servizi (Istat)
Indagine sulle retribuzioni e orari contrattuali (Istat)
...banche dati varie sulle imprese...
[ 5/6 ]
[ 6/6 ]
[ cos’è WHIP . la danza dei sette veli… ]
1999
2000
2001
[ 6/6 ]
[ cos’è WHIP . la danza dei sette veli… ]
1999
2000
2001
[ 6/6 ]
[ cos’è WHIP . la danza dei sette veli… ]
1999
2000
2001
[ 6/6 ]
[ cos’è WHIP . la danza dei sette veli… ]
1999
2000
2001
[ 6/6 ]
[ cos’è WHIP . la danza dei sette veli… ]
1999
2000
2001
[ 6/6 ]
[ cos’è WHIP . la danza dei sette veli… ]
1999
2000
2001
[ cos’è WHIP . schede ]
Rilevazione Trimestrale delle Forze di Lavoro
Periodicità
Trimestrale
Copertura
Costituisce la principale fonte statistica sul mercato del lavoro in Italia. Da essa vengono derivate le
stime ufficiali a livello aggregato degli occupati e delle persone in cerca di lavoro. L’universo di
riferimento dell’indagine è costituito da tutti i componenti delle famiglie residenti in Italia, anche se
temporaneamente emigrati all’estero. Sono esclusi i membri permanenti delle convivenze (collegi,
convitti, conventi, caserme, ecc.). L'unità di rilevazione è la famiglia di fatto. Questa va intesa come
un insieme di persone legate da vincoli di matrimonio, parentela, affinità, adozione, tutela o da
vincoli affettivi, coabitanti ed aventi dimora abituale nello stesso comune (anche se non residenti
secondo l’anagrafe nello stesso domicilio). L'indagine viene svolta trimestralmente a gennaio,
aprile, luglio e ottobre di ogni anno al fine di cogliere la stagionalità dei fenomeni rilevati.
(estratto da www.istat.it)
[ cos’è WHIP . schede ]
Indagine sui bilanci delle famiglie italiane
Periodicità
Biennale
Copertura
L'indagine sui bilanci delle famiglie italiane nasce negli anni '60 con l'obiettivo di
raccogliere informazioni sui redditi e i risparmi delle famiglie italiane. Nel corso degli
anni l'oggetto della rilevazione si è andato estendendo includendo anche la ricchezza e
altri aspetti inerenti i comportamenti economici e finanziari delle famiglie, come ad
esempio l'uso dei mezzi di pagamento.
Nelle ultime indagini il campione è formato da circa 8.000 famiglie (24.000 individui),
distribuite in circa 300 comuni italiani.
I risultati dell'indagine vengono regolarmente pubblicati nei Supplementi al Bollettino
Statistico della Banca. I dati raccolti presso le famiglie, in forma anonima, sono
disponibili gratuitamente per elaborazioni e ricerche.
[ cos’è WHIP . schede ]
Indagine sull'occupazione, gli orari di lavoro e le retribuzioni
presso le grandi imprese dell'industria e dei servizi
Periodicità
Mensile
Copertura
I dati vengono diffusi sotto forma di indici (dicembre 2000=100) delle retribuzioni orarie
e per dipendente. Essi vengono ricavati dall’indagine sulle imprese con 500 e più addetti
del settore industriale (estrazione minerali, attività manufatturiere, energia, gas e acqua e
costruzioni) e di quello dei servizi (commercio, alberghi e attività pubbliche, trasporti e
comunicazioni, servizi di produzione).
L’indice delle retribuzioni lorde per dipendente viene calcolato per le seguenti tre
categorie: operai e apprendisti, impiegati e intermedi e totale dei lavoratori (esclusi i
dirigenti). La retribuzione lorda considerata comprende tutti i pagamenti, regolari e
irregolari, comprensivi dei contributi previdenziali, delle tasse e della liquidazione e al
netto dei pagamenti fatti per conto di enti di previdenza sociale.
(estratto da www.istat.it)
[ cos’è WHIP . schede ]
Indagine sulle retribuzioni e orari contrattuali
Periodicità
Mensile
Copertura
I dati vengono diffusi sotto forma di indici (dicembre 2000=100) delle retribuzioni orarie
e per dipendente. Essi vengono definiti sulla base dei più rappresentativi contratti
collettivi nazionali di lavoro e, per i soli settori dell’agricoltura e delle costruzioni, anche
utilizzando contratti provinciali. I numeri indice delle retribuzioni contrattuali per
dipendente forniscono una misura delle variazioni dei compensi che spetterebbero,
nell’arco di un anno, al lavoratore dipendente sulla base dei contenuti dei contratti
nazionali di lavoro e della normativa in vigore. La retribuzione viene espressa in forma
“mensilizzata”, cioè calcolata come dodicesimo della retribuzione spettante, nell’arco di
un anno. Gli indici delle retribuzioni contrattuali prendono a riferimento i rapporti di
lavoro dipendente a tempo pieno, senza considerare alcuna detrazione per eventuali
periodi di assenza, né altre motivazioni che giustifichino una riduzione dei compensi
previsti contrattualmente.
(estratto da www.istat.it)
[ What is WHIP ] . the source data
(1/2)
…alcuni pro e contro…
 l’offerta di dati è consistente: about 700.000 individuals observed;
around 1.400 million observations (records per variables)
 the coverage is wide: INPS administrates pensions and social security
benefits of all italian workers but those employed in the public sector,
and some categories of professionals working as self-employed.
 no survey-like attrition: no individuals lost due to missing records...
 ...but: if an individual go black, nothing is recorded
 certified information: high average quality of the information
recorded
 the information is collected for administrative purposes, not for
research ones
[ What is WHIP ] . the source data
(2/2)
How long is the distance between INPS’ source data and a
database designed for scientific purposes?
 data encoding is tipically different: a scientist looks at international
classifications, INPS’ staff has to refer to the classifications contained in
protocols and rules
 data normalization: the categories in which the informations is
organized are tipically different
 no purpose, no quality: when a not-strictly-needed (for INPS)
information is recorded, its quality can be very low; but we need quality
standards to be met for all information contained in the database
 extremely important (for research issues) information is not recorded:
 job start - job end  actually, the job itself
 a time-invariant firm id
 the education level, the family status, …
[ What is WHIP ] . the Whip building procedure
(1/3)
“the factory”
Inputs
docs
Inps’ archives sample
Outputs
data reception
docs collection
data cleansing
on line
documentation
data normalization
longitudinal identification
of firms
longitudinal identification
of job spells
work histories
database
[ What is WHIP ] . the Whip building procedure
(2/3)
snaphot on the multi-to-multi relation between
contributive records and jobs
year
#records
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
150544
150686
153052
156779
159849
165975
166427
163017
154316
152669
156097
158730
158429
141219
157774
multiple records
within job
4,7%
5,2%
6,9%
8,1%
8,9%
9,4%
9,5%
9,0%
8,8%
9,2%
9,3%
10,7%
10,0%
9,9%
10,0%
[ What is WHIP ] . the Whip building procedure
snaphot on the impact of the
longitudinal identification of firms (LIF)
on job histories
contibutive
episodes with a
discontinuity:
15,02%
by break length:
short (<2 months)
5367
medium (<6 month)
34031
year +
12390
TOTAL
51788
discontinuities removed
LIF
LIF
within business
exploiting the
register
EE linkage
31
1642
0,6%
30,6%
2834
7629
8,3%
22,4%
7
149
0,1%
1,2%
2872
9420
5,5%
18,2%
(3/3)
[ What is WHIP ] . here it is
WHIP structure
firms
firms’ yearly data
job spells
jobs yearly data
individuals
pensions
self employment
s.s. benefits
registers
episodes
yearly data
[ documentation and distribution policy ]
WHIP’s datahouse:
http://www.laboratoriorevelli.it/whip
[ future prospects ]
(1/2)
Future prospects





next releases: extension of the period covered to pre-1985 work history,
to 2003, plus linkage to ISEE records;
sample extension: the replica of WHIP as is with an upgrade from
4/365 to 24/365 would grant a representativeness to the province level
WHIP building procedure extension: there are many directions in
which the building procedure can be improved. Firms’ tranformations
identification, labour cost measure, eligibility imputation, …
integration: possible fruitful linkages with INAIL (under construction),
CPI, INPDAP…
microsimulations: the availability of large, administrative based
datasets can/should be the gateway to a wider use of microsimulations
as a knowledge support for the policy maker
Scarica

Whip - Corso Inps Mo.. - Laboratorio R. Revelli