Problemi di copertura
e gestione della qualità dei
dati in Whip
Roberto Quaranta *
*contatti http://sites.carloalberto.org/quaranta/
Problemi di copertura
e gestione della qualità dei dati in Whip
WHIP è una banca dati di storie lavorative.
Permette di studiare i fenomeni socio-economici legati al
mercato del lavoro.
20%
Tempi di rientro
nell’occupazione
dipendente
Italia
15%
45%
20%
Rientro immediato
2-6 mesi
7-12 mesi
Più di un anno
16
Transizioni tra lavoro
dipendente e altre gestioni
Individui sopra i 50 anni
14
12
10
8
6
4
2
0
1990
1991
Dipendente
1992
1993
1994
Mobilità e disoccupazione
1995
Autonomo
1996
Pensione
0,90
0,80
Turnover, tassi di
associazione, separazione
e gwt negli anni
0,70
0,60
0,50
0,40
0,30
0,20
0,10
0,00
1987
1988
Gwt
1989
1990
1991
Tass
1992
1993
1994
Tsep
1995
1996
1997
1998
Gwt pop standard
1999
Per far questo è importante affrontare e definire il
tipo di copertura e la gestione della qualità dei dati
•
definire bene di chi e di quali storie lavorative stiamo
parlando
•
garantire un’informazione coerente e allo stesso
tempo che permetta un utilizzo agevole da parte del
ricercatore
I dati che permettono la costruzione di WHIP sono di natura
amministrativa e provengono dall’INPS.
I dati che ci vengono forniti non sono raccolti per scopi di
ricerca ma per scopi gestionali e amministrativi.
Chi è presente è definito per legge, le leggi possono
cambiare. Le informazioni contenute sono stabilite da
normative, circolari...
Non tutte le informazioni raccolte servono agli scopi
amministrativi e gestionali
WHIP da dove nasce...
La fonte originaria dei dati è costituita dagli archivi
amministrativi dell’Inps, dai quali viene estratto un ampio
campione casuale di record (1/90).
le informazioni presenti riguardano gli individui
che nell’arco della loro vita lavorativa e di
pensionamento hanno avuto rapporti con Inps.
… perché hanno versato contributi per la pensione
… perché percepiscono delle prestazioni pensionistiche
(trattamenti diretti, assegni di invalidità …) e non
pensionistiche (sussidio di disoccupazione, mobilità …)
WHIP contiene...
Adesso...
• Episodi di lavoro parasubordinato
• Episodi di disoccupazione (sussidiate)
• Episodi di mobilità
• Episodi di lavoro dipendente nel settore privato
• Attività di lavoro autonomo (artigiano e
commerciante)
• Episodi di pensionamento erogate dall’Inps
In futuro...
• Episodi di LSU (lavori socialmente utili)
• CIG
• Casellario delle pensioni
Mancano ...
• Gli episodi lavorativi da dipendente pubblico
• quasi tutti gli agricoli
• Gli episodi lavorativi da liberi professionisti
dotati di una cassa previdenziale autonoma
(notai, avvocati, ...)
La banca dati WHIP deve permettere di effettuare delle
analisi socio-economiche, per fare questo si deve fare
in modo che l’oggetto che si vuole studiare sia ben
definito. La banca dati deve essere costruita da un
campione rappresentativo dell’“oggetto” d’analisi.
Per fare questo si deve passare da una popolazione
Inps ad una popolazione adatta ad indagini di
tipo statistico – economico
si devono armonizzare le informazioni
in particolare le informazioni che riguardano
i lavoratori dipendenti
Perché non tutti presenti in INPS
restringendo il nostro interesse
al settore PRIVATO non agricolo.
Uniformiamo i dati prendendo solo alcuni settori
(Ateco81). Non consideriamo:
Settore Agricolo e ...
91 Enti e aziende pubbliche
92 Servizi d'igiene pubblica ed amministrazione di
cimiteri
93 Istruzione
95 Sanità e servizi veterinari
96 Altri servizi sociali
Pubblicazione
rapporti di lavoro ricostruiti
Periodo 1985 – 1999
RL ricostruiti
RL presenti in WHIP
702.125
544.219
Eliminati circa il 22%
Enti ed imprese con prestazioni pensionistiche alternative e/o sostitutive all’INPS
Ente
FS (ferrovie dello stato)
presenti anche nell’INPS nel campo di
osservazione
n. dipendenti
(assicurati)
NO
SI
125.848 (31.12.95)
NO (SI solo contratti a tempo
determinato)
SI
189.016 (31.12.95)
ANAS (confluita nella CTRS INPDAP dal 1996)
NO, (Si solo i nuovi assunti dal
1997)
SI
9.261 (31.12.96)
INPGI (Giornalisti)
SI - assicurati per fondi minori
SI
11.019 (31.12.96)
INPDAI (dirigenti di aziende industriali)
SI - assicurati per fondi minori
SI
118.267 (31.12.96)
Fondo nazionale previdenza impiegati imprese di
spedizione e agenzie marittime IPSMA)
SI - assicurati per fondi minori
SI
40.356 (31.12.96)
in parte assicurati per fondi
minori
NO
155.500 (31.12.96)
NO
SI
IPOST (istituto postelegrafonici)
ENPALS (lavoratori dello spettacolo)
Altri Enti di minore dimensione (*)
300
circa
ENPAIA, Ente naz. prev. Addetti impiegati
agricoli
NO
NO
31.611 (31.12.96)
ENAV, Ente nazionale di assistenza al volo
NO, Si solo i nuovi assunti dal
1997, il resto Tesoro
SI
3.100 (31.12.97)
?
SI
681 (31.12.96)
Fondo previdenza personale INA
INPDAP-INS (asilo e scuole elementari
NO
NO
21.700 (31.12.96)
parificate)
Documento ISTAT: “L'utilizzo dei dati INPS per la stima trimestrale del numero dei dipendenti, le retribuzioni,
il costo del lavoro e le ore lavorate”
Gestione della qualità dei dati e
successiva pubblicazione
La gestione della qualità è eseguita in due fasi:
IN ENTRATA - ricezione e lavorazione dei dati si raccolgono:
•
•
•
•
informazioni sugli archivi e sulle variabili
informazioni normative e altro
informazioni sulle codifiche dei dati
individuazione dati mancanti e/o scorretti e gestiscono le
informazioni mancanti e quelle scorrette
IN USCITA - fase di pubblicazione
• si ricodificano le informazioni, le informazioni mancanti e/o
scorrette
• si integrano, si correggono o si evidenzia che l’informazione
è mancante
L’analisi di qualità dei dati ricevuti
e la ricodifica delle informazioni
La procedura di costruzione di WHIP può esser vista come una
scatola nera che prende in input gli archivi forniti da Inps, li
elabora, e restituisce come risultato degli archivi che rispondono
a finalità di analisi statistico-economica.
Le operazioni fondamentali della procedura sono:
•
•
•
•
La normalizzazione, pulizia e ricodifica
L'identificazione longitudinale delle imprese
L'identificazione longitudinale dei rapporti di lavoro
Il consolidamento dei record contributivi in dati annui dei rapporti di
lavoro
Inputs
Archivi forniti da Inps
Outputs
ricezione dei dati
raccolta documentazione
analisi qualità dei dati
documentazione
on line
ricodifica delle informazioni
identificazione longitudinale
delle imprese
identificazione longitudinale
dei rapporti di lavoro
archivio di
storie lavorative
Normalizzazione, pulizia e ricodifica
Le Istruzioni di
compilazione dei
moduli Inps
Le Circolari Inps
I CUD e la normativa
ricezione degli
archivi sorgente
raccolta
documentazione
analisi qualità dei
dati
ricodifica delle
informazioni
Personale INPS
Codifica
Correzione
Ricodifica
L’analisi di qualità dei dati ricevuti
ricodifica delle informazioni
archivi sorgente
Gestiamo:
• valori mancanti
• codici non riconosciuti
codifiche
Esempi di correzione e ricodifica
Variabile: Qualifica Inps (originale)
Valori
Frequenze
%
V. cumulati
%
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1
84074
54.63
84074
54.63
2
51767
33.64
135841
88.26
3
1529
0.99
137370
89.25
4
413
0.27
137783
89.52
5
7102
4.61
144885
94.14
6
722
0.47
145607
94.61
7
288
0.19
145895
94.79
8
252
0.16
146147
94.96
9
2
0.00
146149
94.96
D
2
0.00
146151
94.96
O
3681
2.39
149832
97.35
R
106
0.07
149938
97.42
S
1
0.00
149939
97.42
T
1
0.00
149940
97.42
W
829
0.54
150769
97.96
X
3
0.00
150772
97.96
Y
3136
2.04
153908
100.00
Valori missing 493
Qualifica Inps (ricodificata)
codifica variabile, ricodifica e segnalazione
informazioni mancanti e non corrette
Valori
Frequenze
%
V. cumulati
%
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1
8454
5.49
153907
100.00
2
88477
57.49
88477
57.49
3
55445
36.02
143922
93.51
5
1531
0.99
145453
94.51
1
0.00
153908
100.00
ood
missing
493
Correzione mesi retribuiti Tipo correzione
N
dicembrini
Tipo correzione
N
totale
1985
dicembrini
319
mm_retribuiti
577
896
1986
dicembrini
302
mm_retribuiti
708
1.010
1987
dicembrini
324
mm_retribuiti
1014
1.338
1988
dicembrini
361
mm_retribuiti
1319
1.680
1989
dicembrini
286
mm_retribuiti
1057
1.343
1990
dicembrini
330
mm_retribuiti
1466
1.796
1991
dicembrini
319
mm_retribuiti
1800
2.119
1992
dicembrini
248
mm_retribuiti
1271
1.519
1993
dicembrini
256
mm_retribuiti
1087
1.343
1994
dicembrini
210
mm_retribuiti
1983
2.193
1995
dicembrini
203
mm_retribuiti
2462
2.665
1996
dicembrini
185
mm_retribuiti
2816
3.001
1997
dicembrini
223
mm_retribuiti
3149
3.372
1998
dicembrini
183
mm_retribuiti
883
1.066
1999
dicembrini
207
mm_retribuiti
425
632
Correzione codice contratto
anno
osservazioni
imputazioni
1985
102504
140.6‰
1986
109522
138.8‰
1987
117866
195.6‰
1988
122306
180‰
1989
125941
109.8‰
1990
129447
128.2‰
1991
129071
111.2‰
1992
127273
112.8‰
1993
120075
124.6‰
1994
118772
123.8‰
1995
121203
122.6‰
1996
122346
131.2‰
1997
122523
112.4‰
1998
125272
133.8‰
1999
132009
114.8‰
Correzione Inquadramento
anno
osservazioni
imputazioni
1985
102504
406.6‰
1986
109522
377.8‰
1987
117866
378.8‰
1988
122306
371.6‰
1989
125941
389.2‰
1990
129447
371.6‰
1991
129071
379.8‰
1992
127273
375.6‰
1993
120075
369.0‰
1994
118772
378.6‰
1995
121203
380.6‰
1996
122346
377.0‰
1997
122523
364.6‰
1998
125272
332.6‰
1999
132009
313.0‰
Inquadramento: Situazione iniziale
Valori originali
Frequenze
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
0
7
0.45
7
0.45
00
1
0.06
8
0.52
000
2
0.13
10
0.64
0000
1
0.06
11
0.71
0002
4
0.26
15
0.97
0003
5
0.32
20
1.29
0004
1
0.06
21
1.35
0007
1
0.06
22
1.42
001
11
0.71
33
2.13
002
4
0.26
37
2.38
07
1
0.06
101
6.51
1
51
3.29
152
9.79
1 /
3
0.19
155
9.99
1 L
1
0.06
156
10.05
10
2
0.13
158
10.18
11
3
0.19
161
10.37
1150
1
0.06
162
10.44
12
2
0.13
164
10.57
130
1
0.06
165
10.63
14
1
0.06
166
10.70
160
1
0.06
167
10.76
18
1
0.06
168
10.82
198
1
0.06
169
10.89
1^
2
0.13
171
11.02
1^LI
1
0.06
172
11.08
2
375
24.16
547
35.24
2 GR
1
0.06
548
35.31
2 L
4
0.26
552
35.57
2 LI
3
0.19
555
35.76
ancora...
2 LV
2'
2'L.
2.
2.L
2/L
20
25
254
2B
2D
2L
2LIV
2O
2^
2^L
D
D2
DIR
DIR.
DOM
E/2
EP
II
IM.5
L
L.2
L.4
L.DO
L3
L4
L5
L6
LD
LV3
OP.
QD
V
1
2
1
17
1
5
8
1
1
1
2
38
12
1
3
3
8
1
1
1
1
2
1
2
1
2
3
1
1
5
1
5
1
3
1
1
1
1
0.06
0.13
0.06
1.10
0.06
0.32
0.52
0.06
0.06
0.06
0.13
2.45
0.77
0.06
0.19
0.19
0.52
0.06
0.06
0.06
0.06
0.13
0.06
0.13
0.06
0.13
0.19
0.06
0.06
0.32
0.06
0.32
0.06
0.19
0.06
0.06
0.06
0.06
556
558
559
576
577
582
590
591
592
593
595
633
645
646
649
652
1516
1517
1518
1519
1520
1522
1523
1525
1526
1528
1531
1532
1533
1538
1539
1544
1545
1548
1549
1550
1551
1552
35.82
35.95
36.02
37.11
37.18
37.50
38.02
38.08
38.14
38.21
38.34
40.79
41.56
41.62
41.82
42.01
97.68
97.74
97.81
97.87
97.94
98.07
98.13
98.26
98.32
98.45
98.65
98.71
98.78
99.10
99.16
99.48
99.55
99.74
99.81
99.87
99.94
100.00
Risultato finale
Valori
Frequenze
%
V. cumulati
%
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1
76
5.17
76
5.17
2
520
35.35
596
40.52
3
407
27.67
1003
68.18
4
180
12.24
1183
80.42
5
162
11.01
1345
91.43
6
66
4.49
1411
95.92
7
51
3.47
1462
100.00
Missing
105
Correzione Retribuzione
Numero di correzioni fatte su ogni anno
o1m_1985
retribuzione
4
o1m_1986
retribuzione
2
o1m_1987
retribuzione
7
o1m_1988
retribuzione
1
o1m_1989
retribuzione
2
o1m_1990
retribuzione
1
o1m_1991
retribuzione
0
o1m_1992
retribuzione
0
o1m_1993
retribuzione
3
o1m_1994
retribuzione
1
o1m_1995
retribuzione
2
o1m_1996
retribuzione
0
o1m_1997
retribuzione
3
o1m_1998
retribuzione
202
o1m_1999
retribuzione
134
Sembrano poche
correzioni
Correzione Retribuzione
1997
Variabile
media
Std Dev
Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
comp_correnti
22.118
21.349
1062.980
comp_altre
3.514
6.025
641.240
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1998
Variabile
media
Std Dev
Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
comp_correnti
39.284
1.488.292
504.035.062
comp_altre
6.702
130.853
16.836.674
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
1999
Variabile
media
Std Dev
Maximum
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
comp_correnti
28.304
964.855
234.219.252
comp_altre
4.665
293.959
117.575.969
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
L’analisi di qualità dei dati pubblicati
In fase di pubblicazione vengono eseguiti ulteriori controlli:
•
sui dati mancanti
•
sui dati scorretti
... Correzioni meno consistenti
• Provincia di lavoro
Anno
Imputazioni
1986
0.02%
1987
0.02%
1988
0.06%
... e più consistenti:
Correzione codice contratto
anno
osservazioni
missing
imputazioni
1985
102504
79.2‰
140.6‰
1986
109522
77.8‰
138.8‰
1987
117866
73.8‰
195.6‰
1988
122306
67.6‰
180.0‰
1989
125941
47.8‰
109.8‰
1990
129447
67.8‰
128.2‰
1991
129071
59.8‰
111.2‰
1992
127273
62.8‰
112.8‰
1993
120075
51.8‰
124.6‰
1994
118772
41.4‰
123.8‰
1995
121203
35.6‰
122.6‰
1996
122346
41.0‰
131.2‰
1997
122523
43.4‰
112.4‰
1998
125272
30.4‰
133.8‰
1999
132009
33.0‰
114.8‰
Correzione Inquadramento
anno
osservazioni
missing
imputazioni
1985
102504
132.2‰
406.6‰
1986
109522
131.0‰
377.8‰
1987
117866
135.0‰
378.8‰
1988
122306
119.8‰
371.6‰
1989
125941
119.6‰
389.2‰
1990
129447
121.4‰
371.6‰
1991
129071
116.6‰
379.8‰
1992
127273
112.6‰
375.6‰
1993
120075
99.2‰
369.0‰
1994
118772
86.2‰
378.6‰
1995
121203
78.8‰
380.6‰
1996
122346
85.6‰
377.0‰
1997
122523
83.0‰
364.6‰
1998
125272
70.2‰
332.6‰
1999
132009
68.2‰
313.0‰
L'identificazione longitudinale delle
imprese e delle trasformazioni
societarie
Serve per poter avere dati di impresa affidabili (e di conseguenza
anche per poter identificare i rapporti di lavoro)
E’ necessaria perché WHIP ha una dimensione longitudinale che
è ben superiore al numero di anni (cinque) per i quali l'Inps
costruisce i record dell'Osservatorio delle Imprese, dal quale è
estratto il campione oggetto di fornitura.
Tra edizioni successive dell'Osservatorio possono cambiare i
codici identificativi delle imprese, e può cambiare la
composizione stessa dell'impresa per scorpori, fusioni e altre
trasformazioni societarie.
L'identificazione longitudinale dei
rapporti di lavoro
Non esistendo una relazione uno a uno tra gli episodi di
contribuzione dichiarati e rapporti di lavoro instaurati dalla
persona (la relazione è del tipo molti a molti).
Non è registrata esplicitamente una data di inizio del rapporto di
lavoro, e la data di cessazione - seppur presente - è di qualità
carente, sia in termini di valori missing che di valori scorretti
Impatto della ricostruzione sulla
identificazione dei rapporti di lavoro
Periodo 1985 - 1999
RL ricostruiti
Ricuciture
702.125
82.055 (almeno * 2 rl)
1 - passaggio diretti in un intervallo breve - 76% di cui
il 40% nella stessa impresa, 10% nella stessa posizione, 50% è un
flusso spurio
2 – uguale al 1 ma con intervallo maggiore senza altri rapporti di
lavoro - 10% (il 99% nella stessa impresa)
3 - buchi dicembre-gennaio - 10% (il 99% nella stessa impresa)
4 - militari – 5% (il 99% nella stessa impresa)
Scarica

Problemi di copertur.. - Laboratorio R. Revelli