Metodologie e strumenti per
l’analisi delle qualità dei dati
Roma, 12 marzo 2001
Obiettivi del progetto RAE
e qualità dei dati negli archivi
amministrativi sulla base
dell’esperienza Unioncamere
F. Vernaci, P. Aimetti
Il “Repertorio Integrato degli
Agenti Economici - RAE”
Si tratta di un progetto promosso dall'AIPA nell’ambito
delle iniziative tese:
• alla semplificazione degli
adempimenti amministrativi
a carico degli operatori economici;
• al miglioramento qualitativo e
quantitativo dei servizi offerti alle
cittadini;
• alla razionalizzazione degli scambi
informativi tra le amministrazioni.
Obiettivi del progetto RAE
migliorare l’interazione degli operatori
economici (“Agenti”) con gli enti che
offrono loro servizi amministrativi
aumentare la qualità e la coerenza
delle informazioni sulle imprese tramite
un sistema informativo cooperativo tra
gli enti con impatto minimo sulle
procedure esistenti
contribuire al progressivo allineamento
dei dati comuni contenuti negli archivi
amministrativi
Gli Enti interessati nella prima fase
 AIPA
 Unioncamere
 Inps
 Inail
Le fonti amministrative:
• per le Camere di commercio:
- il Registro Imprese
- il Repertorio delle notizie economico-amministrative (REA)
• per l'Istituto Nazionale della Previdenza Sociale:
- l'archivio delle imprese non agricole con dipendenti
- l'archivio delle imprese agricole con dipendenti
- l'archivio dei committenti di collaborazioni coord. e continuative
- l'archivio dei lavoratori autonomi "commercianti"
- l'archivio dei lavoratori autonomi "artigiani"
• per l'INAIL:
- l'archivio delle imprese aventi assicurati per infortuni sul lavoro.
I “soggetti” interessati: gli Agenti Economici
Agenti Economici
RI
REA
INPS
(DL)
INPS
(ALTRI)
X
INAIL
AT
A1 Imprese Agricole
X
X
A2 Imprese non agric. con dipendenti (artigiane e non)
X
X
X
X
X
X
A3 Imprese artigiane senza dipendenti
X
X
X
X
X
A4 Imprese non agric non artigiane senza dipendenti
X
X
X
B1 Enti non commerciali con dipendenti
X
B2 Enti non commerciali senza dipendenti
X
C1 Liberi professionisti con dipendenti
C2 Liberi professionisti senza dipendenti
X
X
X
X
X
X
X
X
X
X
Il progetto RAE:
le componenti principali
L’analisi preliminare delle fonti
La costruzione dello stock iniziale
degli Agenti economici
La creazione di un sistema di
gestione degli eventi
Le caratteristiche delle fonti utilizzate
Gli Agenti di interesse del RAE possono essere individuati e descritti mediante un insieme di
codici identificativi.
.
Ogni AE è infatti identificato in modo univoco dal suo codice fiscale
.
La complessità della sua struttura e delle sue relazioni con gli ENTI è rappresentabile da un
“grappolo” di codici identificativi: il codice fiscale (identificativo unico), i codici delle unità locali
(RI/REA), i codici delle posizioni contributive (INPS) e i codici delle posizioni assicurative (Posizioni
Assicurative Territoriali- INAIL)
IMPRESA
Unità Locali
(codice
(codici UL)
fiscale)
Posizioni Contributive
(matricole INPS)
Posizioni Assicurative
(PAT- INAIL)
Caratteri costitutivi e
codici identificativi
d’IMPRESA
Codice Fiscale
ragione soc.,
…
(CODICI UL,
I caratteri anagrafici di impresa
MI, PAT)
Foglio_1
Caratteri riassuntivi
d’IMPRESA (RI/REA)
Caratteri di stato
Caratteri classificatori
Foglio_1RI/REA
Unità Locale
Unità
Locale
Codice
Unità
Locale
Codice
Unità Locale
Caratteri
costitutivi
Unità
Locale
Caratteri
costitutivi
Caratteri Codice
di statoUnità Local
Caratteri
costitutivi
Caratteri di stato
Caratteri classificatori
Caratteri
di stato
Caratteri
classificator
Caratteri classificat
Foglio UL1
Foglio UL2
Foglio ULn
Caratteri riassuntivi
d’IMPRESA (INPS)
Caratteri di stato
Caratteri classificatori
Caratteri riassuntivi
d’IMPRESA (INAIL)
Caratteri di stato
Caratteri classificatori
Foglio_1INPS
Foglio_1INAIL
Posizione contributiva
Posizione assicurativa
Unità Locale
Matricola
INPS (MI)
Codice Unità Locale
Unità
Locale
Caratteri
costitutivi
Caratteri
costitutivi
Codice Unità Local
Caratteri
costitutivi
Caratteri
di stato
Caratteri
di stato
Unità Locale
PAT
Codice
Unità Locale
Caratteri
costitutivi
Unità
Locale
Caratteri costitutivi
Caratteri Codice
di statoUnità Local
Caratteri
costitutivi
Caratteri
di stato
Caratteri classificatori
Caratteri
di stato
Caratteri
classificatori
Caratteri
di stato
Caratteri
classificator
Caratteri
classificatori
Caratteri classificat
Foglio MI1
Foglio MI2
Foglio MIm
Caratteri classificat
Foglio PAT1
Foglio PAT2
Foglio PATk
Sistema di gestione del pregresso:
la costruzione dello Stock iniziale
La ricostruzione dello stock degli Agenti economici si
ottiene secondo le seguenti fasi principali:
il pre-trattamento delle fonti attraverso una serie di
procedure di standardizzazione e normalizzazione delle
informazioni;
l’abbinamento delle fonti collegando tra loro tutti i
record presenti nei diversi archivi e riconducibili a una
stesso agente economico;
l’analisi dei residui e attività di data cleaning;
la produzione dello stock degli agenti economici.
La creazione dello stock: le singole operazioni
Pretrattamento delle fonti
1. Acquisizione e standardizzazione dei dati
- costruzione dell’archivio con l’integrazione di tutte le informazioni relative ad ogni
singolo record con dati INPS, INAIL, Registro Imprese;
- i tracciati vengono resi il più possibile omogenei e confrontabili tra di loro.
2. Check e normalizzazione dei caratteri
- monitoraggio della qualità e della copertura proprie di ciascuna fonte su una serie di
campi ritenuti rilevanti;
- ricodifica dei caratteri in modo univoco
3. Preclassificazione delle fonti
- classificazione di ciascun record di ogni archivio in relazione al suo stato di attività, al
settore di attività svolta e alla sua rilevanza economica o giuridica.
La creazione dello stock: le singole operazioni
Abbinamento delle fonti (1)
4. Ricostruzione degli abbinamenti noti
- individuazione delle posizioni compresenti e invariate rispetto alle chiavi di
abbinamento (codice fiscale, partita IVA, codici e matricole proprie degli archivi),
creando per queste gli abbinamenti già ottenuti per il passato.
5. Linkage per chiavi certe (Codice Esatto)
- l’operazione comprende tre distinte applicazioni per la ricerca di abbinamenti:
- ricerca infrarchivi per codice esatto
- ricerca interarchivi per codice esatto
- ricerca interarchivi per codice fiscale parzialmente coincidente.
6. Linkage per codice a meno di un carattere
- si cercano abbinamenti per codice fiscale e/o partita IVA coincidente per n-1 caratteri
(nel caso del codice fiscale di persone fisiche si considerano solo i primi 11 caratteri) tra
posizioni appartenenti ad archivi differenti.
La creazione dello stock: le singole operazioni
Abbinamento delle fonti (2)
7. Linkage probabilistico
- ricorso a tecniche probabilistiche analizzando la somiglianza o coincidenza di una serie
di indizi indipendenti quali la ragione sociale, la forma giuridica, l’indirizzo, l’attività
economica svolta, le date di inizio e cessazione attività.
8. Trattamento grappoli complessi (tipo n-1)
- la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo n-1, se all’interno
di uno stesso grappolo (e quindi per una stessa impresa) vi sono più codici di impresa
differenti
9. Trattamento grappoli complessi (tipo 1-n)
- la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo 1-n, quando
avviene che uno stesso codice di impresa sia presente in più grappoli
La creazione dello stock: le singole operazioni
Analisi dei residui e produzione del
Repertorio integrato
10. Analisi dei residui non abbinati
- valutazione della completezza del processo di abbinamento delle fonti analizzando i
residui non abbinati per “spiegare” le cause del mancato abbinamento.
11. Analisi casistiche dubbie e definizione delle regole da seguire nella
produzione del Repertorio integrato
- riscontro di una serie di casistiche di non coerenza o apparente non compatibilità i cui
criteri di soluzione non appaiono scontati.
12. Restituzione agli enti fornitori del risultato delle procedure di
abbinamento
- ad ogni singolo ente fornitore sarà restituita la base dati di propria pertinenza arricchita
dall’esito del processo di integrazione.
13. Produzione del Repertorio integrato degli agenti economici (stock)
Valutazioni sulla
qualità degli archivi
amministrativi
sulla base della
creazione
dell’archivio
“Excelsior-REA”
nel 1998
TAV. 1 - Consistenze delle fonti di input al 31.12.1997
Registro Imprese
Unità locali
INPS
Pos. contributive
INAIL
Pos. assicurate
Totale
Attiva
Inattiva
Nuova nata
Stato particolare (sospesa)
Cessata (1)
5.200.045
312.382
439.057
60.275
275.920
1.671.315
0
98.159
131.737
39.802
2.976.527
0
280.371
0
381.884
9.847.887
312.382
817.587
192.012
697.606
Totale posizioni (record) trattate
6.287.679
1.941.013
3.638.782
11.867.474
Note
La presenza di cessate serve a garantire una profondità storica a copertura dei disallineamenti tra le fonti
(1) Escluse cessate al 31-12
TAV. 2 - Copertura dei caratteri nelle forniture trattate: localizzazione
Registro Imprese
Unità locali
INPS
Pos. contributive
INPS Agricoltura
INAIL
Pos. contributive Pos. assicurate
(1)
0
0
543.794
3.637.895
0
3.637.895
546.026
3.637.895
0
3.638.227
546.026
3.635.763
Codice regione ISTAT
Codice provincia ISTAT
Sigla provincia
Codice comune ISTAT
Descrizione comune
CAP
6.285.447
0
6.285.505
6.285.458
6.285.447
6.285.467
0
0
1.394.981
0
1.394.986
1.394.987
Totale posizioni (record)
6.287.679
1.394.987
546.026
3.638.782
Localizzazione completa dopo
normalizzazione
6.287.299
1.394.980
546.022
3.638.020
(1)
La fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997
TAV. 3 - Copertura dei caratteri nelle forniture trattate: indirizzo
Registro Imprese
Unità locali
INPS
Pos. contributive
INPS Agricoltura
Pos. contributive
INAIL
Pos. assicurate
Prefisso
Toponimo
Civico
6.071.686
6.272.546
5.590.925
1.333.300
1.392.102
1.214.860
0
544.936
0
0
3.636.550
0
Totale posizioni (record)
6.287.679
1.394.987
546.026
3.638.782
Nota
INPS Agricoltura e INAIL presentano un unico campo descrittivo dell'indirizzo
TAV. 4 - Copertura dei caratteri nelle forniture trattate: indirizzo
Dopo processo di standardizzazione degli indirizzi e normalizzazione del campo "prefisso"
secondo la codifica del Registro Imprese
Registro Imprese
Unità locali
INPS
Pos. contributive
INPS Agricoltura
standardizzata
Pos. contributive
INAIL
standardizzata
Pos. assicurate
Prefisso
Toponimo
Civico
6.071.686
6.272.546
5.590.925
1.333.300
1.392.102
1.214.860
435.164
544.936
376.305
3.456.636
3.636.550
3.225.176
Totale posizioni (record)
6.287.679
1.394.987
546.026
3.638.782
TAV. 5 - Copertura dei caratteri nelle forniture trattate: forma giuridica
Registro Imprese
Unità locali
Numero forme usate
INPS
Pos. contributive
INPS Agricoltura
Pos. contributive
INAIL
Pos. assicurate
60
162
0
0
Con forma giuridica
di cui
ditta individuale
s.r.l.
s.n.c.
s.a.s
s.p.a.
s.c.a.r.l.
altro
6.287.675
1.382.904
0
0
3.967.871
759.101
728.804
444.747
129.421
128.565
129.170
496.427
276.759
247.555
99.282
40.680
20.333
213.951
Totale posizioni (record)
6.287.679
1.394.987
546.026
3.638.782
Nota
Il campo forma giuridica della fonte INPS si esprime come stringa secondo più di 3.700 modalità diverse
non sempre espressione di reali forme giuridiche; tra le 162 modalità con frequenza >= 50, solo 74 sono riconducibili
a una forma giuridica secondo la codifica del Registro Imprese
INPS Agricoltura e INAIL non presentano una codifica propria della forma giuridica
TAV. 6 - Copertura dei caratteri nelle forniture trattate: forma giuridica
Dopo trattamento della ragione sociale per l'assegnazione della forma giuridica secondo codifica
standardizzata sulla base della classificazione del Registro Imprese
Registro Imprese
Unità locali
Numero forme usate
INPS
Pos. contributive
INPS Agricoltura
Pos. contributive
INAIL
Pos. assicurate
60
10
10
10
Con forma giuridica
di cui
ditta individuale
s.r.l.
s.n.c.
s.a.s
s.p.a.
s.c.a.r.l.
altro
6.287.679
1.394.987
546.026
3.638.782
3.967.871
759.101
728.804
444.747
129.421
128.565
129.170
576.234
278.575
248.624
99.709
40.936
29.393
121.516
437.434
108.592
2.064.133
540.505
517.015
209.769
103.589
50.087
153.684
Totale posizioni (record)
6.287.679
1.394.987
546.026
3.638.782
TAV. 7 - Copertura dei caratteri nelle forniture trattate: date
Registro Imprese
Unità locali
Data iscrizione
Data inizio
Data cessazione (1)
Data fallimento
Data liquidazione
Data iscrizione Albo Artigiani
Data cessazione Albo Artigiani
6.247.349
5.434.290
572.733
37.390
114.400
1.651.446
180.411
Totale posizioni (record)
6.287.679
INPS
Pos. contributive
INPS Agricoltura
Pos. contributive
1.394.981
261.213
1.394.987
INAIL
Pos. assicurate
3.628.218
534.543
546.026
3.638.782
Nota
La fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997 e non prevede
la presenza di date di inizio o cessazione dell'attività
(1) Per INPS cessazione o sospensione di attività
TAV. 15 - Esito delle procedure di abbinamento
Fase 1
Fase 2
Fase 3
Fase 4
Fase 5
Abbinamento delle tre fonti
Abbinamento di due fonti
Fonti non abbinate
di cui
residui RI
residui INPS
residui INAIL
952.845
1.483.816
4.777.983
1.088.902
1.698.325
3.285.766
1.089.092
1.699.297
3.282.643
1.090.986
1.701.442
3.271.578
1.096.144
1.702.461
3.237.592
3.411.893
749.378
616.712
2.883.347
110.609
291.810
2.881.953
109.327
291.363
2.876.571
106.081
288.926
2.864.821
100.557
272.214
Totale grappoli creati
7.214.644
6.072.993
6.071.032
6.064.006
6.036.197
Nota
Fase 1: recupero degli abbinamenti storici derivanti dalle precedenti annualità
Fase 2: ricerca di abbinamenti su codici chiave (codice fiscale e/o partita IVA) esattamente coincidenti
Fase 3: ricerca di abbinamenti su codici chiave coincidenti a meno di 1 carattere
la cui validazione è stata confermata da circa 4.400 controlli puntuali
Fase 4: ricerca di abbinamenti su criteri probabilistici di coincidenza di attributi
la cui validazione è stata confermata da circa 14.000 controlli puntuali
Fase 5: controllo puntuale di circa 45.000 grappoli complessi individuati per la presenza chiavi diverse
(codice fiscale, numero di iscrizione al Registro Imprese) nello stesso grappolo
TAV. 16 - Analisi dei residui non abbinati
Registro Imprese
Unità locali
Residui spiegati
non attivi
fuori campo osserv. altre fonti
Residui non spiegati
Totale residui
INPS
Pos. contributive
INPS Agricoltura
Pos. contributive
INAIL
Pos. assicurate
2.756.131
4.306
0
144.869
634.103
4.306
0
144.869
108.690
24.816
71.435
127.345
2.864.821
29.122
71.435
272.214
2.122.028
Nota
I residui "non attivi" (posizioni cessate, inattive o nuove iscrizioni) si considerano "spiegati" in quanto potrebbero
riflettere un disallineamento temporale tra le fonti
Tra i residui sicuramente attivi del Registro Imprese si considerano "spiegati" in quanto esclusi dal campo di
osservazione delle fonti INPS e INAIL i grappoli privi di addetti dipendenti e non artigiani
TAV. 17 - Confronto tra i caratteri delle diverse fonti: localizzazione
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi
Uguale per
le 3 fonti
Uguale per
2 fonti
Diverso
Totale
grappoli
Copertura delle fonti
Indizio presente in tutte le fonti
576.369
Indizio presente in 2 fonti
Registro Imprese assente
INPS assente
INAIL assente
Totale grappoli (imprese)
576.369
27.175
466
604.010
128
5
133
125
5
130
2
2
1
1
27.303
471
604.143
TAV. 18 - Confronto tra i caratteri delle diverse fonti: indirizzo
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi
Uguale per
le 3 fonti
Uguale per
2 fonti
Diverso
Non
confrontabile
Totale
grappoli
Copertura delle fonti
Indizio presente in tutte le fonti
286.331
Indizio presente in 2 fonti
Registro Imprese assente
INPS assente
INAIL assente
209.896
105.218
601.445
1.339
1.114
2.453
519
618
1.137
110
113
223
710
383
1.093
Indizio presente in 1 fonte
solo Registro Imprese
solo INPS
solo INAIL
144
144
69
69
32
32
43
43
Indizio assente in tutte le fonti
101
101
245
604.143
Totale grappoli (imprese)
286.331
211.235
106.332
Nota
Il confronto di presenza viene fatto sul toponimo che risulta essere il campo più completo
Il confronto di coincidenza viene fatto valutando l'uguaglianza di stringhe, naturalmente in presenza di un
processo di normalizzazione dei toponimi tra le fonti migliorerebbe i risultati ottenuti
TAV. 19 - Confronto tra i caratteri delle diverse fonti: forma giuridica
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi Uguale per
le 3 fonti
Copertura delle fonti
Indizio significativo per tutte le fonti
232.250
Indizio significativo per 2 fonti
INPS generica
INAIL generica
Uguale per
2 fonti
Diverso
232.250
Totale
grappoli
18.524
518
251.292
343.901
3.762
347.663
1.209
400
1.609
342.692
3.362
346.054
Indizio significativo solo per RI
Totale grappoli (imprese)
Non
confrontabile
362.425
4.280
5.188
5.188
5.188
604.143
Nota
Durante la normalizzazione della forma giuridica di INPS e INAIL quando questa non è riconducibile a un
formato specifico viene assegnata alla classe residuale altre forme; in questi casi il confronto di coincidenza
dell'indizio non avrebbe senso, pertanto la classe residuale altre forme è stata considerata non confrontabile
TAV. 20 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizione
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Confronto per
data inizio RI
Confronto per
data iscrizione RI
Copertura delle fonti
Indizio presente in tutte le fonti
Indizio presente in 2 fonti
Registro Imprese assente
INPS assente
INAIL assente
Indizio presente in 1 fonte
solo INPS
Totale grappoli (imprese)
517.620
603.370
86.520
773
86.491
741
3
3
26
29
3
3
604.143
604.143
TAV. 21 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizione
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Confronto degli indizi per coppia di
fonte (RI = base)
Confronto per
data inizio RI
Confronto per
data iscrizione RI
Data inizio INPS precede RI
Data inizio INPS segue RI
Non confrontabile
data RI assente
data INPS assente
83.834
433.812
86.497
131.923
471.476
744
86.494
741
3
3
Data inizio INAIL precede RI
Data inizio INAIL segue RI
Non confrontabile
data RI assente
data INAIL assente
date assenti entrambe
131.889
385.734
86.520
252.542
350.831
770
86.491
741
26
29
3
TAV. 22 - Confronto tra i caratteri delle diverse fonti: attività economica
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Copertura delle fonti
Indizio presente in tutte le fonti
Indizio presente in 2 fonti
Registro Imprese assente
INAIL assente
Totale grappoli (imprese)
Totale
grappoli
582.270
21.873
21.826
47
604.143
TAV. 23 - Confronto tra i caratteri delle diverse fonti: attività economica
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi
Totale
grappoli
Codice RI confermato da INPS e/o INAIL
Codice INPS e INAIL diverso da codice RI
Codice INPS e/o INAIL con codice RI assente
Codice RI, INPS e INAIL diversi tra loro
531.693
21.087
21.826
29.537
Totale grappoli (imprese)
604.143
TAV. 24 - Confronto tra i caratteri delle diverse fonti: codice fiscale
Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte
Coincidenza degli indizi
Uguale per
le 3 fonti
Uguale per
2 fonti
Diverso
Non
confrontabile
Totale
grappoli
Copertura delle fonti
Indizio presente in tutte le fonti
533.220
Indizio presente in 2 fonti
Registro Imprese assente
INPS assente
INAIL assente
29.480
428
563.128
39.639
1.290
40.929
33.597
1.120
34.717
81
3
84
5.961
167
6.128
Indizio presente in 1 fonte
solo Registro Imprese
solo INPS
solo INAIL
Totale grappoli (imprese)
533.220
69.119
1.718
86
86
1
1
84
84
1
1
86
604.143
Nota
Poiché INPS non differenzia in due campi il codice fiscale e la partita IVA il confronto viene fatto sul codice fiscale
Scarica

Documento in formato ppt3538Kb