Metodologie e strumenti per l’analisi delle qualità dei dati Roma, 12 marzo 2001 Obiettivi del progetto RAE e qualità dei dati negli archivi amministrativi sulla base dell’esperienza Unioncamere F. Vernaci, P. Aimetti Il “Repertorio Integrato degli Agenti Economici - RAE” Si tratta di un progetto promosso dall'AIPA nell’ambito delle iniziative tese: • alla semplificazione degli adempimenti amministrativi a carico degli operatori economici; • al miglioramento qualitativo e quantitativo dei servizi offerti alle cittadini; • alla razionalizzazione degli scambi informativi tra le amministrazioni. Obiettivi del progetto RAE migliorare l’interazione degli operatori economici (“Agenti”) con gli enti che offrono loro servizi amministrativi aumentare la qualità e la coerenza delle informazioni sulle imprese tramite un sistema informativo cooperativo tra gli enti con impatto minimo sulle procedure esistenti contribuire al progressivo allineamento dei dati comuni contenuti negli archivi amministrativi Gli Enti interessati nella prima fase AIPA Unioncamere Inps Inail Le fonti amministrative: • per le Camere di commercio: - il Registro Imprese - il Repertorio delle notizie economico-amministrative (REA) • per l'Istituto Nazionale della Previdenza Sociale: - l'archivio delle imprese non agricole con dipendenti - l'archivio delle imprese agricole con dipendenti - l'archivio dei committenti di collaborazioni coord. e continuative - l'archivio dei lavoratori autonomi "commercianti" - l'archivio dei lavoratori autonomi "artigiani" • per l'INAIL: - l'archivio delle imprese aventi assicurati per infortuni sul lavoro. I “soggetti” interessati: gli Agenti Economici Agenti Economici RI REA INPS (DL) INPS (ALTRI) X INAIL AT A1 Imprese Agricole X X A2 Imprese non agric. con dipendenti (artigiane e non) X X X X X X A3 Imprese artigiane senza dipendenti X X X X X A4 Imprese non agric non artigiane senza dipendenti X X X B1 Enti non commerciali con dipendenti X B2 Enti non commerciali senza dipendenti X C1 Liberi professionisti con dipendenti C2 Liberi professionisti senza dipendenti X X X X X X X X X X Il progetto RAE: le componenti principali L’analisi preliminare delle fonti La costruzione dello stock iniziale degli Agenti economici La creazione di un sistema di gestione degli eventi Le caratteristiche delle fonti utilizzate Gli Agenti di interesse del RAE possono essere individuati e descritti mediante un insieme di codici identificativi. . Ogni AE è infatti identificato in modo univoco dal suo codice fiscale . La complessità della sua struttura e delle sue relazioni con gli ENTI è rappresentabile da un “grappolo” di codici identificativi: il codice fiscale (identificativo unico), i codici delle unità locali (RI/REA), i codici delle posizioni contributive (INPS) e i codici delle posizioni assicurative (Posizioni Assicurative Territoriali- INAIL) IMPRESA Unità Locali (codice (codici UL) fiscale) Posizioni Contributive (matricole INPS) Posizioni Assicurative (PAT- INAIL) Caratteri costitutivi e codici identificativi d’IMPRESA Codice Fiscale ragione soc., … (CODICI UL, I caratteri anagrafici di impresa MI, PAT) Foglio_1 Caratteri riassuntivi d’IMPRESA (RI/REA) Caratteri di stato Caratteri classificatori Foglio_1RI/REA Unità Locale Unità Locale Codice Unità Locale Codice Unità Locale Caratteri costitutivi Unità Locale Caratteri costitutivi Caratteri Codice di statoUnità Local Caratteri costitutivi Caratteri di stato Caratteri classificatori Caratteri di stato Caratteri classificator Caratteri classificat Foglio UL1 Foglio UL2 Foglio ULn Caratteri riassuntivi d’IMPRESA (INPS) Caratteri di stato Caratteri classificatori Caratteri riassuntivi d’IMPRESA (INAIL) Caratteri di stato Caratteri classificatori Foglio_1INPS Foglio_1INAIL Posizione contributiva Posizione assicurativa Unità Locale Matricola INPS (MI) Codice Unità Locale Unità Locale Caratteri costitutivi Caratteri costitutivi Codice Unità Local Caratteri costitutivi Caratteri di stato Caratteri di stato Unità Locale PAT Codice Unità Locale Caratteri costitutivi Unità Locale Caratteri costitutivi Caratteri Codice di statoUnità Local Caratteri costitutivi Caratteri di stato Caratteri classificatori Caratteri di stato Caratteri classificatori Caratteri di stato Caratteri classificator Caratteri classificatori Caratteri classificat Foglio MI1 Foglio MI2 Foglio MIm Caratteri classificat Foglio PAT1 Foglio PAT2 Foglio PATk Sistema di gestione del pregresso: la costruzione dello Stock iniziale La ricostruzione dello stock degli Agenti economici si ottiene secondo le seguenti fasi principali: il pre-trattamento delle fonti attraverso una serie di procedure di standardizzazione e normalizzazione delle informazioni; l’abbinamento delle fonti collegando tra loro tutti i record presenti nei diversi archivi e riconducibili a una stesso agente economico; l’analisi dei residui e attività di data cleaning; la produzione dello stock degli agenti economici. La creazione dello stock: le singole operazioni Pretrattamento delle fonti 1. Acquisizione e standardizzazione dei dati - costruzione dell’archivio con l’integrazione di tutte le informazioni relative ad ogni singolo record con dati INPS, INAIL, Registro Imprese; - i tracciati vengono resi il più possibile omogenei e confrontabili tra di loro. 2. Check e normalizzazione dei caratteri - monitoraggio della qualità e della copertura proprie di ciascuna fonte su una serie di campi ritenuti rilevanti; - ricodifica dei caratteri in modo univoco 3. Preclassificazione delle fonti - classificazione di ciascun record di ogni archivio in relazione al suo stato di attività, al settore di attività svolta e alla sua rilevanza economica o giuridica. La creazione dello stock: le singole operazioni Abbinamento delle fonti (1) 4. Ricostruzione degli abbinamenti noti - individuazione delle posizioni compresenti e invariate rispetto alle chiavi di abbinamento (codice fiscale, partita IVA, codici e matricole proprie degli archivi), creando per queste gli abbinamenti già ottenuti per il passato. 5. Linkage per chiavi certe (Codice Esatto) - l’operazione comprende tre distinte applicazioni per la ricerca di abbinamenti: - ricerca infrarchivi per codice esatto - ricerca interarchivi per codice esatto - ricerca interarchivi per codice fiscale parzialmente coincidente. 6. Linkage per codice a meno di un carattere - si cercano abbinamenti per codice fiscale e/o partita IVA coincidente per n-1 caratteri (nel caso del codice fiscale di persone fisiche si considerano solo i primi 11 caratteri) tra posizioni appartenenti ad archivi differenti. La creazione dello stock: le singole operazioni Abbinamento delle fonti (2) 7. Linkage probabilistico - ricorso a tecniche probabilistiche analizzando la somiglianza o coincidenza di una serie di indizi indipendenti quali la ragione sociale, la forma giuridica, l’indirizzo, l’attività economica svolta, le date di inizio e cessazione attività. 8. Trattamento grappoli complessi (tipo n-1) - la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo n-1, se all’interno di uno stesso grappolo (e quindi per una stessa impresa) vi sono più codici di impresa differenti 9. Trattamento grappoli complessi (tipo 1-n) - la procedura valuta la qualità degli abbinamenti ottenuti, che è di tipo 1-n, quando avviene che uno stesso codice di impresa sia presente in più grappoli La creazione dello stock: le singole operazioni Analisi dei residui e produzione del Repertorio integrato 10. Analisi dei residui non abbinati - valutazione della completezza del processo di abbinamento delle fonti analizzando i residui non abbinati per “spiegare” le cause del mancato abbinamento. 11. Analisi casistiche dubbie e definizione delle regole da seguire nella produzione del Repertorio integrato - riscontro di una serie di casistiche di non coerenza o apparente non compatibilità i cui criteri di soluzione non appaiono scontati. 12. Restituzione agli enti fornitori del risultato delle procedure di abbinamento - ad ogni singolo ente fornitore sarà restituita la base dati di propria pertinenza arricchita dall’esito del processo di integrazione. 13. Produzione del Repertorio integrato degli agenti economici (stock) Valutazioni sulla qualità degli archivi amministrativi sulla base della creazione dell’archivio “Excelsior-REA” nel 1998 TAV. 1 - Consistenze delle fonti di input al 31.12.1997 Registro Imprese Unità locali INPS Pos. contributive INAIL Pos. assicurate Totale Attiva Inattiva Nuova nata Stato particolare (sospesa) Cessata (1) 5.200.045 312.382 439.057 60.275 275.920 1.671.315 0 98.159 131.737 39.802 2.976.527 0 280.371 0 381.884 9.847.887 312.382 817.587 192.012 697.606 Totale posizioni (record) trattate 6.287.679 1.941.013 3.638.782 11.867.474 Note La presenza di cessate serve a garantire una profondità storica a copertura dei disallineamenti tra le fonti (1) Escluse cessate al 31-12 TAV. 2 - Copertura dei caratteri nelle forniture trattate: localizzazione Registro Imprese Unità locali INPS Pos. contributive INPS Agricoltura INAIL Pos. contributive Pos. assicurate (1) 0 0 543.794 3.637.895 0 3.637.895 546.026 3.637.895 0 3.638.227 546.026 3.635.763 Codice regione ISTAT Codice provincia ISTAT Sigla provincia Codice comune ISTAT Descrizione comune CAP 6.285.447 0 6.285.505 6.285.458 6.285.447 6.285.467 0 0 1.394.981 0 1.394.986 1.394.987 Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782 Localizzazione completa dopo normalizzazione 6.287.299 1.394.980 546.022 3.638.020 (1) La fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997 TAV. 3 - Copertura dei caratteri nelle forniture trattate: indirizzo Registro Imprese Unità locali INPS Pos. contributive INPS Agricoltura Pos. contributive INAIL Pos. assicurate Prefisso Toponimo Civico 6.071.686 6.272.546 5.590.925 1.333.300 1.392.102 1.214.860 0 544.936 0 0 3.636.550 0 Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782 Nota INPS Agricoltura e INAIL presentano un unico campo descrittivo dell'indirizzo TAV. 4 - Copertura dei caratteri nelle forniture trattate: indirizzo Dopo processo di standardizzazione degli indirizzi e normalizzazione del campo "prefisso" secondo la codifica del Registro Imprese Registro Imprese Unità locali INPS Pos. contributive INPS Agricoltura standardizzata Pos. contributive INAIL standardizzata Pos. assicurate Prefisso Toponimo Civico 6.071.686 6.272.546 5.590.925 1.333.300 1.392.102 1.214.860 435.164 544.936 376.305 3.456.636 3.636.550 3.225.176 Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782 TAV. 5 - Copertura dei caratteri nelle forniture trattate: forma giuridica Registro Imprese Unità locali Numero forme usate INPS Pos. contributive INPS Agricoltura Pos. contributive INAIL Pos. assicurate 60 162 0 0 Con forma giuridica di cui ditta individuale s.r.l. s.n.c. s.a.s s.p.a. s.c.a.r.l. altro 6.287.675 1.382.904 0 0 3.967.871 759.101 728.804 444.747 129.421 128.565 129.170 496.427 276.759 247.555 99.282 40.680 20.333 213.951 Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782 Nota Il campo forma giuridica della fonte INPS si esprime come stringa secondo più di 3.700 modalità diverse non sempre espressione di reali forme giuridiche; tra le 162 modalità con frequenza >= 50, solo 74 sono riconducibili a una forma giuridica secondo la codifica del Registro Imprese INPS Agricoltura e INAIL non presentano una codifica propria della forma giuridica TAV. 6 - Copertura dei caratteri nelle forniture trattate: forma giuridica Dopo trattamento della ragione sociale per l'assegnazione della forma giuridica secondo codifica standardizzata sulla base della classificazione del Registro Imprese Registro Imprese Unità locali Numero forme usate INPS Pos. contributive INPS Agricoltura Pos. contributive INAIL Pos. assicurate 60 10 10 10 Con forma giuridica di cui ditta individuale s.r.l. s.n.c. s.a.s s.p.a. s.c.a.r.l. altro 6.287.679 1.394.987 546.026 3.638.782 3.967.871 759.101 728.804 444.747 129.421 128.565 129.170 576.234 278.575 248.624 99.709 40.936 29.393 121.516 437.434 108.592 2.064.133 540.505 517.015 209.769 103.589 50.087 153.684 Totale posizioni (record) 6.287.679 1.394.987 546.026 3.638.782 TAV. 7 - Copertura dei caratteri nelle forniture trattate: date Registro Imprese Unità locali Data iscrizione Data inizio Data cessazione (1) Data fallimento Data liquidazione Data iscrizione Albo Artigiani Data cessazione Albo Artigiani 6.247.349 5.434.290 572.733 37.390 114.400 1.651.446 180.411 Totale posizioni (record) 6.287.679 INPS Pos. contributive INPS Agricoltura Pos. contributive 1.394.981 261.213 1.394.987 INAIL Pos. assicurate 3.628.218 534.543 546.026 3.638.782 Nota La fornitura di INPS Agricoltura era relativa alle sole posizioni attive in almeno 1 trimestre del 1997 e non prevede la presenza di date di inizio o cessazione dell'attività (1) Per INPS cessazione o sospensione di attività TAV. 15 - Esito delle procedure di abbinamento Fase 1 Fase 2 Fase 3 Fase 4 Fase 5 Abbinamento delle tre fonti Abbinamento di due fonti Fonti non abbinate di cui residui RI residui INPS residui INAIL 952.845 1.483.816 4.777.983 1.088.902 1.698.325 3.285.766 1.089.092 1.699.297 3.282.643 1.090.986 1.701.442 3.271.578 1.096.144 1.702.461 3.237.592 3.411.893 749.378 616.712 2.883.347 110.609 291.810 2.881.953 109.327 291.363 2.876.571 106.081 288.926 2.864.821 100.557 272.214 Totale grappoli creati 7.214.644 6.072.993 6.071.032 6.064.006 6.036.197 Nota Fase 1: recupero degli abbinamenti storici derivanti dalle precedenti annualità Fase 2: ricerca di abbinamenti su codici chiave (codice fiscale e/o partita IVA) esattamente coincidenti Fase 3: ricerca di abbinamenti su codici chiave coincidenti a meno di 1 carattere la cui validazione è stata confermata da circa 4.400 controlli puntuali Fase 4: ricerca di abbinamenti su criteri probabilistici di coincidenza di attributi la cui validazione è stata confermata da circa 14.000 controlli puntuali Fase 5: controllo puntuale di circa 45.000 grappoli complessi individuati per la presenza chiavi diverse (codice fiscale, numero di iscrizione al Registro Imprese) nello stesso grappolo TAV. 16 - Analisi dei residui non abbinati Registro Imprese Unità locali Residui spiegati non attivi fuori campo osserv. altre fonti Residui non spiegati Totale residui INPS Pos. contributive INPS Agricoltura Pos. contributive INAIL Pos. assicurate 2.756.131 4.306 0 144.869 634.103 4.306 0 144.869 108.690 24.816 71.435 127.345 2.864.821 29.122 71.435 272.214 2.122.028 Nota I residui "non attivi" (posizioni cessate, inattive o nuove iscrizioni) si considerano "spiegati" in quanto potrebbero riflettere un disallineamento temporale tra le fonti Tra i residui sicuramente attivi del Registro Imprese si considerano "spiegati" in quanto esclusi dal campo di osservazione delle fonti INPS e INAIL i grappoli privi di addetti dipendenti e non artigiani TAV. 17 - Confronto tra i caratteri delle diverse fonti: localizzazione Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Coincidenza degli indizi Uguale per le 3 fonti Uguale per 2 fonti Diverso Totale grappoli Copertura delle fonti Indizio presente in tutte le fonti 576.369 Indizio presente in 2 fonti Registro Imprese assente INPS assente INAIL assente Totale grappoli (imprese) 576.369 27.175 466 604.010 128 5 133 125 5 130 2 2 1 1 27.303 471 604.143 TAV. 18 - Confronto tra i caratteri delle diverse fonti: indirizzo Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Coincidenza degli indizi Uguale per le 3 fonti Uguale per 2 fonti Diverso Non confrontabile Totale grappoli Copertura delle fonti Indizio presente in tutte le fonti 286.331 Indizio presente in 2 fonti Registro Imprese assente INPS assente INAIL assente 209.896 105.218 601.445 1.339 1.114 2.453 519 618 1.137 110 113 223 710 383 1.093 Indizio presente in 1 fonte solo Registro Imprese solo INPS solo INAIL 144 144 69 69 32 32 43 43 Indizio assente in tutte le fonti 101 101 245 604.143 Totale grappoli (imprese) 286.331 211.235 106.332 Nota Il confronto di presenza viene fatto sul toponimo che risulta essere il campo più completo Il confronto di coincidenza viene fatto valutando l'uguaglianza di stringhe, naturalmente in presenza di un processo di normalizzazione dei toponimi tra le fonti migliorerebbe i risultati ottenuti TAV. 19 - Confronto tra i caratteri delle diverse fonti: forma giuridica Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Coincidenza degli indizi Uguale per le 3 fonti Copertura delle fonti Indizio significativo per tutte le fonti 232.250 Indizio significativo per 2 fonti INPS generica INAIL generica Uguale per 2 fonti Diverso 232.250 Totale grappoli 18.524 518 251.292 343.901 3.762 347.663 1.209 400 1.609 342.692 3.362 346.054 Indizio significativo solo per RI Totale grappoli (imprese) Non confrontabile 362.425 4.280 5.188 5.188 5.188 604.143 Nota Durante la normalizzazione della forma giuridica di INPS e INAIL quando questa non è riconducibile a un formato specifico viene assegnata alla classe residuale altre forme; in questi casi il confronto di coincidenza dell'indizio non avrebbe senso, pertanto la classe residuale altre forme è stata considerata non confrontabile TAV. 20 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizione Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Confronto per data inizio RI Confronto per data iscrizione RI Copertura delle fonti Indizio presente in tutte le fonti Indizio presente in 2 fonti Registro Imprese assente INPS assente INAIL assente Indizio presente in 1 fonte solo INPS Totale grappoli (imprese) 517.620 603.370 86.520 773 86.491 741 3 3 26 29 3 3 604.143 604.143 TAV. 21 - Confronto tra i caratteri delle diverse fonti: data inizio/iscrizione Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Confronto degli indizi per coppia di fonte (RI = base) Confronto per data inizio RI Confronto per data iscrizione RI Data inizio INPS precede RI Data inizio INPS segue RI Non confrontabile data RI assente data INPS assente 83.834 433.812 86.497 131.923 471.476 744 86.494 741 3 3 Data inizio INAIL precede RI Data inizio INAIL segue RI Non confrontabile data RI assente data INAIL assente date assenti entrambe 131.889 385.734 86.520 252.542 350.831 770 86.491 741 26 29 3 TAV. 22 - Confronto tra i caratteri delle diverse fonti: attività economica Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Copertura delle fonti Indizio presente in tutte le fonti Indizio presente in 2 fonti Registro Imprese assente INAIL assente Totale grappoli (imprese) Totale grappoli 582.270 21.873 21.826 47 604.143 TAV. 23 - Confronto tra i caratteri delle diverse fonti: attività economica Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Coincidenza degli indizi Totale grappoli Codice RI confermato da INPS e/o INAIL Codice INPS e INAIL diverso da codice RI Codice INPS e/o INAIL con codice RI assente Codice RI, INPS e INAIL diversi tra loro 531.693 21.087 21.826 29.537 Totale grappoli (imprese) 604.143 TAV. 24 - Confronto tra i caratteri delle diverse fonti: codice fiscale Si considerano i 604.143 casi di abbinamento delle 3 fonti con non più di 1 record per fonte Coincidenza degli indizi Uguale per le 3 fonti Uguale per 2 fonti Diverso Non confrontabile Totale grappoli Copertura delle fonti Indizio presente in tutte le fonti 533.220 Indizio presente in 2 fonti Registro Imprese assente INPS assente INAIL assente 29.480 428 563.128 39.639 1.290 40.929 33.597 1.120 34.717 81 3 84 5.961 167 6.128 Indizio presente in 1 fonte solo Registro Imprese solo INPS solo INAIL Totale grappoli (imprese) 533.220 69.119 1.718 86 86 1 1 84 84 1 1 86 604.143 Nota Poiché INPS non differenzia in due campi il codice fiscale e la partita IVA il confronto viene fatto sul codice fiscale