Il progetto di miglioramento della
qualità dei dati nell’Agenzia delle
Entrate
Dott. Salvatore Costa
Agenzia delle Entrate
Direzione Centrale
Sistemi e Processi
1
12 marzo 2001
La struttura organizzativa

1° gennaio 2001: Ristrutturazione del Ministero
delle Finanze ed avvio operativo delle Agenzie
fiscali
–
–
–
–
–
2
Agenzia delle entrate
Agenzia delle dogane
Agenzia del territorio
Agenzia del demanio
Ministero “snello”
Agenzia delle Entrate
12 marzo 2001
Il patrimonio informativo
dell’Agenzia delle Entrate







3
Anagrafe dei contribuenti
Dichiarazioni dei redditi
Dichiarazioni I.V.A.
Atti del Registro
Conto fiscale
Rimborsi I.V.A.
Rimborsi IRPEF
Agenzia delle Entrate
81 mln. (CF attribuiti a PF)
300 mln.
60 mln.
70 mln.
7,5 mln.
3,1 mln.
64 mln.
12 marzo 2001
I flussi di dati
ENTI
PREVIDENZIALI
AZIENDE FORNITRICI
DI UTENZE
PUBBLICHE
AMMINISTRAZIONI
CAMERE DI
COMMERCIO
ENTI
ASSICURATIVI
POSTE
BANCHE
ENTI LOCALI
ORDINI
PROFESSIONALI
4
GUARDIA DI
FINANZA
Agenzia delle Entrate
12 marzo 2001
Rilevanza delle logiche di qualità

Enorme patrimonio informativo, da gestire
secondo canoni di
–
–
–
–

5
Correttezza
Completezza
Coerenza di formato e di valore
Attualità (Tempestività di aggiornamento)
Difficoltà di approccio totale e definizione del
primo dominio di intervento:
Archivio Anagrafico delle Persone Fisiche
(A.A.)
Agenzia delle Entrate
12 marzo 2001
Motivazioni della scelta


A.A. contiene: CF, dati anagrafici, residenza,
decesso.
CF: codice identificativo individuale
–
–
–

Residenza
–
6
È la principale chiave d’accesso a tutte le basi dati
dell’Agenzia
Tutti i rapporti tra PP.AA. e altri soggetti, pubblici o
privati, vanno tenuti sulla base del CF
È inserito nella carta d’identità elettronica
Esigenza costante di corretta reperibilità del
contribuente
Agenzia delle Entrate
12 marzo 2001
Metodologia di lavoro introduzione

7
Con il supporto di Telcordia Technologies
(1999) è stata definita una metodologia per la
definizione di un piano di qualità dei dati
Agenzia delle Entrate
12 marzo 2001
Metodologia di lavoro


Definizione del sistema oggetto di analisi: Base
dati dell’Archivio Anagrafico delle Persone
Fisiche
Definizione di una lista di “macro problemi“
–
–
–
–
8
Non correttezza dati anagrafici (Comuni, AIRE)
Soggetti con doppia posizione in archivio
Obsolescenza dei dati di residenza e/o loro
mancata normalizzazione
Non correttezza e/o incompletezza dei dati di
decesso
Agenzia delle Entrate
12 marzo 2001
Metodologia di lavoro

Descrizione dei flussi di dati in ingresso/uscita
relativamente alle seguenti operazioni
–
–
–
–
9
Attribuzione nuovo CF
Variazione residenza
Variazione dati anagrafici
Acquisizione/correzione informazioni di decesso
Agenzia delle Entrate
12 marzo 2001
Esempio: Attribuzione nuovo CF
Trigger
10
Input
Procedura
Sistema
Nascita con
Dati
comunicazione anagrafici
dal Comune
dal
Comune
Attribuzione
CF online
(integrata o
manuale)
Nascita con
Richiesta
comunicazione genitori
in ufficio
finanziario
On-line
TP da
ufficio
Richiesta del
cittadino in
ufficio
finanziario
Allineamento
una tantum
con dati
Comune
Richiesta
del
cittadino
On-line
TP da
ufficio
Batch dati
Comune
Validazione
tramite
batch ad
hoc
Qualità attuale dati sistema
Correttezza
Tempestività
Alta se
procedura
integrata
Media se
richiede 1 data
entry
Media se manca
controllo con dati
Comune.
Alta se da
certificazione
Comune
definita dal
documento di
identità. Richiede
1 data entry
Alta per dati
validati.
Richiede 0 data
entry
Max tre mesi di ritardo
Agenzia delle Entrate
Coerenza
formato
Alta
Determinata dal
cittadino. Tempo di
attesa del sistema
trascurabile
Alta
Determinata dal
cittadino. Tempo di
attesa del sistema
trascurabile
Bassa. Il successivo
disallineamento è
inevitabile.
Alta
Alta per dati
validati.
12 marzo 2001
Esempio: Variazione di residenza
Trigger
Input
Registrazione
della
dichiarazione
redditi
Dichiarazione Batch da
archivio
dichiarazio
ni
Segnalazione
comune
Dati
Online +
residenza da TP
Comune
Segnalazione
Ufficio
contribuenti IVA
Dichiarazione
di inizio
attività o
variazione
dati
contribuenti
IVA
Dati
autocertificati
Segnalazione
cittadino
Allineamento una Batch dati
tantum con dati
Comune
Comune
11
Procedura
sistema
On-line
TP
On-line
TP da
ufficio
Validazion
e tramite
batch ad
hoc
Qualità attuale dati sistema
Correttezza
Tempestività
Determinata dal
cittadino.
Richiede data entry
cittadino o data entry
Banca o Poste
Alta se procedura
integrata
Media se richiede
data entry
Pari a quella di input
Richiede 1 data entry
Determinata da
acquisizione dichiarazione
Minimo frequenza
dichiarazione (4 mesi dalla
presentazione)
Determinata da ufficio
comunale
Pari a quella di input
Determinata dal cittadino
Alta
Alta per dati validati. Bassa. Il successivo
Ignota per dati non
disallineamento è
validati (richiede
inevitabile
‘riciclo’)
Richiede 0 data entry
Agenzia delle Entrate
Coerenza
Formato
Pari a quella
dell’input
Alta: consistente
con regole della
toponomastica
locale
Pari a quella
dell’input
Pari a quella
dell’input
Alta per dati
validati.
12 marzo 2001
Metodologia di lavoro

Definizione dei data steward
–
Comuni

–
Uffici finanziari

–
Tramite le transazioni di attribuzione / variazione CF,
variazione di residenza, acquisizione / variazione
informazioni di decesso
Contribuenti

12
Detentori istituzionali dei dati anagrafici, di residenza e di
decesso
Invio di dichiarazioni / atti
Agenzia delle Entrate
12 marzo 2001
Metodologia di lavoro

Definizione di attributi di alto livello e metaattributi
Attributi alto
livello
Codice Fiscale PF
Dati Anagrafici PF
Dati Residenza
Ufficiale PF
Informazione
Decesso PF
13
Attributi schema
[Persona Fisica].CF
[Persona Fisica].{Cognome, Nome,
Sesso, Anno Nascita, Mese Nascita,
Giorno Nascita, Provincia Nascita,
Comune di Nascita}
[Persona Fisica].{Comune, Provincia,
Cap e Indirizzo Residenza}
[Persona Fisica].{Flag Decesso, Data
Decesso e Fonte}
Agenzia delle Entrate
12 marzo 2001
Metodologia di lavoro

Definizione dei meta-attributi:
–
–
–
–

14
Chi: sorgente dell’informazione
Quando: data ultima modifica
Cosa: tipo di operazione
Stato: Non controllato, verificato corretto, verificato
non corretto, corretto
Nella maggior parte dei casi tratta di riportare a
livello di schema dati parte delle informazioni
presenti nei log delle transazioni.
Agenzia delle Entrate
12 marzo 2001
Metodologia di lavoro

Definizione dei vincoli di qualità
–

Definizione degli indicatori di qualità
–
15
Definiti per ogni attributo di alto livello, sulla base
della lista dei macro problemi, con riferimento alle
dimensioni della qualità rilevanti per ciascun
attributo
Definiti, a partire dai vincoli di qualità; devono
essere grandezze misurabili che evidenziano
quanto i dati rispettano i vincoli definiti
Agenzia delle Entrate
12 marzo 2001
Definizione dei vincoli - schema
Dimensione
Qualità
Tipo Dato
<attributo
alto livello>
16
Data
Steward
<a chi
appartiene>
Accuratezz
a valore,
Precisione
Tempestività
Completezza
valore
Coerenza
formato
Coerenza
valore
< vincoli parametrici>
Agenzia delle Entrate
12 marzo 2001
Indicatori di qualità (esempio)
17
Dato
Requisito di
qualità
Dati
anagrafici
Coerenza con i
Comuni
100% dei
87%
dati pervenuti
Dati
anagrafici
deceduti
Coerenza con i
Comuni
100% dei
71%
dati pervenuti
Agenzia delle Entrate
Controllati
Validati
Comuni
12 marzo 2001
Indicatori di qualità (esempio)
Dato
18
Requisito di
qualità
Controllati Validati
Dati sul
decesso
Completezza
100%
93%
Dati sul
decesso
Coerenza con i 100%
Comuni
14%
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui dati Allineamento

Allineamento con le Anagrafi comunali,
secondo le regole definite di concerto con il
Ministero dell’Interno
–
19
Fase iniziale di confronto: il Comune invia l’intera
anagrafe dei residenti. Se c’è identità completa di
dati anagrafici, aggiorno l’A.A. con il dato di
residenza
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui dati Allineamento

(segue)
–
20
Fase di trattamento difformità (attivata
prioritariamente con i Comuni che partecipano alla
sperimentazione CIE): se esiste nell’A.A. un unico
soggetto che differisce per un solo dato anagrafico
e con residenza “somigliante”, si aggiorna l’A.A.
(dati anagrafici e residenza) dopo la verifica svolta
dal Comune
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui dati Allineamento

(segue)
–

A regime (mantenimento dell’allineamento)
–
21
Trattamento casi residuali: si mettono a
disposizione del Comune gli strumenti per
l’aggiornamento online dell’A.A. (dati anagrafici)
Il Comune invia periodicamente le variazioni
anagrafiche (nascite, variazioni di residenza,
decessi)
Agenzia delle Entrate
12 marzo 2001
Alcuni dati numerici – Fase
trattamento difformità
Comune
22
% Allineamento % Allineamento dopo
iniziale
trattamento difformità
Bologna
95.3
99.0
Cremona
88.1
98.2
Genova
84.2
95.4
Imola
98.6
98.9
Livorno
93.6
97.4
Milano
88.9
95.6
Perugia
89.2
95.3
Siena
93.4
96.9
Torino
90.9
97.7
Trieste
94.7
97.5
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui dati –
Normalizzazione degli indirizzi


23
Obiettivo: costituire una banca dati che
contenga per ogni soggetto le informazioni di
spedizione, secondo gli standard postali
Convenzione con Poste Italiane S.p.A.:
servizio di normalizzazione e riconoscimento
degli indirizzi
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui dati –
Normalizzazione degli indirizzi

Unicità dell’interlocutore
–

Fornitura di servizio e non di stradario
–

Non ci sono carichi di sviluppo software per l’Agenzia, a meno
dell’alimentazione del sistema
Possibilità di integrazione con gli esiti di recapito e la
motivazione dell’eventuale mancato recapito
–
24
1 vs. 8100, non trattabili uniformemente e non tutti
informatizzati/normalizzati
Verifica dell’efficacia del servizio misurata dal sistema stesso
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui dati –
Individuazione dei CF duplicati

Identificazione dei soggetti con doppie
posizioni in A.A.
–


25
Rilasciati più codici fiscali, a seguito dell’indicazione
di dati anagrafici non coincidenti.
Determinazione del CF corretto
Riunificazione delle posizioni (collegamento)
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui dati –
Individuazione dei CF duplicati



Analisi dei duplicati già noti (collegati)
Ricerca dei “simili”, riconducendoli alle classi di
errore individuate nell’analisi
Criteri di rilevazione di effettiva duplicazione
–
–
–
–
26
Indirizzo molto simile
Solo un soggetto è confermato dal Comune di
residenza
Solo un soggetto presenta atti e/o dichiarazioni
I soggetti differiscono solo per il Comune di nascita
e uno dei due è un Comune soppresso o aggregato
Agenzia delle Entrate
12 marzo 2001
Sperimentazioni

27
Nel corso della stesura del progetto sono
state effettuate sperimentazioni su campioni
di dati quale ausilio alla definizione di indici
(anche se su base campionaria) sui quali
tarare i valori attesi nella misurazione di
partenza
Agenzia delle Entrate
12 marzo 2001
Sperimentazioni
Controllo Indirizzi
 Sono stati effettuati interventi di:
–
–
–

28
Bonifica
Normalizzazione
Riconoscimento degli indirizzi
su un campione di comuni medio-piccoli
Le elaborazioni sono state effettuate da due
diverse società italiane
Agenzia delle Entrate
12 marzo 2001
Sperimentazioni
Controllo indirizzi - Risultati
Record
elaborati
Address
Software
APTA
System
Record
Indice di
Normalizzati Normalizzazione
275.365
264.081
0,959
275.365
222.756
0,809
L’indice è dato da rapporto dei normalizzati sul totale del campione
29
Agenzia delle Entrate
12 marzo 2001
Sperimentazioni

Identificazione soggetti duplicati
–
–
30
Sono state effettuate sperimentazioni con Telcordia
e APTA system
Entrambe hanno utilizzato sistemi basati su criteri di
“matching” e “edit distance” tra le informazioni
anagrafiche (codice fiscale,cognome, nome, data e
comune di nascita)
Agenzia delle Entrate
12 marzo 2001
Sperimentazioni
Identificazione soggetti duplicati (segue)


31
Telcordia ha rilevato un indice di sospetti duplicati del
4,48%
APTA system ha rilevato indici variabili tra 0,15% e
1,5% in dipendenza dei filtri di correlazione utilizzati.
Agenzia delle Entrate
12 marzo 2001
Sperimentazioni
Identificazione soggetti duplicati (segue)

I diversi filtri sono stati realizzati utilizzando
alternativamente tutte o parte delle informazioni:
–
–
–
32
Filtro A: soggetti aventi Codice Fiscale simile, Anagrafica
simile, Indirizzo simile e Località simile (0,15%)
Filtro B: soggetti aventi Codice Fiscale simile, Anagrafica
simile, Indirizzo simile o diverso e Località simile o diversa
(0,85%)
Filtro C: soggetti aventi Codice Fiscale simile o diverso,
Anagrafica simile, Indirizzo simile e Località simile (1,5%)
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui processi

Revisione dei processi nell’ottica di acquisire i
dati alla fonte
–
–
–
–
33
Attribuzione CF ai neonati  Comuni
Attribuzione CF ai non residenti  Consolati
Attribuzione CF extracomunitari  Questure
Variazione residenza, dati anagrafici, decesso 
Comuni
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui processi

Revisione delle procedure di data entry
–
Sensibilizzazione degli operatori dei vari organismi
abilitati verso la qualità dei dati immessi


–
Controlli stringenti per evitare l’introduzione di errori


34
Circolari di istruzione
Piani formativi per il personale
Evitare duplicazioni
Accuratezza e completezza dei dati
Agenzia delle Entrate
12 marzo 2001
Il piano di intervento sui processi

Revisione dei flussi di aggiornamento
–
–
35
Le dichiarazioni dei redditi telematiche consentono
maggiore tempestività di aggiornamento della
residenza e limitano gli errori di data entry
Verranno acquisite telematicamente anche le
dichiarazioni di successione  correttezza e
tempestività del dato
Agenzia delle Entrate
12 marzo 2001
Il monitoraggio del livello di qualità





36
Implementazione delle informazioni nelle basi
dati: chi, quando, cosa, stato
Rilevazione degli indicatori del livello di qualità
dei dati sottoposti a trattamento
Rilevazione degli incrementi di qualità ottenuti
e loro confronto con quelli attesi
Registrazione e storicizzazione dei risultati
Prodotti di data warehouse
Agenzia delle Entrate
12 marzo 2001
Altri domini di intervento




37
Anagrafe delle persone non fisiche (società,
enti, associazioni)
Dichiarazioni annuali e atti
Pagamenti
Informazioni provenienti da Enti Esterni
Agenzia delle Entrate
12 marzo 2001
Scarica

Documento in formato ppt 687Kb - Agenzia per l`Italia Digitale