Strumenti e
metodologie per
la qualità dei
dati
Luigi Fabbris
Università di Padova
Comstat
Outline
La qualità dei dati
 I nuovi contesti e le nuove tendenze nella
produzione di statistiche ufficiali
 La qualità dei dati traibili dai sistemi informativi
(le nuove anagrafi nazionali)
 Il ruolo dell’Istat – Sistan nel controllo della qualità
dei dati
 Il ruolo degli Uffici di Statistica nel controllo della
qualità dei dati di provenienza amministrativa
 Alcune conclusioni

XI Conferenza nazionale di statistica, 2013
2
La qualità dei dati ufficiali

XI Conferenza nazionale di statistica, 2013
Dimensioni della qualità (Statistics Canada, 2002;
National Statistics, 2007; Eurostat, 2009; Kenett &
Shmueli, 2013):
 Pertinenza
(relevance):
grado di
tra
Errore di III tipo:
prodotto corretto
perconcordanza
l’obiettivo sbagliato
il prodotto statistico e il costrutto atteso in
termini di copertura e contenuto delle
Errore di I e II tipo
informazioni
 Accuratezza:
prossimità
al valore
Errore di IV tipo:
prodotto corretto,
mavero
troppo in ritardo
 Tempestività: pubblicazione entro il tempo predeterminato
 Accessibilità fisica e intellettuale
(comprensibilità)
 Comparabilità nel tempo e tra domini di studio 3
 Coerenza tra misure del medesimo fenomeno
provenienti da diverse fonti e prodotte con metodi
La qualità statistica dei dati
ufficiali






XI Conferenza nazionale di statistica, 2013
Dimensioni della qualità (Statistics Canada, 2002;
National Statistics, 2007; Eurostat, 2009):
 Pertinenza (relevance): grado di concordanza tra
il prodotto statistico e il costrutto atteso in termini
di copertura e contenuto delle informazioni
 Attendibilità: prossimità al valore vero, funzione
di:
Precisione campionaria
Accuratezza della rilevazione e dell’elaborazione
dei dati
Tempestività: pubblicazione entro il tempo predeterminato
Accessibilità fisica e intellettuale
(comprensibilità)
Comparabilità nel tempo e tra domini di studio e
4
Il nuovo contesto

XI Conferenza nazionale di statistica, 2013
La tecnologia sta rendendo scambiabili le basi di
dati locali e invita a costruire basi di dati
nazionali:
Anagrafe nazionale della popolazione (delle
famiglie)
 Anagrafe nazionale delle abitazioni (numeri
civici)
 Anagrafe nazionale delle imprese (ASIA)


Pertanto,
scompaiono i censimenti tradizionali e sono invece
create ed alimentate nel continuo anagrafi nazionali
(“censimenti continui”) per confluenza di quelle locali,
 scompaiono molte indagini campionarie e cambia il
ruolo delle indagini campionarie nel processo di
formazione delle statistiche ufficiali
 Assume un ruolo ancora più importante il controllo

5
La confluenza delle
anagrafi
This is
a bias
This is a “hot point”
Che cosa interessa allo
statistico ufficiale?
La qualità media dell’acqua alla foce o lungo la
pianura (la qualità delle statistiche tratte
SI
dall’anagrafe nazionale)?
 La qualità dell’acqua dei singoli affluenti (la
Forse
qualità delle statistiche a livello locale)?
 Scoprire “hot point” inquinanti (le fonti locali i
SI
cui errori possono minare l’attendibilità delle
statistiche nazionali)?
 La presenza di coccodrilli nell’acqua stagnante SI
(i rischi di distorsione nelle stime traibili dalle
anagrafi nazionali, spesso causate da chi
organizza le rilevazioni dei dati)?

7
Sistema di assicurazione
qualità

Alla foce (Istat: indagini periodiche per la valutazione
della qualità media uscente)
• Revisione metodologica
• Metadati e buone prassi
ISTAT
(controllo periodico)
?
• Interventi sulle fonti locali
SISTAN
(auto-controllo,
controllo su richiesta)
Alla sorgente (Sistan: un sistema di “chiuse” attraverso le quali
passa/non passa l’acqua)
Il controllo continuo della
qualità
Ente realizzatore: Istat, oppure COGIS, o ente terzo
(v. UK)
 Periodicità: ogni anno, oppure ogni due anni
 Obiettivi:
 Valutazione della qualità di statistiche “di
riferimento” in dati domini di studio
 Controllo, a fini di miglioramento, del sistema di
produzione delle statistiche nazionali
 Campionamento: batch (lotti) di dati prodotti da fonti
locali (es: comune, UdS) per stimare anche
l’accuratezza locale, campionando più intensamente
le fonti che, si ipotizza (in base ai dati noti), danno
tassi d’errore più alti (“hot points”)

XI Conferenza nazionale di statistica, 2013
9
Il sistema di controllo locale
Gli Uffici di statistica, gangli del SISTAN, per essere
funzionali al sistema di controllo, dovrebbero:
 Essere pochi e di riconosciuta autorità, soprattutto
nei confronti del sistema amministrativo di
produzione dei dati (es: sistema periferico del
Ministero dell’Interno, oppure CCIAA)
 Essere in posizione tale da poter intercettare i flussi
di dati locali e poter intervenire in tempi rapidi (es:
province, grandi comuni, regioni)
 Essere formati sul piano statistico e normativo (e
relazionale), tanto da essere in grado di elaborare i
dati che transitano dall’UdS, di comprenderne la
qualità e di farla comprendere
 Sentirsi parte del Sistema statistico nazionale

XI Conferenza nazionale di statistica, 2013
10
I metadati
Sono dati di quadro sul metodo e sui tempi di
produzione dei dati, compreso il questionario, sui
metodi di controllo ed analisi dei dati e sull’esito
della verifica della qualità dei dati, comprese
indicazioni sulla loro utilizzabilità
 L’Eurostat (Pellegrino, 2006) ha posto in essere il
sistema SDMX standardizzato, a valenza europea,
per l’accesso a file di metadati generali (es:
Transparency of practices, Accessibility, etc.)
 Un sistema di metadati è il cuore di un sistema
nazionale di formazione dei dati; va alimentato con
gli esiti del controllo della qualità e con le relative
riflessioni in termini di buone pratiche

XI Conferenza nazionale di statistica, 2013
11
La formazione delle fonti dei
dati
Formazione di carattere metodologico generale sulle
rilevazioni statistiche e sul tipo e conseguenza degli
errori nei dati
 Lavoro condiviso sui propri dati: dalla pratica di
analisi dei dati e dalla costruzione di indicatori e di
report nasce formazione on the job efficace; dalla
collaborazione all’attività degli amministrativi
produttori dei dati si corrobora la consapevolezza
della qualità e dei problemi che pone la formazione
del dato
 Review (self, peer, user); peer review: forme di
valutazione reciproche tra produttori di dati; user
review: sistema di raccolta delle osservazioni sui dati
da parte degli utenti

XI Conferenza nazionale di statistica, 2013
12
La diffusione delle
informazioni sulla qualità
Interna al sistema: il sistema deve mantenere la
sua credibilità complessiva
 Forma sintetica: Indicatori di qualità, da valutare in
serie storica, con interesse preminente per le cause
degli errori, per i processi più vulnerabili e per i
prodotti più a rischio
 Gestione dei metadati (v. FBI,

raggiungimento di buone pratiche (insieme di
coerenze e di ammissibilità, standard metodologici,
…)
 Periodicità: 3-5 anni
XI Conferenza nazionale di statistica, 2013
http://www.fbi.gov/aboutus/cjis/ucr/data_quality_guidelines) finalizzata al
13
Problemi del sistema di
controllo
1.
3.
4.
XI Conferenza nazionale di statistica, 2013
2.
L’integrazione tra fonti di origine amministrativa
permette di scoprire incoerenze (inconsistency) tra
dati. Altri errori si scoprono in base alla incoerenza o
alla inammissibilità probabilistica tra variabili
diverse dello stesso o di altri archivi. Come si
utilizzano incoerenze e inammissibilità?
Eventualmente a livello locale?
Il sistema di controllo ex-post non permette la
valutazione della completezza della rilevazione.
L’integrazione tra fonti può, invece, portare alla
scoperta di incompletezze. Come si utilizza
l’informazione sull’incompletezza?
Che fare dei lotti con tanti errori?
La scoperta di errori si può tradurre in metadati
14
Risorse necessarie


XI Conferenza nazionale di statistica, 2013

Il minor costo del procacciamento dei dati ha
liberato risorse. Tuttavia, la qualità costa, va messa
a bilancio.
Il controllo della qualità richiede indagini interne
(svolte dall’Istat stesso o da un ente esterno)
La verifica interna dei possibili errori nei dati
(microdati, batch di dati) richiede tempo e impegno
del personale dedicato, anche se diventasse attività
di routine degli UdS
15
Concludendo….
La qualità dei dati è, e ancor più sarà, uno degli
impegni principali dei produttori di dati, come
conseguenza del nuovo quadro tecnologico e normativo
di produzione di grandi basi di dati statistici a livello
nazionale
 I sistemi di controllo della qualità sviluppati da
organismi statistici internazionali e nazionali di vari
paesi, anche in ottemperanza a norme ISO 9000 e ISO
20252, mirano a sviluppare, armonizzare e rendere
trasparenti i processi, non si interessano ai prodotti
 Per sviluppare un sistema italiano di controllo della
qualità dei dati ufficiali è necessario coinvolgere e
attrezzare il Sistan
 Molte aree rimangono da sviluppare sul piano
metodologico se si vuole mettere in piedi un sistema

XI Conferenza nazionale di statistica, 2013
16
Ringrazio
per l’attenzione
Scarica

Document