Strumenti e metodologie per la qualità dei dati Luigi Fabbris Università di Padova Comstat Outline La qualità dei dati I nuovi contesti e le nuove tendenze nella produzione di statistiche ufficiali La qualità dei dati traibili dai sistemi informativi (le nuove anagrafi nazionali) Il ruolo dell’Istat – Sistan nel controllo della qualità dei dati Il ruolo degli Uffici di Statistica nel controllo della qualità dei dati di provenienza amministrativa Alcune conclusioni XI Conferenza nazionale di statistica, 2013 2 La qualità dei dati ufficiali XI Conferenza nazionale di statistica, 2013 Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009; Kenett & Shmueli, 2013): Pertinenza (relevance): grado di tra Errore di III tipo: prodotto corretto perconcordanza l’obiettivo sbagliato il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle Errore di I e II tipo informazioni Accuratezza: prossimità al valore Errore di IV tipo: prodotto corretto, mavero troppo in ritardo Tempestività: pubblicazione entro il tempo predeterminato Accessibilità fisica e intellettuale (comprensibilità) Comparabilità nel tempo e tra domini di studio 3 Coerenza tra misure del medesimo fenomeno provenienti da diverse fonti e prodotte con metodi La qualità statistica dei dati ufficiali XI Conferenza nazionale di statistica, 2013 Dimensioni della qualità (Statistics Canada, 2002; National Statistics, 2007; Eurostat, 2009): Pertinenza (relevance): grado di concordanza tra il prodotto statistico e il costrutto atteso in termini di copertura e contenuto delle informazioni Attendibilità: prossimità al valore vero, funzione di: Precisione campionaria Accuratezza della rilevazione e dell’elaborazione dei dati Tempestività: pubblicazione entro il tempo predeterminato Accessibilità fisica e intellettuale (comprensibilità) Comparabilità nel tempo e tra domini di studio e 4 Il nuovo contesto XI Conferenza nazionale di statistica, 2013 La tecnologia sta rendendo scambiabili le basi di dati locali e invita a costruire basi di dati nazionali: Anagrafe nazionale della popolazione (delle famiglie) Anagrafe nazionale delle abitazioni (numeri civici) Anagrafe nazionale delle imprese (ASIA) Pertanto, scompaiono i censimenti tradizionali e sono invece create ed alimentate nel continuo anagrafi nazionali (“censimenti continui”) per confluenza di quelle locali, scompaiono molte indagini campionarie e cambia il ruolo delle indagini campionarie nel processo di formazione delle statistiche ufficiali Assume un ruolo ancora più importante il controllo 5 La confluenza delle anagrafi This is a bias This is a “hot point” Che cosa interessa allo statistico ufficiale? La qualità media dell’acqua alla foce o lungo la pianura (la qualità delle statistiche tratte SI dall’anagrafe nazionale)? La qualità dell’acqua dei singoli affluenti (la Forse qualità delle statistiche a livello locale)? Scoprire “hot point” inquinanti (le fonti locali i SI cui errori possono minare l’attendibilità delle statistiche nazionali)? La presenza di coccodrilli nell’acqua stagnante SI (i rischi di distorsione nelle stime traibili dalle anagrafi nazionali, spesso causate da chi organizza le rilevazioni dei dati)? 7 Sistema di assicurazione qualità Alla foce (Istat: indagini periodiche per la valutazione della qualità media uscente) • Revisione metodologica • Metadati e buone prassi ISTAT (controllo periodico) ? • Interventi sulle fonti locali SISTAN (auto-controllo, controllo su richiesta) Alla sorgente (Sistan: un sistema di “chiuse” attraverso le quali passa/non passa l’acqua) Il controllo continuo della qualità Ente realizzatore: Istat, oppure COGIS, o ente terzo (v. UK) Periodicità: ogni anno, oppure ogni due anni Obiettivi: Valutazione della qualità di statistiche “di riferimento” in dati domini di studio Controllo, a fini di miglioramento, del sistema di produzione delle statistiche nazionali Campionamento: batch (lotti) di dati prodotti da fonti locali (es: comune, UdS) per stimare anche l’accuratezza locale, campionando più intensamente le fonti che, si ipotizza (in base ai dati noti), danno tassi d’errore più alti (“hot points”) XI Conferenza nazionale di statistica, 2013 9 Il sistema di controllo locale Gli Uffici di statistica, gangli del SISTAN, per essere funzionali al sistema di controllo, dovrebbero: Essere pochi e di riconosciuta autorità, soprattutto nei confronti del sistema amministrativo di produzione dei dati (es: sistema periferico del Ministero dell’Interno, oppure CCIAA) Essere in posizione tale da poter intercettare i flussi di dati locali e poter intervenire in tempi rapidi (es: province, grandi comuni, regioni) Essere formati sul piano statistico e normativo (e relazionale), tanto da essere in grado di elaborare i dati che transitano dall’UdS, di comprenderne la qualità e di farla comprendere Sentirsi parte del Sistema statistico nazionale XI Conferenza nazionale di statistica, 2013 10 I metadati Sono dati di quadro sul metodo e sui tempi di produzione dei dati, compreso il questionario, sui metodi di controllo ed analisi dei dati e sull’esito della verifica della qualità dei dati, comprese indicazioni sulla loro utilizzabilità L’Eurostat (Pellegrino, 2006) ha posto in essere il sistema SDMX standardizzato, a valenza europea, per l’accesso a file di metadati generali (es: Transparency of practices, Accessibility, etc.) Un sistema di metadati è il cuore di un sistema nazionale di formazione dei dati; va alimentato con gli esiti del controllo della qualità e con le relative riflessioni in termini di buone pratiche XI Conferenza nazionale di statistica, 2013 11 La formazione delle fonti dei dati Formazione di carattere metodologico generale sulle rilevazioni statistiche e sul tipo e conseguenza degli errori nei dati Lavoro condiviso sui propri dati: dalla pratica di analisi dei dati e dalla costruzione di indicatori e di report nasce formazione on the job efficace; dalla collaborazione all’attività degli amministrativi produttori dei dati si corrobora la consapevolezza della qualità e dei problemi che pone la formazione del dato Review (self, peer, user); peer review: forme di valutazione reciproche tra produttori di dati; user review: sistema di raccolta delle osservazioni sui dati da parte degli utenti XI Conferenza nazionale di statistica, 2013 12 La diffusione delle informazioni sulla qualità Interna al sistema: il sistema deve mantenere la sua credibilità complessiva Forma sintetica: Indicatori di qualità, da valutare in serie storica, con interesse preminente per le cause degli errori, per i processi più vulnerabili e per i prodotti più a rischio Gestione dei metadati (v. FBI, raggiungimento di buone pratiche (insieme di coerenze e di ammissibilità, standard metodologici, …) Periodicità: 3-5 anni XI Conferenza nazionale di statistica, 2013 http://www.fbi.gov/aboutus/cjis/ucr/data_quality_guidelines) finalizzata al 13 Problemi del sistema di controllo 1. 3. 4. XI Conferenza nazionale di statistica, 2013 2. L’integrazione tra fonti di origine amministrativa permette di scoprire incoerenze (inconsistency) tra dati. Altri errori si scoprono in base alla incoerenza o alla inammissibilità probabilistica tra variabili diverse dello stesso o di altri archivi. Come si utilizzano incoerenze e inammissibilità? Eventualmente a livello locale? Il sistema di controllo ex-post non permette la valutazione della completezza della rilevazione. L’integrazione tra fonti può, invece, portare alla scoperta di incompletezze. Come si utilizza l’informazione sull’incompletezza? Che fare dei lotti con tanti errori? La scoperta di errori si può tradurre in metadati 14 Risorse necessarie XI Conferenza nazionale di statistica, 2013 Il minor costo del procacciamento dei dati ha liberato risorse. Tuttavia, la qualità costa, va messa a bilancio. Il controllo della qualità richiede indagini interne (svolte dall’Istat stesso o da un ente esterno) La verifica interna dei possibili errori nei dati (microdati, batch di dati) richiede tempo e impegno del personale dedicato, anche se diventasse attività di routine degli UdS 15 Concludendo…. La qualità dei dati è, e ancor più sarà, uno degli impegni principali dei produttori di dati, come conseguenza del nuovo quadro tecnologico e normativo di produzione di grandi basi di dati statistici a livello nazionale I sistemi di controllo della qualità sviluppati da organismi statistici internazionali e nazionali di vari paesi, anche in ottemperanza a norme ISO 9000 e ISO 20252, mirano a sviluppare, armonizzare e rendere trasparenti i processi, non si interessano ai prodotti Per sviluppare un sistema italiano di controllo della qualità dei dati ufficiali è necessario coinvolgere e attrezzare il Sistan Molte aree rimangono da sviluppare sul piano metodologico se si vuole mettere in piedi un sistema XI Conferenza nazionale di statistica, 2013 16 Ringrazio per l’attenzione