Data quality e Open data Domenico Natale Uninfo Torino, 15-17 novembre 2011 Convegno AICA Sommario • Premessa: • • • – Dimensioni dei contenuti web – Linea di tendenza Qualità dei dati: ISO/IEC 25012 – Inerente – Dipendente dal sistema Open data – Conoscitiva/ideativa su dati statistici – Partecipativa su dati personali Quadro contestuale Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Dimensione dei contenuti web… • Si stima che nel web la misura dei contenuti digitali nel mondo sia vicina ad un zettabyte (un triliardo di byte) e che le informazioni siano pari a circa un milione di volte quelle contenute in tutte le biblioteche degli Stati Uniti (Jonathan Effrat, Product Manager di Google) Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Dimensione contenuti web Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Linea di tendenza: il Cloud Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Linea di tendenza: qualità dei dati • Il concetto della qualità dei dati è in questi anni al centro dell’attenzione per diverse ragioni, tra cui: – la crescente quantità di dati memorizzati (dati digitali) sia su Internet che nelle banche dati dei sistemi informativi – la necessità di una maggiore integrazione – la ricerca della massima accuratezza e sicurezza • Il dato sta assumendo caratteristiche autonome e diverse dal software: – è condiviso e non replicato con diversità – ha una vita media superiore (anche di secoli…) – rappresenta fatti reali e non solo artefatti Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Esigenza di un modello • In ambito ISO si è sentita l’esigenza di un modello internazionale di riferimento sui dati, con la consapevolezza che la realtà dei fatti è sempre più complessa di ogni artefatto • In vari Paesi sono stati avviati programmi di Data Governance per la valorizzazione dei dati e l’aumento di interoperabilità dei sistemi Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Standard ISO/IEC 25012 • E’ uno standard per la qualità del prodotto e non del processo • Non entra nel merito di fattori organizzativi o di processo • Si riferisce ai dati memorizzati in un formato strutturato all’interno di un sistema informatico • Tiene conto di tutti i tipi di dati (ed esempio: stringhe, testi, date, numeri, immagini, suoni, ecc.) Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Modello di qualità dei dati Caratteristiche della qualità dei dati Inerenti F A T T I A R T E F A T T I Inerenti e dipendenti dal sistema Dipendenti dal sistema Accuratezza Attualità Coerenza Completezza Credibilità Dati H C I Accessibilità Comprensibilità Dati Sw Hw Sys S U P P O R T O Conformità Efficienza Precisione Riservatezza Tracciabilità Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Disponibilità Portabilità Ripristinabilità Definizioni… Punto di vista di qualità dei dati “inerente” Le caratteristiche di un dato hanno un potenziale intrinseco di soddisfare esigenze esplicite o implicite – Accuratezza: il grado in cui gli attributi del dato rappresentano correttamente il valore reale di concetti o eventi in uno specifico contesto d’uso • Sintattica: Manrio invece di Mario • Semantica: Giorgio invece di Giovanni Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Definizioni… – Attualità: il grado in cui gli attributi del dato sono del “giusto” tempo in uno specifico contesto d’uso – Coerenza: il grado in cui gli attributi del dato sono non contraddittori e coerenti con altri dati in uno specifico contesto d’uso Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Definizioni… – Completezza: il grado in cui il dato associato ad un’entità presenta valori per tutti gli attributi attesi e le relative istanze in uno specifico contesto d’uso – Credibilità: il grado in cui gli attributi del dato sono considerati veri, riconoscibili (autentici, certificati) dagli utenti in uno specifico contesto d’uso Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Definizioni… Punto di vista di qualità dei dati “dipendente dal sistema” La qualità dei dati è raggiunta e preservata nell’ambito di un sistema computerizzato (dominio tecnologico in cui i dati sono usati: hardware, devices, tools) – Disponibilità: il grado in cui gli attributi del dato gli consentono di essere ripreso da utenti autorizzati o applicazioni in uno specifico contesto d’uso Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Definizioni… Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Definizioni… Punto di vista di qualità dei dati “inerente” e “dipendente dal sistema” – Accessibilità: il grado in cui il dato può essere acceduto in uno specifico contesto d’uso, in particolare da persone che hanno bisogno di tecnologie assistive o configurazioni particolari a causa di disabilità – Comprensibilità: il grado in cui gli attributi del dato gli consentono di essere letto e interpretato dagli utenti, espressi in un linguaggio appropriato, simboli e unità in uno specifico contesto d’uso – Conformità: il grado in cui gli attributi del dato aderiscono a standard, convenzioni o regolamenti in essere e con simili regole relativamente alla qualità del dato in uno specifico contesto d’uso Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Definizioni… – Efficienza: il grado in cui gli attributi del dato possono essere elaborati con attesi livelli di performance impiegando appropriati volumi e tipi di risorse in uno specifico contesto d’uso – Precisione: il grado in cui gli attributi del dato sono esatti e che consentono discriminazioni in uno specifico contesto d’uso – Riservatezza: il grado in cui gli attributi del dato assicurano che è accessibile e interpretabile solamente da utenti autorizzati in uno specifico contesto d’uso – Tracciabilità: il grado in cui gli attributi del dato consentono una verifica del percorso degli accessi, di ogni cambiamento fatto in uno specifico contesto d’uso Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Esempio di applicazione Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Modalità sperimentata di utilizzo • Selezionare le caratteristiche secondo il contesto • Definire le regole e applicarle in analisi/implementazione/esercizio • Produrre il grafico-radar e un indicatore sintetico • Mantenere serie storica dei risultati con istogrammi • Segnalare le anomalie agli utenti dei dati, in numero ragionevole • Proporre miglioramenti: del processo, del software, delle norme… • Uilizzare visualizzazioni su web e aumentare la disponibilità di dati Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Open data… • Disponibilità di dati on-line (statistici o singoli) con livelli crescenti di maturità: – formati proprietari (Excel) – formati aperti (XML, RDF) – link verso altri dati Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Open data • Richiede – la massima usabilità delle interfacce – l’integrazione dei sistemi – una elevata qualità dei dati in termini di: • coerenza dei dati tra sistemi diversi • accessibilità e comprensibilità • univocità semantica – Catalogo dati, modelli dati e dizionari – Cubi di dati multi-dimensionali in RDF Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Alcuni link… • • • • • • www.dati.gov.it www.appsforitaly.org www.datagov.it www.data.gov www.linkedopendata.it www.spaghettiopendata.org Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Alcuni link • • • • • www.w3.org/2011/gld/charter.html www.cnr.it/cnr/events/CnrEventi?IDn=2527 it.ckan.net it.wikipedia.org/wiki/Open_government it.wikipedia.org/wiki/Dati_aperti Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Esempi statistici da Dati.gov.it • Domande e risposte • Idrografia del Piemonte • Censimento auto blu • Bilancio elaborabile del Comune di Udine • Dati aperti dell’Emilia Romagna • Giornata italiana della Statistica – Istat • Concorso di idee per dati aperti Apps4Italy Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Un esempio su dati anagrafici • Cognome e Nome • CF • Residenza – – – – – – – – – – – – – Comune Carta identità Patente Libretto di circolazione AT INPS INAIL Canone TV Gestori energia Gestori comunicazioni Servizi ambiente Banche ecc. Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Circolarità dell’informazione DQ ambiente reale Call/contact Center Sw Utente Open data Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Best-practice circolarità • SMS o e-mail di Banche • e-mail per acquisti online • e-mail per variazioni account su internet • Iter delle pratiche Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Esperienze di Open Data… • San Francisco Data-SF • New York Data sets • Data Vancouver • Berlino APP4 • Barcelona • Marsiglia • UK Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Esperienze di Open Data • Helsinki • Australia • Regioni (Piemonte, Sardegna, Emilia • Romagna, Liguria, Lombardia, Sicilia, Toscana, Veneto) Provincia di Trento Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Ricadute dell’Open data • Consente la partecipazione dell’utente che può riusare dati e ideare nuovi servizi • Offre una immagine di trasparenza dell’istituzione che la pratica • Offre possibilità di studi, ricerche e innovazione di servizi • Diffonde conoscenza, nel rispetto della privacy Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Quadro contestuale Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Open data e Total quality • I dati aperti devono essere di alta qualità • Nei casi in cui non lo fossero l’utente dovrebbe poter contribuire con proposte correttive • In tal modo l’utente, possessore primario del dato, è anche <verificatore> in un quadro di qualità totale (apertura-chiusura dell’iter informativo) Torino, 15-17 novembre 2011 D.Natale-Convegno AICA Conclusione • La crescente quantità di dati digitali richiede • • • l’applicazione di standard e di interventi di back-end tendenti ad ottimizzare la qualità dei dati Una migliore integrazione tra i sistemi può essere ottenuta anche con il contributo in front-end degli utenti finali, con le opportune autenticazioni Il perseguimento della Qualità dei dati e la pratica dell’Open data si completano a vicenda L’aumento della disponibilità coerente di dati aperti si configura come fattore di progresso e sviluppo Torino, 15-17 novembre 2011 D.Natale-Convegno AICA