Data quality e Open data
Domenico Natale
Uninfo
Torino, 15-17 novembre 2011
Convegno AICA
Sommario
• Premessa:
•
•
•
– Dimensioni dei contenuti web
– Linea di tendenza
Qualità dei dati: ISO/IEC 25012
– Inerente
– Dipendente dal sistema
Open data
– Conoscitiva/ideativa su dati statistici
– Partecipativa su dati personali
Quadro contestuale
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Dimensione dei contenuti web…
• Si stima che nel web la misura dei contenuti
digitali nel mondo sia vicina ad un zettabyte
(un triliardo di byte) e che le informazioni siano
pari a circa un milione di volte quelle contenute
in tutte le biblioteche degli Stati Uniti (Jonathan
Effrat, Product Manager di Google)
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Dimensione contenuti web
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Linea di tendenza: il Cloud
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Linea di tendenza: qualità dei dati
• Il concetto della qualità dei dati è in questi anni al centro
dell’attenzione per diverse ragioni, tra cui:
– la crescente quantità di dati memorizzati (dati digitali) sia su
Internet che nelle banche dati dei sistemi informativi
– la necessità di una maggiore integrazione
– la ricerca della massima accuratezza e sicurezza
• Il dato sta assumendo caratteristiche autonome e
diverse dal software:
– è condiviso e non replicato con diversità
– ha una vita media superiore (anche di secoli…)
– rappresenta fatti reali e non solo artefatti
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Esigenza di un modello
• In ambito ISO si è sentita l’esigenza di un
modello internazionale di riferimento sui dati,
con la consapevolezza che la realtà dei fatti è
sempre più complessa di ogni artefatto
• In vari Paesi sono stati avviati programmi di
Data Governance per la valorizzazione dei dati e
l’aumento di interoperabilità dei sistemi
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Standard ISO/IEC 25012
• E’ uno standard per la qualità del prodotto e non
del processo
• Non entra nel merito di fattori organizzativi o di
processo
• Si riferisce ai dati memorizzati in un formato
strutturato all’interno di un sistema informatico
• Tiene conto di tutti i tipi di dati (ed esempio:
stringhe, testi, date, numeri, immagini, suoni,
ecc.)
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Modello di qualità dei dati
Caratteristiche della qualità dei dati
Inerenti
F
A
T
T
I
A
R
T
E
F
A
T
T
I
Inerenti e dipendenti
dal sistema
Dipendenti dal
sistema
Accuratezza
Attualità
Coerenza
Completezza
Credibilità
Dati
H
C
I
Accessibilità
Comprensibilità
Dati
Sw
Hw
Sys
S
U
P
P
O
R
T
O
Conformità
Efficienza
Precisione
Riservatezza
Tracciabilità
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Disponibilità
Portabilità
Ripristinabilità
Definizioni…
Punto di vista di qualità dei dati “inerente”
Le caratteristiche di un dato hanno un potenziale
intrinseco di soddisfare esigenze esplicite o
implicite
– Accuratezza: il grado in cui gli attributi del dato
rappresentano correttamente il valore reale di
concetti o eventi in uno specifico contesto d’uso
• Sintattica: Manrio invece di Mario
• Semantica: Giorgio invece di Giovanni
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Definizioni…
– Attualità: il grado in cui gli attributi del dato sono del
“giusto” tempo in uno specifico contesto d’uso
– Coerenza: il grado in cui gli attributi del dato sono
non contraddittori e coerenti con altri dati in uno
specifico contesto d’uso
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Definizioni…
– Completezza: il grado in cui il dato associato ad
un’entità presenta valori per tutti gli attributi attesi e
le relative istanze in uno specifico contesto d’uso
– Credibilità: il grado in cui gli attributi del dato sono
considerati veri, riconoscibili (autentici, certificati)
dagli utenti in uno specifico contesto d’uso
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Definizioni…
Punto di vista di qualità dei dati “dipendente dal
sistema”
La qualità dei dati è raggiunta e preservata
nell’ambito di un sistema computerizzato
(dominio tecnologico in cui i dati sono usati:
hardware, devices, tools)
– Disponibilità: il grado in cui gli attributi del dato gli
consentono di essere ripreso da utenti autorizzati o
applicazioni in uno specifico contesto d’uso
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Definizioni…
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Definizioni…
Punto di vista di qualità dei dati “inerente” e “dipendente dal sistema”
– Accessibilità: il grado in cui il dato può essere acceduto in uno specifico
contesto d’uso, in particolare da persone che hanno bisogno di
tecnologie assistive o configurazioni particolari a causa di disabilità
– Comprensibilità: il grado in cui gli attributi del dato gli consentono di
essere letto e interpretato dagli utenti, espressi in un linguaggio
appropriato, simboli e unità in uno specifico contesto d’uso
– Conformità: il grado in cui gli attributi del dato aderiscono a standard,
convenzioni o regolamenti in essere e con simili regole relativamente
alla qualità del dato in uno specifico contesto d’uso
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Definizioni…
– Efficienza: il grado in cui gli attributi del dato possono essere
elaborati con attesi livelli di performance impiegando appropriati
volumi e tipi di risorse in uno specifico contesto d’uso
– Precisione: il grado in cui gli attributi del dato sono esatti e che
consentono discriminazioni in uno specifico contesto d’uso
– Riservatezza: il grado in cui gli attributi del dato assicurano che
è accessibile e interpretabile solamente da utenti autorizzati in
uno specifico contesto d’uso
– Tracciabilità: il grado in cui gli attributi del dato consentono una
verifica del percorso degli accessi, di ogni cambiamento fatto in
uno specifico contesto d’uso
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Esempio di applicazione
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Modalità sperimentata di utilizzo
• Selezionare le caratteristiche secondo il contesto
• Definire le regole e applicarle in analisi/implementazione/esercizio
• Produrre il grafico-radar e un indicatore sintetico
• Mantenere serie storica dei risultati con istogrammi
• Segnalare le anomalie agli utenti dei dati, in numero ragionevole
• Proporre miglioramenti: del processo, del software, delle norme…
• Uilizzare visualizzazioni su web e aumentare la disponibilità di dati
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Open data…
• Disponibilità di dati on-line (statistici o
singoli) con livelli crescenti di maturità:
– formati proprietari (Excel)
– formati aperti (XML, RDF)
– link verso altri dati
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Open data
• Richiede
– la massima usabilità delle interfacce
– l’integrazione dei sistemi
– una elevata qualità dei dati in termini di:
• coerenza dei dati tra sistemi diversi
• accessibilità e comprensibilità
• univocità semantica
– Catalogo dati, modelli dati e dizionari
– Cubi di dati multi-dimensionali in RDF
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Alcuni link…
•
•
•
•
•
•
www.dati.gov.it
www.appsforitaly.org
www.datagov.it
www.data.gov
www.linkedopendata.it
www.spaghettiopendata.org
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Alcuni link
•
•
•
•
•
www.w3.org/2011/gld/charter.html
www.cnr.it/cnr/events/CnrEventi?IDn=2527
it.ckan.net
it.wikipedia.org/wiki/Open_government
it.wikipedia.org/wiki/Dati_aperti
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Esempi statistici da Dati.gov.it
• Domande e risposte
• Idrografia del Piemonte
• Censimento auto blu
• Bilancio elaborabile del Comune di Udine
• Dati aperti dell’Emilia Romagna
• Giornata italiana della Statistica – Istat
• Concorso di idee per dati aperti Apps4Italy
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Un esempio su dati anagrafici
• Cognome e Nome
• CF
• Residenza
–
–
–
–
–
–
–
–
–
–
–
–
–
Comune
Carta identità
Patente
Libretto di circolazione
AT
INPS
INAIL
Canone TV
Gestori energia
Gestori comunicazioni
Servizi ambiente
Banche
ecc.
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Circolarità dell’informazione
DQ
ambiente
reale
Call/contact
Center
Sw
Utente
Open
data
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Best-practice circolarità
• SMS o e-mail di Banche
• e-mail per acquisti online
• e-mail per variazioni account su internet
• Iter delle pratiche
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Esperienze di Open Data…
• San Francisco Data-SF
• New York Data sets
• Data Vancouver
• Berlino APP4
• Barcelona
• Marsiglia
• UK
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Esperienze di Open Data
• Helsinki
• Australia
• Regioni (Piemonte, Sardegna, Emilia
•
Romagna, Liguria, Lombardia, Sicilia,
Toscana, Veneto)
Provincia di Trento
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Ricadute dell’Open data
• Consente la partecipazione dell’utente che può
riusare dati e ideare nuovi servizi
• Offre una immagine di trasparenza
dell’istituzione che la pratica
• Offre possibilità di studi, ricerche e innovazione
di servizi
• Diffonde conoscenza, nel rispetto della privacy
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Quadro contestuale
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Open data e Total quality
• I dati aperti devono essere di alta qualità
• Nei casi in cui non lo fossero l’utente dovrebbe
poter contribuire con proposte correttive
• In tal modo l’utente, possessore primario del
dato, è anche <verificatore> in un quadro di
qualità totale (apertura-chiusura dell’iter
informativo)
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Conclusione
• La crescente quantità di dati digitali richiede
•
•
•
l’applicazione di standard e di interventi di back-end
tendenti ad ottimizzare la qualità dei dati
Una migliore integrazione tra i sistemi può essere
ottenuta anche con il contributo in front-end degli utenti
finali, con le opportune autenticazioni
Il perseguimento della Qualità dei dati e la pratica
dell’Open data si completano a vicenda
L’aumento della disponibilità coerente di dati aperti si
configura come fattore di progresso e sviluppo
Torino, 15-17 novembre 2011
D.Natale-Convegno AICA
Scarica

Data quality e Open data (UNINFO)