La qualita’ dei dati
nei sistemi informativi
C. Batini - Aipa
A man with a watch knows what time it is
A man with two is never sure
Mark Twain
1
Indice della presentazione
• Motivazioni per la qualita’ dei dati
• La qualita’ dei dati nei diversi tipi di sistemi
informativi
• Le dimensioni della qualita’ dei dati
• Le metodologie per la misurazione e il
miglioramento della qualita’ dei dati in sistemi
informativi tradizionali
• Cenni alle metodologie per misurazione &
miglioramento in sistemi informativi cooperativi
2
Motivazioni per la qualita’ dei dati
3
Perche’ la qualita’ dei dati e’ importante
• La scarsa qualita’ dei dati e’ pervasiva,
soprattutto in un approccio a rete
• Influenza il successo e l’ immagine della
organizzazione
• Eleva i costi
• Influenza i processi decisionali
• Impedisce il re-engineering
• Rende difficile una strategia a lungo termine
4
La qualità dei dati nei diversi tipi
di sistemi informativi
5
Diversi tipi di sistemi informativi
• Sistemi informativi monoorganizzazione
– Centralizzati classici
– Distribuiti
• Sistemi informativi cooperativi
• Sistemi informativi direzionali di tipo data
wharehouse
6
Rete unitaria e sistema informativo unitario della PA:
situazione di partenza
Dati
Amministrazione 1
Amministrazione 2
Processi
Processi
Applicazioni
Dati
Applicazioni
Sistema “AmmCentrale to AmmCentrale”
Amministrazione 1
Amministrazione 2
Processi
Processi
Applicazioni
interne
Dati e servizi
esposti
Dati
Dati
Dati
esposti
Dati
esposti
Servizi di interoperabilità
Servizi di trasporto
Applicazioni
interne
Dati e servizi
esposti
Sistema “AmmCentrale to AmmLocale”
Amministrazione 2
Amministrazione 1
Processi
Processi
Applicazioni
interne
Dati e servizi
esposti
Dati
Dati
Dati
esposti
Dati
esposti
Processi
Processi
Applicazioni
Applicazioni
interne
interne
Dati e servizi
esposti
Amministrazione 2
Amministrazione 1
Dati e servizi
esposti
Dati
Dati
Dati
esposti
Dati
esposti
Servizi di interoperabilità
Servizi di interoperabilità
Servizi di trasporto
Servizi di trasporto
Servizi di interoperabilità
Servizi di trasporto
Applicazioni
interne
Dati e servizi
esposti
Sistema “Amministrazione to Cittadino”
Amministrazione 1
Amministrazione 2
Amministrazione 1
Amministrazione 2
Processi
Processi
Processi
Processi
Applicazioni
interne
Dati e servizi
esposti
Dati
Dati
Dati
esposti
Dati
esposti
Applicazioni
Applicazioni
interne
interne
Dati e servizi
esposti
Dati e servizi
esposti
Dati
Dati
Dati
esposti
Dati
esposti
Servizi di interoperabilità
Servizi di interoperabilità
Servizi di trasporto
Servizi di trasporto
Servizi di interoperabilità
Servizi di trasporto
Internet e altri canali
Applicazioni
interne
Dati e servizi
esposti
Nei data wharehouse
• Integrazione di schemi logici
• Integrazione dei dati
• Individuazione e risoluzione delle
incoerenze
• Pulizia dei dati
11
Le dimensioni
della qualita’dei dati
12
In una qualunque base di dati o
archivio possiamo distinguere ..
• Il livello dello schema logico
– Es archivio dipendenti, archivio stipendi, ecc.
• Il livello dei valori e del formato dei dati
– Es per i valori
• Archivio dipendenti
• Mario Rossi, nato a Brescia il 21-12-1977
– Es per il formato
• Campo Cognome
• PICTURE X(12)
13
Lo schema logico
Comune
Catasto
geometrico
Particella
Bene
Fabbricato
Catasto
fabbricati
Terreno
Soggetto fisico
o giuridico
Catasto
terreni
14
I valori
15
Il formato
16
Schema logico dei dati
17
Le dimensioni dello schema logico
• Contenuto
• Copertura, cioe’ grado in cui lo schema logico
comprende un adeguato numero di archivi e campi da
incontrare le necessita’ delle applicazioni
• Livello di dettaglio
• Composizione, cioe’ la struttura interna dello schema
• Consistenza
• Economicita’
• Flessibilita’ al cambiamento
18
Dettaglio delle proprietà
Composizione
Contenuto
Naturalezza
Rilevanza
Identificabilità
Ottenibilità
Omogeneità
Chiarezza della definizione
Ridondanza minima necessaria
Copertura
Consistenza
Completezza
Consistenza semantica
Essenzialità
Consistenza strutturale
Livello di dettaglio
Reazione al cambiamento
Granularità degli attributi
Robustezza
Precisione dei domini
Flessibilità
19
Esempi di alcune proprietà
• Granularità degli attributi
– Es. Il concetto di “indirizzo” può essere rappresentato in alcune
applicazioni semplicemente da “Stato”, in altre da “via”+”numero
civico”+ “Città”+” Stato”
• Precisione dei domini
–
Es. Un dominio dell’attributo “altezza” di una persona che la esprime in
cm, risulta più preciso di un dominio che prevede i valori ALTA, MEDIA,
BASSA
• Naturalezza
–
Es. Un attributo composto <Sesso,Stato Matrimoniale> è poco naturale
perché esprime due fatti naturalmente scorrelati
20
Esempi di alcune proprietà
(continua)
• Consistenza strutturale
– Es. Tutte le date devono avere un formato comune,
anche se rappresentano attributi di archivi diversi
• Ottenibilità
– Es. I dati di una società commerciale non sono
disponibili nell’anno corrente, per non facilitare la
concorrenza (ma sono ottenibili solo quelli di anni
precedenti)
21
Copertura
• Completezza - Ogni archivio e campo
necessario agli utenti e’ incluso nello
schema logico
• Essenzialita’ - nessun archivio e campo
non indispoensabile agli utenti e’ incluso
nello schema logico
22
Ma tradizionalmente anche ..
• Normalita’:
–
–
–
–
–
–
–
Prima forma normale
Seconda forma normale
Terza forma normale
Quarta forma normale
Boyce Codd Normal Form
Quinta forma normale
Domain Key Normal Form
23
Le dimensioni non sono ortogonali
• Le dimensioni (o caratteristiche) non sono indipendenti
tra di loro:
– correlazioni positive : migliorare una caratteristica migliora
anche l’altra
– correlazioni negative: migliorare una peggiora l’altra
• Esempi:
– Gode di correlazione positiva la terna
• comprensività,
• granularità degli attributi e
• precisione del dominio
– Gode di correlazione negativa la coppia
• Economicita’
• Completezza
24
Dimensioni dei valori
e del formato
25
Valori dei dati
• Accuratezza, vicinanza del dato ad un valore nel dominio di
definizione considerato corretto
– importante, difficile da misurare (cfr realta’, storici)
• Correttezza, accuratezza al grado massimo
• Completezza, l’ estensione con cui i valori sono presenti nella
base di dati.
– Importante, difficile da misurare
– null values
• Tempestivita’, adeguatezza dell’ aggiornamento
– Importante, forse la maggior causa di processi scorretti
– Esempio PA
• Dichiarazioni dei redditi (fino all’ anno scorso)
• Informazioni sugli impiegati
3 anni di ritardo
2 anni di ritardo
• Consistenza di differenti valori.
– Quando tra dati consistenti vi e’ rapporto funzionale, porta a ridondanza
26
Formato
• Appropriatezza, rispetto alle esigenze dell’ utente
– dipende dal mezzo usato (es. Codici a barre, grafi)
• Interpretabilita’, aiuta l’ utente a interpretare i valori
correttamente
– Es. (1,2,3,4) vs (scarso, insufficiente, sufficiente, buono)
• Portabilita’, o Universalita’ tra diverse tipologie di
utenti
– es le icone agli aeroporti
• Precisione, capacita’ di discriminare tra diversi valori
– critica con le icone
• Flessibilita’, rispetto ai requisiti utente
• Capacita’ di rappresentare valori nulli
• Uso efficiente della memoria Es. (0,1) vs (
,
)
27
Come procedere alla misura della
qualita’ dei dati
• 1. Individuazione delle caratteristiche
(dimensioni) e sottocaratteristiche (proprieta’)
prioritarie
• 2. Individuazione dei criteri (proprieta’
misurabili)
• 3. Scelta della procedura di misurazione
• 4. Processo di misurazione
• 5. Aggiunta delle valutazioni non quantitative
• 6. Valutazione complessiva
28
Esempio del passo 1: linee
strategiche dell’ Aipa 1998-2000
“Nel campo specifico della qualita’ dei dati, da
intendersi principalmente come correttezza,
tempestivita’ di aggiornamento, completezza
e coerenza, occorre intervenire …….”
29
Proprieta’ richieste dalle metriche
–misurabilita’ quanto possibile con strumenti automatici
–affidabilità (essere non affette da errori casuali in maniera eccessiva),
–ripetibilità (misure rilevate sul medesimo componente in differenti
momenti nelle stesse condizioni di rilevazione devono dare lo stesso
risultato),
– riproducibilità (differenti valutatori debbono poter ottenere uguali
risultati in uguali condizioni di valutazione),
–disponibilità ad essere utilizzata,
–efficacia (in relazione al costo di suo impiego),
–correttezza (imparzialità e precisione),
–obiettività (in grado di dare risultati non influenzabili dal valutatore o
da altri fattori esterni),
–significatività (dare indicazioni significative sul comportamento del
componente valutato rispetto al requisito in esame);
30
Le metodologie per la
misurazione e il miglioramento
della qualita’ dei dati in sistemi
informativi tradizionali
31
Metodi
• Ispezione e correzione
– Comparazione dati con le controparti reali
– Database bashing
– Utilizzo di business rules
• Controllo e Miglioramento
del Processo
• Reingegnerizzazione
del Processo
Approccio
basato sui
Processi
32
Ispezione e correzione: tre approcci
• 1. Confronto dei dati con la realta’ che rappresentano
• costoso, a campione, molto preciso, una tantum per orientare l’
intervento
• 2. Confronto dei dati tra due o piu’ archivi
– + Facilmente applicabile, costo medio
– - Il matching non garantisce, se un dato e’ manifestamente errato forza a
considerare l’ altro corretto, non garantisce per il futuro, “abitua male”,
cioe’ falso senso di sicurezza (es. fatture vs fatture attese)
• 3. Confronto dei dati con vincoli o business rules
– un campo, piu’ campi, probabilistico
• + spesso efficace, poco costoso
• - non garantisce per il futuro, riguarda solo la conformita’ alle regole, non la
accuratezza, “abitua male”
• particolarmente adatti a dati permanenti
33
Miglioramento basato sui processi
Identificare il processo
Identificare il
process
owner (Data Steward)
Descrivere il processo
Stabilire un sistema di misura
Definire un sistema di monitoraggio e controllo (dei
dati e/ del processo)
Identificare gli obiettivi di miglioramento
Realizzare gli interventi di miglioramento
34
Stabilire un sistema di misura
• Passo 1 Cosa misurare: processi, campi,
metriche
• Passo 2 Definire il campionamento
• Passo 3 Tracking
• Passo 4 Identificazione degli errori e del
tempo di ritardo
35
Il processo suddiviso in 5 sottoprocessi
che alimentano 2 basi di dati DB1 e DB2
P1
P2
P3
P5
DB2
P4
DB1
36
Esempio: accuratezza per un campo a
della base dati DB1
P5
P1
P2
1%
2%
P3
DB2
P4
DB1
17% 0.5%
37
Esempio: consistenza tra due DB
per un campo b
.5%
P5
DB2
0%
11%
P3
11.5%
P4
DB1
0%
11%
38
Metodo
Miglioramento
Costo Totale
Quando
Breve
Termine
Lungo
Termine
Breve
Termine
Lungo
Termine
Laissez faire
Basso
Basso
Alto
Alto
Dati non importanti
Comparazione
mondo reale, una
volta
Alto
Basso
Alto
Alto
Per stimare la
corrente DQ
Comparazione
mondo reale,
periodico
Alto
Alto
Alto
Molto Alto
Mai
Database
bashing, una volta
Medio
Basso
Medio
Alto
Su dati che cambiano
lentamente (stabili),
quando un secondo
database
indipendente è
disponibile
Database
bashing, periodico
Medio
Medio
Medio
Molto Alto
Mai
Clean-up con
edits, una volta
Medio
Basso
Medio
Alto
Su dati che cambiano
lentamente (stabili)
Clean-up con
edits, periodico
Medio
Medio
Medio
Alto
Mai
Controllo e
Miglioramento del
Processo
Medio
Alto
Medio
Basso
Su tutti i dati che
vengono manipolati
frequentemente
Ingegnerizazione
del Processo
Medio
Alto
Medio
Molto Basso
Quando si progetta
39
una information chain
Cenni alle metodologie per
misurazione & miglioramento in
sistemi informativi cooperativi
40
Qualità dei Dati più complessa
• Sistemi eterogenei implicano con elevata
probabilità schemi logici differenti
• La necessità di scambiarsi dati può determinare
l’insorgere di problemi nello scambio (es.data
entry dei dati acquisiti da un’altra organizzazione)
• Maggiore latenza del sistema cooperativo (es. la
duplicazione di un dato su più organizzazioni
comporta valori variabili della “tempestività” del
dato)
41
Misurazione
• Possibilità di mutuare i risultati ottenuti per
la QD delle sorgenti del World Wide Web
(WWW)
• Sono stati realizzati sistemi che fanno un
assessment della QD delle sorgenti
mediante l’utilizzo di metadati per la
qualità dei dati
42
Metadati per la qualità dei dati
• Esempi di metadati da associare ai dati esposti
dalle singole organizzazioni cooperanti sono:
– data dell’ultimo aggiornamento;
– codifica del Data Steward del dato;
– codifica della sorgente che ha effettuato l’ultimo
aggiornamento, etc.
• La valutazione dei metadati fornisce un livello di
soglia di alcune dimensioni:
– Tempestività (data dell’ultimo aggiornamento)
– Affidabilità (se la sorgente che ha effettuato l’ultimo
aggiornamento è il Data Steward è massima)
– …
43
Miglioramento
• Le tecnologie attuali abilitano un
miglioramento della qualità dei dati quando
sistemi diversi necessitano di cooperare:
reingegnerizzaione IT-driven
– Due esempi: XML e Publish and Subscribe
44
XML come driver del reengineering DQ-oriented
• XML: tecnologia per lo scambio dei dati
fra le organizzazioni cooperanti
• Per ogni macro-processo accordo tra le
organizzazioni partecipanti sullo schema
logico delle informazioni di scambio (Es.
DTD XML)
45
Le caratteristiche che migliorano:
i valori
+ Accuratezza: si automatizza la fase di
data entry, e quindi minor numero di
errori
= Completezza
+ Tempestivita’
+ Consistenza : la consistenza semantica
aumenta in virtù dell’ accordo tra le
organizzazioni
46
Le caratteristiche che migliorano:
il formato
= Appropriatezza
+ Interpretabilità
+ Portabilità
- Precisione
+ Flessibilità
= Capacità di rappresentare valori nulli
- Efficienza nell’impiego dei mezzi di
registrazione
47
Publish&Subscribe come driver del reengineering DQ-oriented
• Meccanismo di notifica basato su eventi
• Il ruolo dei Data Steward
– Esempio PA: il Data Steward delle
informazioni anagrafiche (Es. l’indirizzo di
nascita) è il Comune di nascita, e quindi
idealmente una seconda amministrazione
dovrebbe aggiornare i propri archivi solo in
seguito all’emissione di un evento da parte del
data steward.
48
Una possibile architettura di P&S
Dominio pubblicante
DATA
STEWARD
Applicazione
Applicazione
Applicazione
creazione di evento
Porta di
pubblicazione
notifica di evento
Gestore
del sistema di
P&S
rete
ricezione di evento
eventi da
distribuire
Directory
utenti
P&S
Porta di
sottoscrizione
trattamento evento
Applicazione
Applicazione
Applicazione
Domino sottoscrittore
49
Le caratteristiche che migliorano
• Tempestività: l’architettura del P&S
consente un miglioramento in termini di
velocità con cui i dati sono aggiornati
• Ma anche:
– Accuratezza (assegnazione di responsabilità
definita sul dato al Data Steward…)
– Consistenza etc.
50
Riferimenti
• REDMAN Thomas C. Redman - Data Quality for the information
Age - 1996 Artech House
• BALLOU D. Ballou, G. Tayi - Enhancing Data quality in Data
Warehouse Environments, Comm ACM January 1999, 42,1.
• MIHAILA G.,RASHID L.,VIDAL M.: “Querying quality of data
metadata”. In Proceedings of the 6th International Conference on
Extending Database Technology (EDBT), Valencia, Spain , 1998.
• MIHAILA G.: Publishing, Locating, and Querying Networked
Information Sources. PhD thesis, University of Toronto, 2000.
• GALHARDAS H.,FLORESCU D. et alii: An Extensible Framework
for Data Cleaning. In Proceedings of the 16th International
Conference on Data Engineering (2000)
51
Scarica

La qualita` dei dati