La qualita’ dei dati nei sistemi informativi C. Batini - Aipa A man with a watch knows what time it is A man with two is never sure Mark Twain 1 Indice della presentazione • Motivazioni per la qualita’ dei dati • La qualita’ dei dati nei diversi tipi di sistemi informativi • Le dimensioni della qualita’ dei dati • Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi informativi tradizionali • Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi 2 Motivazioni per la qualita’ dei dati 3 Perche’ la qualita’ dei dati e’ importante • La scarsa qualita’ dei dati e’ pervasiva, soprattutto in un approccio a rete • Influenza il successo e l’ immagine della organizzazione • Eleva i costi • Influenza i processi decisionali • Impedisce il re-engineering • Rende difficile una strategia a lungo termine 4 La qualità dei dati nei diversi tipi di sistemi informativi 5 Diversi tipi di sistemi informativi • Sistemi informativi monoorganizzazione – Centralizzati classici – Distribuiti • Sistemi informativi cooperativi • Sistemi informativi direzionali di tipo data wharehouse 6 Rete unitaria e sistema informativo unitario della PA: situazione di partenza Dati Amministrazione 1 Amministrazione 2 Processi Processi Applicazioni Dati Applicazioni Sistema “AmmCentrale to AmmCentrale” Amministrazione 1 Amministrazione 2 Processi Processi Applicazioni interne Dati e servizi esposti Dati Dati Dati esposti Dati esposti Servizi di interoperabilità Servizi di trasporto Applicazioni interne Dati e servizi esposti Sistema “AmmCentrale to AmmLocale” Amministrazione 2 Amministrazione 1 Processi Processi Applicazioni interne Dati e servizi esposti Dati Dati Dati esposti Dati esposti Processi Processi Applicazioni Applicazioni interne interne Dati e servizi esposti Amministrazione 2 Amministrazione 1 Dati e servizi esposti Dati Dati Dati esposti Dati esposti Servizi di interoperabilità Servizi di interoperabilità Servizi di trasporto Servizi di trasporto Servizi di interoperabilità Servizi di trasporto Applicazioni interne Dati e servizi esposti Sistema “Amministrazione to Cittadino” Amministrazione 1 Amministrazione 2 Amministrazione 1 Amministrazione 2 Processi Processi Processi Processi Applicazioni interne Dati e servizi esposti Dati Dati Dati esposti Dati esposti Applicazioni Applicazioni interne interne Dati e servizi esposti Dati e servizi esposti Dati Dati Dati esposti Dati esposti Servizi di interoperabilità Servizi di interoperabilità Servizi di trasporto Servizi di trasporto Servizi di interoperabilità Servizi di trasporto Internet e altri canali Applicazioni interne Dati e servizi esposti Nei data wharehouse • Integrazione di schemi logici • Integrazione dei dati • Individuazione e risoluzione delle incoerenze • Pulizia dei dati 11 Le dimensioni della qualita’dei dati 12 In una qualunque base di dati o archivio possiamo distinguere .. • Il livello dello schema logico – Es archivio dipendenti, archivio stipendi, ecc. • Il livello dei valori e del formato dei dati – Es per i valori • Archivio dipendenti • Mario Rossi, nato a Brescia il 21-12-1977 – Es per il formato • Campo Cognome • PICTURE X(12) 13 Lo schema logico Comune Catasto geometrico Particella Bene Fabbricato Catasto fabbricati Terreno Soggetto fisico o giuridico Catasto terreni 14 I valori 15 Il formato 16 Schema logico dei dati 17 Le dimensioni dello schema logico • Contenuto • Copertura, cioe’ grado in cui lo schema logico comprende un adeguato numero di archivi e campi da incontrare le necessita’ delle applicazioni • Livello di dettaglio • Composizione, cioe’ la struttura interna dello schema • Consistenza • Economicita’ • Flessibilita’ al cambiamento 18 Dettaglio delle proprietà Composizione Contenuto Naturalezza Rilevanza Identificabilità Ottenibilità Omogeneità Chiarezza della definizione Ridondanza minima necessaria Copertura Consistenza Completezza Consistenza semantica Essenzialità Consistenza strutturale Livello di dettaglio Reazione al cambiamento Granularità degli attributi Robustezza Precisione dei domini Flessibilità 19 Esempi di alcune proprietà • Granularità degli attributi – Es. Il concetto di “indirizzo” può essere rappresentato in alcune applicazioni semplicemente da “Stato”, in altre da “via”+”numero civico”+ “Città”+” Stato” • Precisione dei domini – Es. Un dominio dell’attributo “altezza” di una persona che la esprime in cm, risulta più preciso di un dominio che prevede i valori ALTA, MEDIA, BASSA • Naturalezza – Es. Un attributo composto <Sesso,Stato Matrimoniale> è poco naturale perché esprime due fatti naturalmente scorrelati 20 Esempi di alcune proprietà (continua) • Consistenza strutturale – Es. Tutte le date devono avere un formato comune, anche se rappresentano attributi di archivi diversi • Ottenibilità – Es. I dati di una società commerciale non sono disponibili nell’anno corrente, per non facilitare la concorrenza (ma sono ottenibili solo quelli di anni precedenti) 21 Copertura • Completezza - Ogni archivio e campo necessario agli utenti e’ incluso nello schema logico • Essenzialita’ - nessun archivio e campo non indispoensabile agli utenti e’ incluso nello schema logico 22 Ma tradizionalmente anche .. • Normalita’: – – – – – – – Prima forma normale Seconda forma normale Terza forma normale Quarta forma normale Boyce Codd Normal Form Quinta forma normale Domain Key Normal Form 23 Le dimensioni non sono ortogonali • Le dimensioni (o caratteristiche) non sono indipendenti tra di loro: – correlazioni positive : migliorare una caratteristica migliora anche l’altra – correlazioni negative: migliorare una peggiora l’altra • Esempi: – Gode di correlazione positiva la terna • comprensività, • granularità degli attributi e • precisione del dominio – Gode di correlazione negativa la coppia • Economicita’ • Completezza 24 Dimensioni dei valori e del formato 25 Valori dei dati • Accuratezza, vicinanza del dato ad un valore nel dominio di definizione considerato corretto – importante, difficile da misurare (cfr realta’, storici) • Correttezza, accuratezza al grado massimo • Completezza, l’ estensione con cui i valori sono presenti nella base di dati. – Importante, difficile da misurare – null values • Tempestivita’, adeguatezza dell’ aggiornamento – Importante, forse la maggior causa di processi scorretti – Esempio PA • Dichiarazioni dei redditi (fino all’ anno scorso) • Informazioni sugli impiegati 3 anni di ritardo 2 anni di ritardo • Consistenza di differenti valori. – Quando tra dati consistenti vi e’ rapporto funzionale, porta a ridondanza 26 Formato • Appropriatezza, rispetto alle esigenze dell’ utente – dipende dal mezzo usato (es. Codici a barre, grafi) • Interpretabilita’, aiuta l’ utente a interpretare i valori correttamente – Es. (1,2,3,4) vs (scarso, insufficiente, sufficiente, buono) • Portabilita’, o Universalita’ tra diverse tipologie di utenti – es le icone agli aeroporti • Precisione, capacita’ di discriminare tra diversi valori – critica con le icone • Flessibilita’, rispetto ai requisiti utente • Capacita’ di rappresentare valori nulli • Uso efficiente della memoria Es. (0,1) vs ( , ) 27 Come procedere alla misura della qualita’ dei dati • 1. Individuazione delle caratteristiche (dimensioni) e sottocaratteristiche (proprieta’) prioritarie • 2. Individuazione dei criteri (proprieta’ misurabili) • 3. Scelta della procedura di misurazione • 4. Processo di misurazione • 5. Aggiunta delle valutazioni non quantitative • 6. Valutazione complessiva 28 Esempio del passo 1: linee strategiche dell’ Aipa 1998-2000 “Nel campo specifico della qualita’ dei dati, da intendersi principalmente come correttezza, tempestivita’ di aggiornamento, completezza e coerenza, occorre intervenire …….” 29 Proprieta’ richieste dalle metriche –misurabilita’ quanto possibile con strumenti automatici –affidabilità (essere non affette da errori casuali in maniera eccessiva), –ripetibilità (misure rilevate sul medesimo componente in differenti momenti nelle stesse condizioni di rilevazione devono dare lo stesso risultato), – riproducibilità (differenti valutatori debbono poter ottenere uguali risultati in uguali condizioni di valutazione), –disponibilità ad essere utilizzata, –efficacia (in relazione al costo di suo impiego), –correttezza (imparzialità e precisione), –obiettività (in grado di dare risultati non influenzabili dal valutatore o da altri fattori esterni), –significatività (dare indicazioni significative sul comportamento del componente valutato rispetto al requisito in esame); 30 Le metodologie per la misurazione e il miglioramento della qualita’ dei dati in sistemi informativi tradizionali 31 Metodi • Ispezione e correzione – Comparazione dati con le controparti reali – Database bashing – Utilizzo di business rules • Controllo e Miglioramento del Processo • Reingegnerizzazione del Processo Approccio basato sui Processi 32 Ispezione e correzione: tre approcci • 1. Confronto dei dati con la realta’ che rappresentano • costoso, a campione, molto preciso, una tantum per orientare l’ intervento • 2. Confronto dei dati tra due o piu’ archivi – + Facilmente applicabile, costo medio – - Il matching non garantisce, se un dato e’ manifestamente errato forza a considerare l’ altro corretto, non garantisce per il futuro, “abitua male”, cioe’ falso senso di sicurezza (es. fatture vs fatture attese) • 3. Confronto dei dati con vincoli o business rules – un campo, piu’ campi, probabilistico • + spesso efficace, poco costoso • - non garantisce per il futuro, riguarda solo la conformita’ alle regole, non la accuratezza, “abitua male” • particolarmente adatti a dati permanenti 33 Miglioramento basato sui processi Identificare il processo Identificare il process owner (Data Steward) Descrivere il processo Stabilire un sistema di misura Definire un sistema di monitoraggio e controllo (dei dati e/ del processo) Identificare gli obiettivi di miglioramento Realizzare gli interventi di miglioramento 34 Stabilire un sistema di misura • Passo 1 Cosa misurare: processi, campi, metriche • Passo 2 Definire il campionamento • Passo 3 Tracking • Passo 4 Identificazione degli errori e del tempo di ritardo 35 Il processo suddiviso in 5 sottoprocessi che alimentano 2 basi di dati DB1 e DB2 P1 P2 P3 P5 DB2 P4 DB1 36 Esempio: accuratezza per un campo a della base dati DB1 P5 P1 P2 1% 2% P3 DB2 P4 DB1 17% 0.5% 37 Esempio: consistenza tra due DB per un campo b .5% P5 DB2 0% 11% P3 11.5% P4 DB1 0% 11% 38 Metodo Miglioramento Costo Totale Quando Breve Termine Lungo Termine Breve Termine Lungo Termine Laissez faire Basso Basso Alto Alto Dati non importanti Comparazione mondo reale, una volta Alto Basso Alto Alto Per stimare la corrente DQ Comparazione mondo reale, periodico Alto Alto Alto Molto Alto Mai Database bashing, una volta Medio Basso Medio Alto Su dati che cambiano lentamente (stabili), quando un secondo database indipendente è disponibile Database bashing, periodico Medio Medio Medio Molto Alto Mai Clean-up con edits, una volta Medio Basso Medio Alto Su dati che cambiano lentamente (stabili) Clean-up con edits, periodico Medio Medio Medio Alto Mai Controllo e Miglioramento del Processo Medio Alto Medio Basso Su tutti i dati che vengono manipolati frequentemente Ingegnerizazione del Processo Medio Alto Medio Molto Basso Quando si progetta 39 una information chain Cenni alle metodologie per misurazione & miglioramento in sistemi informativi cooperativi 40 Qualità dei Dati più complessa • Sistemi eterogenei implicano con elevata probabilità schemi logici differenti • La necessità di scambiarsi dati può determinare l’insorgere di problemi nello scambio (es.data entry dei dati acquisiti da un’altra organizzazione) • Maggiore latenza del sistema cooperativo (es. la duplicazione di un dato su più organizzazioni comporta valori variabili della “tempestività” del dato) 41 Misurazione • Possibilità di mutuare i risultati ottenuti per la QD delle sorgenti del World Wide Web (WWW) • Sono stati realizzati sistemi che fanno un assessment della QD delle sorgenti mediante l’utilizzo di metadati per la qualità dei dati 42 Metadati per la qualità dei dati • Esempi di metadati da associare ai dati esposti dalle singole organizzazioni cooperanti sono: – data dell’ultimo aggiornamento; – codifica del Data Steward del dato; – codifica della sorgente che ha effettuato l’ultimo aggiornamento, etc. • La valutazione dei metadati fornisce un livello di soglia di alcune dimensioni: – Tempestività (data dell’ultimo aggiornamento) – Affidabilità (se la sorgente che ha effettuato l’ultimo aggiornamento è il Data Steward è massima) – … 43 Miglioramento • Le tecnologie attuali abilitano un miglioramento della qualità dei dati quando sistemi diversi necessitano di cooperare: reingegnerizzaione IT-driven – Due esempi: XML e Publish and Subscribe 44 XML come driver del reengineering DQ-oriented • XML: tecnologia per lo scambio dei dati fra le organizzazioni cooperanti • Per ogni macro-processo accordo tra le organizzazioni partecipanti sullo schema logico delle informazioni di scambio (Es. DTD XML) 45 Le caratteristiche che migliorano: i valori + Accuratezza: si automatizza la fase di data entry, e quindi minor numero di errori = Completezza + Tempestivita’ + Consistenza : la consistenza semantica aumenta in virtù dell’ accordo tra le organizzazioni 46 Le caratteristiche che migliorano: il formato = Appropriatezza + Interpretabilità + Portabilità - Precisione + Flessibilità = Capacità di rappresentare valori nulli - Efficienza nell’impiego dei mezzi di registrazione 47 Publish&Subscribe come driver del reengineering DQ-oriented • Meccanismo di notifica basato su eventi • Il ruolo dei Data Steward – Esempio PA: il Data Steward delle informazioni anagrafiche (Es. l’indirizzo di nascita) è il Comune di nascita, e quindi idealmente una seconda amministrazione dovrebbe aggiornare i propri archivi solo in seguito all’emissione di un evento da parte del data steward. 48 Una possibile architettura di P&S Dominio pubblicante DATA STEWARD Applicazione Applicazione Applicazione creazione di evento Porta di pubblicazione notifica di evento Gestore del sistema di P&S rete ricezione di evento eventi da distribuire Directory utenti P&S Porta di sottoscrizione trattamento evento Applicazione Applicazione Applicazione Domino sottoscrittore 49 Le caratteristiche che migliorano • Tempestività: l’architettura del P&S consente un miglioramento in termini di velocità con cui i dati sono aggiornati • Ma anche: – Accuratezza (assegnazione di responsabilità definita sul dato al Data Steward…) – Consistenza etc. 50 Riferimenti • REDMAN Thomas C. Redman - Data Quality for the information Age - 1996 Artech House • BALLOU D. Ballou, G. Tayi - Enhancing Data quality in Data Warehouse Environments, Comm ACM January 1999, 42,1. • MIHAILA G.,RASHID L.,VIDAL M.: “Querying quality of data metadata”. In Proceedings of the 6th International Conference on Extending Database Technology (EDBT), Valencia, Spain , 1998. • MIHAILA G.: Publishing, Locating, and Querying Networked Information Sources. PhD thesis, University of Toronto, 2000. • GALHARDAS H.,FLORESCU D. et alii: An Extensible Framework for Data Cleaning. In Proceedings of the 16th International Conference on Data Engineering (2000) 51