D2I Integrazione, Warehousing e Mining di sorgenti eterogenee Tema 1: Integrazione di dati provenienti da sorgenti eterogenee Unità di ricerca – Università di Roma La Sapienza (RM) Prototipo per gli algoritmi di query rewriting e query answering using views e per la riconciliazione dei dati IBIS Andrea Calì, Giuseppe De Giacomo, Diego Calvanese, Domenico Lembo, Maurizio Lenzerini Rapporti precedenti D2I D1.R1: metodi e tecniche per la rappresentazione e l’integrazione di sorgenti eterogenee Framework: schema sorgente, schema globale, mapping (LAV\GAV) D1.R5: Rassegna sui metodi di answering a rewriting D1.R11: Descrizione della metodologia e degli strumenti per la riconciliazione dei dati. Confronto LAV-GAV Metodologia per la riconciliazione dei dati in LAV ed in GAV Presenza di vincoli sullo schema globale Riconciliazione di sorgenti di dati incomplete ed inconsistenti D2I IBIS: Internet-Based Information System Sviluppato nell’ambito del progetto D2I e nel contesto di una collaborazione fra il DIS dell’Università La Sapienza e la CM sistemi. IBIS è un sistema per l’integrazione di dati che supporta tutti gli aspetti di un contesto complesso di data integration, come il wrapping delle sorgenti, query answering in presenza di vincoli di integrità, limitazione nell’accesso alle sorgenti. IBIS offre una efficace interazione con l’utente ed un’ architettura scalabile ed estendibile. IBIS supporta RDBMS, risorse Web, sistemi legacy. D2I Aspetti principali IBIS è progettato per supportare la specifica di mapping GAV e LAV, e per il processamento di query in entrambi gli approcci; Il framework di integrazione su cui è basato consente l’integrazione di sorgenti di dati incomplete ed inconsistenti; Capacità di trattare i vincoli sullo schema globale Capacità di trattare sorgenti con limitazioni d’accesso D2I Attuale implementazione • Global As View: lo schema globale è definito in termini delle sorgenti • Schema Globale: relazionale con vincoli di chiave e di integrità referenziale • Linguaggio per il mapping e per le query sullo schema globale: unione di query congiuntive • Schemi sorgenti: relazionali con limitazioni d’accesso • Integrazione di sorgenti incomplete Query processing D2I Formulazione Archiviazione Espansione Unfolding Esecuzione D2I Estrazione dei dati Il modulo di estrazione estrae dalle sorgenti tutte le tuple che possono essere usate per rispondere alla query, trattando opportunamente le limitazioni di accesso. IBIS parte da un insieme di valori iniziali specificati nella query. Estrae tuple dalle sorgenti accessibili allo scopo di ottenere nuovi valori per accedere alle altre sorgenti. Le tuple estratte sono mantenute in un apposito data store. Estrazione dei dati - ottimizzazioni D2I Il processo di estrazione è dispendioso ma IBIS supporta le seguenti soluzioni: Ottimizzazioni Statica: applicata prima dell’estrazione esclude le sorgenti inutili Dinamica: applicata durante l’estrazione esclude gli accessi inutili Estrazione basata su un criterio di prossimità Implementazione “Anytime” dell’algoritmo Sfruttamento della conoscenza utente del dominio Caching su richiesta Architettura di IBIS D2I D2I User Interface WEB Server IBIS Application Interface Configuration CORE Expander Core Session Conf iguration Manager Static Optimizer Unf older Dy namic Optimizer Metadata Repository Plan Executor Extractor Wrapper Manager Wrapping Ty pe Specif ic Wrapper Source Specif ic Wrapper DataStore D2I Tool di Configurazione D2I Catalogo delle interrogazioni D2I Attivazione di una interrogazione D2I Risposta ad una interrogazione