Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea Specialistica in Ingegneria Informatica Analisi e valutazione comparativa dei principali sistemi di integrazione dati commerciali rispetto al sistema MOMIS attraverso il benchmark THALIA Relatore Prof.ssa Sonia Bergamaschi Correlatore Prof. Maurizio Vincini Tesi di Laurea di Fabio Romano Obiettivi Analisi e studio della logica e dei metodi di integrazione dei sistemi commerciali: Microsoft SQL Server 2005 Integrazione Services Oracle Data Integrator WebSphere Information Integrator Content Edition MOMIS Valutazione tramite il benchmark THALIA 1 Data Integration System Dati strutturati Dati semi-strutturati DB XML 2 approcci diversi: DB virtuale DB materializzato 2 Classificazione dei sistemi ETL (Extract, Transform,Load) Microsoft SQL Server 2005 Integrazione Services Oracle Data Integrator WebSphere Information Integrator Content Edition MOMIS Aprroccio virtuale 3 Benchmark THALIA Raccolta di 25 fonti di dati diverse (file XML) che rappresentano i cataloghi dei corsi di diverse università mondiali Set di 12 query con l’obiettivo di testare eterogeneità: Sintattiche Semantiche 4 Benchmark THALIA Sinonimi • Eterogeneità degli attributi 5 query Semplice mapping Tipi unione Mapping complesso • Dato mancante 3 query Language Expression • Eterogeneità strutturali 4 query 12 query 5 Benchmark THALIA • Eterogeneità degli attributi 5 query • Dato mancante 3 query Valori nulli Attributi virtuali Incompatibilità semantica • Eterogeneità strutturali 4 query 12 query 5 Benchmark THALIA • Eterogeneità degli attributi 5 query • Dato mancante 3 query • Eterogeneità strutturali 4 query 12 query Stesso attributo in strutture differenti Trattamento di set di valori Il nome dell’attributo non ne descrive la semantica Composizione di attributi 5 Microsoft Integration Services 6 IBM Information Integrator 7 Oracle Data Integrator 8 MOMIS 9 Confronto tra i sistemi Produttore Tipi sorgenti dati Approccio Query Creazione vista mana ger MOMIS DBGROUP- Semistrutturati UNIMO e strutturati Database virtuale (GAV) Semiautomatica SI IICE 8.4 Strutturati, semistrutturati, dati multimediali Database virtuale (LAV) Manuale (interfaccia grafica) NO* DB materializzato (E-LT) Manuale (interfaccia grafica) SI DB materializzato (ETL) Manuale (interfaccia grafica) SI Data Integrator Integration Services IBM Semistrutturati Oracle e strutturati Semistrutturati Microsoft e strutturati 10 Osservazioni sul confronto 11 Trasformazioni sui dati Metodi e funzioni di trasformazione diversi per ogni sistema di integrazione: CASE WHEN ISNUMERIC(SUBSTRING(COURSE.Times, 1, 2)) = 1 THEN CASE WHEN CAST(SUBSTRING(COURSE.Times, 1, 2) AS int) > 12 THEN CAST(CAST(SUBSTRING(COURSE.Times, 1, 2) AS integer)- 12 AS MOMIS Funzioni like SQL92 nvarchar(2)) ELSE SUBSTRING(COURSE.Times, 1, 2) END + SUBSTRING(COURSE.Times, 3, 4) + Funzioni personalizzate, CASE WHEN 7, 2) AS int)in > base 12 Oracle DI CAST(SUBSTRING(COURSE.Times, alla tecnologia DBMS utilizzata THEN CAST(CAST(SUBSTRING(COURSE.Times, 7, 2) AS integer)- 12 AS nvarchar(3)) ELSE SUBSTRING(COURSE.Times, 7, 2) END + SUBSTRING(COURSE.Times, 9, 3) END 12 Trasformazioni sui dati Metodi e funzioni di trasformazione diversi per ogni sistema di integrazione: Microsoft IS Funzioni personalizzate, messe a disposizione dagli script component IBM Information Integrator Classe Java transformer: Metodo PreProcessQuery(); Metodo PostProcessQuery(); 13 Implementazione benchmark THALIA Sorgenti dati Sorgenti dati S.I. Mapping F.d.T Sorgenti dati Sorgenti dati 15 Risultati benchmark THALIA 16 Costo delle licenze 16.000 14.000 12.000 Oracle DI 10.000 8.000 IBM IICE 8.4 + WebSphere Application Server 6.000 4.000 2.000 Microsoft SQL 2005* MOMIS 0 Costo licenze (Euro) 17 Difficoltà d’installazione 10 8 MOMIS 6 IICE 8.4 4 Data Integrator 2 Integration Services 0 Difficoltà installazione e configurazione 18 Conclusioni 19