B.I. Strategy ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE InfoSphere DataStage www.bistrategy.it I processi ETL (Extraction, Transformation and Loading) Estrazione, trasformazione e caricamento sono i componenti più importanti e con più valore aggiunto di un'infrastruttura di Business Intelligence (BI). Sebbene siano per lo più invisibili agli utenti della piattaforma di BI, i processi ETL recuperano i dati da tutti i sistemi e li pre-elaborano per i tool di analisi e di reporting. La precisione e la tempestività dell´intera piattaforma di BI dipendono in larga misura dai processi ETL. www.bistrategy.it ETL (Extraction, Transformation and Loading) • I processi di estrazione, trasformazione e caricamento comprendono step multipli che hanno come obiettivo il trasferimento dei dati dalle applicazioni di produzione ai sistemi di Business Intelligence : • Estrazione dei dati dalle applicazioni di produzione e dai database (ERP, CRM, RDBMS, file ecc.) • Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi sorgente, unione dei dati provenienti da sistemi eterogenei, eseguire calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne e confrontare il formato richiesto dal sistema target (Third Normal Form, Star Schema, Slowly Changing Dimensions, ecc.) • Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical Processing (OLAP) o “cubi”, ecc. • La latenza dei processi ETL varia da batch (a volte mensilmente o settimanalmente, ma più spesso quotidianamente), in near-real-time con aggiornamenti più frequenti (ogni ora, ogni minuto, ecc). www.bistrategy.it IBM InfoSphere DataStage • Ambiente grafico di sviluppo con generazione automatica del codice e componenti riutilizzabili • Engine di trasformazione scalabile da SMP a clusters/MPP e grid • Facilità di deploy dagli ambienti di sviluppo a quelli di produzione • Riutilizzo della logica di business attraverso le applicazioni • Disponibilità di accesso nativo a mainframe, SAP ecc. www.bistrategy.it IBM InfoSphere DataStage Operational Data Targets • Integra i dati provenienti da sorgenti eterogenee • Processa e trasforma grandi quantità di dati in real-time o in modalità batch • Gestisce processi multipli di integrazione CRM SCM ERP Business Intelligence SAS External Lists CRM • Gestisce tutte le tipologie di integrazione da quella più semplice a quella enterprise Distribution Exploration Warehouse • Fornisce connettività diretta ai dati delle applicazioni aziendali viste come sorgenti o come destinazioni • Agevola l’utilizzo dei meta dati per analisi di impatto cross-tool e manutenzione Demographic Contact Billing / Accounts www.bistrategy.it Data Mart Data Mart Architettura DataStage Sistemi sorgenti www.bistrategy.it Sistemi destinazione IBM InfoSphere DataStage Semplice flusso di esempio Estrae da due DB Oracle diversi Stage di Join, Transform e Aggregate Scrive i risultati su un DB/DWH Teradata (SQL Server – DB2 – MySql ecc.) www.bistrategy.it IBM InfoSphere DataStage monitoring e schedulazione grafica delle procedure Gestione attività a livello di ‘stage’ (non solo a livello di ‘job’) Monitoraggio in tempo reale Dettaglio di ogni singolo evento Ottimizzazione del processo Segnalazione di ogni anomalia o interruzzione di caricamento www.bistrategy.it Sistemi enterprise scalabili: caratteristiche di DataStage • Un’architettura “data flow” che permette l’elaborazione dei dati, dall’input all’output, minimizzando l’uso di dispositivi di storage, in scenari batch e real-time • Partizionamento dinamico e Ripartizionamento “on the fly” dei dati • Scalabilità rispetto agli ambienti hardware, portabilità attraverso sistemi SMP, Clustered SMP, MPP senza la necessità di modifiche ai processi già sviluppati • Supporto nativo agli RDBMS paralleli, includendo IBM DB2 UDB, Oracle, SQL Server e Teradata in configurazioni parallele e partizionate www.bistrategy.it DataStage: il parallelismo in pratica …DataStage crea n processi Unix a runtime per ogni stage, dove n è il numero dei nodi logici definiti nella configurazione www.bistrategy.it DataStage: monitoraggio delle risorse Tempo totale di CPU e tempo di sistema Distribuzione media dei processi pie-chart del tempo di CPU www.bistrategy.it DataStage: connettività supportate • Oracle, DB2, Informix, Teradata, SQLServer, Sybase, DB2 Z/OS, ed altri… • Supporto per sintassi SQL standard: – autocostruzione degli statement SELECT – autocostruzione delle clausole WHERE, ORDER BY, GROUP BY, etc. – costruzione SQL via SQL Builder • Supporto per comandi SQL di tipo user defined, oppure specifici in relazione all’RDBMS utilizzato – Insert, update, delete, update/insert, insert/update, clear & insert, delete & insert – Supporto per scritture transazionali • Supporto per stored procedures • ERP: SAP R/3 & SAP BW • ….. e molto altro! www.bistrategy.it