B.I. Strategy
ETL A SUPPORTO DELLA BUSINESS INTELLIGENCE
InfoSphere DataStage
www.bistrategy.it
I processi ETL
(Extraction, Transformation and Loading)
Estrazione, trasformazione e caricamento sono i componenti
più importanti e con più valore aggiunto di un'infrastruttura di
Business Intelligence (BI). Sebbene siano per lo più invisibili agli
utenti della piattaforma di BI, i processi ETL recuperano i dati
da tutti i sistemi e li pre-elaborano per i tool di analisi e di
reporting. La precisione e la tempestività dell´intera
piattaforma di BI dipendono in larga misura dai processi ETL.
www.bistrategy.it
ETL
(Extraction, Transformation and Loading)
• I processi di estrazione, trasformazione e caricamento comprendono step
multipli che hanno come obiettivo il trasferimento dei dati dalle
applicazioni di produzione ai sistemi di Business Intelligence :
• Estrazione dei dati dalle applicazioni di produzione e dai database (ERP,
CRM, RDBMS, file ecc.)
• Trasformazione di questi dati per la loro riconciliazione su tutti i sistemi
sorgente, unione dei dati provenienti da sistemi eterogenei, eseguire
calcoli o parsing di stringhe, arricchirli con informazioni di lookup esterne
e confrontare il formato richiesto dal sistema target (Third Normal Form,
Star Schema, Slowly Changing Dimensions, ecc.)
• Caricamento dei dati risultanti nelle varie applicazioni BI: Data Warehouse
o Enterprise Data Warehouse, Data Mart, applicazioni Online Analytical
Processing (OLAP) o “cubi”, ecc.
• La latenza dei processi ETL varia da batch (a volte mensilmente o
settimanalmente, ma più spesso quotidianamente), in near-real-time con
aggiornamenti più frequenti (ogni ora, ogni minuto, ecc).
www.bistrategy.it
IBM InfoSphere DataStage
• Ambiente grafico di sviluppo con
generazione automatica del codice e
componenti riutilizzabili
• Engine di trasformazione scalabile da
SMP a clusters/MPP e grid
• Facilità di deploy dagli ambienti di
sviluppo a quelli di produzione
• Riutilizzo della logica di business
attraverso le applicazioni
• Disponibilità di accesso nativo a
mainframe, SAP ecc.
www.bistrategy.it
IBM InfoSphere DataStage
Operational Data
Targets
•
Integra i dati provenienti da sorgenti
eterogenee
•
Processa e trasforma grandi quantità di
dati in real-time o in modalità batch
•
Gestisce processi multipli di integrazione
CRM
SCM
ERP
Business
Intelligence
SAS
External Lists
CRM
•
Gestisce tutte le tipologie di integrazione
da quella più semplice a quella enterprise
Distribution
Exploration
Warehouse
•
Fornisce connettività diretta ai dati delle
applicazioni aziendali viste come sorgenti
o come destinazioni
•
Agevola l’utilizzo dei meta dati per analisi
di impatto cross-tool e manutenzione
Demographic
Contact
Billing / Accounts
www.bistrategy.it
Data Mart
Data Mart
Architettura DataStage
Sistemi
sorgenti
www.bistrategy.it
Sistemi
destinazione
IBM InfoSphere DataStage
Semplice flusso di esempio
Estrae da due DB Oracle diversi
Stage di Join, Transform e Aggregate
Scrive i risultati su un DB/DWH Teradata
(SQL Server – DB2 – MySql ecc.)
www.bistrategy.it
IBM InfoSphere DataStage
monitoring e schedulazione grafica delle procedure
Gestione attività a livello di ‘stage’
(non solo a livello di ‘job’)
 Monitoraggio in tempo
reale
 Dettaglio di ogni singolo
evento
 Ottimizzazione del processo
 Segnalazione di ogni
anomalia o interruzzione di
caricamento
www.bistrategy.it
Sistemi enterprise scalabili:
caratteristiche di DataStage
•
Un’architettura “data flow” che permette l’elaborazione dei dati,
dall’input all’output, minimizzando l’uso di dispositivi di storage, in
scenari batch e real-time
•
Partizionamento dinamico e Ripartizionamento “on the fly” dei dati
•
Scalabilità rispetto agli ambienti hardware, portabilità attraverso
sistemi SMP, Clustered SMP, MPP senza la necessità di modifiche ai
processi già sviluppati
•
Supporto nativo agli RDBMS paralleli, includendo IBM DB2 UDB,
Oracle, SQL Server e Teradata in configurazioni parallele e partizionate
www.bistrategy.it
DataStage: il parallelismo in pratica
…DataStage crea n processi Unix a runtime per ogni stage,
dove n è il numero dei nodi logici definiti nella configurazione
www.bistrategy.it
DataStage: monitoraggio delle risorse
Tempo totale di CPU e tempo di sistema
Distribuzione media dei processi
pie-chart del tempo di CPU
www.bistrategy.it
DataStage: connettività supportate
• Oracle, DB2, Informix, Teradata, SQLServer, Sybase, DB2 Z/OS, ed altri…
• Supporto per sintassi SQL standard:
– autocostruzione degli statement SELECT
– autocostruzione delle clausole WHERE, ORDER BY, GROUP BY, etc.
– costruzione SQL via SQL Builder
• Supporto per comandi SQL di tipo user defined, oppure specifici in
relazione all’RDBMS utilizzato
– Insert, update, delete, update/insert, insert/update, clear & insert,
delete & insert
– Supporto per scritture transazionali
• Supporto per stored procedures
• ERP: SAP R/3 & SAP BW
• ….. e molto altro!
www.bistrategy.it
Scarica

ETL a supporto della Business Intelligence