Introduzione al datawarehouse
Franco Perduca
Factory Software
[email protected]
Agenda
Perchè mi serve il Data Warehouse ?
Caratteristiche del Data Warehouse
Caricamento e trasformazione dei dati



2
Perchè mi serve il Data Warehouse
Dati = informazione non è sempre vero
Sono organizzati per una elaborazione
transazionale
Non forniscono dati “attendibili”
Rallentano il sistema
Spesso devono essere integrati con sorgenti di
diversa natura





3
Perchè mi serve il Data Warehouse
La soluzione è creare un db ad-hoc per le analisi
Lo scopo è di “concentrare” tutti i dati dell’
azienda in un unico punto
Integra informazioni provenienti da sorgenti
diverse
I dati sono trasformati / “puliti”
Il disegno e’ ottimizzato per la lettura
Possiamo considerarlo come un db Read-Only






4
Perchè mi serve il Data Warehouse
E’ un progetto molto difficoltoso :





5
Capire e identificare gli obbiettivi della analisi
Trovare le informazioni e i dati sorgenti
Applicare eventuali trasformazioni / normalizzazioni
per consolidare i dati
Essere flessibili, riuscire a gestire cambiamenti e
“modifiche nella storia”
Caratteristiche del Data Warehouse
Magazzino di dati a livello di impresa
Insieme di strumenti per convertire un vasto
insieme di dati in informazioni utilizzabili
dall’utente
Obiettivi:







6
Possibilità di accedere a tutti i dati dell’impresa,
centralizzati in un solo database
Coerenza e consolidamento dei dati
Velocità nell’accesso alle informazioni
Base di partenza per OLAP
Caratteristiche del DataWarehouse

Passi per la creazione del Data Warehouse

Identificare gli eventi da misurare





Identificare le fonti dati


Vendite
Movimentazione di magazzino
Customer satisfaction
Ecc.
I dati possono arrivare da fonti diverse ed eterogenee,
non strutturate (Excel,file di testo,…)
Consolidare i dati

Trasformazioni per eliminare le differenze


Definire processo di aggiornamento

7
Es. Lira vs. Euro
Intervallo di aggiornamento del DW
Caratteristiche del Data Warehouse
Data Mart




8
Poichè il processo per la creazione di un DW è spesso
lungo e difficoltoso, è possibile creare dei processi
intermedi
“Mini” DW tematici per rispondere ad esigenze
specifiche (es. vendite, marketing, controllo di gestione
ecc.)
L’insieme di tutti i Data Mart costituisce il DW
Caratteristiche del Data Warehouse

Componenti di un modello Data Warehouse

Tabella dei fatti

Contiene gli elementi da misurare


es. (vendite,movimenti e transazioni ecc.)
Elemento centrale del DW
Misure


Sono i valori che vogliamo analizzare rappresentati
dalle quantità


9
es. (importi, quantità, numero di transazioni)
Sono contenute nella tabella dei fatti
Caratteristiche del DataWarehouse

Tabella delle dimensioni



Descrive e rappresenta l’entità di business
Fornisce un contesto alle misure
È il “per” nelle analisi


Dimensione


E’ il contenuto della tabella dimensione
Spesso è gerarchica

10
Es. (Venduto PER cliente,Venduto PER prodotto)
Es. (Categoria -> SottoCategoria -> Prodotto)
Caratteristiche del DataWarehouse
Tabelle delle
Dimensioni
Comuni
Dimensioni
Tabella dei Fatti
Comune
Prodotti
Tempo
11
Misure
Prodotto Tempo Unità Fatturato
Fatti
Caratteristiche del Data Warehouse

12
DEMO
Caratteristiche del Data Warehouse

13
La struttura è riconducibile a 2 modelli :

Star Schema (a stella)

Snowflake Schema (fiocco di neve)
Caratteristiche del Data Warehouse

Star Schema



14
Lo Star Schema è la modellizzazione più semplice ed
efficace dei componenti di un DW
Ogni tabella dei fatti è associata a N tabelle
dimensionali
Le relazioni gerarchiche all’interno di una dimensione
(per es. anno/mese/giorno) vengono mantenute in
una sola tabella dimensionale
Caratteristiche del Data Warehouse

Snowflake schema



15
Le gerarchie all’interno delle dimensioni sono
mantenute in tabelle separate
È leggermente più complesso di una struttura a stella
È meno efficiente
Caratteristiche del Data Warehouse

Staging area



16
È una area di storage
Si effettuano prime trasformazioni / verifiche
Dove si effettua primo caricamento
Caratteristiche del Data Warehouse

Nell’ oltp quando un attributo di una tabella
anagrafica cambia il vecchio valore viene
sovrascritto


Potrebbe essere non accettabile nel dwh



17
Ai fini analitici interessa la “storia”
Da gestire con logiche diverse rispetto all’ Oltp


Cliente che cambia indirizzo o ragione sociale
Chiave surrogata
Chiave applicativa
Problema delle slowly changing dimension (SCD)
Caratteristiche del Data Warehouse

Tre metodi per risolvere le SCD

Tipo 1 sovrascrivere il valore


Tipo 2 creare nuova riga con i valori modificati


Tracciare i cambiamenti , poco frequenti
Tipo 3 creare struttura per tracciare cambiamento

18
Valore errato o non ha rilevanza analitica
Associare tra di loro i cambiamenti , se non ho numero
limitato uso parent child
Caratteristiche del Data Warehouse

Per creare e gestire DWH serve un strumento di
ETL


19
Extract Transform Load
Microsoft Sql Server Integration Services (ex Dts)
Domande?
20
© 2004 Microsoft Corporation. All rights reserved.
This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.
Scarica

Caratteristiche del Data Warehouse