CONTENUTI DEL CORSO
Metodi Quantitativi come Strumenti di supporto alle
decisioni nel Marketing
•
Contenuti del corso:
• Data Mining: Introduzione a SAS EM
•
I modelli predittivi:
•
Gli Alberi Decisionali
•
La Regressione
•
Le Reti Neurali
•
Criteri di scelta del Modello
•
Generalizzazione dei risultati
Particolare enfasi sugli aspetti operativi piuttosto che teorici ….
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
0
CONTENUTI DEL CORSO
Modalità Esame
•
Frequentanti: nel corso delle lezioni verranno svolte alcune esercitazioni,
nell’ultima lezione si svolgerà un’esercitazione congiunta in aula divisi in
gruppo di 2/3 studenti.
Registrazione in occasione delle date prefissate
•
Non Frequentanti: esame orale nelle date prefissate
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
1
CONTENUTI DEL CORSO
Certified Predictive Modeler Using SAS Enterprise Miner
•
•
•
•
•
•
•
Riservata ai Frequentanti con esito all’esame almeno di 27/30
Si svolgerà presso il SAS Institute di Milano, via Darwin (definire data Giugno o
Settembre)
2 incontri integrativi di esercitazione in SAS (definire date il lunedì o il venerdì)
Conoscenza dell’inglese scritto: il test è condotto in inglese su computer
collegati alla sede SAS di Cary (USA)
Conoscenza pregressa, non superficiale, di Enterprise Miner di SAS
Conoscenza dei modelli statistici utilizzati nel Data Mining.
Materiale di supporto:
•
•
•
Slide del corso
Manuale in pdf
Accedere al corso :http://support.sas.com/training/elearn/renewal.html inserendo come
indirizzo email [email protected] e come psw ProfLiuc1
Tutti coloro che otterranno la certificazione SAS , avranno la possibilità di effettuare colloqui, essere
costantemente informati sulle opportunità presso SAS o, clienti e Partner SAS, oltre che a figurare
nell’elenco pubblico di coloro che hanno ottenuto la certificazione SAS
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
2
INDICE DELL’INCONTRO
Contestualizziamo ……
Il SISTEMA INFORMATIVO DI MARKETING “..è una struttura
integrata ed interagente di persone, attrezzature e procedure
finalizzata a raccogliere, classificare, analizzare, valutare e distribuire
informazioni pertinenti, tempestive ed accurate nella prospettiva del
management impegnato nei processi decisionali”
…. offre sostegno ai processi di decision-making, che vengono
attivati, in presenza di condizioni ambientali e competitive
caratterizzate da elevata incertezza
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
3
IL DATA MINING
Estrazione complessa di informazioni implicite,
precedentemente sconosciute e potenzialmente utili dai dati
Esplorazione e analisi, per mezzo di sistemi
automatici e semi-automatici, di grandi quantità
di dati al fine di scoprire pattern significativi
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
4
IL PATTERN
Un PATTERN è una rappresentazione sintetica e ricca di semantica di un
insieme di dati; esprime in genere un modello ricorrente nei dati, ma può anche
esprimere un modello eccezionale
Un pattern deve essere:
Valido sui dati con un certo grado di confidenza
Comprensibile dal punto di vista sintattico e semantico, affinché l‘utente lo
possa interpretare
Precedentemente Sconosciuto e potenzialmente Utile, affinché l’utente possa
intraprendere azioni di conseguenza
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
5
IL PATTERN
Regole associative
Consentono di determinare le regole di implicazione
logica presenti nella base di dati, quindi di individuare i
gruppi di affinità tra oggetti
Classificatori
Consentono di derivare un modello per la classificazione
di dati secondo un insieme di classi assegnate a priori
Alberi decisionali
Sono particolari classificatori che permettono di
identificare, in ordine di importanza, le cause che
portano al verificarsi di un evento
Clustering
Raggruppa gli elementi di un insieme, a seconda delle
loro caratteristiche, in classi non assegnate a priori
Serie temporali
Permettono l’individuazione di pattern ricorrenti o atipici
in sequenze di dati complesse
Un. Bologna - Golfarelli
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
6
IL PROCESSO DI DATA MINING
Unipd.it
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
7
APPLICAZIONI
Unipd.it
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
8
I DATI …. breve ripasso ….
I dati sono composti da OGGETTI (record, caso, elemento, osservazione, soggetto ….) descritti attraverso una
serie di ATTRIBUTI (variabili, caratteristiche, ….)
E’ indispensabile conoscere il TIPO di attributo per sapere quale operazione effettuare. Il modo più semplice
consiste nel considerare quale OPERATORE ha senso applicare ai diversi valori che l’attributo può assumere,
così da individuare 4 tipi di attributi cui corrispondono altrettante OPERATORI STATISTICI
 Diversità = 
NOMINALE
MODA - CONNESSIONE
 Ordinamento > <  
ORDINALE
MEDIANA - PERCENTILI
 Additiva + -
INTERVALLO
MEDIA – VARIANZA – CORRELAZIONE
 Moltiplicativa * /
RAPPORTO
MEDIA GEOMETRICA – ARMONICA
Infine possiamo classificare gli ATTRIBUTI anche come
DISCRETO
ha un numero FINITO di modalità
CONTINUO
ha un numero INFINITO di valori
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
9
SAS ENTERPRISE MINER
Si tratta di un’interfaccia “grafica” che permette l’utilizzo delle principali
procedure SAS per il data Mining
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
10
SAS ENTERPRISE MINER
1) Menu bar and shortcut buttons
8) SEMMA & tools palette
2) Project panel
7) Node
3) Properties
panel
6) Process
flow
5) Diagram
workspace
4) Help
panel
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
11
SAMPLE TAB
• Append Unisce dataset derivati da due differenti percorsi
• Data Partition
• File Import
• Filter
• Input Data
• Merge Unisce osservazioni derivanti da 2 o più dataset
• Sample
• Time Series Converte dati “trasazionali” in serie storiche
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
12
EXPLORER TAB
di item che tendono a presentarsi
• Association Evidenziazione
in associazione
• Cluster
• DMDB DataMining DataBase, statistiche riassuntive
• Graph Explore
• Market Basket Identifica le regole di associazione
• Multiplot Analisi grafica per Database molto grandi
• Path Analysis Analisi Web Log Data o analisi di sequenze
• SOM/Kohonen
• StatExplore
• Variable Clustering
• Variable Selection
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
13
MODIFY TAB
• Drop
• Impute Sostituzione e gestione valori missing
• Interactive BinningStrumento interattivo di categorizzazione
• Principal Components
• Replacement Riassegnare o consolidare variabili categoria
• Rules Builder Creazione di regole in base a prob. a priori
• Transform Variables
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
14
MODEL TAB
• AutoNeural
• Decision Tree
• Dmine Regression Regressione con Dipendente binaria
• DMNeural Modelli non Lineari
• Ensemble Integra i risultati derivanti da più modelli
• Gradient Boosting
• Least Angle Regression Selezione delle variabili e fitting
la classificazione di oggetti basandosi sulle caratteristiche
• MBR per
degli oggetti vicini a quello considerato
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
15
MODEL TAB
• Model Import Importare modelli creati non in SAS EM
• Neural Network
• Partial Least Squares
• Regression
• Rule Induction Eventi rari
• Support Vector Machines
• Two Stage
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
16
ASSESS TAB
• Cutoff Identificazione probabilità di cutoff
• Decisions
• Model Comparison
• Score
• Segment Profile
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
17
UTILITY TAB
• Control Point
• End Groups
• Ext Demo
• Metadata
• Reporter
• SAS Code
• Start Groups
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
18
CREDIT SCORING TAB
• Credit Exchange
• Interactive Grouping
• Reject Inference
• Scorecard
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
19
SVILUPPO DI UN PROGETTO CON SAS EM
Select cases
Extract input data
Validate input data
Analytic workflow
Define analytic objective
Repair input data
Transform input data
Apply analysis
Generate deployment methods
Integrate deployment
Gather results
Assess observed results
Refine analytic objective
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
20
Come creare un progetto in SAS EM
Projects
Libraries
and
Diagrams
Process
Flows
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
Nodes
21
Come creare un progetto in SAS EM
Projects
Libraries
and
Diagrams
Process
Flows
Nodes
ASSEGNARE E
CONFERMARE
NOME E
“PERCORSO”
Projects
Libraries
and
Diagrams
Process
Flows
Nodes
Projects
Libraries
and
Diagrams
Process
Flows
Nodes
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
22
Come creare un progetto in SAS EM
Selezionare la fonte dei dati
Selezionare il file “pva97nk.sas7bdat”, si tratta di una file di donatori
rispetto al quale si vuole approfondire la propensione ad aderire a
determinate campagne
Qualificare le colonne del Metadata
Analizzare il ruolo di ciascuna variabile
Definire la scala di misurazione di ciascuna variabile
Ruolo del data sete all’interno del progetto
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
23
Come creare un progetto in SAS EM
①
Il sistema per default assegna il livello di misurazione e la tipologia
di variabile, potrebbero esserci delle discrepanze rispetto alla
realtà: ANALIZZARE IL DATABASE CON L’OPZIONE
ADVANCED
③
②
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
24
Come creare un progetto in SAS EM
Input
Input
Input
Input
Measurement
Level
Interval
Nominal
Nominal
Binary
Description
Age
Demographic Cluster
Gender
Home Owner
Input
Interval
Median Home Value Region
Input
Input
Input
Input
Interval
Interval
Interval
Interval
Median Income Region
Percent Veterans Region
Gift Amount Average 36 Months
Gift Amount Average All Months
GiftAvgCard36
Input
Interval
Gift Amount Average Card 36 Months
GiftAvgLast
GiftCnt36
GiftCntAll
GiftCntCard36
GiftCntCardAll
GiftTimeFirst
GiftTimeLast
ID
PromCnt12
PromCnt36
PromCntAll
PromCntCard12
PromCntCard36
PromCntCardAll
StatusCat96NK
StatusCatStarAll
TARGET_B
TARGET_D
Input
Input
Input
Input
Input
Input
Input
ID
Input
Input
Input
Input
Input
Input
Input
Input
Target
Rejected
Interval
Interval
Interval
Interval
Interval
Interval
Interval
Nominal
Interval
Interval
Interval
Interval
Interval
Interval
Nominal
Binary
Binary
Interval
Gift Amount Last
Gift Count 36 Months
Gift Count All Months
Gift Count Card 36 Months
Gift Count Card All Months
Time Since First Gift
Time Since Last Gift
Control Number
Promotion Count 12 Months
Promotion Count 36 Months
Promotion Count All Months
Promotion Count Card 12 Months
Promotion Count Card 36 Months
Promotion Count Card All Months
Status Category 96NK
Status Category Star All Months
Target Gift Flag
Target Gift Amount
Name
DemAge
DemCluster
DemGender
DemHomeOwner
DemMedHomeValu
e
DemMedIncome
DemPctVeterans
GiftAvg36
GiftAvgAll
Model
Role
Troppi valori
diversi
Troppo
pochi
valori
diversi
Prima di modificare manualmente ciascuna variabile è possibile
modificare Advanced Advisor Options
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
25
Come creare un progetto in SAS EM
Per default:
 Rifiutate le variabili con oltre 50% di missing
 Definisce come variabili Nominali con meno di
20 modalità
 Rifiuta le variabili categoria con più di 20
modalità
Il database che consideriamo ha diverse variabili
discrete con meno di 20 modalità ma che NON
devono essere definite come Nominali
1) Solo le variabili numeriche binarie verranno
considerate variabili categoria
2) Solo le variabili categoria con più di 100 modalità
verranno rifiutate
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
26
Come creare un progetto in SAS EM
①
②
1) Solo le variabili numeriche binarie verranno
considerate variabili categoria
2) Solo le variabili categoria con più di 100 modalità
verranno rifiutate
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
27
Come creare un progetto in SAS EM
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
28
Come creare un progetto in SAS EM
Per la nostra analisi la variabile target è solo il
TARGET_B quindi “rejected” la variabile TARGET_D
Si tratta della fase più time consuming del processo ma nello stesso tempo la più
critica:
a) Includere solo le variabili che si intende utilizzare nel processo di modellazione
rispetto a tutte quelle disponibili nel database
b) Per le variabili che non sono semplicemente di Input, utilizzare nomi di variabili
che iniziano con il ruolo previsto. Ad esempio, una variabile ID dovrebbe iniziare
con ID e una variabile obiettivo dovrebbe iniziare con obiettivo.
c) Variabili Input che devono avere un livello di misurazione Nominale dovrebbero
avere un tipo di dati Carattere.
d) Variabili Input che devono essere Intervalli devono avere un tipo di dati Numerico.
e) Personalizzare il Metadata Advisor fissando un Conteggio di Classe Livello uguale a
2 (solo variabili numeriche binarie verranno considerate variabili categoria) e
Livelli di Scarto posti uguali al numero maggiore della modalità massima
(conteggio livello) delle vostre variabili Input nominali (nel nostro caso 100)
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
29
Come creare un progetto in SAS EM
Si proceda con la fase successiva, in questo caso è
opportuno NON selezionare SI, opzione attraverso la
quale sarebbe possibile immettere informazioni sul
costo o sul profitto di ogni possibile decisione,
probabilità a priori e funzione di costo.
Riprenderemo tale aspetto più avanti (1_parte_E),
infatti è possibile modificare tali informazioni anche
attraverso il pannello delle caratteristiche del nodo
Analogamente NON si definisca un campione delle
osservazioni
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
30
Come creare un progetto in SAS EM
Infine è possibile personalizzare con nomi e note le caratteristiche del database
Al termine vengono riassunte le principali caratteristiche del file
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
31
Esplorare il database
Il modo più semplice per analizzare il file è evidenziarlo
e con il tasto destro del mouse selezionare Explore
Vengono riassunte le principali
statistiche e mostrate 2.000
osservazioni casuali del file
E’ possibile modificare l’ampiezza
del campione
L’ampiezza del campione è
possibile modificarla anche dal
menù principale: Options,
Prefereces
NB:E’ necessario modificare
config.sas per file >30.000 obs
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
32
Esplorare il database
Per un’analisi più approfondita è possibile creare alcuni grafici (Actions  Plot)relativamente alle variabili
inserite nel database, per esempio un istogramma per la variabile DEMAGE o torta per la variabile TARGET
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
33
Esplorare il database
E’ possibile modificare (tasto destro Graph Properties) le caratteristiche del grafico: numero degli
istogrammi, “zummare” sul grafico
Per esempio porre 87
(valore massimo della
variabile Età) il Number of
X Bins
Provare a Zummare
muovendo il mouse dopo
aver cliccato
Select
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
Per ripristinare la scala
34
Esplorare il database
Non tutte le osservazioni sono riportate nell’istogramma
della variabile età, tasto destro Graph Properties,
selezionare Show Missing Bin
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
35
Esplorare il database
E’ possibile affiancare
tutte le informazioni
relative al database,
informazioni che sono
tra loro
INTERCONNESSE
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
36
Modificare database
Proviamo
a
necessità
di
variazioni
considerare
operare
sulla
la
delle
variabile
DemMedIncome, in particolare
vogliamo specificare che valori
inferiori
a
1
devono
essere
considerati missing
Modify  Replacement nodo
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
37
Modificare database
Il nodo Replacement per default modifica i valori delle variabili continue che sono oltre 3
volte la standard deviation dalla media, porre quindi Default Limits Method a None
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
38
Modificare database
Consideriamo le proprietà del nodo Replacement, operando su una variabile continua dobbiamo
porre
1) Specificare su quali valori vogliamo operare la sostituzione , Replacement Value, nek nostro
caso I valori missing
2) Indicare su quale variabile vogliamo operare Replacement Editor (delle variabili continue)
3) Selezionare la variabile
1
2
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
3
39
Modificare database
Eseguire il nodo e verificare i
risultati da cui si evidenzia che sono
state effettuate 2.357 modifiche
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
40
Modificare database
Si analizzi ora il database modificato (Exported data nelle proprietà del nodo REPLACEMENT)
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
41
Modificare database
Scorendo a destra il la tabella dei dati si evidenzia una nuova colonna Replacement:
DemMedIncome, che differisce da DemMedIncome per le osservazioni a zero che risultano a
Missing
Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC
42
Scarica

Replacement