CONTENUTI DEL CORSO Metodi Quantitativi come Strumenti di supporto alle decisioni nel Marketing • Contenuti del corso: • Data Mining: Introduzione a SAS EM • I modelli predittivi: • Gli Alberi Decisionali • La Regressione • Le Reti Neurali • Criteri di scelta del Modello • Generalizzazione dei risultati Particolare enfasi sugli aspetti operativi piuttosto che teorici …. Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 0 CONTENUTI DEL CORSO Modalità Esame • Frequentanti: nel corso delle lezioni verranno svolte alcune esercitazioni, nell’ultima lezione si svolgerà un’esercitazione congiunta in aula divisi in gruppo di 2/3 studenti. Registrazione in occasione delle date prefissate • Non Frequentanti: esame orale nelle date prefissate Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 1 CONTENUTI DEL CORSO Certified Predictive Modeler Using SAS Enterprise Miner • • • • • • • Riservata ai Frequentanti con esito all’esame almeno di 27/30 Si svolgerà presso il SAS Institute di Milano, via Darwin (definire data Giugno o Settembre) 2 incontri integrativi di esercitazione in SAS (definire date il lunedì o il venerdì) Conoscenza dell’inglese scritto: il test è condotto in inglese su computer collegati alla sede SAS di Cary (USA) Conoscenza pregressa, non superficiale, di Enterprise Miner di SAS Conoscenza dei modelli statistici utilizzati nel Data Mining. Materiale di supporto: • • • Slide del corso Manuale in pdf Accedere al corso :http://support.sas.com/training/elearn/renewal.html inserendo come indirizzo email [email protected] e come psw ProfLiuc1 Tutti coloro che otterranno la certificazione SAS , avranno la possibilità di effettuare colloqui, essere costantemente informati sulle opportunità presso SAS o, clienti e Partner SAS, oltre che a figurare nell’elenco pubblico di coloro che hanno ottenuto la certificazione SAS Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 2 INDICE DELL’INCONTRO Contestualizziamo …… Il SISTEMA INFORMATIVO DI MARKETING “..è una struttura integrata ed interagente di persone, attrezzature e procedure finalizzata a raccogliere, classificare, analizzare, valutare e distribuire informazioni pertinenti, tempestive ed accurate nella prospettiva del management impegnato nei processi decisionali” …. offre sostegno ai processi di decision-making, che vengono attivati, in presenza di condizioni ambientali e competitive caratterizzate da elevata incertezza Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 3 IL DATA MINING Estrazione complessa di informazioni implicite, precedentemente sconosciute e potenzialmente utili dai dati Esplorazione e analisi, per mezzo di sistemi automatici e semi-automatici, di grandi quantità di dati al fine di scoprire pattern significativi Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 4 IL PATTERN Un PATTERN è una rappresentazione sintetica e ricca di semantica di un insieme di dati; esprime in genere un modello ricorrente nei dati, ma può anche esprimere un modello eccezionale Un pattern deve essere: Valido sui dati con un certo grado di confidenza Comprensibile dal punto di vista sintattico e semantico, affinché l‘utente lo possa interpretare Precedentemente Sconosciuto e potenzialmente Utile, affinché l’utente possa intraprendere azioni di conseguenza Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 5 IL PATTERN Regole associative Consentono di determinare le regole di implicazione logica presenti nella base di dati, quindi di individuare i gruppi di affinità tra oggetti Classificatori Consentono di derivare un modello per la classificazione di dati secondo un insieme di classi assegnate a priori Alberi decisionali Sono particolari classificatori che permettono di identificare, in ordine di importanza, le cause che portano al verificarsi di un evento Clustering Raggruppa gli elementi di un insieme, a seconda delle loro caratteristiche, in classi non assegnate a priori Serie temporali Permettono l’individuazione di pattern ricorrenti o atipici in sequenze di dati complesse Un. Bologna - Golfarelli Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 6 IL PROCESSO DI DATA MINING Unipd.it Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 7 APPLICAZIONI Unipd.it Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 8 I DATI …. breve ripasso …. I dati sono composti da OGGETTI (record, caso, elemento, osservazione, soggetto ….) descritti attraverso una serie di ATTRIBUTI (variabili, caratteristiche, ….) E’ indispensabile conoscere il TIPO di attributo per sapere quale operazione effettuare. Il modo più semplice consiste nel considerare quale OPERATORE ha senso applicare ai diversi valori che l’attributo può assumere, così da individuare 4 tipi di attributi cui corrispondono altrettante OPERATORI STATISTICI Diversità = NOMINALE MODA - CONNESSIONE Ordinamento > < ORDINALE MEDIANA - PERCENTILI Additiva + - INTERVALLO MEDIA – VARIANZA – CORRELAZIONE Moltiplicativa * / RAPPORTO MEDIA GEOMETRICA – ARMONICA Infine possiamo classificare gli ATTRIBUTI anche come DISCRETO ha un numero FINITO di modalità CONTINUO ha un numero INFINITO di valori Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 9 SAS ENTERPRISE MINER Si tratta di un’interfaccia “grafica” che permette l’utilizzo delle principali procedure SAS per il data Mining Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 10 SAS ENTERPRISE MINER 1) Menu bar and shortcut buttons 8) SEMMA & tools palette 2) Project panel 7) Node 3) Properties panel 6) Process flow 5) Diagram workspace 4) Help panel Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 11 SAMPLE TAB • Append Unisce dataset derivati da due differenti percorsi • Data Partition • File Import • Filter • Input Data • Merge Unisce osservazioni derivanti da 2 o più dataset • Sample • Time Series Converte dati “trasazionali” in serie storiche Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 12 EXPLORER TAB di item che tendono a presentarsi • Association Evidenziazione in associazione • Cluster • DMDB DataMining DataBase, statistiche riassuntive • Graph Explore • Market Basket Identifica le regole di associazione • Multiplot Analisi grafica per Database molto grandi • Path Analysis Analisi Web Log Data o analisi di sequenze • SOM/Kohonen • StatExplore • Variable Clustering • Variable Selection Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 13 MODIFY TAB • Drop • Impute Sostituzione e gestione valori missing • Interactive BinningStrumento interattivo di categorizzazione • Principal Components • Replacement Riassegnare o consolidare variabili categoria • Rules Builder Creazione di regole in base a prob. a priori • Transform Variables Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 14 MODEL TAB • AutoNeural • Decision Tree • Dmine Regression Regressione con Dipendente binaria • DMNeural Modelli non Lineari • Ensemble Integra i risultati derivanti da più modelli • Gradient Boosting • Least Angle Regression Selezione delle variabili e fitting la classificazione di oggetti basandosi sulle caratteristiche • MBR per degli oggetti vicini a quello considerato Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 15 MODEL TAB • Model Import Importare modelli creati non in SAS EM • Neural Network • Partial Least Squares • Regression • Rule Induction Eventi rari • Support Vector Machines • Two Stage Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 16 ASSESS TAB • Cutoff Identificazione probabilità di cutoff • Decisions • Model Comparison • Score • Segment Profile Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 17 UTILITY TAB • Control Point • End Groups • Ext Demo • Metadata • Reporter • SAS Code • Start Groups Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 18 CREDIT SCORING TAB • Credit Exchange • Interactive Grouping • Reject Inference • Scorecard Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 19 SVILUPPO DI UN PROGETTO CON SAS EM Select cases Extract input data Validate input data Analytic workflow Define analytic objective Repair input data Transform input data Apply analysis Generate deployment methods Integrate deployment Gather results Assess observed results Refine analytic objective Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 20 Come creare un progetto in SAS EM Projects Libraries and Diagrams Process Flows Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC Nodes 21 Come creare un progetto in SAS EM Projects Libraries and Diagrams Process Flows Nodes ASSEGNARE E CONFERMARE NOME E “PERCORSO” Projects Libraries and Diagrams Process Flows Nodes Projects Libraries and Diagrams Process Flows Nodes Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 22 Come creare un progetto in SAS EM Selezionare la fonte dei dati Selezionare il file “pva97nk.sas7bdat”, si tratta di una file di donatori rispetto al quale si vuole approfondire la propensione ad aderire a determinate campagne Qualificare le colonne del Metadata Analizzare il ruolo di ciascuna variabile Definire la scala di misurazione di ciascuna variabile Ruolo del data sete all’interno del progetto Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 23 Come creare un progetto in SAS EM ① Il sistema per default assegna il livello di misurazione e la tipologia di variabile, potrebbero esserci delle discrepanze rispetto alla realtà: ANALIZZARE IL DATABASE CON L’OPZIONE ADVANCED ③ ② Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 24 Come creare un progetto in SAS EM Input Input Input Input Measurement Level Interval Nominal Nominal Binary Description Age Demographic Cluster Gender Home Owner Input Interval Median Home Value Region Input Input Input Input Interval Interval Interval Interval Median Income Region Percent Veterans Region Gift Amount Average 36 Months Gift Amount Average All Months GiftAvgCard36 Input Interval Gift Amount Average Card 36 Months GiftAvgLast GiftCnt36 GiftCntAll GiftCntCard36 GiftCntCardAll GiftTimeFirst GiftTimeLast ID PromCnt12 PromCnt36 PromCntAll PromCntCard12 PromCntCard36 PromCntCardAll StatusCat96NK StatusCatStarAll TARGET_B TARGET_D Input Input Input Input Input Input Input ID Input Input Input Input Input Input Input Input Target Rejected Interval Interval Interval Interval Interval Interval Interval Nominal Interval Interval Interval Interval Interval Interval Nominal Binary Binary Interval Gift Amount Last Gift Count 36 Months Gift Count All Months Gift Count Card 36 Months Gift Count Card All Months Time Since First Gift Time Since Last Gift Control Number Promotion Count 12 Months Promotion Count 36 Months Promotion Count All Months Promotion Count Card 12 Months Promotion Count Card 36 Months Promotion Count Card All Months Status Category 96NK Status Category Star All Months Target Gift Flag Target Gift Amount Name DemAge DemCluster DemGender DemHomeOwner DemMedHomeValu e DemMedIncome DemPctVeterans GiftAvg36 GiftAvgAll Model Role Troppi valori diversi Troppo pochi valori diversi Prima di modificare manualmente ciascuna variabile è possibile modificare Advanced Advisor Options Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 25 Come creare un progetto in SAS EM Per default: Rifiutate le variabili con oltre 50% di missing Definisce come variabili Nominali con meno di 20 modalità Rifiuta le variabili categoria con più di 20 modalità Il database che consideriamo ha diverse variabili discrete con meno di 20 modalità ma che NON devono essere definite come Nominali 1) Solo le variabili numeriche binarie verranno considerate variabili categoria 2) Solo le variabili categoria con più di 100 modalità verranno rifiutate Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 26 Come creare un progetto in SAS EM ① ② 1) Solo le variabili numeriche binarie verranno considerate variabili categoria 2) Solo le variabili categoria con più di 100 modalità verranno rifiutate Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 27 Come creare un progetto in SAS EM Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 28 Come creare un progetto in SAS EM Per la nostra analisi la variabile target è solo il TARGET_B quindi “rejected” la variabile TARGET_D Si tratta della fase più time consuming del processo ma nello stesso tempo la più critica: a) Includere solo le variabili che si intende utilizzare nel processo di modellazione rispetto a tutte quelle disponibili nel database b) Per le variabili che non sono semplicemente di Input, utilizzare nomi di variabili che iniziano con il ruolo previsto. Ad esempio, una variabile ID dovrebbe iniziare con ID e una variabile obiettivo dovrebbe iniziare con obiettivo. c) Variabili Input che devono avere un livello di misurazione Nominale dovrebbero avere un tipo di dati Carattere. d) Variabili Input che devono essere Intervalli devono avere un tipo di dati Numerico. e) Personalizzare il Metadata Advisor fissando un Conteggio di Classe Livello uguale a 2 (solo variabili numeriche binarie verranno considerate variabili categoria) e Livelli di Scarto posti uguali al numero maggiore della modalità massima (conteggio livello) delle vostre variabili Input nominali (nel nostro caso 100) Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 29 Come creare un progetto in SAS EM Si proceda con la fase successiva, in questo caso è opportuno NON selezionare SI, opzione attraverso la quale sarebbe possibile immettere informazioni sul costo o sul profitto di ogni possibile decisione, probabilità a priori e funzione di costo. Riprenderemo tale aspetto più avanti (1_parte_E), infatti è possibile modificare tali informazioni anche attraverso il pannello delle caratteristiche del nodo Analogamente NON si definisca un campione delle osservazioni Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 30 Come creare un progetto in SAS EM Infine è possibile personalizzare con nomi e note le caratteristiche del database Al termine vengono riassunte le principali caratteristiche del file Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 31 Esplorare il database Il modo più semplice per analizzare il file è evidenziarlo e con il tasto destro del mouse selezionare Explore Vengono riassunte le principali statistiche e mostrate 2.000 osservazioni casuali del file E’ possibile modificare l’ampiezza del campione L’ampiezza del campione è possibile modificarla anche dal menù principale: Options, Prefereces NB:E’ necessario modificare config.sas per file >30.000 obs Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 32 Esplorare il database Per un’analisi più approfondita è possibile creare alcuni grafici (Actions Plot)relativamente alle variabili inserite nel database, per esempio un istogramma per la variabile DEMAGE o torta per la variabile TARGET Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 33 Esplorare il database E’ possibile modificare (tasto destro Graph Properties) le caratteristiche del grafico: numero degli istogrammi, “zummare” sul grafico Per esempio porre 87 (valore massimo della variabile Età) il Number of X Bins Provare a Zummare muovendo il mouse dopo aver cliccato Select Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC Per ripristinare la scala 34 Esplorare il database Non tutte le osservazioni sono riportate nell’istogramma della variabile età, tasto destro Graph Properties, selezionare Show Missing Bin Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 35 Esplorare il database E’ possibile affiancare tutte le informazioni relative al database, informazioni che sono tra loro INTERCONNESSE Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 36 Modificare database Proviamo a necessità di variazioni considerare operare sulla la delle variabile DemMedIncome, in particolare vogliamo specificare che valori inferiori a 1 devono essere considerati missing Modify Replacement nodo Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 37 Modificare database Il nodo Replacement per default modifica i valori delle variabili continue che sono oltre 3 volte la standard deviation dalla media, porre quindi Default Limits Method a None Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 38 Modificare database Consideriamo le proprietà del nodo Replacement, operando su una variabile continua dobbiamo porre 1) Specificare su quali valori vogliamo operare la sostituzione , Replacement Value, nek nostro caso I valori missing 2) Indicare su quale variabile vogliamo operare Replacement Editor (delle variabili continue) 3) Selezionare la variabile 1 2 Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 3 39 Modificare database Eseguire il nodo e verificare i risultati da cui si evidenzia che sono state effettuate 2.357 modifiche Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 40 Modificare database Si analizzi ora il database modificato (Exported data nelle proprietà del nodo REPLACEMENT) Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 41 Modificare database Scorendo a destra il la tabella dei dati si evidenzia una nuova colonna Replacement: DemMedIncome, che differisce da DemMedIncome per le osservazioni a zero che risultano a Missing Metodi Quantitativi per il Marketing – Anno Accademico 2013-2014 LIUC 42