La segmentazione a priori: CHAID Elena Pallini Elena Santi Francesco Bontempone Rosangelo Giampaolo Dott.ssa Elena Pallini [email protected] Dott.ssa Elena Santi [email protected] Dott. Francesco Bontempone [email protected] Dott. Rosangelo Giampaolo [email protected] Obiettivo dell’analisi Suddividere in gruppi omogenei un insieme di individui, intervistati presso i punti vendita COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio Struttura del dataset Fonte statistica: interviste effettuate in punti vendita Coop 7200 osservazioni 3 classi di variabili: variabili socio-demografiche ed economiche punteggi di soddisfazione sul servizio di distribuzione e relative variazioni variabili “Coop” Modello statistico Tecnica di segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection) Grado di omogeneità all’interno dei gruppi e di eterogeneità tra i gruppi è valutato con il test del Chi-quadro Significatività statistica normalizzata con il fattore di Bonferroni Primo livello: data set “completo” Variabile target SOCIO (sì / no) Variabili indipendenti 1. Prima fase: Sono state incluse nell’analisi tutte le variabili 2. Seconda fase: Sono state incluse nell’analisi le variabili “a blocchi” Secondo livello: data set “non soci” Variabile target CANALE (iper / non iper) Variabili indipendenti 1. Prima fase: Sono state incluse nell’analisi tutte le variabili 2. Seconda fase: Sono state incluse nell’analisi le variabili “a blocchi” Alberi: impostazioni comuni Data set partizionato in: 70% Training Set 30% Validation Set Minimo numero di osservazioni per foglia: 50 Massima profondità dell’albero: 6 Distribuzione variabile target Variabile target: SOCIO (sì / no) SI 50% NO 50% Alberi 1° livello tutte le variabili (1) SOCIO (sì/no) variabili socio-demografiche (2) ed economiche punteggi di soddisfazione variabili “Coop” 1) I risultati ottenuti sono identici a quelli con le sole variabili “Coop” 2) Le variabili considerate non hanno alcun valore esplicativo SOCIO *** Punteggi di soddisfazione sul servizio di distribuzione e relative variazioni Tasso di corretta classificazione • validation set 0,744 • training set 0,755 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con 7 foglie finali SOCIO – Punteggi di soddisfazione e variazioni Matrice di confusione SOCIO – Punteggi di soddisfazione e variazioni Confusion Matrix Valori osservati SI NO Totale Valori previsti SI NO 2437 83 1150 1370 3587 1453 Totale 2520 2520 5040 Il 3% dei “soci” sono malclassificati Il 46% dei “non soci” sono malclassificati 1° livello: Albero “soddisfazione” -1- -2- -7- Variabile target: SOCIO (sì / no) -6- Variabili indipendenti: punteggi di soddisfazione e variazioni Data set completo -3- -4- -5- Segmenti finali: caratteristiche Segmento Descrizione 1 2 Alta soddisfazione per le promozioni M edia soddisfazione per le promozioni Bassa soddisfazione generale e per le promozioni, ma alta per i prodotti no food Bassa soddisfazione generale, per le promozioni e per i prodotti no food , per i quali viene anche percepito un peggioramento nel servizio Bassa soddisfazione generale e per le promozioni, medio-bassa per i prodotti no food; per questi ultimi viene percepito un miglioramento nel servizio Soddisfazione generale medio-alta, ma bassa per le promozioni 3 4 5 6 7 Non sono noti i punteggi di soddisfazione per le promozioni %soci = sì 74% 67% 37% 52% Le promozioni inducono gli acquirenti a diventare “soci” 29% 65% 1% I “non soci” sono sensibili alle variazioni nei servizi per i prodotti no food SOCIO *** Variabili “Coop” Tasso di corretta classificazione • validation set 0,871 • training set 0,884 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con 5 foglie finali SOCIO – Variabili Coop Matrice di confusione SOCIO – Variabili Coop Confusion Matrix Valori osservati SI NO Totale Valori previsti SI NO 2492 28 555 1965 3047 1993 Totale 2520 2520 5040 Il 1% dei “soci” sono malclassificati Il 22% dei “non soci” sono malclassificati 1° livello: Albero “varCoop” Variabile target: SOCIO (sì / no) Variabili indipendenti: variabili “Coop” Data set completo -5- -1- -2- -3- -4- Segmenti finali: caratteristiche Segmento 1 2 3 4 5 Descrizione L'insegna preferita è la Coop e frequenta Coop come primo punto vendita L'insegna preferita è la Coop, ma non frequenta Coop come primo punto vendita Preferisce altre insegne a quella della Coop, ma frequenta Coop come primo punto vendita Preferisce altre insegne a quella della Coop e non frequenta Coop come primo punto vendita Non è noto quale insegna preferisca %soci=sì 79% 9% 0% 100% 2% “Contenti” (segmento 1) Soci Coop Non soci “Attenti alle promozioni”(segmento 4) “Attratti da Coop ma impossibilitati ad andarci” (segmento 2) “Non attratti da Coop ma costretti ad andarci” (segmento 3) Distribuzione variabile target Variabile target: CANALE (iper / non iper) IPER 28% NON IPER 72% Alberi 2° livello: data set “non soci” tutte le variabili CANALE (iper / non iper) variabili socio-demografiche (*) ed economiche punteggi di soddisfazione variabili “Coop” (*) (*) Le variabili considerate non hanno alcun valore esplicativo CANALE *** Tutte le variabili Tasso di corretta classificazione • validation set 0,753 • training set 0,787 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con 6 foglie finali CANALE – Tutte le variabili Matrice di confusione CANALE – Tutte le variabili Confusion Matrix Valori osservati NON IPER IPER Totale Valori previsti NON IPER IPER 1014 54 262 153 1276 207 Totale 1068 415 1483 Il 63% dei frequentatori “iper” sono malclassificati Il 5% dei frequentatori “non iper” sono malclassificati 2° livello: Albero “ALL” Variabile target: CANALE (iper / non iper) Variabili indipendenti: tutte le variabili Data set: NON SOCI -4- -1- -2- -3- -5- -6- Segmenti finali: caratteristiche Segmento 1 2 3 4 5 6 Descrizione Alta soddisfazione per l'assortimento e Veneto come area di acquisto Alta soddisfazione per l'assortimento e Romagna e M arche come area di acquisto Alta soddisfazione per l'assortimento e Bologna come area di acquisto M edia soddisfazione per l'assortimento Bassa soddisfazione per l'assortimento Non sono noti i punteggi di soddisfazione per l'assortimento % iper 35% 48% 61% 31% 13% 4% Bologna: i ricercatori di varietà scelgono l’iper 2 macro-zone Veneto, Romagna e Marche: i ricercatori di varietà scelgono il “non iper” CANALE *** Punteggi di soddisfazione sul servizio di distribuzione e relative variazioni Tasso di corretta classificazione • validation set 0,763 • training set 0,768 Il confronto tra le curve del training set e del validation set suggerisce di scegliere l’albero con 5 foglie finali CANALE – Punteggi di soddisfazione e variazioni Matrice di confusione CANALE – Punteggi di soddisfazione e variazioni Confusion Matrix Valori osservati NON IPER IPER Totale Valori previsti NON IPER IPER 935 133 211 204 1146 337 Totale 1068 415 1483 Il 51% dei frequentatori “iper” sono malclassificati Il 12% dei frequentatori “non iper” sono malclassificati 2° livello: Albero “soddisfazione” Variabile target: CANALE (iper / non iper) Variabili indipendenti: punteggi di soddisfazione e variazioni Data set: NON SOCI -3- -1- -2- -4- -5- Segmenti finali: caratteristiche Segmento 1 2 3 4 5 Descrizione Alta soddisfazione per l'assortimento e bassa per le promozioni Alta soddisfazione per l'assortimento e medio-alta per le promozioni M edia soddisfazione per l'assortimento Bassa soddisfazione per l'assortimento Non sono noti i punteggi di soddisfazione per l'assortimento Chi è molto interessato all’assortimento e alle promozioni frequenta l’ “iper” % iper 30% 60% 31% 13% 4% Chi è poco interessato all’assortimento frequenta il “non iper” Conclusioni 3 alberi su 4 malclassificano una delle due modalità della variabile target con valori superiori al 40% L’unico albero utilizzabile per l’analisi: Albero “varCoop” con variabile target SOCIO Conclusioni I modelli hanno una scarsa capacità classificatoria. Perché? Possibili interpretazioni: insufficiente contenuto informativo del data set categorizzazione delle variabili non sufficientemente accurata nel caso di CANALE può essere dovuta anche allo sbilanciamento del campione rispetto al target Variabili socio-demografiche ed economiche Sesso Numero componenti famiglia Età Numero minorenni Professione Numero percettori di reddito Titolo di studio Numero occupati Stato civile Numero auto possedute Area di acquisto Qualità del servizio Generale Reparto ortofrutta Prezzi Reparto carne Promozioni Reparto pane, pasticceria Assortimento Reparto salumi, formaggi e Personale, servizio gastronomia Pulizia, igiene Reparto pesce fresco Qualità prodotti freschi Prodotti no-food N.B. Per ogni variabile sono stati rilevati sia la soddisfazione sul servizio che la relativa variazione rispetto al passato Variabili “Coop” Canale di vendita (IPER / NON IPER) Socio (SI / NO) Insegna Numero soci in famiglia Preferenza su Coop Area di acquisto