Un’applicazione della segmentazione a priori: l’algoritmo CHAID Di: Laura Croccia Daniele Medri Claudio Quevedo Romina Raimondi OBIETTIVO:effettuare un’analisi di segmentazione a priori tramite l’algoritmo Chaid Prima segmentazione effettuata utilizzando la variabile target “essere socio Coop” (50% del campione sono “soci”) Seconda segmentazione effettuata solo sui soci Coop utilizzando la variabile target “canale ipermercato o non ipermercato” (55 % del campione non usa il canale ipermercato) Dataset “Coop” 7200 unità 42 variabili riguardanti: - soddisfazione degli intervistati - variazione della soddisfazione degli intervistati - informazioni socio-demografiche - informazioni su variabili “Coop” Opzioni utilizzate Nodo Tree del software Enterprise Miner Numero massimo di split in ogni nodo: 3 ( scelta effettuata in base al numero di modalità delle variabili categoriche prese in considerazione) Minimo numero di osservazioni in una foglia: 20 ( per non avere foglie con poca numerosità) Fase 1 Analisi di segmentazione su tutti le unità del dataset Segmentazione con variabile target “Socio” Costruiti 4 diversi alberi utilizzando: - tutte le variabili - le variabili socio-demografiche - le variabili sulla soddisfazione - le variabili “Coop” Dataset diviso in: - training set (70% del campione,5040 u.s.) - validation set (30% del campione,2160 u.s.) Soddisfazione-Variazione Problema di dipendenza tra soddisfazione e variazione Scarsa utilità dell’informazione apportata dalle variabili riguardanti la variazione perché manca un termina di confronto Test 2 per testare l’indipendenza tra soddisfazione e variazione della soddisfazione per i diversi aspetti del servizio Per tutti i confronti l’ipotesi nulla di indipendenza risulta rifiutata le variabili rappresentanti la variazione della soddisfazione sono state escluse dall’analisi Segmentazione con tutte le variabili Albero con 3 livelli di profondità e 5 nodi terminali Tasso di corretta classificazione=87% Le variabili ritenute significative per gli split sono “insegna” e “primo punto vendita” Albero Segmenti individuati Segmento1: soci Coop che scelgono Coop sia come insegna che come primo punto vendita (58% circa del campione). Segmento2: non soci Coop che scelgono Coop come insegna ma non come primo punto vendita (3% circa) Segmento3:esclusivamente non soci Coop che scelgono altre insegne e Coop come primo punto vendita (10%circa) Segmento4:esclusivamente soci Coop che scelgono altre insegne e non scelgono Coop come primo punto vendita (2% circa) Segmento5:coloro che presentano un valore mancante per la variabile insegna (26% circa) Segmentazione con le variabili Socio-Demografiche L’utilizzo delle suddette variabili non ha portato ad alcuna segmentazione. Si ritengono quindi ininfluenti queste variabili ai fini degli obiettivi anteposti. Si No Si No totale 50 % 50 % 2520 2520 5040 50 % 50 % 1080 1080 2160 Segmentazione con le sole variabili di soddisfazione Albero con 4 livelli di profondità, 11 nodi terminali dei quali 4 relativi ai valori mancanti; Tasso di corretta classificazione=74% Le variabili ritenute significative per gli split sono “soddisfazione generale”, “soddisfazione verso promozioni” e “soddisfazione verso prodotti non alimentari”. Albero Segmentazione con le sole variabili di soddisfazione Segmento1: soci che hanno dimostrato una soddisfazione alta a livello generale e per le promozioni (23% circa del campione); Segmento2: non soci che hanno dimostrato una soddisfazione alta a livello generale e in misura medio bassa verso le promozioni (32% circa); Segmento3: in maggioranza non soci che hanno rivelato soddisfazione generale alta ma non hanno dato giudizio di preferenza per le promozioni (1% circa); Segmento4: persone che hanno indicato una bassa soddisfazione generale, alta o bassa per le promozioni e media per i prodotti non alimentari; sono sia soci che non soci (12% circa); Segmento5: non soci che hanno indicato una bassa soddisfazione generale ma un’elevata soddisfazione per i prodotti non alimentari (1%); Segmento 6: non soci che hanno indicato una bassa soddisfazione generale alta o bassa soddisfazione per le promozioni e non hanno espresso opinioni sui prodotti non alimentari (2%); Segmento 7: non soci con bassa soddisfazione generale, soddisfazione media verso le promozioni e alta soddisfazione per i prodotti non alimentari (1%); Segmentazione con le sole variabili di soddisfazione Segmento8: soci con bassa soddisfazione generale, media soddisfazione verso le promozioni e i prodotti non alimentari (2% del campione) Segmento9: soci con bassa soddisfazione generale,media soddisfazione verso le promozioni e bassa soddisfazione verso i prodotti non alimentari (2%); Segmento10: non soci con bassa soddisfazione generale che non hanno espresso opinione nei confronti delle promozioni (1%); Segmento11: non soci che non ha espresso alcun giudizio di soddisfazione generale (24%). Segmentazione con le sole variabili “Coop” Albero con 3 livelli di profondità, 5 nodi terminali dei quali 1 relativo ai valori mancanti; Tasso di corretta classificazione=87% Le variabili ritenute significative per gli split sono “insegna” e “primo punto vendita”. Albero Segmentazione con le sole “Coop” Segmento1: soci che scelgono l’insegna Coop e quest’ultima rappresenta il primo punto vendita (59% circa); Segmento2: non soci che scelgono l’insegna Coop ma per i quali non rappresenta il primo punto vendita (3% circa); Segmento3: esclusivamente non soci che scelgono altre insegne ma scelgono Coop come primo punto vendita (10% circa); Segmento4: esclusivamente soci Coop che scelgono altre insegne ma non Coop come primo punto vendita (2% circa); Segmento5: non soci Coop che non hanno dato giudizio di preferenza sull’insegna (26% circa). Osservazione Utilizzando tutte le variabili e le sole variabili “Coop” si ottiene la medesima segmentazione, quindi deduciamo che queste variabili sono molto rilevanti per i nostri scopi. Confronto tra gli alberi Corretta Classificazione Tutte le variabili Variabili Sociodemografiche Variabili soddisfazione Variabili Coop Valore 0,87 0,5 0,74 0, 87 •La segmentazione migliore risulta essere quella che utilizza tutte le variabili, mentre quelle socio-demografiche risultano inutili. Fase 2 Analisi di segmentazione sui soci “Coop” Segmentazione con variabile target “Canale” 3600 unità Costruiti 4 diversi alberi, utilizzando: - tutte le variabili - le variabili socio-demografiche - le variabili sulla soddisfazione - le variabili “Coop” Il Dataset “solo sui soci coop” è stato diviso in: - training set (70% del campione,2520 u.s.) - validation set (30% del campione, 1080 u.s.) Segmentazione con tutte le variabili Albero con 4 livelli di profondità e 11 nodi terminali Tasso di corretta classificazione=71 % Le variabili ritenute significative per la segmentazione sono la “zona geografica di appartenenza”, la soddisfazione sull’”assortimento”, il “pesce” e i “prezzi” Albero Segmentazione con tutte le variabili Segmento1: Soci Coop il cui canale di vendita è ipermercato, residenti a Bologna con una bassa soddisfazione rispetto al pesce e all’assortimento(circa il 5%). Segmento2: Soci che comprano in ipermercato, residenti a Bologna che hanno una soddisfazione bassa per il pesce e media per l’assortimento (circa il 4%). Segmento3: Soci che comprano in ipermercato, residenti a Bologna con una bassa soddisfazione del pesce e alta per l’assortimento (circa il 3%). Segmento4: Soci che comprano in ipermercato, residenti a Bologna, hanno una soddisfazione del pesce alta o media (circa il 27%). Segmento5: Soci che NON comprano in ipermercato, residenti a Bologna, che non hanno dichiarato sulla soddisfazione del pesce e che hanno una soddisfazione dell’assortimento bassa (circa il 4%). Segmento6: Soci che NON comprano in ipermercato, residenti a Bologna, che non hanno dichiarato punteggi di soddisfazione per il pesce e con una media soddisfazione per l’assortimento (circa il 3%). Segmentazione con tutte le variabili Segmento7: Soci che comprano in ipermercato, residenti a Bologna, non dichiarano la soddisfazione sul pesce e che segnalano un’alta soddisfazione per l’assortimento(circa il 4%). Segmento8: Soci che NON comprano in ipermercato, residenti in Romagna-Marche con un’alta soddisfazione del pesce e dei prezzi (circa il 13%). Segmento9: Soci che NON comprano in ipermercato, residenti in Romagna-Marche con una soddisfazione alta del pesce e bassa dei prezzi (circa il 6%). Segmento10: Soci che NON comprano in ipermercato residenti nella zona Romagna-Marche che presentano valori missing per la soddisfazione riguardo al pesce (circa il 12%). Segmento 11: Soci che NON comprano in ipermercato e abitano nella Regione del Veneto (circa il 18%). Segmentazione con le variabili Socio-Demografiche Albero con 4 livelli di profondità e 6 nodi terminali Tasso di corretta classificazione= 68% Le variabili che risultano significative per la segmentazione sono la “zona di appartenenza geografica”, il “numero di familiari riceventi reddito” e “il numero di auto possedute” Albero Segmentazione con le variabili demografiche Segmento 1: Soci che comprano in ipermercato,residenti a Bologna che hanno un auto (21% circa). Segmento 2: Soci che comprano in ipermercato, residenti a Bologna con più di un auto (23% circa). Segmento 3: Soci che comprano in ipermercato, residenti a Bologna, non hanno risposto sul numero delle auto che hanno più di una persona con reddito (2% circa). Segmento 4: Soci che NON comprano in ipermercato residenti a Bologna, non presentano un valore per il numero auto e hanno una persona con reddito (3% circa). Segmento 5: Soci che NON comprano in ipermercato che abitano nella zona Romagna-Marche (32% circa). Segmento 6: Soci che NON comprano in ipermercato che abitano in Veneto (18% circa). Segmentazione con le variabili “Soddisfazione” Albero con 4 livelli di profondità e 11 nodi terminali Tasso di corretta classificazione=68% Le variabili che risultano significative per la segmentazione sono la soddisfazione per “l’assortimento”, “il pesce”, “il personale”, “la carne” e “i prezzi” Albero Segmentazione con le variabili soddisfazione Segmento 1: Soci che comprano in ipermercato con una soddisfazione del pesce e dei prezzi alta (24% circa). Segmento 2: Soci che NON comprano in ipermercato con una soddisfazione alta per il pesce, media per i prezzi e alta per la carne (6% circa). Segmento 3: Soci che usano il canale ipermercato, hanno un soddisfazione alta per il pesce, media per i prezzi e per la carne (11% circa). Segmento 4: Soci che comprano in ipermercato, hanno un soddisfazione alta per il pesce, media per i prezzi e bassa per la carne (6% circa). Segmento 5: Soci che NON comprano in ipermercato, molto soddisfatti del pesce poco soddisfatti dell’assortimento e dei prezzi (9% circa). Segmentazione con le variabili soddisfazione Segmento 6: Soci che NON comprano in ipermercato, con una soddisfazione alta per il pesce dell’assortimento media, bassa per i prezzi e media per l’assortimento (6% circa). Segmento 7: Soci che comprano in ipermercato, con una soddisfazione alta per il pesce, bassa per i prezzi e alta per l’assortimento (3% circa). Segmento 8: Soci che NON comprano in ipermercato, non dichiarano la soddisfazione per il pesce, con una bassa soddisfazione dell’assortimento (12% circa). Segmento 9: Soci che NON comprano in ipermercato che non dichiarano la soddisfazione rispetto al pesce e con una soddisfazione media per l’assortimento e (10% circa). Segmento 10: Soci che NON comprano in ipermercato che non dichiarano la soddisfazione rispetto al pesce, con un’alta soddisfazione per il personale e per l’assortimento (8% circa). Segmento 11: Soci che comprano in ipermercato, che non dichiarano sulla soddisfazione rispetto al pesce con una alta soddisfazione per l’assortimento e bassa o media per il personale(3% circa). Segmentazione con le variabili “Coop” Albero con 4 livelli di profondità e 4 nodi terminali Tasso di corretta classificazione=68% Le variabili che risultano significative sono “la zona di residenza” e “il primo punto vendita” Albero Segmentazione con le variabili coop Segmento 1: Soci che NON comprano in ipermercato,risiedono a Bologna e che non usano Coop come primo punto vendita (2% circa). Segmento 2: Soci che comprano in ipermercato, residenti a Bologna per i quali Coop è primo punto di vendita (48% circa). Segmento 3: Soci che NON comprano in ipermercato e presentano come zona di residenza Romagna-Marche (32% circa). Segmento 4: Soci che NON comprano in ipermercato e risiedono in Veneto (18% circa). Confronto tra gli alberi Corretta Classificazione Tutte le variabili Variabili Socio-demografiche Variabili soddisfazione Variabili Coop Valore 0,71 0,68 0,68 0,68 •La segmentazione migliore risulta essere quella che utilizza tutte le variabili Osservazione: la questione “Pesce” La variabile “soddisfazione per il pesce” risulta molto significativa nella segmentazione Per questo motivo si è ritenuto interessante andare ad osservare le caratteristiche sociodemografiche di coloro che rispondono alla soddisfazione riguardo al pesce e di coloro che non rispondono. Le distribuzioni di frequenza delle variabili sociodemografiche sono simili sia per coloro che rispondono sia per coloro che non rispondono. L’unica variabile che non si comporta nella stessa maniera è la “zona di residenza”. A Bologna sono presenti soprattutto coloro che consumano pesce, mentre in Veneto sono più presenti coloro che non lo consumano. Fine Test 2 di indipendenza Variabile 2 p-Value Generale 131,8635 <.0001 Prezzi 135,2667 <.0001 Promozioni 184,3285 <.0001 Assortimento 130,3224 <.0001 Personale 166,8153 <.0001 Pulizia 78,5411 <.0001 Prodotti Freschi 117,5924 <.0001 Ortofrutta 240,6919 <.0001 Carne 231,4176 <.0001 Pane 171,2372 <.0001 Salumi 173,8725 <.0001 Pesce 167,6061 <.0001 Non_Food 90,6038 <.0001