ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella Dott.ssa Chiara Cimini e-mail: [email protected] Dott.ssa Miriam Gotti e-mail: [email protected] Dott.re Alessandro Raspanti e-mail: [email protected] Dott.re Marco Stella: [email protected] OBIETTIVO Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche sociodemografiche, comportamentali e di giudizio MODELLO Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection); Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi; Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse ANALISI DEL DATASET Numero di osservazioni: 7200 Variabili suddivise in: variabili socio-demografiche ed economiche; punteggi di soddisfazione sul servizio di distribuzione; variabili “Coop” ANALISI DEL DATASET Variabili socio-demografiche ed economiche: sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food Variabili Coop: canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop ANALISI DEL DATASET CATEGORIZZAZIONE DELLE VARIABILI ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementaremedia inferiore, media superioreuniversità STATO CIVILE: celibe/nubile, sposato/a, vedovo/a NUMERO MINORENNI: 1, >1 Area di acquisto: Romagna e Marche, Veneto, Bologna NUMERO PERCETTORI REDDITO: 1, 2, >2 NUMERO OCCUPATI: modalità corrispondenti NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE: bassa (da 1 a 7), media (8), alta (9,10) PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1 SCHEMA DEL PROGETTO PRIMO LIVELLO DI ANALISI TUTTE LE VARIABILI DISPONIBILI VARIABILE TARGET: PRIMO_PV DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET (94,6% SI, 5,4% NO) CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE DI 80% E 20% NUMERO DI OSSERVAZIONI: 1950 SUDDIVISIONE DEL CAMPIONE IN TRAINING SET E VALIDATION SET (80% - 20%) PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49% PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE Numero segmento Descrizione Frequenza relativa Coop primo_pv: SI (freq. rel.) Segmento 3 Frequentanti altre insegne: non soci 8,2% 100,0% Segmento 4 Dato mancante 21,7% 93,2% Segmento 1 Frequentanti insegna Coop 62,7% 81,8% % SI (training set) Segmento 2 Frequentanti altre insegne soci 79,7% 7,4% 0,0% In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne PRIMO LIVELLO DI ANALISI PRIMO PV - VARIABILI CONSIDERATE TUTTE Confusion Matrix Valori osservati SI NO Totale Valori previsti SI NO 317 0 41 32 358 32 Totale 317 73 390 Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SODDISFAZIONE Il tasso di corretta classificazione risulta costante PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SODDISFAZIONE NESSUNA SEGMENTAZIONE PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49% PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP” PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP” Numero segmento Descrizione Frequenza relativa Coop primo_pv: SI (freq. rel.) Segmento 3 Frequentanti altre insegne: non soci 8,2% 100,0% Segmento 4 Dato mancante 21,7% 93,2% Segmento 1 Frequentanti insegna Coop 62,7% 81,8% % SI (training set) Segmento 2 Frequentanti altre insegne soci 79,7% 7,4% 0,0% In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne PRIMO LIVELLO DI ANALISI PRIMO PV - VARIABILI CONSIDERATE TUTTE Confusion Matrix Valori osservati SI NO Totale Valori previsti SI NO 317 0 41 32 358 32 Totale 317 73 390 Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE PRIMO LIVELLO DI ANALISI CONFRONTO TRA MODELLI RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE” LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE PRIMO LIVELLO DI ANALISI CONFRONTO TRA MODELLI TUTTE SODDISFAZIONE COOP DEMOGRAFICHE FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION AVERAGE SQUARED ERROR 0,070 0,065 0,160 0,152 0,070 0,065 0,160 0,152 SUM OF SQUARED ERROR 216,100 50,686 505,170 118,872 216,100 50,686 505,170 118,872 MISCLASSIFICATION RATE 0,100 0,095 0,200 0,187 0,100 0,095 0,200 0,187 TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” ) CONCLUSIONI: primo livello PRIMO PV Le variabili COOP sono quelle che generano la segmentazione migliore; le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv; i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP; coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita; SCHEMA DEL PROGETTO SECONDO LIVELLO DI ANALISI: CANALE VARIABILE TARGET: CANALE CREAZIONE NUOVO DATASET CONTENENTE SOLO LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE QUASI SIMMETRICA DELLA VARIABILE TARGET : IPER 31,28% NON IPER 47,82% MISSING 20,90% NUMERO DI OSSERVAZIONI: 1560 SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 72,24% SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: TUTTE SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: TUTTE Segmento più numeroso risulta essere quello della zona RomagnaMarche Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%); Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento canale Iper in caso di soddisfazione alta o media dell’assortimento Canale non Iper in caso di soddisfazione bassa dell’assortimento Non iper Frequenza (freq. relativa rel.) 15.26% 84,0% Numero segmento Descrizione Segmento 5 Veneto Segmento 4 Romagna - Marche 31,5% 73,0% Segmento 3 Bologna - soddisf. assortimento bassa 17,6% 70,0% Segmento 2 Bologna - soddisf. assortimento media 17,8% 43,0% Segmento 1 Bologna - soddisf. assortimento alta 17,8% 19,0% SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “TUTTE” Confusion Matrix Valori osservati IPER NON IPER Totale Valori previsti IPER NON IPER 44 41 27 133 71 174 Totale Il 48% dei frequentatori “Iper ” è malclassificato Il 17% dei frequentatori “Non Iper” è malclassificato 85 160 245 SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 7 Tasso di corretta classificazione sul validation set: 68,98% SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SODDISFAZIONE SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SODDISFAZIONE Nel canale non Iper si registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta Numero segmento Descrizione Soddisf. pesce Missing S. pesce medioSegmento 3 bassa/S. ass. media/S. pers. alta Soddisf. pesce medioSegmento 6 bassa/Soddisf. assort. bassa % Non Iper (training set) Segmento 7 Frequenza relativa Non iper (freq. rel.) 35,8% 81,0% 3,7% 68,0% 15,3% 65,0% 59,0% Segmento 4 S. pesce mediobassa/S. ass. media/S. pers. media 10,1% 50,0% Segmento 1 Soddisf. pesce alta 19,4% 40,0% Segmento 5 S. pesce mediobassa/S. ass. media/S. pers. bassa 5,3% 37,0% Segmento 2 Soddisf. pesce mediobassa/Soddisf. assort. alta 10,4% 29,0% SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE” Confusion Matrix Valori osservati IPER NON IPER Totale Valori previsti IPER NON IPER 46 39 37 123 83 162 Totale Il 46% dei frequentatori “Iper ” è malclassificato Il 23% dei frequentatori “Non Iper” è malclassificato 85 160 245 SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 68,98% SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: “COOP” SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper) Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così come in RomagnaMarche e Veneto Numero segmento Descrizione Frequenza relativa Non iper (freq. rel.) 3,1% 94,0% Segmento 5 Bologna - insegna missing Veneto 15,3% 84,0% Segmento 4 Romagna - Marche 31,5% 73,0% Segmento 3 % Non Iper (training set) Bologna - altre Segmento 1 6,1% insegne Bologna - insegna Segmento 2 44,0% Coop 59,0% 58,0% 38,0% SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “COOP” Confusion Matrix Valori osservati IPER NON IPER Totale Valori previsti IPER NON IPER 55 30 46 114 101 144 Totale Il 35% dei frequentatori “Iper ” è malclassificato Il 29% dei frequentatori “Non Iper” è malclassificato 85 160 245 SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Numero di nodi terminali: 6 Tasso di corretta classificazione sul validation set: 68,98% SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il nodo più numeroso risulta quello della zona RomagnaMarche In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper Numero segmento Segmento 6 Segmento 5 Segmento 4 Descrizione Frequenza relativa Non iper (freq. rel.) Veneto 15,3% 84,0% 31,5% 73,0% 2,8% 64,0% Romagna Marche Bologna ele/inf - 1 compo. % Non Iper (training set) Segmento 3 Segmento 1 Segmento 2 Bologna ele/inf - 2, >3 compo. Bologna sup/univ Bologna ele/inf - 3 compo. 59,0% 18,6% 53,0% 23,3% 37,0% 8,5% 35,0% SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO” Confusion Matrix Valori osservati IPER NON IPER Totale Valori previsti IPER NON IPER 40 45 31 129 71 174 Totale Il 53% dei frequentatori “Iper ” è malclassificato Il 19% dei frequentatori “Non Iper” è malclassificato 85 160 245 SECONDO LIVELLO DI ANALISI: CANALE CONFRONTO TRA MODELLI RISULTATI SIMILI PER I MODELLI TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE SECONDO LIVELLO DI ANALISI: CANALE CONFRONTO TRA MODELLI TUTTE SODDISFAZIONE COOP DEMOGRAFICHE VARIABILE "CANALE" FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION AVERAGE SQUARED ERROR 0,4359 0,4390 0,4502 0,4540 0,4499 0,4434 0,4566 0,4484 SUM OF SQUARED ERROR 375,91 94,43 400,87 101,02 400,42 96,35 412,46 98,51 MISCLASSIFICATION RATE 0,272 0,278 0,309 0,310 0,303 0,310 0,323 0,310 IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI CONCLUSIONI: CANALE La segmentazione migliore è quella che utilizza tutte le variabili; il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento; in Veneto ed in Romagna-Marche prevale il canale non Iper ; nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassa dell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento SECONDO LIVELLO DI ANALISI: SOCIO VARIABILE TARGET: SOCIO SELEZIONE DELLE OSSERVAZIONI CON MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE SIMMETRICA DELLA VARIABILE TARGET: SI’ 50,90% NO 49,10% NUMERO DI OSSERVAZIONI: 1560 SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78% SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: TUTTE SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: TUTTE Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio Numero segmento Segmento 1 Descrizione Frequenza relativa Socio: SI (freq. rel.) insegna Coop 62,7% 80,0% % Soci (training set) Segmento 2 Altre insegne 50,0% 37,3% 0,0% SECONDO LIVELLO DI ANALISI: SOCIO SOCIO - VARIABILI CONSIDERATE “TUTTE” Confusion Matrix Valori osservati NO SI Totale Valori previsti NO SI 107 35 0 170 107 205 Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato Totale 142 160 312 SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 3 Tasso di corretta classificazione sul validation set: 78,21% SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SODDISFAZIONE SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SODDISFAZIONE Il nodo più numeroso Numero Descrizione risulta quello dei clienti segmento con soddisfazione generale Soddisf. generale Segmento 1 medio-alta (56,7%) alta-media Soddisf. generale Segmento 2 Tra questi la percentuale di bassa soci è notevolmente % Soci (training set) superiore rispetto a quella del training set cioè i Segmento 3 Valori mancanti clienti maggiormente soddisfatti sono i soci Frequenza Socio: SI relativa (freq. rel.) 56,7% 70,4% 19,4% 50,0% 50,0% 24,0% 1,7% SECONDO LIVELLO DI ANALISI: SOCIO SOCIO - VARIABILI CONSIDERATE “SODDISFAZIONE” Confusion Matrix Valori osservati NO SI Totale Valori previsti NO SI 76 66 2 168 78 234 Il 21% dei “Non Soci” è malclassificato L’1% dei “Soci” è malclassificato Totale 142 170 312 SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78% SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: “COOP” SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio Numero segmento Segmento 1 Descrizione Frequenza relativa Socio: SI (freq. rel.) insegna Coop 62,7% 80,0% % Soci (training set) Segmento 2 Altre insegne 50,0% 37,3% 0,0% SECONDO LIVELLO DI ANALISI: SOCIO SOCIO - VARIABILI CONSIDERATE “COOP” Confusion Matrix Valori osservati NO SI Totale Valori previsti NO SI 107 35 0 170 107 205 Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato Totale 142 170 312 SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione sul validation set è massimo in corrispondenza di un nodo terminale SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE SECONDO LIVELLO DI ANALISI: SOCIO CONFRONTO TRA MODELLI I MODELLI MIGLIORI SONO ALL_SOCIO E COOP_SOCIO TUTTI MODELLI RISULTANO NETTAMENTE MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE SECONDO LIVELLO DI ANALISI: SOCIO CONFRONTO TRA MODELLI TUTTE SODDISFAZIONE COOP DEMOGRAFICHE VARIABILE"SOCIO" FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION AVERAGE SQUARED ERROR 0,3186 0,3061 0,4128 0,3946 0,3186 0,3061 0,2500 0,2500 SUM OF SQUARED ERROR 253,43 58,48 425,27 97,16 253,43 56,48 624,00 156,00 MISCLASSIFICATION RATE 0,127 0,112 0,268 0,218 0,127 0,112 0,500 0,455 I MODELLI MIGLIORI SONO QUELLI CHE CONSIDERANO TUTTE LE VARIABILI E LE VARIABILI “COOP” CON UN TASSO DI ERRATA CLASSIFICAZIONE DEL 11,2% . TALE TASSO E’ SOSTANZIALMENTE INFERIORE AL 45,5% DEL MODELLO CHE CONSIDERA LE VARIABILI SOCIO-DEMOGRAFICHE CONCLUSIONI: SOCIO Si ripetono gli stessi risultati ottenuti nel primo livello di analisi (ovvero le variabili COOP permettono la migliore segmentazione); anche in questo caso le variabili sociodemografiche non sono utili ai fini della segmentazione; chi frequenta l’insegna COOP, nella stragrande maggioranza dei casi, è socio; chi frequenta altre insegne non lo è; I soci esprimono una soddisfazione generale medio-alta FINE