La segmentazione a priori: CHAID
Elena Pallini
Elena Santi
Francesco Bontempone
Rosangelo Giampaolo
Dott.ssa Elena Pallini [email protected] Dott.ssa Elena Santi [email protected]
Dott. Francesco Bontempone [email protected] Dott. Rosangelo Giampaolo [email protected]
Obiettivo dell’analisi
Suddividere in gruppi omogenei un
insieme di individui, intervistati presso i
punti vendita COOP,
in funzione delle loro caratteristiche
socio-demografiche, comportamentali
e di giudizio
Struttura del dataset
Fonte statistica: interviste effettuate in punti vendita Coop
7200 osservazioni
3 classi di variabili:

variabili socio-demografiche ed economiche

punteggi di soddisfazione sul servizio di distribuzione e relative
variazioni

variabili “Coop”
Modello statistico
Tecnica di segmentazione multipla
CHAID (Chi-squared Automatic Interaction Detection)
 Grado di omogeneità all’interno dei gruppi e di eterogeneità tra i
gruppi è valutato con il test del Chi-quadro
 Significatività statistica normalizzata con il fattore di Bonferroni
Primo livello: data set “completo”
Variabile target
SOCIO (sì / no)
Variabili indipendenti
1. Prima fase: Sono state incluse nell’analisi
tutte le variabili
2. Seconda fase: Sono state incluse nell’analisi
le variabili “a blocchi”
Secondo livello: data set “non soci”
Variabile target
CANALE (iper / non iper)
Variabili indipendenti
1. Prima fase: Sono state incluse nell’analisi
tutte le variabili
2. Seconda fase: Sono state incluse nell’analisi
le variabili “a blocchi”
Alberi: impostazioni comuni
Data set partizionato in:
70% Training Set
30% Validation Set
Minimo numero di osservazioni per foglia: 50
Massima profondità dell’albero: 6
Distribuzione variabile target
 Variabile target: SOCIO (sì / no)
SI
50%
NO
50%
Alberi 1° livello
tutte le variabili
(1)
SOCIO (sì/no)
variabili socio-demografiche
(2)
ed economiche
punteggi di soddisfazione
variabili “Coop”
1) I risultati ottenuti sono identici a quelli con le sole variabili
“Coop”
2) Le variabili considerate non hanno alcun valore esplicativo
SOCIO
***
Punteggi di soddisfazione
sul servizio di distribuzione
e relative variazioni
Tasso di corretta classificazione
• validation set 0,744
• training set 0,755
Il confronto tra le
curve del training set e
del validation set
suggerisce di scegliere
l’albero con 7 foglie
finali
SOCIO – Punteggi di soddisfazione e variazioni
Matrice di confusione
SOCIO – Punteggi di soddisfazione e variazioni
Confusion Matrix
Valori osservati
SI
NO
Totale
Valori previsti
SI
NO
2437
83
1150
1370
3587
1453
Totale
2520
2520
5040
 Il 3% dei “soci” sono malclassificati
 Il 46% dei “non soci” sono malclassificati
1° livello: Albero “soddisfazione”
-1-
-2-
-7-
 Variabile target: SOCIO (sì / no)
-6-
 Variabili indipendenti:
punteggi di soddisfazione e
variazioni
 Data set completo
-3-
-4-
-5-
Segmenti finali: caratteristiche
Segmento
Descrizione
1
2
Alta soddisfazione per le promozioni
M edia soddisfazione per le promozioni
Bassa soddisfazione generale e per le promozioni, ma alta
per i prodotti no food
Bassa soddisfazione generale, per le promozioni e per i
prodotti no food , per i quali viene anche percepito un
peggioramento nel servizio
Bassa soddisfazione generale e per le promozioni,
medio-bassa per i prodotti no food; per questi ultimi
viene percepito un miglioramento nel servizio
Soddisfazione generale medio-alta, ma bassa per le
promozioni
3
4
5
6
7
Non sono noti i punteggi di soddisfazione per le
promozioni
%soci = sì
74%
67%
37%
52%
Le promozioni
inducono gli
acquirenti a
diventare
“soci”
29%
65%
1%
I “non soci” sono sensibili
alle variazioni nei servizi
per i prodotti no food
SOCIO
***
Variabili “Coop”
Tasso di corretta classificazione
• validation set 0,871
• training set 0,884
Il confronto tra le
curve del training set e
del validation set
suggerisce di scegliere
l’albero con 5 foglie
finali
SOCIO – Variabili Coop
Matrice di confusione
SOCIO – Variabili Coop
Confusion Matrix
Valori osservati
SI
NO
Totale
Valori previsti
SI
NO
2492
28
555
1965
3047
1993
Totale
2520
2520
5040
 Il 1% dei “soci” sono malclassificati
 Il 22% dei “non soci” sono malclassificati
1° livello: Albero “varCoop”
 Variabile target: SOCIO (sì / no)
 Variabili indipendenti: variabili “Coop”
 Data set completo
-5-
-1-
-2-
-3-
-4-
Segmenti finali: caratteristiche
Segmento
1
2
3
4
5
Descrizione
L'insegna preferita è la Coop e frequenta Coop come
primo punto vendita
L'insegna preferita è la Coop, ma non frequenta Coop
come primo punto vendita
Preferisce altre insegne a quella della Coop, ma frequenta
Coop come primo punto vendita
Preferisce altre insegne a quella della Coop e non frequenta
Coop come primo punto vendita
Non è noto quale insegna preferisca
%soci=sì
79%
9%
0%
100%
2%
“Contenti” (segmento 1)
Soci Coop
Non soci
“Attenti alle promozioni”(segmento 4)
“Attratti da Coop ma impossibilitati ad andarci” (segmento 2)
“Non attratti da Coop ma costretti ad andarci” (segmento 3)
Distribuzione variabile target
 Variabile target: CANALE (iper / non iper)
IPER
28%
NON IPER
72%
Alberi 2° livello: data set “non soci”
tutte le variabili
CANALE
(iper / non iper)
variabili socio-demografiche
(*)
ed economiche
punteggi di soddisfazione
variabili “Coop” (*)
(*) Le variabili considerate non hanno alcun valore esplicativo
CANALE
***
Tutte le variabili
Tasso di corretta classificazione
• validation set 0,753
• training set 0,787
Il confronto tra le
curve del training set e
del validation set
suggerisce di scegliere
l’albero con 6 foglie
finali
CANALE – Tutte le variabili
Matrice di confusione
CANALE – Tutte le variabili
Confusion Matrix
Valori osservati
NON IPER
IPER
Totale
Valori previsti
NON IPER
IPER
1014
54
262
153
1276
207
Totale
1068
415
1483
 Il 63% dei frequentatori “iper” sono malclassificati
 Il 5% dei frequentatori “non iper” sono malclassificati
2° livello: Albero “ALL”
 Variabile target: CANALE (iper / non iper)
 Variabili indipendenti: tutte le variabili
 Data set: NON SOCI
-4-
-1-
-2-
-3-
-5-
-6-
Segmenti finali: caratteristiche
Segmento
1
2
3
4
5
6
Descrizione
Alta soddisfazione per l'assortimento e Veneto come area
di acquisto
Alta soddisfazione per l'assortimento e Romagna e
M arche come area di acquisto
Alta soddisfazione per l'assortimento e Bologna come area
di acquisto
M edia soddisfazione per l'assortimento
Bassa soddisfazione per l'assortimento
Non sono noti i punteggi di soddisfazione per
l'assortimento
% iper
35%
48%
61%
31%
13%
4%
Bologna: i ricercatori di varietà scelgono l’iper
2 macro-zone
Veneto, Romagna e Marche: i ricercatori di
varietà scelgono il “non iper”
CANALE
***
Punteggi di soddisfazione
sul servizio di distribuzione
e relative variazioni
Tasso di corretta classificazione
• validation set 0,763
• training set 0,768
Il confronto tra le
curve del training set e
del validation set
suggerisce di scegliere
l’albero con 5 foglie
finali
CANALE – Punteggi di soddisfazione e variazioni
Matrice di confusione
CANALE – Punteggi di soddisfazione e variazioni
Confusion Matrix
Valori osservati
NON IPER
IPER
Totale
Valori previsti
NON IPER
IPER
935
133
211
204
1146
337
Totale
1068
415
1483
 Il 51% dei frequentatori “iper” sono malclassificati
 Il 12% dei frequentatori “non iper” sono malclassificati
2° livello: Albero “soddisfazione”
 Variabile target: CANALE (iper / non iper)
 Variabili indipendenti: punteggi di soddisfazione e variazioni
 Data set: NON SOCI
-3-
-1-
-2-
-4-
-5-
Segmenti finali: caratteristiche
Segmento
1
2
3
4
5
Descrizione
Alta soddisfazione per l'assortimento e bassa per le
promozioni
Alta soddisfazione per l'assortimento e medio-alta per le
promozioni
M edia soddisfazione per l'assortimento
Bassa soddisfazione per l'assortimento
Non sono noti i punteggi di soddisfazione per
l'assortimento
Chi è molto interessato
all’assortimento e alle
promozioni frequenta
l’ “iper”
% iper
30%
60%
31%
13%
4%
Chi è poco interessato
all’assortimento frequenta il
“non iper”
Conclusioni
3 alberi su 4 malclassificano una delle due
modalità della variabile target con valori superiori
al 40%
L’unico albero utilizzabile per l’analisi:
Albero “varCoop” con variabile target SOCIO
Conclusioni
I modelli hanno una scarsa capacità classificatoria.
Perché?
Possibili interpretazioni:
insufficiente contenuto informativo del data set
categorizzazione delle variabili non sufficientemente
accurata
nel caso di CANALE può essere dovuta anche allo
sbilanciamento del campione rispetto al target
Variabili socio-demografiche ed economiche
 Sesso
 Numero componenti famiglia
 Età
 Numero minorenni
 Professione
 Numero percettori di reddito
 Titolo di studio
 Numero occupati
 Stato civile
 Numero auto possedute
 Area di acquisto
Qualità del servizio
 Generale
 Reparto ortofrutta
 Prezzi
 Reparto carne
 Promozioni
 Reparto pane, pasticceria
 Assortimento
 Reparto salumi, formaggi e
 Personale, servizio
gastronomia
 Pulizia, igiene
 Reparto pesce fresco
 Qualità prodotti freschi
 Prodotti no-food
N.B. Per ogni variabile sono stati rilevati sia la soddisfazione sul servizio che la
relativa variazione rispetto al passato
Variabili “Coop”
 Canale di vendita (IPER / NON IPER)
 Socio (SI / NO)
 Insegna
 Numero soci in famiglia
 Preferenza su Coop
 Area di acquisto
Scarica

document