ANALISI DEI
GRUPPI I
La Cluster analysis è uno
strumento di classificazione
capace di scomporre
una realtà complessa
di osservazioni plurime in
tipologie specifiche.
Impieghi della Cluster
Analysis
 segmentazione del mercato
 analisi della concorrenza
 analisi della concorrenza
La Cluster Analysisè una tecnica
di tipo esplorativo e pertanto,
a differenza di quanto si verifica
con altre tecniche statistiche
multivariate, non è necessaria
alcuna assunzione a priori sulle
tipologie fondamentali esistenti
nell'insieme delle unità esaminate
Punto di partenza di ogni
applicazione di Cluster Analysis
è la disponibilità di un collettivo
statistico (anche campionario)
di n elementi, ciascuno
rappresentato da p variabili
La matrice dei dati
X=
x11
x12
…
x1p
x21
x22
…
x2p
...
...
…
...
xn1
xn2
…
xnp
Ad ogni unità statistica è
associato un vettore di p
osservazioni, i cui valori sono
configurabili come coordinate
dell'unità considerata in uno
spazio a p dimensioni.
Fasi del
processo di
segmentazione
 selezione degli elementi del collettivo
 scelta delle variabili ed eventuale
trasformazione
 scelta del criterio di valutazione
della dissomiglianza
 scelta dell'algoritmo di
raggruppamento
 determinazione del numero di gruppi
Scale di misurazione
delle variabili:

nominale

ordinale

ad intervallo

a rapporti
Contributo
informativo delle
variabili
 variabili quantitative: coefficiente
di correlazione di Bravais- Pearson
 variabili qualitative: correlazione
tra ranghi di Spearman o coefficiente
di cograduazione di Gini
 variabili miste: coefficiente
di cograduazione di Gini, previa
sostituzione dei valori delle variabili
quantitative con i rispettivi ranghi
Trattamento
preliminare delle
variabili
Ricondurre tutti i caratteri alla
stessa scala, ovvero a quella
contraddistinta dai minori requisiti
La scelta delle variabili di input
condiziona anche la necessità di una
loro eventuale standardizzazione: è
infatti opportuno che le variabili
siano rese indipendenti dal loro
ordine di grandezza
Standardizzazione
(variabili quantitative)
zi =
xi - m
sx
dove
zi è il valore della variabile
standardizzata per l'unità i-ma,
xi è il valore originario della variabile
per l'unità i-ma,
m è la media aritmetica del carattere
sx è lo scarto quadratico medio
Coefficienti di associazione
misurano la somiglianza tra
unità quando i caratteri sono
espressi su scala nominale
binaria. Quando i caratteri hanno
più modalità si ricorre alla
codifica disgiuntiva completa
Tabella tetracorica
individuo j
individuo i
1
0
1
a
b
0
c
d
Misure di associazione:
A
coefficiente di Jaccard
Js
ij
B
a
=
a+b+c
coefficiente di Dice
Ds
ij
2a
=
2a + b + c
Quando i caratteri sono
sia qualitativi che quantitativi si
ricorre al coefficiente di Gower:
p
G
s ij =

k=1
wkskij
p

k=1
wk
dove
skij è un indicatore di somiglianza
tra le unità i e j rispetto alla variabile
k che vale
uno se l variabile è di tipo nominale
o ordinale e vi è concomitanza di
presenza o assenza per i e j
zero se la variabile è di tipo nominale
o ordinale e non vi è concomitanza di
presenza o assenza per i e j
1-
xik - xjk
Rk
con Rk che è il campo di
variazione della variabile k
wk è un peso arbitrario
Esempio di calcolo dei
coefficienti di associazione
Variabili
1
2
3
4
5
Unità i
1
0
0
1
1
Unità j
1
1
0
1
0
Tabella tetracorica
individuo j
individuo i
1
0
1
2
1
0
1
1
Coefficiente di Jaccard = 1/2
Coefficiente di Dice = 2/3
Coefficiente di associazione
semplice = 3/5
Per i dati di tipo
quantitativo si
ricorre alle distanze
Una distanza possiede le
seguenti proprietà:
identità
dii = 0
simmetria
dij = dji
non negatività
dij ≥ = 0
disuguaglianza triangolare
dil + dlj ≤ = dij
Distanza di Minkowski
p
rd
ij
=

r
1/r
xik - xjk
k=1
Per r = 2 si ha la distanza euclidea
p
2d
ij
=

k=1
2
xik - xjk
1/r
Distanza di Mahalanobis
p
dij =
p

1/2
shk (xik - xjk) (xih - xjh)
k=1 h=1
in cui
shk indica il generico elemento
della matrice inversa delle varianzecovarianze tra le p variabili
Scarica

Cluster Analysis