Analisi dei gruppi – Cluster Analisys
Con analisi dei gruppi si definiscono molte tecniche di analisi
multivariata
Obiettivo di queste tecniche è assegnare i casi (le unità) di
una matrice di dati ad un numero ristretto di gruppi,
massimizzando l’omogeneità all’interno dei gruppi e
massimizzando l’eterogeneità tra i gruppi
Ciò è possibile attraverso l’uso di variabili discriminanti o
variabili criterio e attraverso l’individuazione del metodo
per arrivare a questa classificazione in gruppi.
Analisi dei gruppi (adg)
La scelta delle variabili criterio sulle quali operare la
classificazione è il momento cruciale dell’adg
Sta al ricercatore scegliere le variabili adatte: il ricercatore
deve fare ricorso alla sua conoscenza del fenomeno in
esame.
A livello computazionale e matematico i software applicano
tutte le tecniche di analisi multivariata generando dei
risultati. Sta al ricercatore valutare se i risultati sono buoni e
se la tecnica applicata porta dei miglioramenti per
l’interpretazione del fenomeno.
Analisi dei gruppi (adg)
A livello computazionale esiste una difficoltà di calcolo:
applicare una adg su una matrice di 1000/2000 unità e
200/300 variabili risulta poco possibile.
Per questo solitamente si opera una riduzione sulle variabili e
si applica la adg sui risultati dall’analisi delle componenti
principali o sui risultati dell’analisi delle corrispondenze
multiple.
Se l’acm ha operato una riduzione delle variabili (passando da
m variabili a pochi fattori, di solito 3 o 4), l’adg opera una
riduzione sulle unità passando da n unità a k gruppi
Si raggiunge così la massima economia di rappresentazione
dei risultati
Fasi dell’adg
Scelta delle variabili con le quali discriminare i casi (le
unità)
2) Costruzione di una matrice di distanza (quadrata e
simmetrica) dove si riportano tutte le distanze tra i casi.
3) Scelta della tecnica per aggregare i casi
4) Interpretazione di risultati
Ci sono centinaia di tecniche di aggregazione e possono
essere usate anche diversi tipi di distanza.
Nelle tecniche classiche, l’assegnazione delle unità ai gruppi
è univoca o mutuamente esclusiva (una unità appartiene
ad un solo gruppo) ed esaustiva (ogni unità deve essere
assegnata ad un gruppo)
Nelle tecniche basate sulla logica fuzzy gli insiemi possono
essere sfocati e le appartenenze possono essere multiple.
1)
Famiglie di tecniche di adg
Le varie tecniche che si possono utilizzare si basano su:
1. Il coefficiente usato per calcolare la matrice di distanza
2. Il criterio per la costruzione dei gruppi
La distanza tra i casi è calcolata soltanto sulle variabili inserite
nell’analisi. La più comune distanza utilizzata per le
variabili quantitative è la distanza euclidea.
Generalizzando la distanza euclidea tra due casi (due unità)
rispetto ad un numero m di variabili si calcola come radice
quadrata della somma di tutte le differenze tra i valori dei
due casi per ogni m variabile
Proprietà della distanza
Altre distanze, che sono leggere variazioni della distanza
euclidea sono la distanza di Manhattan, la distanza di
Mahalanobis, la distanza di Minkovski.
In ogni caso la distanza ha le seguenti proprietà:
1. La distanza di una unità da se stessa è nulla
2. La distanza tra due casi è speculare (la distanza tra a e b è
uguale alla distanza tra b e a)
3. Tra le distanze vale la disuguaglianza triangolare
Tecniche di classificazione
Una volta decisa la distanza si deve decidere la tecnica di
clustering da applicare. Si hanno tecniche gerarchiche e
tecniche non gerarchiche
Le tecniche gerarchiche procedono:
 per aggregazioni successive partendo da n unità (n gruppi di
partenza) fino ad arrivare ad un gruppo unico che contiene
tutte le unità. Un gruppo formato non si può più sciogliere tecniche gerarchiche aggregative
 per scissioni successive partendo da un gruppo unico che
contiene tutte le unità fino ad arrivare a n gruppi (ossia alle
n unità della matrice di dati) - tecniche gerarchiche
scissorie
Tecniche gerarchiche aggregative
Si costruisce la matrice delle distanza
2. Si considerano all’inizio n gruppi = n unità
3. Si aggregano i gruppi che risultano più vicini e, dopo ogni
aggregazione, si ricalcola la matrice delle distanze
4. Si reitera il processo fino a n-1 volte, ossia fino a formare
un unico gruppo
1.
La rappresentazione grafica di questi passaggi si chiama
dendogramma
Sarà il ricercatore a scegliere la partizione di gruppi migliore
Criterio di aggregazione
I criteri di aggregazione possono essere di vario tipo:

Criterio del legame singolo: dalla matrice delle distanze si
individuano i gruppi più vicini che si fondono insieme a formare un
nuovo gruppo. Successivamente si ricalcola la matrice delle distanze
in modo che contenga anche le distanze dei gruppi rimasti dal nuovo
gruppo. La distanza tra il gruppo formato e i gruppi sarà data dalla
distanza minore tra le distanze dei gruppi che si sono aggregati.

Criterio del legame completo: dalla matrice delle distanze si
individuano i gruppi più vicini che si fondono insieme a formare un
gruppo. Successivamente si ricalcola la matrice delle distanze in modo
che contenga anche le distanze dei gruppi rimasti dal nuovo gruppo.
La distanza tra il gruppo e i gruppi sarà data dalla distanza maggiore
tra le distanze dei gruppi che si sono aggregati.
Criterio di aggregazione
I criteri di aggregazione possono essere di vario tipo:

Criterio del legame medio: dalla matrice delle distanze si individuano
i gruppi più vicini che si fondono insieme a formare un gruppo.
Successivamente si ricalcola la matrice delle distanze in modo che
contenga anche le distanze dei gruppi rimasti dal nuovo gruppo. Per
determinare la distanza tra i gruppi si calcola la media delle distanze
tra tutte le coppie (considerate una sola volta) di casi che
appartengono ai gruppi.
Es. gruppo formato da AB e gruppo formato da CD, la distanza sarà la
media tra le distanze (A da C), (A da D), (B da C), (B da D).
Criterio di aggregazione

Criterio della media dentro i gruppi: unisce i gruppi facendo si che la
distanza media tra tutti i casi a due a due interni ad un gruppo sia la
minore possibile.

Criterio della mediana: calcola la mediana all’interno di ogni gruppo;
la distanza tra i gruppi è pari alla distanza tra le mediane dei gruppi

Criterio di Ward: ogni nuova aggregazione porta una aumento della
varianza per ogni variabile. Si aggregano quindi i casi che
minimizzano questo incremento di varianza.

Criterio del centroide: per ogni gruppo si calcola il centroide
(baricentro) che è la media delle coordinate di tutti i casi che fanno
parte del gruppo: si calcola la distanza tra i centroidi.
Vantaggi e svantaggi tecniche gerarchiche

Danno una visione di insieme dei casi

Non richiedono una scelta a priori del numero di gruppi,
posso scegliere in un secondo tempo il numero

Non possono trattare gran numero di casi

Non è possibile scindere i gruppi una volta che si sono
formati
Tecniche di aggregazione non gerarchiche
Le tecniche non gerarchiche, dette anche a partizioni ripetute,
conducono direttamente da n casi a k gruppi, con k fissato a
priori. Si possono usare tecniche migliorative di
riallocazione delle unità.
Il ricercatore stabilisce a priori la partizione iniziale,
imponendo i centri dei gruppi iniziali. Se la nuvola di punti
unità presenta dei cluster naturali (cioè dei gruppi separati
tra loro) è facile definire e indicare i gruppi di partenza. In
caso contrario (solitamente il più frequente) si possono
scegliere casualmente i centri di partenza. Se non esistono
cluster naturali è meglio procedere con delle tecniche
esplorative iniziali per vedere le relazioni tra i gruppi.
Tecniche di aggregazione non gerarchiche
Le tecniche per spostare casi da un gruppo all’altro sono:
 Tecniche di aggregazione intorno a centri mobili (o k-medie): si calcolano
i centroidi dei gruppi e si spostano via via le unità che si trovano più
vicine ad un centroide di un altro gruppo. Il procedimento di interrompe
quando non ci sono più spostamenti.
 Tecniche delle nuvole dinamiche: è simile al precedente soltanto che
invece di definire il gruppo con un solo punto, ossia il centroide, si
definisce il gruppo in base ad un nucleo centrale costituito da più casi e
individuato a priori perché significativo del gruppo.
 Tecniche che si basano sull’ottimizzazione di una funzione obiettivo: si
realizzano gli spostamenti tra unità nei gruppi fino a quando si registra un
miglioramento nella funzione obiettivo. Le funzioni obiettivo servono a
costituire gruppi il più possibile omogenei al loro interno, ossia dove sia
minima la varianza, mentre sia massima l’eterogeneità tra i gruppi e
quindi la varianza tra i gruppi (la varianza totale del collettivo esaminato è
data dalla varianza interna ai gruppi più la varianza esterna)
Vantaggi e svantaggi tecniche non gerarchiche

Possono trattare grandi matrici di dati

Bisogna determinare a priori il numero di gruppi
operativamente
Quando si ha una matrice di dati in cui le unità non sono gli
individui ma sono ad esempio, le regioni, i comuni, gli stati
ecc. si parla di dati su unità ecologiche e si parla di
tipologie macro. Il ricercatore ha in questo caso molte
notizie in più che possono indirizzarlo nell’analisi
Quando si ha una matrice di dati in cui le unità sono gli
individui si parla di tipologia micro.
La lettura micro e macro dei risultati è leggermente diversa
Lettura dei risultati
Per ogni gruppo si individuano: a livello macro - le unità che
ne fanno parte; a livello micro – la % di individui nel
gruppo
Si individuano per ogni gruppo le caratteristiche peculiari del
gruppo attraverso le seguenti frequenze:
 La percentuale Mod/Cla cioè la % che esprime il numero di
casi che presentano la modalità all’interno del gruppo in
riferimento al numero di casi nel gruppo;
 La percentuale Cla/Mod cioè la % che esprime il numero di
casi che presentano la modalità all’interno del gruppo in
riferimento a quanti la presentano nel collettivo totale;
 La percentuale Global cioè la % della modalità nel
collettivo.
Scarica

Fonti, metodi e strumenti per l`analisi dei flussi turistici