ALBERI DECISIONALI
prima parte
Argomenti della lezione
 Generazione di sistemi di
classificazione
 Scelte dell’analisi
 Criteri di valutazione della
disomogeneità
Gli alberi decisionali rientrano
nell’ambito dell’analisi della dipendenza
Realizzano un procedimento di
ripartizione del collettivo analizzato
in gruppi mediante una successione
di spaccature di tipo gerarchico
L’obiettivo è di selezionare, tra
le variabili esplicative, quelle che
maggiormente spiegano la variabilità
(o la mutabilità) della variabile target
Le partizioni prodotte sono
di tipo gerarchico, e pertanto
rappresentabili mediante
un dendrogramma ad albero
La costruzione dell’albero è
una procedura stepwise
Il collettivo (solitamente
un campione probabilistico della
popolazione di interesse) viene
suddiviso ripetutamente in modo
da ottimizzare localmente (ovvero
condizionatamente a ciascun gruppo
intermedio) una funzione criterio
della variabile dipendente
Al primo passo il campione di n
unità viene diviso in due o più
sottoinsiemi, caratterizzati dai
valori assunti da una o più variabili
esplicative
Ognuno di questi gruppi può essere
ulteriormente suddiviso, fino a
quando il processo viene interrotto
in base ad una regola d’arresto
La partizione migliore ad
ogni passo viene scelta
sulla base di un criterio
di omogeneità interna dei
gruppi che vengono
generati dalle suddivisioni
del campione
La variabile dipendente
può essere:
 qualitativa
 quantitativa
La costruzione dell’albero
può seguire una procedura di
partizione:

binaria

ternaria

multipla
Ambiti di
applicazione
degli alberi
decisionali:
 ricerca di interazioni tra
variabili predittive
 identificazione di gruppi
devianti
 identificazione di dati
anomali
 interpretazione causale
del fenomeno rappresentato
dalla variabile dipendente
 ricerca di relazioni
non lineari tra variabili
quantitative o di relazioni
non monotone tra variabili
ordinali
 forzatura di un dato
valido in sostituzione di
un dato mancante
 produzione di regole
di previsione o di
classificazione
Regole di salvaguardia nella
esecuzione dell‘analisi:
 errore di stima nei gruppi
formati
 forma della distribuzione
della variabile dipendente
Scelte
nell’analisi di
partizione
 tipo di variabile dipendente
 ordine di ingresso dei predittori
numero dei gruppi da tentare ad
ogni passo dell’analisi
criteri che modificano la struttura
dell’albero
criteri di arresto del processo di
segmentazione
Eliminazione
dall’analisi
di variabili di
disturbo
Se la variabile dipendente Y è
fortemente correlata con la variabile
Z, quasi tutta la variabilità risulterà
spiegata da questa variabile
predittiva
In questi casi è opportuno
considerare invece della variabile
originaria Y, i residui della
regressione della Y sulla Z
Scelta dei potenziali
predittori:
 ipotesi a priori
 analisi statistiche
preliminari del campione
osservato
Modalità dei predittori
 Tutte le variabili esplicative vanno
trasformate in variabili categoriali
 Conviene aggregare le categorie
con frequenze esigue in modo
da ottenere modalità con frequenze
quasi uniformi
 Limitare il numero di categorie e
bilanciarle tra le variabili
Monotonicità
della
relazione
Si dice monotona la relazione tra
una predittiva su scala ordinale X e
la variabile dipendente Y su scala
almeno ordinale, quando la crescere
della prima la seconda varia
costantemente
Si impone la monotonicità tra Y e X
quando si vuole che siano aggregate
per formare gruppi solo modalità
adiacenti sulla scala ordinale
t1
x2 ≤ 0,5
t4
x1 ≤ 0,7
x1 > 0,7
t2
t3
x2 > 0,5
t5
x2
t5
0,5
t3
t4
0,7
classe 1
classe 2
x1
Ordine d’ingresso dei
predittori
E’ possibile imporre l’ordine
d’ingresso dei predittori nell’analisi,
in modo che vengano forzatamente
inserite per prime nel processo
di partizione le variabili che stanno
all’origine della catena causale