ALBERI DECISIONALI prima parte Argomenti della lezione Generazione di sistemi di classificazione Scelte dell’analisi Criteri di valutazione della disomogeneità Gli alberi decisionali rientrano nell’ambito dell’analisi della dipendenza Realizzano un procedimento di ripartizione del collettivo analizzato in gruppi mediante una successione di spaccature di tipo gerarchico L’obiettivo è di selezionare, tra le variabili esplicative, quelle che maggiormente spiegano la variabilità (o la mutabilità) della variabile target Le partizioni prodotte sono di tipo gerarchico, e pertanto rappresentabili mediante un dendrogramma ad albero La costruzione dell’albero è una procedura stepwise Il collettivo (solitamente un campione probabilistico della popolazione di interesse) viene suddiviso ripetutamente in modo da ottimizzare localmente (ovvero condizionatamente a ciascun gruppo intermedio) una funzione criterio della variabile dipendente Al primo passo il campione di n unità viene diviso in due o più sottoinsiemi, caratterizzati dai valori assunti da una o più variabili esplicative Ognuno di questi gruppi può essere ulteriormente suddiviso, fino a quando il processo viene interrotto in base ad una regola d’arresto La partizione migliore ad ogni passo viene scelta sulla base di un criterio di omogeneità interna dei gruppi che vengono generati dalle suddivisioni del campione La variabile dipendente può essere: qualitativa quantitativa La costruzione dell’albero può seguire una procedura di partizione: binaria ternaria multipla Ambiti di applicazione degli alberi decisionali: ricerca di interazioni tra variabili predittive identificazione di gruppi devianti identificazione di dati anomali interpretazione causale del fenomeno rappresentato dalla variabile dipendente ricerca di relazioni non lineari tra variabili quantitative o di relazioni non monotone tra variabili ordinali forzatura di un dato valido in sostituzione di un dato mancante produzione di regole di previsione o di classificazione Regole di salvaguardia nella esecuzione dell‘analisi: errore di stima nei gruppi formati forma della distribuzione della variabile dipendente Scelte nell’analisi di partizione tipo di variabile dipendente ordine di ingresso dei predittori numero dei gruppi da tentare ad ogni passo dell’analisi criteri che modificano la struttura dell’albero criteri di arresto del processo di segmentazione Eliminazione dall’analisi di variabili di disturbo Se la variabile dipendente Y è fortemente correlata con la variabile Z, quasi tutta la variabilità risulterà spiegata da questa variabile predittiva In questi casi è opportuno considerare invece della variabile originaria Y, i residui della regressione della Y sulla Z Scelta dei potenziali predittori: ipotesi a priori analisi statistiche preliminari del campione osservato Modalità dei predittori Tutte le variabili esplicative vanno trasformate in variabili categoriali Conviene aggregare le categorie con frequenze esigue in modo da ottenere modalità con frequenze quasi uniformi Limitare il numero di categorie e bilanciarle tra le variabili Monotonicità della relazione Si dice monotona la relazione tra una predittiva su scala ordinale X e la variabile dipendente Y su scala almeno ordinale, quando la crescere della prima la seconda varia costantemente Si impone la monotonicità tra Y e X quando si vuole che siano aggregate per formare gruppi solo modalità adiacenti sulla scala ordinale t1 x2 ≤ 0,5 t4 x1 ≤ 0,7 x1 > 0,7 t2 t3 x2 > 0,5 t5 x2 t5 0,5 t3 t4 0,7 classe 1 classe 2 x1 Ordine d’ingresso dei predittori E’ possibile imporre l’ordine d’ingresso dei predittori nell’analisi, in modo che vengano forzatamente inserite per prime nel processo di partizione le variabili che stanno all’origine della catena causale