UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità. Relatori: Prof. Francesco Marcelloni Prof. Beatrice Lazzerini Candidato: Baldini Paolo ANNO ACCADEMICO 2005-2006 Contesto applicativo Data Clustering Rappresentazione relazionale dei dati Algoritmo ARCA Problemi: Maggiore occupazione di memoria Dimensional Curse Soluzione: Riduzione del numero di caratteristiche Da evitare: Perdita di informazioni necessarie alla corretta classificazione dei dati Raggiungere l’obiettivo preposto Possibile? Sì perché… Implicita ridondanza della rappresentazione relazionale Come? Selezione delle caratteristiche salienti (feature selection) Implementazione di apposite tecniche MYPCA_Fs NP_Fs PCA_Fs CORR_Fs Sviluppate durante la tesi Riprese dalla letteratura NP_Fs: Near Points Feature Selection Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra loro molto simili. Individuazione dei campioni meno rappresentativi Stima di “inutilità” della caratteristica j-esima all’interno del data setdelle relazionale (numeroad deiessi campioni tra loro molto simili in rimozione dimensioni corrispondenti N-vettore B = [bj]: base alla caratteristica in esame) b j #{aij : aij DMED ( DMED DMIN )}, i 1,..., N , 0 1 n A parità di bj, calcolato vettore S = [sj]: s j xij i 1 D DMED MIN DMAX DMIN b j max{ b : b B} Stima della non somiglianza globale dei dati rispetto Caratteristica j-esima eliminata se: alla caratteristica j-esima s j min{ s : s S} { MyPCA_Fs Principal Component Analysis Matrice di covarianza dei dati Autovettori Autovalori 1. 2. 3. Matrice A (ogni riga un autovettore) Vettore B Autovettori pesati per i relativi autovalori Somma delle componenti relative a ciascuna caratteristica N-vettore B’ = B x A b’j = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set considerato. Selezione delle M caratteristiche con massimo valore di b’j corrispondente PCA_Fs Principal Component Analysis Matrice di covarianza dei dati Autovettori Autovalori Matrice A (ogni colonna un autovettore) Vettore B 1. Eliminazione delle N - q colonne di A con autovalori associati di valore minimo 1≤q≤N Preferibilmente 1 ≤ q ≤ M Nuova matrice A’ 2. 3. 4. Clustering delle righe di A’ con numero di prototipi i pari a M Individuazione della riga più vicina a ciascuno degli M prototipi Selezione delle M caratteristiche corrispondenti alle righe individuate CORR_Fs Matrice R di correlazione dei dati Scelta delle M caratteristiche meno correlate fra loro come più rappresentative 1. Individuata coppia di caratteristiche massimamente correlate tra loro 2. Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre sia massima Valore di soglia minima di correlazione Procedimento interrotto se non vi sono elementi di R maggiori di tale soglia Criterio di STOP adottato Eliminazione di un numero prefissato di caratteristiche Eventuale verifica a posteriori del miglior compromesso tra dimensione dei dati e quantità di informazione residua Valutazione dei risultati sperimentali Validità della partizione Ripreso dalla letteratura Coefficiente di partizione 1 N C 2 P uik N k 1 i 1 1/C ≤ P ≤ 1 Misura del livello di fuzzyness Valutazione dei risultati sperimentali (II) Sviluppato durante la tesi Differenza dalla partizione di riferimento Indice Ivx Misura della distanza tra due generiche partizioni Pi e Pj Indipendente dall’ordinedei deicampioni prototipi in e dal numerospazio N Trasposizione un fittizio di dimensioni dello spazio dei campioni dimensionale Nuova immagine dei dati dipendente dalla partizione Distanza normalizzata tra immagini ottenute da partizioni diverse vij u x k 1 N m ik kj m u ik k 1 C C N xkj u v i 1 C m ik ij m u ik i 1 xkn u i 1 C u m u ik i 1 N m ik in Ivx k 1 xki xkj N N Quantizzazione di Ivx Fase Sperimentale Fase 1: 5 dataset di dimensioni relativamente Dati reali dal contenute database UCI Numero delle di Dimostrazione della validità tesi dimensioni variabile ipotizzate da 150 (Iris) a 1473 Impiego di tutti e 4 gli(CMC) algoritmi di feature conservazione dell’informazione necessaria selection per una corretta classificazione dei campioni anche a seguito dell’eliminazione Test dell’effettiva efficacia degli algoritmi in CORR_Fs di un elevato numero di caratteristiche esame MYPCA_F s NP_Fs Fase sperimentale (II) Fase 2: 2 dataset ad altissima dimensionalità (dell’ordine delle migliaia di dimensioni) Raggiungere le condizioni necessarie a far Ulteriore riprova dei risultati ottenuti nella convergere ARCA anche laddove Fase 1 Phonemes precedentemente essa lo impediva dati reali dal database Verifica dell’eliminazione delladel progetto maledizioneELENA dimensionale 5404 caratteristiche Impiego del solo NP_Fs DS8 dati sintetici generati per l’occasione 15000 caratteristiche Struttura dei test 1. Partizione di riferimento eseguita sul dataset completo 2. Eliminazione successiva di un numero crescente di caratteristiche Confronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di dimensioni eliminate 3. Più cicli considerando numeri diversi di cluster Controllo del coefficiente di partizione Esempio di grafico dei test Risultati Fase 1 Nella quasi totalità dei casi è stato possibile identificare almeno una configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse sostanzialmente simile all’originale Valore medio globale di Ivx: 0.0681 Risultati Fase 1 (II) In alcuni casi la feature selection ha permesso addirittura una classificazione dei campioni più aderente all’originale ripartizione dei dati Variazione di andamento della pendenza della curva di Ivx: da crescente a decrescente Variazione inversa del numero di campioni classificati diversamente rispetto al dataset overfitting Risultati Fase 1 (III) Sostanziale equivalenza dei metodi di feature selection Impossibile individuarne uno universalmente migliore Dipendenza delle prestazioni dai diversi scenari Algoritmi tra loro più simili: MYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_Fs Risultati Fase 2 Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero dimensioni Dataset dei dati supera il migliaio Phonemes Conferma dell’efficacia della feature selection per eliminare la maledizione dimensionale Dataset Maggiore chiarezza deiDS8 dati Convergenza dell’algoritmo di clustering (ARCA) Valori più alti del coefficiente di partizione P Conclusioni Gli obiettivi preposti sono stati raggiunti Riduzione del numero di caratteristiche dei dati preservando le informazioni essenziali alla classificazione Eliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di feature selection e se ne è verificata l’efficacia NP_Fs MYPCA_Fs