Francesco Cutugno Classificazione - WEKA Lezione n.# Parole chiave: Classificazione Clusterizzazione Machine learning Corso di Laurea: Informatica Insegnamento: Data Warehouse Email Docente: [email protected] t A.A. 2009-2010 Sommario • Concetti di base • Features • Apprendimento supervisionato • Apprendimento non supervisionato • Classi di algoritmi di machine learning • Valutazione • WEKA • RapidMiner Machine learning Oggetti conosciuti Oggetti sconosciuti Risposta Features Gli oggetti esistono solo in termini delle caratteristiche registrate Ogni tipo di analisi automatica riguardante un insieme di oggetti è vincolata a come questi sono stati descritti Se chiedessimo ad un algoritmo di machine learning di risolvere un problema senza fornire le caratteristiche importanti per tale scopo? Apprendimento non supervisionato – Esempio Apprendimento supervisionato – Esempio A D B A C B A D B B C D C D A C Le istanze sconosciute Nella maggior parte dei casi il dominio delle features è continuo Tracciare confini di decisione troppo approssimati può rendere la classificazione delle istanze vicine a tali confini praticamente casuale In ogni caso, verrà fornita una risposta in base alle maggiori probabilità di appartenenza di un oggetto ad una classe piuttosto che ad un'altra ? ? Clustering Regressione Classificazione Training Set Test set Classificatore Classe 1 . . . . . . Classe n Misure di valutazione True X True Y Labeled X True positives False positives Labeled Y False negatives True negatives Precision Recall tp tp fp tp tp fn Accuracy tp tn tp tn fn fp F (1 2 ) PR 2 P R Generalizzazione step Cross validation 1 2 10 Il formato ARFF Il formato ARFF è composto da un header, all'interno del quale viene descritta l'organizzazione dei dati, e da una sezione data, all'interno della quale vengono registrati i valori delle features secondo lo schema descritto nell'header. Di seguito riportiamo un esempio sul dataset di riferimento iris: % 1. Title: Iris Plants Database % % 2. Sources: % (a) Creator: R.A. Fisher % (b) Donor: Michael Marshall (MARSHALL%[email protected]) % (c) Date: July, 1988 % @RELATION iris @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE sepallength NUMERIC sepalwidth NUMERIC petallength NUMERIC petalwidth NUMERIC class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5.0,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 4.6,3.4,1.4,0.3,Iris-setosa 5.0,3.4,1.5,0.2,Iris-setosa ... Il formato XRFF - Esempio <dataset name="iris" version="3.5.3"> <header> <attributes> <attribute name="sepallength" type="numeric"/> <attribute name="sepalwidth" type="numeric"/> <attribute name="petallength" type="numeric"/> <attribute name="petalwidth" type="numeric"/> <attribute class="yes" name="class" type="nominal"> <labels> <label>Iris-setosa</label> <label>Iris-versicolor</label> <label>Iris-virginica</label> </labels> </attribute> </attributes> </header> <body> <instances> <instance> <value>5.1</value> <value>3.5</value> <value>1.4</value> <value>0.2</value> <value>Iris-setosa</value> </instance> ... </instances> </body> </dataset>