Francesco Cutugno
Classificazione - WEKA
Lezione n.#
Parole chiave:
Classificazione
Clusterizzazione
Machine learning
Corso di Laurea:
Informatica
Insegnamento:
Data Warehouse
Email Docente:
[email protected]
t
A.A. 2009-2010
Sommario
• Concetti di base
•
Features
•
Apprendimento supervisionato
•
Apprendimento non supervisionato
• Classi di algoritmi di machine learning
• Valutazione
• WEKA
• RapidMiner
Machine learning
Oggetti
conosciuti
Oggetti
sconosciuti
Risposta
Features
Gli oggetti esistono solo in termini delle caratteristiche registrate
Ogni tipo di analisi automatica riguardante un insieme di oggetti è
vincolata a come questi sono stati descritti
Se chiedessimo ad un algoritmo di machine learning di risolvere un
problema senza fornire le caratteristiche importanti per tale
scopo?
Apprendimento non supervisionato – Esempio
Apprendimento supervisionato – Esempio
A
D
B
A
C
B
A
D
B
B
C
D
C
D
A
C
Le istanze sconosciute
Nella maggior parte dei casi il
dominio delle features è continuo
Tracciare confini di decisione
troppo approssimati può rendere
la classificazione delle istanze
vicine a tali confini praticamente
casuale
In ogni caso, verrà fornita una
risposta in base alle maggiori
probabilità di appartenenza di un
oggetto ad una classe piuttosto
che ad un'altra
?
?
Clustering
Regressione
Classificazione
Training Set
Test set
Classificatore
Classe 1
.
.
.
.
.
.
Classe n
Misure di valutazione
True X
True Y
Labeled X
True positives
False positives
Labeled Y
False negatives
True negatives
Precision 
Recall 
tp
tp  fp
tp
tp  fn
Accuracy 
tp  tn
tp  tn  fn  fp
F  (1   2 ) 
PR
2 P R
Generalizzazione
step
Cross validation
1
2
10
Il formato ARFF
Il formato ARFF è composto da un header, all'interno del quale viene descritta l'organizzazione dei
dati, e da una sezione data, all'interno della quale vengono registrati i valori delle features secondo lo
schema descritto nell'header. Di seguito riportiamo un esempio sul dataset di riferimento iris:
% 1. Title: Iris Plants Database
%
% 2. Sources:
%
(a) Creator: R.A. Fisher
%
(b) Donor: Michael Marshall (MARSHALL%[email protected])
%
(c) Date: July, 1988
%
@RELATION iris
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
sepallength NUMERIC
sepalwidth NUMERIC
petallength NUMERIC
petalwidth NUMERIC
class
{Iris-setosa,Iris-versicolor,Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
...
Il formato XRFF - Esempio
<dataset name="iris" version="3.5.3">
<header>
<attributes>
<attribute name="sepallength" type="numeric"/>
<attribute name="sepalwidth" type="numeric"/>
<attribute name="petallength" type="numeric"/>
<attribute name="petalwidth" type="numeric"/>
<attribute class="yes" name="class" type="nominal">
<labels>
<label>Iris-setosa</label>
<label>Iris-versicolor</label>
<label>Iris-virginica</label>
</labels>
</attribute>
</attributes>
</header>
<body>
<instances>
<instance>
<value>5.1</value>
<value>3.5</value>
<value>1.4</value>
<value>0.2</value>
<value>Iris-setosa</value>
</instance>
...
</instances>
</body>
</dataset>
Scarica

Classificazione_DataWarehouse