Valutazione delle ipotesi
Valutazione empirica delle ipotesi
• Dato un valore di accuratezza di classificazione misurato
su un campione, quanto questo valore è accurato nella
stima di ulteriori campioni?
• Se una ipotesi h risulta prevalere su un’ipotesi h’ su un
campione di test, possiamo dire che h “è meglio” di h’ in
generale?
• Quando il campione di dati annotati (D) è limitato, quale è
il metodo migliore per utilizzarlo sia in fase di
apprendimento che di test?
Definizioni di errore
•Sia T un insieme di tuple <x,c(x)> in generale, TD
•Errore sul campione (sample error)
eT (h) 
1
  (c(x),h(x))
n xT
n è il numero di tuple in T e la funzione  è 1 se c(x)=h(x), 0
altrimenti
eD  Prc(x)  h(x)
•Errore reale
xD
dove D è la distribuzione di probabilità delle istanze
• Quindi, eT è una stima, e siamo interessati a scoprire quanto
questa stima 
si discosti dalla “realtà”, rappresentata da eD
Intervalli di confidenza
• Ci interessa valutare i margini di discrepanza fra errore
reale ed errore stimato.
• Vogliamo stimare la probabilità che
LB  eD (h( x))  eT (h(x))  UB
dove UB e LB sono dei valori di discrepanza massimo e
minimo (upper bound e lower bound)
• UB e LB definiscono un intervallo di confidenza
• Def: un intervallo di confidenza del N% per un parametro p
è un intervallo [LB,UB]che include p con probabilità N%
(ovvero: con probabilità N% si ha che LBpUB)
Altre definizioni (reminder)
• Distribuzione di probabilità per una variabile aleatoria Y
specifica la probabilità Pr(Y=yi)yi
1
P(yi  Y  yi   )
• Densità di probabilità p(yi )  pyi  lim
 0 
(nel continuo)
• Valore atteso o media, a volte indicato anche con Y
1
E(Y )     yi Pr(Y  yi )   freq(yi )  yi
Ni
i
• Varianza


Var(Y )  E  Y  E(Y ) 2 
1
 freq(yi )(yi  E(Y ))2
N
caratterizza la dispersione della distribuzione attorno alla
 media
• Deviazione standard  Y  Var(Y)
Esempio
=1,5
y
0
1
2
3
(y-)2 2,25
0,25
0,25
2,25
P(y)
0,375
0,375
0,125
0,125
2
  2,25  0,125  0,25  0,375  0,25  0,375  2,25  0,125  0,75
P(y) 1
0
1
2
3
y
Distribuzione binomiale
P(r)
r
• Data una variabile aleatoria che può assumere valore 0 o 1,
una binomiale fornisce la probabilità di osservare r “0” (e
(n-r) “1”) in un campione di n osservazioni, quando la
probabilità di ottenere “0” su un singolo lancio è p.
n!
P(r ) 
p r (1  p) n  r
r!(n  r )!
E ( X )  np
Var ( X )   r 2  np(1  p)
Stima dell’errore
• La stima dell’errore eD(h) sulla base di un insieme casuale
di osservazioni indipendenti equivale alla stima del
parametro p della binomiale. Il numero r rappresenta il
numero di errori osservabili in n classificazioni di istanze x
nel test set T.
• eT (h)  1   ( f (x),h(x))  r
eD(h) =p
n xT
n
• eT(h) è detto uno stimatore di p
• Il pregiudizio, o bias, della stima è definito dalla
E[eT(h)]-p
• Una stima si dirà unbiased se il valore medio di molte
stime di eT(h) (la variabile aleatoria) converge verso p
r segue una
r
r
(1 )
binomiale
r 1
eT (h)(1 eT (h))
n
n
 eT (h)   np(1 p) 

n n
n
n
Torniamo al problema degli
intervalli di confidenza
• un intervallo di confidenza del N% per un
parametro p è un intervallo [LB,UB]che include p
con probabilità N%
• È complicato stimare questi intervalli per
una distribuzione binomiale
• Viceversa, e molto più facile farlo per una
distribuzione Normale o Gaussiana
Distribuzione Normale
(Gaussiana)
p(x) 
1
2 2
1 ( x   )2




2

e
b
Pr(a  X  b)   p(x)dx
a
E X    Var(X)   2  X  
Intervalli di confidenza in una
distribuzione normale o
Gaussiana
• Se una variabile aleatoria X obbedisce ad una
distribuzione Normale con media  e deviazione
standard , allora una misura x della variabile X
cadrà nell’intervallo
  zN  
N% delle volte
• Equivalentemente, avrò per la stima di  il
seguente intervallo:
x  zN  
Teorema del Limite Centrale
• La distribuzione Normale o Gaussiana è interessante
perché consente di calcolare in modo semplice degli
intervalli di confidenza (integrale)
• Il Teorema del Limite Centrale stabilisce che la somma di
un numero sufficientemente grande di variabili aleatorie
indipendentemente distribuite segue una distribuzione che
n
1
è approssimativamente normale Y   Y
n i1 i
• La distribuzione che governa Y tende alla distribuzione
Normale per n
• In pratica, questo è approssimativamente vero per n>30
Graficamente
Combiniamo i risultati
• Se eT(h) obbedisce approssimativamente ad una Normale
con media  e varianza  (il che è vero per un campione
n>30) allora il valore misurato per eT(h) , r/n, cadrà nel
seguente intervallo con probabilità N%:
  z N
• zN definisce la (metà della) larghezza del più piccolo
intervallo attorno alla media, che include l’N% della massa
totale di
probabilità (area
zN
tratteggiata)
Determiniamo l’intervallo
• N% dell’area giace in zN
• 80% dell’area giace in 1,28
• Per una Normale con media 0 e deviazione standard 1:
N% 50 68 80 90 95 98 99
zN 0,67 1.00 1.28 1.64 1.96 2.33 2.58
• Ricordando che:
• Otteniamo:

eT (h)(1 eT (h))
n
eD (h)  eT (h)  z N
eT (h)(1 eT (h))
n
Migliorare la stima dell’errore
mediante stime multiple
K-fold cross validation
• Suddividere i dati di apprendimento D in k sotto-insiemi di
uguale taglia D1,D2,..Dk
• Per i=1..K do:
– Li  (D-Di), Ti Di (usa Di come test set e tutto il
resto come learning set)
1
eD   e Di
– Calcola l’errore medio:
k i
eD  t N,k1   eD
– Intervallo di confidenza N%:
2
k
1
 eD 
 eDi  eD
k(k 1) i1

– k-1 (indicato spesso con n) indica il numero di gradi di libertà
(numero degli eventi indipendenti che concorrono nella produzione
del valore della variabile aleatoria ).

K-FOLD CROSS VALIDATION
Verificare ipotesi alternative
• Date due ipotesi h1 e h2, la differenza è:
d  eD (h1)  eD (h2), dˆ  e T1 (h1)  e T2 (h2)
e T1 (h1)(1 e T1 (h1)) e T2 (h2)(1 e T2 (h2))
2
ˆ

d
n1
n2
perché la varianza di questa distribuzione è
pari alla somma delle varianze delle due
distribuzioni

• L’intervallo di confidenza all’N% sarà:
dˆ  z N
eT1 (h1)(1 eT1 (h1)) eT2 (h2)(1  eT2 (h2))

n1
n2
Verificare algoritmi alternativi
• Ad esempio, due architetture G e G’ di rete neurale, o due
algoritmi di alberi di decisione, basati su diverse politiche
• Siano LA e LB due apprendisti:
– Suddividere i dati di apprendimento D in k sotto-insiemi di uguale
taglia D1,D2,..Dk
– Per i=1..K do:
– Li  (D-Di), Ti Di (usa Di come test set e tutto il resto come
learning set)
– hA=LA(Li), hB=LB(Li)
– i=eTi(hA)- eTi(hB)
1 k

• Intervallo di confidenza N%:

k i1 i
t
 
N,k 1   

k
1
 i  
k(k  1) i 1
2
