CAPITOLO 15 CLASSIFICAZIONE La Classificazione supervisionata A. Dermanis, L.Biagi La Classificazione supervisionata I pixel noti in ciascuna classe ω1, ω2, ..., ωK, formano gli “insieme campione” S1, S2, ..., SK con n1, n2, ..., nK pixel ciascuno. Stime per ciascun insieme campione Si, (i = 1, 2, …, K ) : Vettori delle medie: 1 mi = n i x xSi Matrici di covarianza: 1 Ci = n i (x – m )(x – m ) i i T xSi Metodi di classificazione supervisionata: Parallelepipedi Distanza euclidea Distanza di Mahalanobis Massima verosimiglianza Bayesiano A. Dermanis, L.Biagi La Classificazione con la distanza Euclidea dE(x, x) = || x – x || = (a) Semplice (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 || x – mi || = min || x – mk || x i k Assegna ciascun pixel alla classe con centro più vicino. Confini fra le classi: iperpiani perpendicolari nel punto medio al segmento congiungente i centri delle classi. A. Dermanis, L.Biagi La Classificazione con la distanza Euclidea dE(x, x) = || x – x || = (b) Con livello di soglia T (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 || x – mi || = min || x – mk || k || x – mi || T x i Assegna ciascun pixel alla classe con centro più vicino se distanza < livello di soglia || x – mi || > T, i x 0 Lascia non classificati i pixel (class ω0) la cui distanza da ogni centro è maggiore della soglia. A. Dermanis, L.Biagi La Classificazione con distanza Euclidea dE(x, x) = || x – x || = Giusto (x1 – x1)2 + (x2 – x2)2 + … + (xB – xB)2 Sbagliato Si introduce il ruolo della statistica nella classificazione! A. Dermanis, L.Biagi La classificazione con il metodo dei parallelepipedi Deviazione standard per ogni banda ij = (Ci)jj j = 1, 2, …, B Parallelepipedi Pi x = [x1 … xj … xB]T Pj mij – k ij xj mij + k ij j = 1, 2, …, B Classificazione: x Pj x i x P i x 0 i A. Dermanis, L.Biagi La classificazione con la distanza di Mahalanobis Distanza di Mahalanobis: C= 1 N i dM(x, x) = (x – x)T C–1 (x – x) (x – mi)(x – mi)T = xSi 1 N nC i i (Matrice di covarianza) i Classificazione (semplice): dM(x,mi) < dM(x,mk), ki Classificazione con soglia: dM(x,mi) < dM(x,mk), ki dM(x,mi) T, xi xi dM(x,mi) > T, i x0 A. Dermanis, L.Biagi La classificazione con il metodo di massima verosimiglianza Funzione di distribuzione di probabilità o funzione di verosimiglianza per la classe ωi: li(x) = 1 (2)B/2 | Ci |1/2 Classificazione: exp [ – 1 (x – mi)T Ci–1 (x – mi) ] 2 li(x) > lk(x) k i xi Equivalente all’uso della funzione di decisione: di(x) = 2 ln[li(x)] + B ln(2) = – ln | Ci | – (x – mi)T Ci–1 (x – mi) di(x) > dk(x) k i xi A. Dermanis, L.Biagi La classificazione mediante approccio Bayesiano N: numero totale di pixel (i.e. per ogni banda) B: numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi A. Dermanis, L.Biagi La classificazione mediante approccio Bayesiano N: numero totale di pixel (i.e. per ogni banda) B: numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi n x x N N i i N n x xi Ni n xi nx i A. Dermanis, L.Biagi La classificazione mediante approccio Bayesiano N: numero totale di pixel (i.e. per ogni banda) B: numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi n x N x Identità di base: N i N i n x xi Ni n xi nx i nxi nxi N nx nx N A. Dermanis, L.Biagi La classificazione mediante approccio Bayesiano N: numero totale di pixel (i.e. per ogni banda) B: numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi n x N x Identità di base: N i i N n xi Ni x n xi nx i nxi Ni nxi N N nxi N i nx nx nx N N A. Dermanis, L.Biagi La classificazione mediante approccio Bayesiano N: numero totale di pixel (i.e. per ogni banda) B: numbero di bande, ω1, ω2, …, ωK : le K classi presenti nell’immagine Ni : numero di pixel nella classe ωi (i = 1,2, …, K) nx : numero di pixel con valore x nxi : numero di pixel con valore x in classe ωi n x N x Identità di base: N i i N n xi Ni x nxi Ni nxi N N nxi N i nx nx nx N N n xi nx i nxi Ni nxi Ni N nx nx N A. Dermanis, L.Biagi Ni p(i) = N probabilità che un pixel appartenga alla classe ωi nx p(x) = N probabilità che un pixel abbia il valore x nxi p(x | i) = Ni probabilità che un pixel della classe ωi abbia valore x (condizionata) nxi p(i | x) = nx probabilità che un pixel con valore x appartenga alla classe ωi (condizionata) nxi p(x, i) = N probabilità che un pixel abbia il valore x e appartenga alla classe ωi (congiunta) A. Dermanis, L.Biagi Ni p(i) = N probabilità che un pixel appartenga alla classe ωi nx p(x) = N probabilità che un pixel abbia il valore x nxi p(x | i) = Ni probabilità che un pixel della classe ωi abbia valore x (condizionata) nxi p(i | x) = nx probabilità che un pixel con valore x appartenga alla classe ωi (condizionata) nxi p(x, i) = N probabilità che un pixel abbia il valore x e appartenga alla classe ωi (congiunta) nxi Ni nxi Ni N nx nx N A. Dermanis, L.Biagi Ni p(i) = N probabilità che un pixel appartenga alla classe ωi nx p(x) = N probabilità che un pixel abbia il valore x nxi p(x | i) = Ni probabilità che un pixel della classe ωi abbia valore x (condizionata) nxi p(i | x) = nx probabilità che un pixel con valore x appartenga alla classe ωi (condizionata) nxi p(x, i) = N probabilità che un pixel abbia il valore x e appartenga alla classe ωi (congiunta) nxi Ni nxi Ni N nx nx N Þ p(ωi | x) = p( x | ωi ) p(ωi ) p( x) formula di Bayes A. Dermanis, L.Biagi Teorema di Bayes: Pr(AB) Pr(A | B) = Pr(B) Pr(A | B) Pr(B) = Pr(AB) = Pr(B | A) Pr(A) Pr(A | B) Pr(B) Pr(B | A) = Pr(A) evento A = occorrenza del valore x evento B = occorrenza della classe ωi p(x|i) p(i) p(i|x) = p(x) Classificazione: p(i |x) > p(k |x) k i xi xi p(x) = non necessaria (fattore comune) Classificazione: p(x |i) p(i) > p(x |k) p(k) k i A. Dermanis, L.Biagi p(x|i) p(i) = max [p(x|k) p(k) Classificazione: k per distribuzione Gaussiana: p(x | i) = li(x) = xi 1 1 T C –1 (x – m ) } exp { – – (x – m ) i i i 2 (2)B/2 | Ci |1/2 Anzichè: p(x | i) p(i) = max Equivalente ln[p(x | i) p(i)] = ln[p(x | i) + ln[p(i) = max – –1 (x – mi)T Ci–1 (x – mi) – 1– ln[ | Ci | + ln[p(i)] = max 2 2 o, finalmente: (x – mi)T Ci–1 (x – mi) + ln[ | Ci | + ln[p(i)] = min A. Dermanis, L.Biagi La Classificazione Bayesiana per una distribuzione Gaussiana: (x – mi)T Ci–1 (x – mi) + ln[ | Ci | + ln[p(i)] = min CASI SPECIALI: p(1) = p(2) = … = p(K) (x – mi)T Ci–1 (x – mi) + ln[ | Ci | = min Massima Verosimiglianza! p(1) = p(2) = … = p(K) C1 = C2 = … = CK = C (x – mi)T Ci–1 (x – mi) = min Distanza di Mahalanobis! p(1) = p(2) = … = p(K) C1 = C2 = … = CK = I (x – mi)T (x – mi) = min Distanza Euclidea! A. Dermanis, L.Biagi