PATTERN RECOGNITION:
A COMPREHENSIVE APPROACH
USING ARTIFICIAL NEURAL NETWORK OR/AND FUZZY LOGIC
Sergio C. BROFFERIO
email [email protected]
•
•
•
•
•
Aims of the course (An Engineering Approach)
The pattern recognition problem
Deterministic and statistical methods:models
Neural and Behavioural models
How to pass the exam? Paper review or Project
REFERENCES FOR ARTIFICIAL NEURAL NETWORKS (ANN)
a)Basic textbooks
C. M. Bishop: “Neural Network for Pattern Recognition”
Clarendon Press-Oxford (1995). Basic for Engineers
S. Haykin;
"Neural Networks" Prentice Hall 1999. Complete text for Staic and dynamic ANN.
T. S. Koutroumbas, Konstantinos:
“ Pattern Recognition” –
4. ed.. - Elsevier Academic Press, 2003. - ISBN: 0126858756
Y.-H. Pao: “Adaptive Pattern Recognition and Neural Networks”
Addison-Wesley Publishing Company. Inc. (1989) Very clear and good text
R. Hecht-Nielsen:
“Neurocomputing”,
Addison-Wesley Publishing Co., (1990).
G.A. Carpenter, S. Grossberg:
“ART”: self-organization of stable category recognition codes for analog input pattern”
Applied Optics Vol. 26, 1987
b) Applications
F.-L. Luo, R. Unbehauen:
“Applied Neural Networks for Signal Processing”
Cambridge University Press (1997).
R. Hecht-Nielsen:
“Nearest Matched filter Classification of Spatiotemporal Patterns”
Applied Optis Vol. 26 n.10 (1987) pp. 1892-1898
Y. Bengio, M. Gori:
“Learning the dynamic nature of speech with back-propagation for sequences””
Pattern Recognition Letters n. 13 pp. 375-85 North Holland (1992)
A. Waibel et al.:
“Phoneme Recognition Using Time Delay Neural Networks”
IEEE Trans. On Acoustics, Speech and Signal processing Vol. 37. n. 3 1989
P. J. Werbos: “Backpropagation through time: what it does and how to do it2
Proceedings of the IEEE, vol. 78 1990
REFERENCES FOR FUZZY LOGIC
Y.H. Pao: “Adaptive Pattern Recognition and Neural Networks”,
Addison-Wesley Publishing Company. Inc. (1989)
B. Kosko: “Neural Networks and Fuzzy Logic”
Prentice Hall (1992)
G.J. Klir, U.H.St.Cair,B.Yuan:
“Fuzzy Set Theory: Foundations and Applications”
Prentice Hall PTR (1997)
J.-S. Roger Jang:
“ ANFIS: Adaptive_Network-Based Fuzzy Inference System”,
IEEE Trans. on Systems, Man, and Cybernetics, Vol. 23 No. 3 1993
dati
osservazioni
esperto
classe
esperto
dati
osservazioni
elaboratore
classe
dati
osservazioni
elaboratore
classe
Evoluzione dell’ automatizzazione dei metodi di riconoscimento
Historical evolution of Pattern Recognition
informazioni
semantiche
Elaborazione semantica
simboli
Riconoscimento
campioni
(caratteristiche)
pattern
( features)
Trasformazione ‘fisica’
segnali
dal sensore
segnali
all’ attuatore
Organizzazione a livelli delle elaborazioni per il riconoscimento automatico
Hierarchical organization of Pattern recognition
spazio delle classi (discreto)
C1
*
C2
*
*
C3
.
. .
.
.
x
campione
(pattern)
.
.
spazio dei campioni (anche continuo)
Il riconoscimento come mappatura dello spazio dei campioni
nello spazio delle classi (o dei simboli)
Sample to Class Mapping
caratteristica
(feature)
x2
D3(x)>0
discriminante
d31(x)=0
spazio dei campioni
classe
C3 (simbolo)
x
C1
campione
(pattern)
D1(x)>0
C2
x1
caratteristica
(feature)
Funzione di decisione: Di(x) con i = 1...K
Discriminante: dij(x)= Di(x)- Dj(x) con i,j= 1...K
Il riconoscimento come partizione dello spazio dei campioni
Space Partitioning for pattern Recognition
Classification of the
Area value (S)
Or its quantization
(Sq)
Area
Computation
Algorithm
S
F1
F2
U
[Hz]
[Hz]
Speech
Recognizer
O
A
E
Pattern classifications types
Vowel
I
F1
[Hz]
F2
F2
Speech
Recognizer
O
Vowel
A
E
F1
B
U
[Hz]
MP
U
A
F1={MP, P,M,G}
U
P
M
O
A
A
E
I
E
F2={B,A}
G
V={I,U,O,A,E}
Esempio di riconoscimento di vocali con logica sfumata
Example of pattern recognition (Vowel Recognition) using Fuzzy Logic
The neuron
Cell body
Dendrites
Axon
Synaptic Connections
Our Brain and its neurons
- Main characteristics
Neurons: ~1011
Connections: ~1015, ~104 connections/neuro
Switching time: ~1ms, (10 ps in computers)
Switching energy: ~10-6 joule/cycle
-Learning and adaptation paradigm:
from neurology and psychology
- Historical and functional approaches
Caratteristiche delle RNA (ANN characteristics)
-non linearita’ (non linearrity)
- apprendimento (con o senza maestro) Supervised or unsupervised learning
- Adattamento: plasticita’ e stabilita’ (Adaptability: plasticity and stability)
- risposta probativa (probative recognition)
- informazioni contestuali (contextual information)
- tolleranza ai guasti (fault tolerance)
- analogie neurobiologiche (neurobiological analogies)
- realizzazione VLSI (VLSI implementations)
- uniformita’ di analisi e progetto (uniformity of analysis and design)
err %
ins. verifica
ins. addestramento
nott
# sess.add.
Fig.34 Andamento dell’ errore di classificazione per i campioni di addestramento
e quelli di verifica
Stability is the capability of recogniono in presence of noise
Overfitting produces a loss of plasticity when the number
of traning sessions is above nott
Neuron Activity
yj
Neuron
j
Local induced field
Synaptic Weight
connection
wji
. .
i
.
Receptive Field
Components of the Artificial Neural Network(ANN)
vettore di
uscita
Y
yh
strato di
uscita
j
strato
nascosto
vettore
d’ ingresso
wji
. . .
i
xi
X
y(t) =f(x(t),W,t)
Struttura di una Rete Neuronale Artificiale
Layered structure of a ANN
conness. con ritardo
Delay
RNA
Campione
(Sample)
statica
Percettrone
multistrato (MLP)
statico
Mappa autorganizzata (SOM)
dinamico
a ritardo (TDNN)
FIR non lin.
dinamica
Memorie
autoassociative
dinamiche
spazio-temporale
IIR non lin.
Tipi di RNA( statiche e dinamiche)e tipi di campioni (statici e dinamici)
Static and Dynamic ANN’s for either Static and Dynamic samples Pattern Recognition
x
stimolo
(campione)
RNA
W
y
risposta
DW
Ambiente
x, y*
y*
“adattatore”
risposta
desiderata
Interazione fra RNA e ambiente (stimoli e eventualmente risposta desiderata)
Learning through interactions of an ANN with its environment
j
xi
i
xj
wji
If two neurons are active the weight of their connection is increased,
Otherwise their connection weight is decreased
Dwji = hxixj
Hebb’ law
x1
j
wj1
wji
xi
xN
+
yj
s
f(s)
wj(N+1)
wjN
1
ingressi: x= (xi, i=1N, x(N+1)=1)
pesi: wj=(wji, i=1  N+1)
campo locale indotto : s = S wji.xi con i=1  N+1
funzioni di attivazione:
y= f(s)=u(s)
y=f(s)=s(s)= 1/(1+exp(-s)
y=f(s)=Th(s)
Struttura del neurone artificiale
ANN ON-OFF or “sigmoidal” node structure
f(s)
1
0.5
s
Funzione di attivazione sigmoidale
Activation function of a sigmoidal neuron
d= (w1x1+ w2x2+ w3)(w12+ w22)-1/2
x2
x1
x
d
w1
s
+
w2
f(s)
y
w3
x2
1
n
s= w1x1+ w2x2+ w3
s>0
s<0
f(s)
= f(0)
o
x1
Discriminante lineare
Linear discrimination
s(x)=0
j
x1
xi
xN
wj1
wji
|x,wj)|
d2
exp(-d2/d02)
wjN
ingressi: x= (xi, i=1  N)
pesi: wj=(wji, i=1  N)
distanza: d2 = [d(x,wj)]2 = Si (xi-wji)2
oppure distanza pesata: d2 = [d(x,wj)]2 = Si ci(xi-wji)2
funzione di attivazione: y=f(d)=exp(-d2/d02)
Neurone artificiale risonante (selettivo, radiale, radiale)
Resonant (Selective, Radial Basis) Artificial Neuron
yj
f(s)
1
1/e~0.3
d
d0
d0
Fig. 5b) Funzione di attivazione radiale y=f(s)= exp[-d/d0)2]
Funzione base radiale (Radial Basic Function, RBF)
x2
x
d
o
wj
x1
Attività di una funzione risonante (radiale) di due variabili
Two components radial basis function
ANN learning methods
Supervised learning (Multi Layer Perceptron))
Sample-class pairs are applied (X,Y*);
a) The ANN structure is defined
b) Only the rule for belonging to the same class is defined
(Adaptive ANN)
Unsupervised learning (Self Organising Maps SOM)
Only the sample X is applied
a) the number of classes K is defined
b) Only the rule for belonging to the same class is defined
(Adaptive ANN)
e
y
+
1
wi
i
xi
- y*
y
s
N
N+1
1
Ingressi: xi ; campo locale indotto: s = Swixi; uscita: y=s(s)
wi
i
xi
dati per l’addestramento: coppia campione classe (x,y*); errore; e = y*-y
aggiornamento dei pesi: Dwi= h e s’(s) xi con s’(s) = y(1-y) if y = s(s)=1/(1+exp(-s))
Il percettrone
The Perceptron
d= (w1x1+ w2x2+ w3)(w12+ w22)-1/2
x2
d
x1
x
w1
+
w2
x2
n
s
f(s)
y
w3
1
s= w1x1+ w2x2+ w3
s>0
s<0
f(s)
= f(0)
o
x1
Discriminante lineare
Linear discrimination
s(x)=0
Perceptron learning
y=s(s); s= wTx; E(w)=(d-y)2 =1/2e2 ; Training pair (x,d)
DE= dE/dw.Dw =dE/dw. (-hdE/dw)= -h (dE/dw)2
Dw=-hdE/dw =-h (E/s) (s/w)= =-h d(s)x
E/s = d(s) is called the local gradient with respect to node 1 or s
d(s)= E/s =e.s’(s)
Dwi=-hdE/dwi =-h (E/s) (s/wi)= -h d(s)xi
j
xi
i
wji
xj
d(s)
xi
i
Dwji = hxixj
Hebb’ law
wi
Dwji = hd(s)xi
Gradient learning
x2
y
a
+
c
b
b
c
A
a
x1
x2
x1
1
(x, c/c*)
y
A
x2
B
a B
a
c
b
a
b
c
c
b
c
b
x1
x2
x1
A
a
Partizione dello spazio dei campioni di un percettrone multistrato
The partitioning of the sample space by the MLP
vettore
d’ uscita
strato
d’ uscita
E(W)=1/2S(dh-yh)2 with h=1÷K
Y
y1
yh
strato
nascosto
H1
strato
d’ ingresso
vettore
d’ ingresso
vhj
yj
strato
nascosto
H2
yK
j
wji
yi
i
. . .
k
x1
Il percettrone multilivello
xk
X
wik
xM
The Multilayer Perceptron (MLP)
Sequential learning
Multi Layer Perceptron
y=s(s2); s2= vTy; y1=f(s1); s1= wTx ; E=(d-y)2 =e2
Training pair (x,d)
Dw=-hdE/dw =-h (E/s1) (s1/w)= =-h d(s1)x
E/s1 = d(s1) the local gradient with respect to node 1 or s1
d(s1)= E/s2.ds2/dy1.dy1/ds1 =d(s2)v1s’(s1)=e1s’(s1)
e1 = d(s2)v1s the backpropagated error
detailed notation Dw =-h e1s’(s1)x = he s’(s2)v1 s’(s1) x
y1
s ( s1 )
yh
yM
s ( sh )
s(sM)
vhj
v1j
yj
s ( s j)
wji
yi
s ( s i)
Forward step
sj =Swjixi
yi = s(sj)
d1
dh
vhj
v1j
+
dM
vMj
ej=S dh whj
vMj
s’(sj)
d(sj)= ejs’(sj)
wji
yj
Backpropagation step
ej=S dh vhj
dj= - ejs’(sj); Dwji = - h djyi
e1
eh= y*h- yh
yh
O
1
s’(sh)
h
j
s’(sj)
dj= ejs’(sj)
wji
H1
yi
1
wik
I
1
MH2
Dwji = - h dj yi
ei=Sj dj wji
s’(si)
i
x1
Dwhj= - h dh yj
ej=S dh whj
yj
1
M
dh= ehs’(sh)
whj
H2
eM
xk
MH1
di= ejs’(sj)
k
Dwik = - h di xk
xN
N
Rete di retropropagazione dell’ errore
Linear ANN for error back propagation
Metodo di aggiornamento sequenziale dei pesi
(Sequential weights learning)
Insieme d’ addestramento: (xk,y*k), k=1-Q,
Vettore uscita desiderato y*k= (y*km, m=1-M)
Vettore uscita yk= (ykm, m=1-M) prodotto da xk=(xki,i=1-N)
Funzione errore: E (W)= 1/2Sm (y*km-ykm)2 = 1/2 Sm (ekm)2
Formula d’ aggiornamento:
Dwji=- h.dE/dwji= -h dj yi = h s’(sj).ej yi
dove ej= Sm wmjdm e dm= - s’(sm).em
Formule d’ aggiornamento (per ogni coppia xk,y*k, si e’ omesso l’apice k)
Learning expressions (for each pair xk, y*k, the apex k has been dropped)
strato d’ uscita O: ym= s(sm) em= y*m-ym dm= ems’(sm) Dwjm= h dm yj
strato nascosto H2:
ej=Smdmwjm dj= ejs’(sj)
Dwkj = h dj yk
strato nascosto H1:
ek=Sjdjwkj
dk= eks’(sk)
Dwik = h dk xi
Addestramento globale dei pesi sinaptici
(Global synaptical weights learning)
Insieme d’ addestramento: (xk,y*k), k=1÷Q,
Vettore uscita desiderato y*k= (y*km, m=1-M)
Vettore uscita prodotto da xk=(xki,i=1-N) yk= (ykm, m=1-M)
Funzione errore globale: Eg(Wj)= 1/2SkSm (y*km-ykm)2 = 1/2 Sk Sm (ekm)2
Retropropagazione dell’ errore (per ogni coppia xk,y*k, si e’ omesso l’apice k)
strato d’ uscita O: ym= s(sm) em= y*m-ym dm= ems’(sm)
strato nascosto H2:
ej=Smdmwjm dj= ejs’(sj)
strato nascosto H1:
ek=Sjdjwkj
dk= eks’(sk)
Formule per l’ aggiornamento globale:
(Expressions for global learning)
Dwji= - h.dEg/dwji= h Sk dkj yki = h Sk s’(skj).ekj
dove ekj= Shj. whjdkh e dkj= - s’(skj).ekj
MPL per EXOR
x1 x2
0
0
1
1
0
1
0
1
y
x2
1
0
1
1
0
y=1
y=0
y
y=1
0
1
1
x1
y=0
x2
1
x1
yA
1
3
x1
x2
yA*
2
x2
1
X
+
A
yA*=fA*(s) = 0.5
A*
+
yA=fA(s) = 0.5
x1
yA
yA*
z
u(z-T)
u(-z-T)
1
x2
x1
X
I
2
x2
3
1
A
z=f(s) =T
z=f(s) =-T
A*
x1
z=f(s) = 0.5
Zona morta per migliorare l’affidabilità della classificazione
Dead zone to improve the classifcation reliability
MLP per riconoscimento di due classi con p.d.f. gaussiane (HAYKIN Cap.4.8)
MLP perceptron for gaussian d.p.f. pattern (HAYKIN Cap.4.8)
yA
yB
Parametri di addestramento:
h=0.1, a=0.5
x2
x1
1
rA
x2
A
MLP: Pe = 0.196
Bayesiana: Pe = 0.185
XA mA
X
X
zona di
decisione sA
ottima Bayesiana
mB
x1
X
sB
Note Notes
a) metodo dei momenti (moments method) : Dwij(n)= a Dwij(n-1) +hdi (n)x j(n) con a<1
b) suddivisione suggerita per l’ insieme di addestramento+validazione
suggested partitioning for the traing and validation tests
1. Sessione
add.
val.
2. Sessione
3. Sessione
4. Sessione
c) normalizzazione: al valor medio e agli autovalori)
(normalization to the mean and the eigen value)
d) inizializzazione: pesi casuali e piccoli (funzionamento in zona lineare), h =.1, a~.9
initialization wth small and random values (linear zone operation), h=0.1, a~.9
Mappe autoorganizzate
SELF ORGANIZING MAPS (SOM)
a) Numero di classi (cluster) predefinito
The number of classes is predefined
b) Paradigma di classificazione: verosimiglianza nella distribuzione
statistica
Predefined classification paradigm: likelihood in statistical
distribution
- modello: disposizione dei neuroni sulla corteccia cerebrale;
model: disposition of the brain neurons on the cerebral cortex
- Modello di apprendimento: interazione eccitatoria/inibitoria dei
neuroni;
learning model: excitatory/inhibitory neuron interactions
- rappresentazione geometrica: tassellazione di Voronoi;
geometrical representation: Voronoi tasselation
1
j
N
Von der Malsburg
1
i
N
bidirectional interactions
y1
yM
yj
1
j
w1
wj
M
wM
x
Kohonen
Riduzione della dimensionalita’ (neuroni su reticolo)
Dimensionality reduction (neurons on a grid)
i
spazio delle uscite (bidimensionale)
output space (two discrete dimensionality)
j
x2
wi
Spazio dei campioni (elavata
dimensionalità)
Pattern space (large and
continous dimensionality)
x
wj
x1
k
Output layer (M nodes)
Twodimensional
Output vector y
h
Input layer (N nodes)
x1
Input vector
x2
xi
x4
x
Struttura delle SOM SOM structure
xN
1
j
yi
M
wji
1
i
N
j = argmin[d(x,wh); h=1M]
yj=1; yh=0 per h  j)
xi
-competizione (per la selezione e attivazione del nodo d’ uscita corrispondente alla
massima attività)
-competition (for the selection and activation of the output neuron corresponding to
maximum activity)
-cooperazione (per la modifica dei pesi)
-cooperation (for weights modification)
-adattamento sinaptico: eccitazione/inibizione
-synaptic adaptation: excitatory/inhibitory
Paradigma di apprendimento (Learning paradigm)
Turing, 1952
Si puo’ realizzare una strutturazione globale mediante interazioni locali
A global structure can need only local interactions
La strutturazione e’ realizzata da interconnessioni neuronali locali
The structure is implemented by local neural interconnections
Principio 1. Le interconnessioni sono generalmente eccitatorie
1. Principle: Interconnections are mainly excitatory
Principio 2. La limitazione delle ‘risorse’ facilita specifiche attivita’
2. Principle: The resource limitation makes easier specific activities
Principio 3. Le modifiche dei pesi sinaptici tendono ad essere cooperative
3. Principle: Weight modifcations tend to be cooperative
Principio 4. Un sistema autorganizzato deve essere ridondante
4. Principle: A self organizing system has to be redundant
Competizione Competition
neurone vincente winning neuron :
j = argmin[||x-wh||) ; h=1M] oppure or: j = argmax[xTwh ; h=1M]
Cooperazione Cooperation
i
j
distanza reticolare d(j,i) dei nodi i e j
Manhattan distance d(i,j) of nodes i and j
d(i,j)=5
funzioni di vicinato neighbourhood functions :
Excitatory only: hi(j) = exp[- d(i,j)2 /2s2] oppure or
Mexican hat: hi(j) = a.exp[- d(i,j)2 /2se2] – b exp[- d(i,j)2 /2si2]
Adattamento sinaptico (Synaptical updating):Dwi= h hi(j)(x-wi)
h e s2 diminuiscono durante l’apprendimento decrease during learning
Autorganizzazione self organisation: h=0.1-0.01,
Convergenza statistica stastistical convergence: h=0.01, 1  d(i,j)  0
Aggiornmento dei pesi con il metodo del gradiente
Weights updating by gradient learning
wi (i=1÷M) vettore prototipo del nodo i prototype vector of node i
Error function ( winning node j):
Ej(W)= 1/2Si hi(j) (x- wi)2 (i=1÷M)
Computation of the gradient
Manhattan distance
Euclidean distance
DEj (wi)= grad(Ej (wj)).Dwi= (dE(W)/dwi).Dwi
Weight updating: D wi = -h dEj(W)/dwi = h hi(j) (x- wi).
Classe desiderata Y*
Desired class Y*
yi
1
i
Strato delle classi
Class layer
PERCETTRONE
1
Strato nascosto competitivo
Hidden competive layer
j
M
wji
Strato d’ ingresso
Input layer
K
1
Vettore campione: x= (xi, i=1-N)
Pattern vector x
SOM
i
xi
SOM supervisionata Supervised SOM
N
Vettore quantizzato xq
(xq, i=1N)
Quantized vector
xqi
1
i
N
PERCETTRONE
1
Strato di quantizzazione
Quantisation layer
SOM learning
q=(qj;j=1÷M)
Strato d’ ingresso
Campione x (xi, i=1N)
qj
M
wji
1
SOM
i
xi
Fig. 14c) Quantizzatore vettoriale adattativo
(Adaptive Learning Vector Quantization, ALVQ)
N
Addestramento delle SOM supervisionate
Learning Vector Quantizer (LVQ)
dati di addestramento learning data: (x)
a) apprendimento della SOM (con x) ; SOM learning (only x)
b1) Addestramento (x,c) dello strato d’uscita (con q,x) (x,c) eq. (q,c)
Outuput layer learning (with q,x)
b2) Addestramento con etichettatura, Learning with labelling
b3) Addestramento e etichettatura dello strato nascosto
Learning and labelling of the hidden layer
Dwc= +/-a (x-wc) se x appartiene o no alla classe C
if x belong or not to class C
Inferenza statistica delle RNA
Statistical Inference of the ANN
x, ck
RNA
(ANN)
y1(x)
ym(x)
y*1 (x) = dl(x) = 0
y*m(x) = dm(x) = 0
yk(x)
yM(x)
y*k(x) = dk(x) = 1
y*M(x) = dM(x) = 0
ck =(dl(x)…. dk(x)….. dM(x))
E2= SX P(x)(Sk P(ck /x) Sm [ym(x)-y*m(x)] 2})
E2= SX P(x)(Sm {Sk P(ck /x) [ym(x)- dm(x)k]2})
E2 = SX P(x)(Sm {Sk [ym(x)- dm(x)] 2 P(ck /x) })
Sk[ym(x)- dm(x)]2 P(ck/x)= ym2(x)-2ym(x) P(cm/x) + P(cm/x)=
as dm(x)=1 only for k = m and Sk P(ck/x)=1,
adding and subtracting P2(cm/x) we get:
[ym2(x)-2ym(x) P(cm/x) + P2(cm/x)] + [P(cm/x) - P2(cm/x)] =
= [ym(x)-P(cm/x)]2 + P(cm/x) [1- P(cm/x)]
where only the first term depends on the ANN, that if the ANN has been
correctly updated the minimum value of E2 is obtained when:
dove solo il primo addendo dipende dalla rete per cui addestrandola
correttamente si ottiene il minimo di E2 per:
ym(x)=P(cm/x)
Reti Neuronali Adattative
Teoria della risonanza adattativa
Adaptive Neural Networks
(Adaptive Resonance Theory, ART)
Meccanismo psicofisiologico di adattamento all’ambiente:
1) Attenzione selettiva: ricerca di una situazione nel dominio di conoscenza
2) Risonanza: se l’ attenzione selettiva rileva una situazione nota
3) Orientamento: ricerca o creazione di una nuova conoscenza
Vantaggi: compatibilita’ fra plasticita’ e stabilita’
Svantaggi: complessita’ della struttura e dell’ algoritmo di apprendimento
Paradigm of Psychological Adaptation to the Environment:
1) Selective Attention: research in the knowledge domain;
2) Resonance: if positive response of the knowledge domain;
3)Orientation: research or implementation of new knowledge
Advantages: plasticity and stability are compatible
Disadvantages: complexity of the structure and of the learning algorithm
Plasticity and Stability
• A training algorithm is plastic if it has the potential to
adapt to new vectors indefinitely
• A training algorithm is stable if it preserves previously
learned knowledge
w
+
w
+
Input pattern representation
w prototype representation
+ category representation
Selection based on input-prototype distance
Classification based on input-category distance
Apprendimento:
Attivazione dello strato di riconoscimento con competizione SOM (attenzione selettiva)
Retropropagazione allo strato di confronto e verifica della risonanza al modello attivato
Creazione di un nuovo neurone in caso di impossibilità di risonanza (orientamento)
Learning Paradigm
Activation of the output layer by SOM learning (selective attention)
Feedback to the comparison layer and resonance evaluation with the activated pattern
Implementation of a new neuron if no resonance is possible (orientation)
1
j
P
strato delle categorie
category layer
Zj
Wj
strato di confronto
comparison layer
1
i
x1
N
xi
xN
P+1
strato di
riconoscimento
1
j
P
P+1
wji
zij
strato di
confronto
1
i
x1
N
xi
xN
j=argmax [xTwh, h=1÷P] Attenzione selettiva Selective attention
R: coefficiente di risonanza (resonance coefficient)
xTzj >r risonanza (resonance): adattamento di adaptation of wj e zj
xTzj<r orientamento se (orientation if): xTzh con h > < j
Se (if) xTzh <r per ogni (for each) h=1÷P si crea un nuovo nodo P+1 wP+1=x
(a new node) P+1 wP+1=x is implemented
ART1
For binary input pattern
y1
1
yh
yj
h
t hi
x1
yP
j
P
P+1
b
ji
xi
xN
If tjx <r||x || for all j then generate node P+1
Learning of ART1 (Pao model)
Initialization:
tji0=1 e bji0=1/(1+N)
Competition phase: yj=bjTx
j=argmax[yp; p=1÷P]
Selective attention: verification of the resonance
if tjTx>r||x|| resonance is satisfied then (risonanza)
weight updating tjik+1= tjik xi e bjik+1= tjik xi/(0,5+ tjkx)
else (orientamento):
a new node is implemented tji0=1 e bji0=1/(1+N)
Struttura di principio delle reti ART
Basic ART Structure
F2 strato dei nodi delle categorie
STM rappresentazione della categoria estratta
F2 field of category nodes
STM representation of the extracted category
LTM rappresentazione dell’informazione
appresa e memorizzata (in F1 e F2)
LTM representation of the learned and stored
information (in F1 and F2)
F1 strato dei nodi di confronto
STM rappresentazione filtrata dei pattern
d’ingresso e di categoria
F1 field of comparison nodes
STM representation of filtered input and category
pattern
STM: Short Term Memory (Attività dei nodi)
LTM: Long Term Memory (Pesi delle connessioni)
A: control node
Input I generates activity pattern X,
non specifically activates A and extracts category Y
Category pattern V generates activity X* and deactivates A
Because of mismatch a new category is searched
A new category is extracted
A new comparison cycle is started !!
ART2
F1: Categrory layer
Reset if r/|r|>1
r=u+cp
p=u+g(yJ)zJ
J is the selected category
q= p/|p|
v=f(x)+bf(q)
u=v/|v|
x=w/|w|
w=i+au
F1: Patterns layer
Category selection
Resonance evaluation
F1 loop-processing
p =u
u=v/|v|
v=bf(q,q)+f(q,x)
q=p/|p|
x=w/|w|
w=au+i
Then:
Th=p.zBh
J= argmax [Th, h= 1÷P]
F2 Top-down and
F1 loop-processing
p =u+dzTJ
u=v/|v|
v=bf(q,q)+f(q,x)
q=p/|p|
x=w/|w|
w=au+i
Then:
r= (u+cp)/(|u|+c|p|
Parameters: a;b;q
Non linear filter
f(x)= 0 if x < q else f(x) =x
Resonance condition:
r/|r|<1
Parameters: d,c, r
If resonance ART learning for category J:
F1-F2 connection weights updating
F1 F2: DzBJ= du-d(1-d)zBJ
F2 F1: DzTJ= du-d(1-d)zTJ
else
Reset and Orientation:
selection of another category: next lower Th
If no resonance: implementation of a new category
Caratteristiche di ART2 ART2 characteristics
a. Compromesso fra stabilità e plasticità Stability/Plasticity Trade-Off
b. Compromesso fra ricerca e accesso diretto
Search/Direct-Access Trade-Off
c. Compromesso fra inizializzazione econfronto Match/Reset trade-Off
d. Invarianza delle rappresentazioni (STM) durante l’estrazione
delle informazioni memorizzate (LTM)
STM Invariance under Read-Out of Matched LTM
e. Coesistenza dell’estrazione di LTM e normalizzazione di STM
Coexistence of LTM Read-Out and STM Normalization
f. Invarianza di LTM all’ applicazione di ingressi particolari
No LTM recording by Superset Inputs
g. Scelta stabile fino all’azzeramento Stable choice until reset.
h. Aumento del contrasto, soppressione del rumore e riduzione del
confronto con filtraggi non lineari Contrast Enhancement, Noise
Suppression and Mismatch Attenuation by Non Linear Filtering
i. Autostabilizzazione veloce Rapid Self-stabilzation
j. Normalizzazione Normalization
k. Elaborazione locale Local Computation
a)
b)
Classificazione ART ART classification
(a) soglia bassa, low threshold (b) soglia alta, high threshold
Da: G.A. Carpenter e S. Grossberg: Applied Optics, 1987, Vol 26 p. 4920, 49221
x2
x=(x1,x2)
x1
Computer experiment: apply ART2 to category recognition
Scarica

StaticANN