PATTERN RECOGNITION: A COMPREHENSIVE APPROACH USING ARTIFICIAL NEURAL NETWORK OR/AND FUZZY LOGIC Sergio C. BROFFERIO email [email protected] • • • • • Aims of the course (An Engineering Approach) The pattern recognition problem Deterministic and statistical methods:models Neural and Behavioural models How to pass the exam? Paper review or Project REFERENCES FOR ARTIFICIAL NEURAL NETWORKS (ANN) a)Basic textbooks C. M. Bishop: “Neural Network for Pattern Recognition” Clarendon Press-Oxford (1995). Basic for Engineers S. Haykin; "Neural Networks" Prentice Hall 1999. Complete text for Staic and dynamic ANN. T. S. Koutroumbas, Konstantinos: “ Pattern Recognition” – 4. ed.. - Elsevier Academic Press, 2003. - ISBN: 0126858756 Y.-H. Pao: “Adaptive Pattern Recognition and Neural Networks” Addison-Wesley Publishing Company. Inc. (1989) Very clear and good text R. Hecht-Nielsen: “Neurocomputing”, Addison-Wesley Publishing Co., (1990). G.A. Carpenter, S. Grossberg: “ART”: self-organization of stable category recognition codes for analog input pattern” Applied Optics Vol. 26, 1987 b) Applications F.-L. Luo, R. Unbehauen: “Applied Neural Networks for Signal Processing” Cambridge University Press (1997). R. Hecht-Nielsen: “Nearest Matched filter Classification of Spatiotemporal Patterns” Applied Optis Vol. 26 n.10 (1987) pp. 1892-1898 Y. Bengio, M. Gori: “Learning the dynamic nature of speech with back-propagation for sequences”” Pattern Recognition Letters n. 13 pp. 375-85 North Holland (1992) A. Waibel et al.: “Phoneme Recognition Using Time Delay Neural Networks” IEEE Trans. On Acoustics, Speech and Signal processing Vol. 37. n. 3 1989 P. J. Werbos: “Backpropagation through time: what it does and how to do it2 Proceedings of the IEEE, vol. 78 1990 REFERENCES FOR FUZZY LOGIC Y.H. Pao: “Adaptive Pattern Recognition and Neural Networks”, Addison-Wesley Publishing Company. Inc. (1989) B. Kosko: “Neural Networks and Fuzzy Logic” Prentice Hall (1992) G.J. Klir, U.H.St.Cair,B.Yuan: “Fuzzy Set Theory: Foundations and Applications” Prentice Hall PTR (1997) J.-S. Roger Jang: “ ANFIS: Adaptive_Network-Based Fuzzy Inference System”, IEEE Trans. on Systems, Man, and Cybernetics, Vol. 23 No. 3 1993 dati osservazioni esperto classe esperto dati osservazioni elaboratore classe dati osservazioni elaboratore classe Evoluzione dell’ automatizzazione dei metodi di riconoscimento Historical evolution of Pattern Recognition informazioni semantiche Elaborazione semantica simboli Riconoscimento campioni (caratteristiche) pattern ( features) Trasformazione ‘fisica’ segnali dal sensore segnali all’ attuatore Organizzazione a livelli delle elaborazioni per il riconoscimento automatico Hierarchical organization of Pattern recognition spazio delle classi (discreto) C1 * C2 * * C3 . . . . . x campione (pattern) . . spazio dei campioni (anche continuo) Il riconoscimento come mappatura dello spazio dei campioni nello spazio delle classi (o dei simboli) Sample to Class Mapping caratteristica (feature) x2 D3(x)>0 discriminante d31(x)=0 spazio dei campioni classe C3 (simbolo) x C1 campione (pattern) D1(x)>0 C2 x1 caratteristica (feature) Funzione di decisione: Di(x) con i = 1...K Discriminante: dij(x)= Di(x)- Dj(x) con i,j= 1...K Il riconoscimento come partizione dello spazio dei campioni Space Partitioning for pattern Recognition Classification of the Area value (S) Or its quantization (Sq) Area Computation Algorithm S F1 F2 U [Hz] [Hz] Speech Recognizer O A E Pattern classifications types Vowel I F1 [Hz] F2 F2 Speech Recognizer O Vowel A E F1 B U [Hz] MP U A F1={MP, P,M,G} U P M O A A E I E F2={B,A} G V={I,U,O,A,E} Esempio di riconoscimento di vocali con logica sfumata Example of pattern recognition (Vowel Recognition) using Fuzzy Logic The neuron Cell body Dendrites Axon Synaptic Connections Our Brain and its neurons - Main characteristics Neurons: ~1011 Connections: ~1015, ~104 connections/neuro Switching time: ~1ms, (10 ps in computers) Switching energy: ~10-6 joule/cycle -Learning and adaptation paradigm: from neurology and psychology - Historical and functional approaches Caratteristiche delle RNA (ANN characteristics) -non linearita’ (non linearrity) - apprendimento (con o senza maestro) Supervised or unsupervised learning - Adattamento: plasticita’ e stabilita’ (Adaptability: plasticity and stability) - risposta probativa (probative recognition) - informazioni contestuali (contextual information) - tolleranza ai guasti (fault tolerance) - analogie neurobiologiche (neurobiological analogies) - realizzazione VLSI (VLSI implementations) - uniformita’ di analisi e progetto (uniformity of analysis and design) err % ins. verifica ins. addestramento nott # sess.add. Fig.34 Andamento dell’ errore di classificazione per i campioni di addestramento e quelli di verifica Stability is the capability of recogniono in presence of noise Overfitting produces a loss of plasticity when the number of traning sessions is above nott Neuron Activity yj Neuron j Local induced field Synaptic Weight connection wji . . i . Receptive Field Components of the Artificial Neural Network(ANN) vettore di uscita Y yh strato di uscita j strato nascosto vettore d’ ingresso wji . . . i xi X y(t) =f(x(t),W,t) Struttura di una Rete Neuronale Artificiale Layered structure of a ANN conness. con ritardo Delay RNA Campione (Sample) statica Percettrone multistrato (MLP) statico Mappa autorganizzata (SOM) dinamico a ritardo (TDNN) FIR non lin. dinamica Memorie autoassociative dinamiche spazio-temporale IIR non lin. Tipi di RNA( statiche e dinamiche)e tipi di campioni (statici e dinamici) Static and Dynamic ANN’s for either Static and Dynamic samples Pattern Recognition x stimolo (campione) RNA W y risposta DW Ambiente x, y* y* “adattatore” risposta desiderata Interazione fra RNA e ambiente (stimoli e eventualmente risposta desiderata) Learning through interactions of an ANN with its environment j xi i xj wji If two neurons are active the weight of their connection is increased, Otherwise their connection weight is decreased Dwji = hxixj Hebb’ law x1 j wj1 wji xi xN + yj s f(s) wj(N+1) wjN 1 ingressi: x= (xi, i=1N, x(N+1)=1) pesi: wj=(wji, i=1 N+1) campo locale indotto : s = S wji.xi con i=1 N+1 funzioni di attivazione: y= f(s)=u(s) y=f(s)=s(s)= 1/(1+exp(-s) y=f(s)=Th(s) Struttura del neurone artificiale ANN ON-OFF or “sigmoidal” node structure f(s) 1 0.5 s Funzione di attivazione sigmoidale Activation function of a sigmoidal neuron d= (w1x1+ w2x2+ w3)(w12+ w22)-1/2 x2 x1 x d w1 s + w2 f(s) y w3 x2 1 n s= w1x1+ w2x2+ w3 s>0 s<0 f(s) = f(0) o x1 Discriminante lineare Linear discrimination s(x)=0 j x1 xi xN wj1 wji |x,wj)| d2 exp(-d2/d02) wjN ingressi: x= (xi, i=1 N) pesi: wj=(wji, i=1 N) distanza: d2 = [d(x,wj)]2 = Si (xi-wji)2 oppure distanza pesata: d2 = [d(x,wj)]2 = Si ci(xi-wji)2 funzione di attivazione: y=f(d)=exp(-d2/d02) Neurone artificiale risonante (selettivo, radiale, radiale) Resonant (Selective, Radial Basis) Artificial Neuron yj f(s) 1 1/e~0.3 d d0 d0 Fig. 5b) Funzione di attivazione radiale y=f(s)= exp[-d/d0)2] Funzione base radiale (Radial Basic Function, RBF) x2 x d o wj x1 Attività di una funzione risonante (radiale) di due variabili Two components radial basis function ANN learning methods Supervised learning (Multi Layer Perceptron)) Sample-class pairs are applied (X,Y*); a) The ANN structure is defined b) Only the rule for belonging to the same class is defined (Adaptive ANN) Unsupervised learning (Self Organising Maps SOM) Only the sample X is applied a) the number of classes K is defined b) Only the rule for belonging to the same class is defined (Adaptive ANN) e y + 1 wi i xi - y* y s N N+1 1 Ingressi: xi ; campo locale indotto: s = Swixi; uscita: y=s(s) wi i xi dati per l’addestramento: coppia campione classe (x,y*); errore; e = y*-y aggiornamento dei pesi: Dwi= h e s’(s) xi con s’(s) = y(1-y) if y = s(s)=1/(1+exp(-s)) Il percettrone The Perceptron d= (w1x1+ w2x2+ w3)(w12+ w22)-1/2 x2 d x1 x w1 + w2 x2 n s f(s) y w3 1 s= w1x1+ w2x2+ w3 s>0 s<0 f(s) = f(0) o x1 Discriminante lineare Linear discrimination s(x)=0 Perceptron learning y=s(s); s= wTx; E(w)=(d-y)2 =1/2e2 ; Training pair (x,d) DE= dE/dw.Dw =dE/dw. (-hdE/dw)= -h (dE/dw)2 Dw=-hdE/dw =-h (E/s) (s/w)= =-h d(s)x E/s = d(s) is called the local gradient with respect to node 1 or s d(s)= E/s =e.s’(s) Dwi=-hdE/dwi =-h (E/s) (s/wi)= -h d(s)xi j xi i wji xj d(s) xi i Dwji = hxixj Hebb’ law wi Dwji = hd(s)xi Gradient learning x2 y a + c b b c A a x1 x2 x1 1 (x, c/c*) y A x2 B a B a c b a b c c b c b x1 x2 x1 A a Partizione dello spazio dei campioni di un percettrone multistrato The partitioning of the sample space by the MLP vettore d’ uscita strato d’ uscita E(W)=1/2S(dh-yh)2 with h=1÷K Y y1 yh strato nascosto H1 strato d’ ingresso vettore d’ ingresso vhj yj strato nascosto H2 yK j wji yi i . . . k x1 Il percettrone multilivello xk X wik xM The Multilayer Perceptron (MLP) Sequential learning Multi Layer Perceptron y=s(s2); s2= vTy; y1=f(s1); s1= wTx ; E=(d-y)2 =e2 Training pair (x,d) Dw=-hdE/dw =-h (E/s1) (s1/w)= =-h d(s1)x E/s1 = d(s1) the local gradient with respect to node 1 or s1 d(s1)= E/s2.ds2/dy1.dy1/ds1 =d(s2)v1s’(s1)=e1s’(s1) e1 = d(s2)v1s the backpropagated error detailed notation Dw =-h e1s’(s1)x = he s’(s2)v1 s’(s1) x y1 s ( s1 ) yh yM s ( sh ) s(sM) vhj v1j yj s ( s j) wji yi s ( s i) Forward step sj =Swjixi yi = s(sj) d1 dh vhj v1j + dM vMj ej=S dh whj vMj s’(sj) d(sj)= ejs’(sj) wji yj Backpropagation step ej=S dh vhj dj= - ejs’(sj); Dwji = - h djyi e1 eh= y*h- yh yh O 1 s’(sh) h j s’(sj) dj= ejs’(sj) wji H1 yi 1 wik I 1 MH2 Dwji = - h dj yi ei=Sj dj wji s’(si) i x1 Dwhj= - h dh yj ej=S dh whj yj 1 M dh= ehs’(sh) whj H2 eM xk MH1 di= ejs’(sj) k Dwik = - h di xk xN N Rete di retropropagazione dell’ errore Linear ANN for error back propagation Metodo di aggiornamento sequenziale dei pesi (Sequential weights learning) Insieme d’ addestramento: (xk,y*k), k=1-Q, Vettore uscita desiderato y*k= (y*km, m=1-M) Vettore uscita yk= (ykm, m=1-M) prodotto da xk=(xki,i=1-N) Funzione errore: E (W)= 1/2Sm (y*km-ykm)2 = 1/2 Sm (ekm)2 Formula d’ aggiornamento: Dwji=- h.dE/dwji= -h dj yi = h s’(sj).ej yi dove ej= Sm wmjdm e dm= - s’(sm).em Formule d’ aggiornamento (per ogni coppia xk,y*k, si e’ omesso l’apice k) Learning expressions (for each pair xk, y*k, the apex k has been dropped) strato d’ uscita O: ym= s(sm) em= y*m-ym dm= ems’(sm) Dwjm= h dm yj strato nascosto H2: ej=Smdmwjm dj= ejs’(sj) Dwkj = h dj yk strato nascosto H1: ek=Sjdjwkj dk= eks’(sk) Dwik = h dk xi Addestramento globale dei pesi sinaptici (Global synaptical weights learning) Insieme d’ addestramento: (xk,y*k), k=1÷Q, Vettore uscita desiderato y*k= (y*km, m=1-M) Vettore uscita prodotto da xk=(xki,i=1-N) yk= (ykm, m=1-M) Funzione errore globale: Eg(Wj)= 1/2SkSm (y*km-ykm)2 = 1/2 Sk Sm (ekm)2 Retropropagazione dell’ errore (per ogni coppia xk,y*k, si e’ omesso l’apice k) strato d’ uscita O: ym= s(sm) em= y*m-ym dm= ems’(sm) strato nascosto H2: ej=Smdmwjm dj= ejs’(sj) strato nascosto H1: ek=Sjdjwkj dk= eks’(sk) Formule per l’ aggiornamento globale: (Expressions for global learning) Dwji= - h.dEg/dwji= h Sk dkj yki = h Sk s’(skj).ekj dove ekj= Shj. whjdkh e dkj= - s’(skj).ekj MPL per EXOR x1 x2 0 0 1 1 0 1 0 1 y x2 1 0 1 1 0 y=1 y=0 y y=1 0 1 1 x1 y=0 x2 1 x1 yA 1 3 x1 x2 yA* 2 x2 1 X + A yA*=fA*(s) = 0.5 A* + yA=fA(s) = 0.5 x1 yA yA* z u(z-T) u(-z-T) 1 x2 x1 X I 2 x2 3 1 A z=f(s) =T z=f(s) =-T A* x1 z=f(s) = 0.5 Zona morta per migliorare l’affidabilità della classificazione Dead zone to improve the classifcation reliability MLP per riconoscimento di due classi con p.d.f. gaussiane (HAYKIN Cap.4.8) MLP perceptron for gaussian d.p.f. pattern (HAYKIN Cap.4.8) yA yB Parametri di addestramento: h=0.1, a=0.5 x2 x1 1 rA x2 A MLP: Pe = 0.196 Bayesiana: Pe = 0.185 XA mA X X zona di decisione sA ottima Bayesiana mB x1 X sB Note Notes a) metodo dei momenti (moments method) : Dwij(n)= a Dwij(n-1) +hdi (n)x j(n) con a<1 b) suddivisione suggerita per l’ insieme di addestramento+validazione suggested partitioning for the traing and validation tests 1. Sessione add. val. 2. Sessione 3. Sessione 4. Sessione c) normalizzazione: al valor medio e agli autovalori) (normalization to the mean and the eigen value) d) inizializzazione: pesi casuali e piccoli (funzionamento in zona lineare), h =.1, a~.9 initialization wth small and random values (linear zone operation), h=0.1, a~.9 Mappe autoorganizzate SELF ORGANIZING MAPS (SOM) a) Numero di classi (cluster) predefinito The number of classes is predefined b) Paradigma di classificazione: verosimiglianza nella distribuzione statistica Predefined classification paradigm: likelihood in statistical distribution - modello: disposizione dei neuroni sulla corteccia cerebrale; model: disposition of the brain neurons on the cerebral cortex - Modello di apprendimento: interazione eccitatoria/inibitoria dei neuroni; learning model: excitatory/inhibitory neuron interactions - rappresentazione geometrica: tassellazione di Voronoi; geometrical representation: Voronoi tasselation 1 j N Von der Malsburg 1 i N bidirectional interactions y1 yM yj 1 j w1 wj M wM x Kohonen Riduzione della dimensionalita’ (neuroni su reticolo) Dimensionality reduction (neurons on a grid) i spazio delle uscite (bidimensionale) output space (two discrete dimensionality) j x2 wi Spazio dei campioni (elavata dimensionalità) Pattern space (large and continous dimensionality) x wj x1 k Output layer (M nodes) Twodimensional Output vector y h Input layer (N nodes) x1 Input vector x2 xi x4 x Struttura delle SOM SOM structure xN 1 j yi M wji 1 i N j = argmin[d(x,wh); h=1M] yj=1; yh=0 per h j) xi -competizione (per la selezione e attivazione del nodo d’ uscita corrispondente alla massima attività) -competition (for the selection and activation of the output neuron corresponding to maximum activity) -cooperazione (per la modifica dei pesi) -cooperation (for weights modification) -adattamento sinaptico: eccitazione/inibizione -synaptic adaptation: excitatory/inhibitory Paradigma di apprendimento (Learning paradigm) Turing, 1952 Si puo’ realizzare una strutturazione globale mediante interazioni locali A global structure can need only local interactions La strutturazione e’ realizzata da interconnessioni neuronali locali The structure is implemented by local neural interconnections Principio 1. Le interconnessioni sono generalmente eccitatorie 1. Principle: Interconnections are mainly excitatory Principio 2. La limitazione delle ‘risorse’ facilita specifiche attivita’ 2. Principle: The resource limitation makes easier specific activities Principio 3. Le modifiche dei pesi sinaptici tendono ad essere cooperative 3. Principle: Weight modifcations tend to be cooperative Principio 4. Un sistema autorganizzato deve essere ridondante 4. Principle: A self organizing system has to be redundant Competizione Competition neurone vincente winning neuron : j = argmin[||x-wh||) ; h=1M] oppure or: j = argmax[xTwh ; h=1M] Cooperazione Cooperation i j distanza reticolare d(j,i) dei nodi i e j Manhattan distance d(i,j) of nodes i and j d(i,j)=5 funzioni di vicinato neighbourhood functions : Excitatory only: hi(j) = exp[- d(i,j)2 /2s2] oppure or Mexican hat: hi(j) = a.exp[- d(i,j)2 /2se2] – b exp[- d(i,j)2 /2si2] Adattamento sinaptico (Synaptical updating):Dwi= h hi(j)(x-wi) h e s2 diminuiscono durante l’apprendimento decrease during learning Autorganizzazione self organisation: h=0.1-0.01, Convergenza statistica stastistical convergence: h=0.01, 1 d(i,j) 0 Aggiornmento dei pesi con il metodo del gradiente Weights updating by gradient learning wi (i=1÷M) vettore prototipo del nodo i prototype vector of node i Error function ( winning node j): Ej(W)= 1/2Si hi(j) (x- wi)2 (i=1÷M) Computation of the gradient Manhattan distance Euclidean distance DEj (wi)= grad(Ej (wj)).Dwi= (dE(W)/dwi).Dwi Weight updating: D wi = -h dEj(W)/dwi = h hi(j) (x- wi). Classe desiderata Y* Desired class Y* yi 1 i Strato delle classi Class layer PERCETTRONE 1 Strato nascosto competitivo Hidden competive layer j M wji Strato d’ ingresso Input layer K 1 Vettore campione: x= (xi, i=1-N) Pattern vector x SOM i xi SOM supervisionata Supervised SOM N Vettore quantizzato xq (xq, i=1N) Quantized vector xqi 1 i N PERCETTRONE 1 Strato di quantizzazione Quantisation layer SOM learning q=(qj;j=1÷M) Strato d’ ingresso Campione x (xi, i=1N) qj M wji 1 SOM i xi Fig. 14c) Quantizzatore vettoriale adattativo (Adaptive Learning Vector Quantization, ALVQ) N Addestramento delle SOM supervisionate Learning Vector Quantizer (LVQ) dati di addestramento learning data: (x) a) apprendimento della SOM (con x) ; SOM learning (only x) b1) Addestramento (x,c) dello strato d’uscita (con q,x) (x,c) eq. (q,c) Outuput layer learning (with q,x) b2) Addestramento con etichettatura, Learning with labelling b3) Addestramento e etichettatura dello strato nascosto Learning and labelling of the hidden layer Dwc= +/-a (x-wc) se x appartiene o no alla classe C if x belong or not to class C Inferenza statistica delle RNA Statistical Inference of the ANN x, ck RNA (ANN) y1(x) ym(x) y*1 (x) = dl(x) = 0 y*m(x) = dm(x) = 0 yk(x) yM(x) y*k(x) = dk(x) = 1 y*M(x) = dM(x) = 0 ck =(dl(x)…. dk(x)….. dM(x)) E2= SX P(x)(Sk P(ck /x) Sm [ym(x)-y*m(x)] 2}) E2= SX P(x)(Sm {Sk P(ck /x) [ym(x)- dm(x)k]2}) E2 = SX P(x)(Sm {Sk [ym(x)- dm(x)] 2 P(ck /x) }) Sk[ym(x)- dm(x)]2 P(ck/x)= ym2(x)-2ym(x) P(cm/x) + P(cm/x)= as dm(x)=1 only for k = m and Sk P(ck/x)=1, adding and subtracting P2(cm/x) we get: [ym2(x)-2ym(x) P(cm/x) + P2(cm/x)] + [P(cm/x) - P2(cm/x)] = = [ym(x)-P(cm/x)]2 + P(cm/x) [1- P(cm/x)] where only the first term depends on the ANN, that if the ANN has been correctly updated the minimum value of E2 is obtained when: dove solo il primo addendo dipende dalla rete per cui addestrandola correttamente si ottiene il minimo di E2 per: ym(x)=P(cm/x) Reti Neuronali Adattative Teoria della risonanza adattativa Adaptive Neural Networks (Adaptive Resonance Theory, ART) Meccanismo psicofisiologico di adattamento all’ambiente: 1) Attenzione selettiva: ricerca di una situazione nel dominio di conoscenza 2) Risonanza: se l’ attenzione selettiva rileva una situazione nota 3) Orientamento: ricerca o creazione di una nuova conoscenza Vantaggi: compatibilita’ fra plasticita’ e stabilita’ Svantaggi: complessita’ della struttura e dell’ algoritmo di apprendimento Paradigm of Psychological Adaptation to the Environment: 1) Selective Attention: research in the knowledge domain; 2) Resonance: if positive response of the knowledge domain; 3)Orientation: research or implementation of new knowledge Advantages: plasticity and stability are compatible Disadvantages: complexity of the structure and of the learning algorithm Plasticity and Stability • A training algorithm is plastic if it has the potential to adapt to new vectors indefinitely • A training algorithm is stable if it preserves previously learned knowledge w + w + Input pattern representation w prototype representation + category representation Selection based on input-prototype distance Classification based on input-category distance Apprendimento: Attivazione dello strato di riconoscimento con competizione SOM (attenzione selettiva) Retropropagazione allo strato di confronto e verifica della risonanza al modello attivato Creazione di un nuovo neurone in caso di impossibilità di risonanza (orientamento) Learning Paradigm Activation of the output layer by SOM learning (selective attention) Feedback to the comparison layer and resonance evaluation with the activated pattern Implementation of a new neuron if no resonance is possible (orientation) 1 j P strato delle categorie category layer Zj Wj strato di confronto comparison layer 1 i x1 N xi xN P+1 strato di riconoscimento 1 j P P+1 wji zij strato di confronto 1 i x1 N xi xN j=argmax [xTwh, h=1÷P] Attenzione selettiva Selective attention R: coefficiente di risonanza (resonance coefficient) xTzj >r risonanza (resonance): adattamento di adaptation of wj e zj xTzj<r orientamento se (orientation if): xTzh con h > < j Se (if) xTzh <r per ogni (for each) h=1÷P si crea un nuovo nodo P+1 wP+1=x (a new node) P+1 wP+1=x is implemented ART1 For binary input pattern y1 1 yh yj h t hi x1 yP j P P+1 b ji xi xN If tjx <r||x || for all j then generate node P+1 Learning of ART1 (Pao model) Initialization: tji0=1 e bji0=1/(1+N) Competition phase: yj=bjTx j=argmax[yp; p=1÷P] Selective attention: verification of the resonance if tjTx>r||x|| resonance is satisfied then (risonanza) weight updating tjik+1= tjik xi e bjik+1= tjik xi/(0,5+ tjkx) else (orientamento): a new node is implemented tji0=1 e bji0=1/(1+N) Struttura di principio delle reti ART Basic ART Structure F2 strato dei nodi delle categorie STM rappresentazione della categoria estratta F2 field of category nodes STM representation of the extracted category LTM rappresentazione dell’informazione appresa e memorizzata (in F1 e F2) LTM representation of the learned and stored information (in F1 and F2) F1 strato dei nodi di confronto STM rappresentazione filtrata dei pattern d’ingresso e di categoria F1 field of comparison nodes STM representation of filtered input and category pattern STM: Short Term Memory (Attività dei nodi) LTM: Long Term Memory (Pesi delle connessioni) A: control node Input I generates activity pattern X, non specifically activates A and extracts category Y Category pattern V generates activity X* and deactivates A Because of mismatch a new category is searched A new category is extracted A new comparison cycle is started !! ART2 F1: Categrory layer Reset if r/|r|>1 r=u+cp p=u+g(yJ)zJ J is the selected category q= p/|p| v=f(x)+bf(q) u=v/|v| x=w/|w| w=i+au F1: Patterns layer Category selection Resonance evaluation F1 loop-processing p =u u=v/|v| v=bf(q,q)+f(q,x) q=p/|p| x=w/|w| w=au+i Then: Th=p.zBh J= argmax [Th, h= 1÷P] F2 Top-down and F1 loop-processing p =u+dzTJ u=v/|v| v=bf(q,q)+f(q,x) q=p/|p| x=w/|w| w=au+i Then: r= (u+cp)/(|u|+c|p| Parameters: a;b;q Non linear filter f(x)= 0 if x < q else f(x) =x Resonance condition: r/|r|<1 Parameters: d,c, r If resonance ART learning for category J: F1-F2 connection weights updating F1 F2: DzBJ= du-d(1-d)zBJ F2 F1: DzTJ= du-d(1-d)zTJ else Reset and Orientation: selection of another category: next lower Th If no resonance: implementation of a new category Caratteristiche di ART2 ART2 characteristics a. Compromesso fra stabilità e plasticità Stability/Plasticity Trade-Off b. Compromesso fra ricerca e accesso diretto Search/Direct-Access Trade-Off c. Compromesso fra inizializzazione econfronto Match/Reset trade-Off d. Invarianza delle rappresentazioni (STM) durante l’estrazione delle informazioni memorizzate (LTM) STM Invariance under Read-Out of Matched LTM e. Coesistenza dell’estrazione di LTM e normalizzazione di STM Coexistence of LTM Read-Out and STM Normalization f. Invarianza di LTM all’ applicazione di ingressi particolari No LTM recording by Superset Inputs g. Scelta stabile fino all’azzeramento Stable choice until reset. h. Aumento del contrasto, soppressione del rumore e riduzione del confronto con filtraggi non lineari Contrast Enhancement, Noise Suppression and Mismatch Attenuation by Non Linear Filtering i. Autostabilizzazione veloce Rapid Self-stabilzation j. Normalizzazione Normalization k. Elaborazione locale Local Computation a) b) Classificazione ART ART classification (a) soglia bassa, low threshold (b) soglia alta, high threshold Da: G.A. Carpenter e S. Grossberg: Applied Optics, 1987, Vol 26 p. 4920, 49221 x2 x=(x1,x2) x1 Computer experiment: apply ART2 to category recognition