APPROSSIMAZIONE DI FUNZIONI AF - 1 • La regressione e la classificazione sono due aspetti particolari dell’ APPROSSIMAZIONE DI FUNZIONE • Le MLP possono essere viste come particolari REGRESSORI NON LINEARI PROBLEMA Sia: x input d = f ( x ) funzione incognita x Obiettivo : trovare f (.) assegnato un numero finito di coppie ( x , w ) f (.) incognita d fˆ x, w y risposta desiderata + e • y fˆ x, w dipende dalla scelta di w che può essere modificato per minimizzare la discrepanza tra y e d • quando y approssima d, il sistema adattativo sta approssimando f x con la sua mappa input-output y fˆ x, w AF - 2 • La natura di f (.) e il criterio di errore definiscono il problema di learning – Se f (.) lineare e criterio di errore MSE REGRESSIONE LINEARE – Se f (.) produce valori 1/0 ( -1/ 1 ) classificazione. In tale caso la funzione è chiamata FUNZIONE INDICATORE – Anche il problema della generalizzazione può essere trattato matematicamente nell’ottica dell’approssimazione di funzioni UTILITA’ DELLE RNA NELL’APPROSSIMAZIONE DI FUNZIONE – SONO APPROSSIMATORI UNIVERSALI – SONO APPROSSIMATORI EFFICIENTI – POSSONO ESSERE IMPLEMENTATE COME SISTEMI ADATTATIVI OBIETTIVO DELLA AF AF - 3 Descrivere il comportamento di funzioni altamente complesse utilizzando insiemi di funzioni più semplici Es: - Legendre e Gauss uso di polinomi - Sviluppo in serie di Taylor approssimazione nell’intorno di un punto - Serie di Fourier uso dei polinomi trigonometrici Generalizzazione Hp: f ( x) reale x x1,, xD T reale f (x) quadratica mente integrabil e TEOREMA DELLA PROIEZIONE LINEARE Si può descrivere f(x), in una area compatta S dello spazio degli ingressi attraverso una combinazione di funzioni semplici jix), cioè: N fˆ ( x, w) wiji ( x) i 1 con w w1,, wN tale che : f ( x) fˆ ( x, w) e Con e arbitrariamente piccolo fˆ ( x, w) approssima nte di f ( x) ji funzioni elementari REALIZZAZIONE AF - 4 j1 j2 x1 x2 w2 jk wk xd w1 S f (x,w) wN jN Quando si determinano i coefficienti wi che rendono e arbitrariemente piccolo per qualunque f (.) nel dominio d’interesse si dice che l’insieme {ji (.)} ha la proprietà di approssimatore universale sulla classe f (.), o anche che l’insieme è completo PROBLEMI 1. SCEGLIERE LE FUNZIONI ELEMENTARI ji (.) 2. CALCOLARE I PESI wi 3. SELEZIONARE IL NUMERO N DI FUNZIONI ELEMENTARI 1. AMPIA SCELTA (TRIGONOMETRICHE, SINC, WAVELET, etc.) Nota: I neuroni nascosti di una MLP con 1 strato nascosto implementano una possibile scelta delle funzioni elementari ji (.) 2. La scelta dei wi dipende dal criterio usato per calcolare la discrepanza tra f (x ) e fˆ ( x, w) Es: criterio LS i wi possono essere calcolati analiticamente AF - 5 Se N è pari al numero di pattern d’ingresso xi: si può scrivere: j1 ( x1 ) j N ( x1 ) w1 f ( x1 ) w 1 f j1 ( xN ) j N ( xN ) wN f ( xN ) f è un vettore dei valori della funzione negli N punti CRITERI PER LA SCELTA DELLE {ji(.)} • Devono essere approssimatori universali per la classe di funzioni f(.) • Devono essere facilmente trattabili matematicamente • Deve esistere 1 ( x) verificato se le ji costituiscono una base, cioè sono linearmente indipendenti w1j1( x) wNj N ( x) 0 se e solo se (w1,, wN ) 0 SPESSO SI ASSUME CHE LE {ji(.)} SIANO UNA BASE ORTONORMALE TEOREMA DEL CAMPIONAMENTO AF - 6 Si può approssimare qualunque segnale reale che sia smooth in un intervallo conoscendo i valori del segnale in un insieme finito di punti equispaziati (detti campioni) nell’intervallo a) Funzioni sinc ji ( x) sinc( x xi ) sin( x xi ) x xi Si può dimostrare che i pesi sono i valori del segnale nei punti di campionamento b) Serie di Fourier AF - 7 c) Wavelet • Nella trasformata di Fourier le funzioni elementari hanno estensione infinita nel tempo • In molte applicazioni i segnali hanno durata temporale finita (es. transitori) • L’idea alla base dell’analisi wavelet è di scegliere una forma d’onda adatta a rappresentare il segnale e poi creare molte versioni traslate e scalate dell’onda “madre” • La decomposizione wavelet ha due parametri: fˆ ( x, w) wijjij ( x) i j jij ( x) 2 j / 2j (2 j x i ) Traslazione e scalatura di una wavelet • Usando sistemi adattativi i pesi possono essere trovati attraverso il learning piuttosto che analiticamente AF - 8 • Le basi sono dipendenti dai dati Basi per l’approssimazione di funzioni non lineari con le MLP • Funzioni elementari locali: rispondono primariamente ad un’area limitata dello spazio degli ingressi • Funzioni elementari globali: rispondono all’intero spazio degli ingressi j1 b +1 1 X1 X2 XD a11 ji w1 w1 S y ji ( x) aik xk bi k y wiji i La MLP realizza l’approssimazione di funzione usando come basi esattamente le uscite dei neuroni nascosti Approssimazione con funzioni logistiche AF - 9 Nota: i neuroni sigmoidali realizzano funzioni elementari globali Interpretazione: la MLP sta realizzando una approssimazione di funzione con un set di BASI ADATTATIVE che vengono realizzate dai dati di input-output Esse dipendono dai pesi del primo strato e dagli ingressi RADIAL BASIS FUNCTION (RBF) AF - 10 ji ( x) ( x xi ) • di norma è una gaussiana: x2 G ( x ) exp 2 mono - dimensiona le 2 x T 1 x multi - dimensiona le G ( x ) exp 2 2 : varianza 2 I : matrice di covarianza • La gaussiana è centrata in x i con varianza 2 : ha il massimo della risposta nell’intorno dell’ingresso x i e decade esponenzialmente col quadrato della distanza • Sono funzioni elementari locali N • Dalla: ˆ f ( x, w) wij i( x) i 1 fˆ ( x, w) wiG x xi i APPROSSIMAZIONE CON RBF monodimensionale L’APPROSSIMAZIONE CON RBF RICHIEDE: AF - 11 • Il posizionamento delle Gaussiane per coprire lo spazio degli ingressi • Il controllo dell’ampiezza di ciascuna Gaussiana • Il controllo della larghezza di ciascuna Gaussiana DIFFERENZE TRA MLP E RBF RBF: - basi locali modificandone una non si influenza l’approssimazione nelle altre zone dello spazio - il numero di RBF cresce esponenzialmente con le dimensioni dello spazio da coprire - Allenamento efficiente una volta determinati i centri delle funzioni infatti l’errore è lineare coi pesi - Convergenza al minimo globale purché i pesi siano posizionati in modo ottimo LE RBF SONO MOLTO ADATTE PER L’IDENTIFICAZIONE DI SISTEMI Scelta del numero di basi AF - 12 Una scelta ottimale discende da un compromesso tra l’errore sul modello e la sua varianza Analogia col fitting polinomiale Alto bias (errore) Alta varianza non generalizza • I fiducial sono gli esempi del trainig set • Il dominio completo è costituito da tutti i dati possibili d’ingresso • Il polinomio corrisponde alla mappa input/output creata dalla rete • I coefficienti del polinomio equivalgono ai pesi delle connessioni • Il grado del polinomio corrisponde al numero di pesi