APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA 4 IDENTIFICAZIONE DI TUMORI POLMONARI BASATA SU ENSEMBLE DI RETI NEURALI • Chiave della cura del tumore polmonare è la diagnosi precoce. La diagnosi automatica diventa quindi sempre più importante. • Diversi esempi di reti neurali sono stati sviluppati a questo scopo. • Descriviamo qui la Neural Ensemble-based Detection (NED). • Utilizza le immagini di agobiopsie. • ENSEMBLE DI RETI NEURALI • Hansen e Salamon (1990) hanno dimostrato le ottime prestazioni di ensemble di ANN, ossia di varie reti le cui predizioni vengono combinate. • Applicazione al riconoscimento di caratteri con 20-25% di prestazioni in più rispetto ad una singola rete. • E’ necessario un metodo sia per generare diverse reti da addestrare, sia per combinare diverse predizioni. • Diversi metodi sono stati proposti, dalla combinazione per semplice media all’uso della varianza e della correlazione. • ENSEMBLE DI RETI NEURALI • Ensemble di ANN sono state usate per: …. riconoscimento di caratteri riconoscimento di volti classificazione di segnali sismici diagnosi di tumore della mammella ENSEMBLE DI RETI NEURALI NED • NED segue il metodo di diagnosi LCDS , che si abbina alla lastra del torace quando ci sono dei dubbi. • Una telecamera riprende le immagini dell’agobiopsia, poi un sistema di filtri migliora l’immagine. • Tecniche colorimetriche e morfologiche estraggono diverse features: perimetro, area, rotondità, componenti rossa,verde, blu, proporzioni fra i colori. • Un modulo a parte analizza le features e dà la diagnosi e il tipo di cellula. ENSEMBLE DI RETI NEURALI NED • Il data set comprende 552 immagini di biopsie già etichettate • 75% tumori • Il set è stato diviso in 5 gruppi omogenei • Ogni esperimento è stato ripetuto 5 volte, con 4 set per il training e 1 per il testing. • All’inizio fu usata una sola rete usando FANNC • FANNC è un classificatore adattivo veloce (Fast Adaptive NN Classifier). ENSEMBLE DI RETI NEURALI NED • Ai risultati dei 5 esperimenti è stata aggiunta la loro media. • Sono stati valutati: • errore = false identificazioni/numero di immagini • errorefn = numero di falsi negativi/numero cellule test • errorefp = numero di falsi positivi/numero di cellule test. • I risultati erano insoddisfacenti (accuratezza <60%) ENSEMBLE DI RETI NEURALI NED • Sono stati provati due tipi di ensemble: 1) combinazione delle predizioni via plurality voting : • Se ad es. due reti predicono NORMALE e due ADENOCARCINOMA, l’identificazione è data sbagliata. • Se la cellula è tumorale vengono accresciute di uno sia gli errori che i falsi negativi. • Se la cellula è normale vengono accresciuti di uno sia gli erroi che i falsi positivi. • In questo modo i risultati migliorano molto rispetto alla singola rete • Gli errori vengono dimezzati • Ma i falsi negativi sono ancora il 7.3% ENSEMBLE DI RETI NEURALI NED 2) Viene fatta una variazione della proposta di Sharkey ( due ensemble di cui uno con un set di esempi con prevalenza di reperti positivi ) per abbassare i falsi positivi: • Vengono addestrati 5 ensemble, ciascuno con 5 reti ciascuna con esempi positivi nel 75% dei casi. • Poi gli output dei 5 ensemble vengono combinati in modalità winner-take-all. • In questo modo scende l’errore globale a 13.6% e scende l’errorefp fino a 2.9%. ENSEMBLE DI RETI NEURALI NED • Per abbassare i falsi negativi viene proposta NED, architettura ensemble a due livelli. • Il primo livello giudica se una cellula è cancerosa • Viene utilizzata la tecnica di predizione combinata full voting: una predizione è data per valida quando tutte le reti individuali la convalidano. • Questo avviene anche fra clinici per decidere se un paziente è sano. • E’ utile quando ci sono solo due scelte e uno è molto più importante dell’altra. ENSEMBLE DI RETI NEURALI • Per usare full voting le classi di output vengono ridotte a due: 75% cellule cancerose / 25% cellule sane. • Le cellule giudicate sane dal primo ensemble vengono passate al secondo ensemble per la classificazione. • Nel secondo si usa il plurality voting come descritto. • I risultati sono un miglioramento netto di tutti gli errori: Errore 11.6 % Errorefn 2.7% Errorefp 4.5% • Si pensa di migliorare il sistema utilizzando visulaizzazioni 3D. UN METODO DI RICERCA DI EPISODI ISCHEMICI BASATO SU RETI NEURALI • L’ischemia del miocardio è una fornitura di sangue insufficiente al muscolo cardiaco. • Lo ECG presente in questo caso delle alterazioni (deviazione del segmento ST e/o dell’onda T). • La diagnosi di ischemia via ECG rileva il battito ischemico e l’episodio ischemico come sequenza di battiti ischemici. • Sono stati proposti sistemi basati su regole, ANN, fuzzy logic, varie tecniche di analisi dei segnali. • Poiché il rumore nell’ECG è una presenza importante, le ANN possono essere lo strumento adeguato. UN METODO DI RICERCA DI EPISODI ISCHEMICI BASATO SU RETI NEURALI • La procedura proposta parte con un preprocessing dell’ECG eliminando rumore, interferenze elettriche e contaminazione elettromiografica. • Un algoritmo di edge detection trova il punto J di inizio del ciclo cardiaco. • A valle una rete neurale viene addestrata per classificare ogni battito cardiaco. • Si cercano intervalli di circa 30s in cui almeno il 75% dei battiti sono ischemici. • La percentuale 74 offre flessibilità nel caso di presenza di rumore. UN METODO DI RICERCA DI EPISODI ISCHEMICI BASATO SU RETI NEURALI • Per la classificazione dei battiti viene usata una rete feed-forward: - 4 unità di input - 10 unità nascoste 1 unità di output. • I pattern di input durano 400ms a partire da ogni punto J • comprendono sia tratto ST che onda T. • Per ridurre la dimensionalità dell’input viene usata l’analisi delle componenti principali: • Elimina le componenti che danno la minor varianza al training set. • Vengono utilizzate le prime 4 componenti principali, che contengono il 95% della varianza. UN METODO DI RICERCA DI EPISODI ISCHEMICI BASATO SU RETI NEURALI • La rete viene addestrata secondo la tecnica di regolarizzazione Bayesiana, che minimizza • • E = a1 S (ti – oi)2 + a2 S wi2 • • dove ti sono gli output desiderati, oi gli output durante il training, wi i pesi. • I pesi vengono aggiornati secondo la legge • • wi+1 = wi – [JT J + mI]-1 JT • • dove J è lo Jacobiano, I la matrice unitaria, e il vettore degli errori e m un parametro scalare. UN METODO DI RICERCA DI EPISODI ISCHEMICI BASATO SU RETI NEURALI • Per costruire il dataset sono state utilizzate 11 ore di registrazioni ECG. • 86.384 battito sono stati classificati come normali, ischemici o artefatti. Gli artefatti sono stati eliminati, e sono rimasti 76.989 battiti. • Di questi 1936 sono stati usati per il learning e il resto per il testing. • Sono stati provati diversi strati hidden e diverse tecniche di apprendimento.. UN METODO DI RICERCA DI EPISODI ISCHEMICI BASATO SU RETI NEURALI • Le prestazioni delle reti così ottenute sono state valutate usando sensibilità (se) e specificità (sp). • Sensibilità è la probabilità che un battito anomalo risulti positivo al test • Specificità è la probabilità che un battito sano risulti negativo al test • La rete con le migliori prestazioni è stata usata come classificatore nel secondo stadio dell’algoritmo, sostituendo il sistema di regole. UN METODO DI RICERCA DI EPISODI ISCHEMICI BASATO SU RETI NEURALI • Le migliori prestazioni risultano quelle con metodo Bayesiano con 10 nodi hidden. • Il risultato è Se=90%, Sp=90% (backpropagation 89 e 88%) contro Se=70% e Sp=63% del sistema di regole. • Le prestazioni possono essere perfezionate da: • miglioramento della tecnica di edge detection per J o per T • miglioramento delle tecniche di filtraggio del rumore. • Svantaggio del metodo è che non fornisce alcuna interpretazione dell’output, utile al cardiologo. DUE TECNICHE DI RULE EXTRACTION APPLICATE A DISTURBI EPATOBILIARI • Gli algoritmi di estrazione di regole da reti neurali danno modo di capire la classificazione ottenuta in output. • Le regole possono essere verificate da un esperto • Le regole possono dare nuove informazioni sui dati • Sono utili per il clinico che utilizza la rete • Sono utili a scopo didattico. DUE TECNICHE DI RULE EXTRACTION • Sono stati utilizzati i due algoritmi, NeuroLinear e NeuroRule, che hanno in comune i seguenti punti: - Addestrano e semplificano (pruning) reti con un unico strato nascosto Raggruppano i valori di attivazione dello strato nascosto Generano regole che esplicano l’output della rete Generano regole che esplicano i raggruppamenti di attivazione in funzione degli input Compongono i set di regole sopra esposti in un set di regole esplicative dei dati di input. DUE TECNICHE DI RULE EXTRACTION • La differenza fra i due metodi sta nel fatto che NeurRule assume dati discreti, NeuroLinear non impone questa restrizione. • I dati vengono discretizzati suddividendoli in 3 subrange. • Non si rileva diversa accuratezza nella rete ad input discreto • Ma la rete ad input continuo ha minori connessioni, quindi ci si aspettano meno regole. DUE TECNICHE DI RULE EXTRACTION • Le reti sono due feedforward ad uno strato nascosto. • Ci si attende che dove le connessioni non sono utili a classificare un pattern il loro peso sia basso. • Di fatto minimizzando un errore si effettua un problema di ottimizzazione non lineare. • A questo scopo gli autori hanno sviluppato un metodo ad hoc (BFGS) al posto della backpropagation. • Questo algoritmo sembra convergere più velocemente. DUE TECNICHE DI RULE EXTRACTION • Si crea una matrice che è l’inversa dell’Hessiana della funzione di errore. • Si ottiene un passo di minimizzazione multiplicando la matrice per il negativo del gradiente della funzione. • Usando un algoritmo di ricerca lineare, si calcola la misura opportuna dello step decrescente. • Usando BFGS si garantisce la discesa dell’errore totale ad ogni iterazione. • Questa proprietà non è posseduta dalla backpropagation. • DUE TECNICHE DI RULE EXTRACTION • Una volta addestrata la rete, vengono identificate le connessioni ridondanti per rimuoverle. • La classificazione non viene alterata da questo procedimento. • Ogni record è costituito dal sesso del paziente e da 9 test biochimici (GOT, GPT, LDH,…) • Il dataset è di 536 pazienti. I pazienti, esaminati dai clinici, presentavano 4 tipi di disturbi: -danno epatico da alcol (ALD) epatoma primario (PH) cirrosi (LC) colelitiasi (C ) DUE TECNICHE DI RULE EXTRACTION • Il training set è stato posto a 373 records e il test set a 163. • Per il programma NeuroLinear sono state addestrate 30 reti, ciascuna con 11 input (10 valori più 1 bias), 5 hidden e 4 output. • Per il programma NeuroRule sono state addestrate altre 30 reti, discretizzando l’input in tre subrange per variabile. I nodi di input erano quindi 9x3+1+1=29. • L’accurateza trovata e’ dell’85.64 e 84.64% rispettivamente, e non varia dopo il pruning. Varia però la complessità delle reti dopo il pruning: 75 connessioni per NeuroLinear e 165 per NeuroRule. • • REGOLE DI ESTRAZIONE • Data una rete, per ciascun record viene registrato quale unità di output ha l’attivazione più alta e quale ha la seconda più alta attivazione. • Si raggruppano poi i valori di attivazione dello strato hidden generando regole di decisione che distinguono i vari output. • Gli input rilevanti risultano essere solo x1,x3,x5,x8,x9,x12. • REGOLE DI ESTRAZIONE • • • • • • • • • • • • • • • Si sviluppa un albero di decisione: H1 <= -.80 : H3 >0: prima scelta: PH, seconda scelta: ALD H3<=0: H3<=-.70: prima scelta: ALD, seconda scelta: C H3>-.70: prima scelta:ALD, seconda scelta:PH H1 > -.80 H3<= .20: …………….. REGOLE DI ESTRAZIONE • Secondo passo. • Si riuniscono le regole riscrivendole in questa forma: • H1 <= -.80. • H1 è connessa solo agli input x1 e x12, ossia paziente maschio e GGT>60. • H3>0 • H3 è connessa a x3,x5,x8,x9,x12, ossia se il paziente è maschio con GGT>60, x9=1 cioè LDH>500. REGOLE DI ESTRAZIONE • Si conclude che se il paziente è maschio, con GGT>60, e LDH >500, il suo disturbo è un epatoma (prima scelta) o un danno epatico da alcol (seconda scelta). • NeuroLinear • Dopo il pruning restano solo 15 connessioni, con 4 hidden. • La prima unità hidden riceve input da GPT, la seconda e la terza da GGT, la quarta da GOT,GPT e LDH. • Il numero di regole completo è alla fine molto ristretto. REGOLE DI ESTRAZIONE • Sono stati confrontati i risultati di reti neurofuzzy e dell’analisi discriminante. • I risultati di NeuroRule e NeuroLinear sono molto più alti (es. per ALD 87.9% e 97.0% contro 57.6% dell’analisi discriminante e 69.7 % della rete neurofuzzy). • Oltre a produrre regole, i sistemi dicono quali variabili sono predittive e quali no. • Ad esempio si è visto che i parametri importanti erano GOT, GPT,LDH e GGT.