Automated counting of phytoplankton by pattern recognition: a comparison with a manual counting method K. V. EMBLETON, C. E. GIBSON AND S. I. HEANEY Introduzione • In questo articolo si mettono a confronto 2 metodi di • • • • studio del fitoplancton nel lago Lough Neagh nell’Irlanda del nord: uso di reti neurali e analisi manuali. Problema: le misure manuali tramite microscopio richiedono troppo tempo. L’analisi delle immagini in modo automatico e il metodo del pattern recognition permette l’identificazione, il conteggio e le misurazioni del fitoplancton. Trasformazione dei dati in parametri utilizzati dalle reti neurali. Confronto del volume totale delle cellule ottenuto dai 2 metodi. Metodologia: analisi convenzionali • Il campione selezionato per l’analisi fa parte del • • • programma di monitoraggio del Dipartimento dell’Agricoltura dell’Irlanda del nord (DANI). I campioni sono raccolti in superficie e fissati con la soluzione di Lugol. I vetrini studiati al microscopio invertito, sono di 2.2 ml con diametro 26 mm. Analizzate 4 specie di volume noto: 2 cianobatteri filamentosi Planktothrix agardhii (Gomont) Anagnostidis e Limnothrix redekei (Van Goor) Meffert; colonia di diatomea Aulacoseira subarctica (Müller) Haworth; la diatomea Stephanodiscus astraea (Eh.) Kütz. Metodologia: sistema automatico di conteggio • I vetrini per l’analisi automatico sono di volume 0.71 ml. • La media del numero di oggetti contenuti per ogni • • • • • • immagine è nel range 1.6-12.5. Microscopio utilizzato è Olympus con ingrandimento 20x. Macchina fotografica Sony DXC-930P. Dimensioni immagini 768x576 pixel. Analisi immagini con pacchetto software KS400. Le reti neurali usano NeuroSolution. I risultati portati poi in fogli Excel. Metodologia: elaborazione delle immagini • L’acquisizione, il trattamento e l’analisi delle • • immagini è controllato da una macro scritta nel pacchetto software KS400. Le foto sono scattate da un operatore che calibra la luminosità e la messa a fuoco. Per ogni foto viene fissata una soglia per identificare le regioni di interesse trasformandola in un’immagine binaria (2 livelli di grigio). Metodologia: elaborazione delle immagini • Vengono eliminati i bordi e riempiti i buchi • • • • all’interno delle regioni di interesse. All’immagine binaria viene applicato un filtro mediano per lisciare i contorni. Le regioni troppo piccole vengono eliminate. Con l’uso di un filtro passa basso vengono identificati gli incroci fra i filamenti. Infine ogni regione viene etichettata. Metodologia: elaborazione delle immagini a. immagine al b. c. d. e. f. microscopio. Soglia binaria. Filtro mediano. Filtro passa basso. Identificazione incroci. Immagine etichettata. Reti neurali • Funzionano come il cervello umano, fatti di tanti neuroni • • • • • • che lavorano insieme per risolvere un problema. Imparano per esempi. Si occupano del riconoscimento delle immagini (Pixel [0,255]). Si ha una risposta finale che è si o no. Esiste una fase di addestramento e uno di funzionamento. Implicazione più importante pattern recognition. Esistono diversi tipi di reti neurali: feed-forward, feedback. Addestramento delle reti neurali • Viene stabilito un set di 74 parametri per ogni • • • immagine (per lo più geometrici). Il database contenente i parametri viene riempito anche con parametri di oggetti estranei per addestrare e riconoscere i falsi. Tutte le reti neurali utilizzate sono feed-forward MLP addestrate con l’algoritmo di back propagation. Ogni rete ha come nodi di input un sottoinsieme dei 74 parametri, un hidden layer di 10 nodi, 1 solo nodo di output (range +1,-1). Addestramento delle reti neurali • Sono stati fatti tentativi con più hidden layer • • senza un miglioramento apprezzabile del risultato. Durante l’addestramento i pesi sui nodi venivano continuamente aggiustati anche a mano per ridurre l’errore tra risultato desiderato ed ottenuto. Il database contenente i valori dei parametri è stato diviso in 2 parti. Addestramento delle reti neurali • 80% dei dati è stato usato come insieme • • • • d’addestramento, 20% come test della rete. L’addestramento è continuato finchè l’errore sul test set non ha cominciato ad aumentare invece che diminuire. Per ognuna delle 4 specie è stata fatto una differente rete neurale. L’output di queste reti era “riconosciuto” o “non riconosciuto”. Questo approccio è stato scelto in previsione di aggiungere nuove specie. Addestramento delle reti neurali • In questo modo per ogni specie nuova si aggiunge una • • • rete nuova simile alle precedenti. Altrimenti usando una sola rete con più nodi di output ogni nuova aggiunta comporterebbe il riaddestramento di una nuova rete. Ogni rete aveva come parametri di input solo un piccolo insieme dei 74 parametri misurati, diverso per ogni rete, scelto in modo da ottimizzare il riconoscimento. Si sono usate delle regole aggiuntive sui parametri per validare la classificazione ottenuta dalla rete. Nella tabella sotto sono riportati i parametri considerati ottimali in quanto comportano minori errori. Nella tabella sono riportati i 74 parametri ottenuti dalle misurazioni dei campioni. Prova del sistema • I classificatori sono stati testati prendendo campioni del lago Lough Neagh, 75 immagini per ogni campione. • I volumi sono stati calcolati a mano e con il metodo automatico per il confronto dei risultati. • 5 campioni sono stati messi da parte per poter poi ripetere la procedura più volte. Risultati • La procedura automatica richiede 7 minuti circa di tempo operatore per scattare 75 foto per ogni campione; 3040 minuti di tempo di computazione. • Alla fine della procedura automatica viene generato una tabella in Excel per la visualizzazione dei risultati. Risultati • Confronto fra metodo manuale e automatico. • Il volume calcolato automaticamente è entro il 10% di quello calcolato manualmente. • La misura del volume può essere soggetta a doppio errore che si compensa (mancate identificazioni compensate da falsi positivi). Risultati • Confronto fra le classificazioni delle singole • specie. Problemi nel distinguere tra 2 specie filamentose simili. Risultati • Confronto tra i volumi delle singole specie. • Risultato simile alla precedente siccome il volume medio è sempre lo stesso. Confronto su analisi ripetute di 5 campioni. Conclusioni • Vantaggi del sistema automatico: veloce, richiede meno • • • esperienza, dà risultati accettabili nella stima del volume totale. Con il progredire della tecnologia (macchine digitali più sofisticate, maggiore risoluzione, maggiori capacità di calcolo) è possibile ridurre gli errori. Sono richiesti ulteriori studi per affinare la scelta dei parametri delle immagini da utilizzare nelle reti neurali. Con minor parametri (scelti opportunamente) in input si risparmia tempo e si riducono gli errori. Conclusioni • La maggior parte degli errori è dovuta a cellule • • in contatto fra loro difficilmente separabili con tecniche di elaborazione delle immagini. Molti altri errori sono dovuti alla larghezza dei filamenti che con la risoluzione utilizzata spesso era di 2-3 pixel (il filtro mediano li cancella). Il contrasto può essere migliorato con l’utilizzo della soluzione di Lugol o con l’utilizzo della fluorescenza (o anche tramite il metodo del Calcofluor nel caso dei dinoflagellati). Ordine Peridiniales Haeckel 1894: Famiglia Protoperidiniaceae Balech 1988 • Protoperidinium steinii e Protoperidinium conicum Ordine Dynophysiales Lindemann 1928: Famiglia Dinophysiaceae Stein 1883 • Dinophysis rotundata Claparède et Lachmann • Dinophysis sacculus Stein