Modellistica ambientale: applicazioni e prospettive Prof. Michele Scardi Dipartimento di Biologia Università di Roma “Tor Vergata” http://www.mare-net.com/mscardi [email protected] sistema reale astrazione interpretazione modello 1 Tipologie di modelli • Modelli fisici (es. mesocosmi) • Modelli concettuali (es. modello di Tilman) • Modelli analitici (es. modello di Lotka-Volterra) • Modelli empirici (es. modello di Von Bertalanffy) Modelli fisici 2 Modelli concettuali self-shading Funzione forzante Immagazzinamento passivo N Produttore primario L + Consumatore Dissipazione Fattore limitante T P Elemento di controllo Z Flusso 3 Modelli analitici 4 dP = f ( I , T , N ) P − g ( P, T ) Z − cmp P ± scambi dt dZ = g ( P, OM , T ) Z − h(T ) Z − cna g ( P, T ) Z − cmz Z ± scambi dt dOM = cmp P + cna g ( P, T ) Z − k (T )OM − cs OM ± scambi dt dN = 12.6( g ( P, T ) Z + k (T )OM − f ( I , T , N ) P ) ± scambi dt g ( P, OM , T ) = g max ⋅ [g1 ( P ) + g 2 (OM )]⋅ g 3 (T ) T T 1− Topt g3 (T ) = e Topt Parametri del modello (assunti come costanti) densità iniziale fitoplancton (Chl mg m-3) densità iniziale zooplancton (DW mg m-3) concentrazione iniziale SOM (mg C m-3) conc. iniziale azoto inorg. (mM N dm-3) numero di giorni simulati dall'1 gennaio torbidità relativa (componente inorganica) temperatura massima acqua (°C) temperatura minima acqua (°C) tasso di crescita massimo del fitoplancton pendenza della curva di crescita come f(T) costante di semisaturazione per l'azoto tasso di mortalità naturale fitoplancton cost. conversione mg C dm-3 -> mM NXy dm-3 tasso di crescita max zooplancton erbivoro costante di semisaturazione per il grazing coeff. preferenza grazing su fitoplancton coeff. preferenza grazing su part. org. tasso di respirazione a 0 °C pendenza curva respirazione [f(T)] razione di fitoplancton non assimilata tasso di mortalità dello zooplancton tasso di decomposizione della SOM a 0 °C pendenza funzione decomposizione [f(T)] tasso di sedimentazione della SOM 10 0.2 20 1 1460 2 26 10 0.59 0.075 1.1 0.15 0.0126 1.2 25 0.66 0.33 0.06 0.085 0.33 0.21 0.05 0.06 0.33 5 ⎧ dN1 ⎪ dt = rN1 − aN1 N 2 ⎪ ⎨ ⎪ dN 2 ⎪ dt = baN1 N 2 − mN 2 ⎩ 6 = 0 per N2= = 0 per N1= m ba 80 N2 60 N1N2- N1N2+ N1+ N2- N1+ N2+ r a 40 20 0 0 20 40 60 80 N1 Sub MODELLO(f(),Y(),r1,p1,r2,m2) 'prede f(1) = r1 * Y(1) - p1 * Y(1) * Y(2) 'predatori f(2) = r2 * p1 * Y(1) * Y(2) - m2 * Y(2) End Sub Static Sub PREDCORR(x0, x9, k1, n%, k5, e, z%, fl%) ReDim w(1 To 9) As Single ReDim h2(n%, 22) As Single On Error GoTo ErrorHandler 'verifica le possibili condizioni di errore alla chiamata If x0 >= x9 Then fl = 1: Exit Sub If (n% <= 0) Or (n% <> Int(n%)) Then fl = 2: Exit Sub If (k5 <= 0) Or (k5 <> Int(k5)) Then fl = 3: Exit Sub If (k1 <= 0) Or (k1 <> Int(k1)) Then fl = 4: Exit Sub If e < 0.000000001 Then fl = 5: Exit Sub If (z - 1) * (z - 2) <> 0 Then fl = 6: Exit Sub 'definizione delle costanti w(1) = 0.2071067811865 w(2) = 0.2928932188135 w(3) = 0.1 'inizializzazione For i% = 1 to n% For j% = x0 to x9 … 7 Skip http://www.mare-net/mscardi/work/ecologia/mod_preda_predatore.xls 8 ⎧ dN1 ⎛ N1 ⎞ rN = ⎟ − aN1 N 2 1 ⎜1 − ⎪ dt K ⎝ ⎠ ⎪ ⎨ ⎪ dN 2 ⎪ dt = baN1 N 2 − mN 2 ⎩ competizione intraspecifica fra prede 300 60 preda 250 predatore 50 200 40 Q 150 30 100 20 50 10 0 0 0 20 40 60 80 100 120 t ⎧ dN1 ⎛ N1 ⎞ ⎪ dt = rN1 ⎜1 − K ⎟ − a1 N1 N 2 ⎝ ⎠ ⎪ ⎪ ⎪ dN 2 = b1a1 N1 N 2 − a2 N 2 N 3 ⎪ ⎨ dt ⎪ ⎪ dN ⎪ 3 = b2 a2 N 2 N 3 − mN 3 ⎪ dt ⎪ ⎩ 0 50 100 150 200 250 P competizione intraspecifica fra prede la mortalità dei predatori dipende solo da predatori di livello superiore al vertice della rete trofica, la mortalità è solo per senescenza (in questo caso si assume il tasso di mortlaità come una costante) 9 300 250 P, Q, R 200 preda 150 predatore 1 predatore 2 100 50 0 0 5 10 15 20 25 t 7 7 25 6 6 5 5 4 4 15 R Q 20 R 30 3 3 2 2 1 1 10 5 0 0 0 0 50 100 P 150 0 50 100 150 0 10 P 20 30 Q ⎧ dN1 ⎛ N1 ⎞ = rN ⎜1 − ⎟ − (a1 N 2 + a2 N 3 )N1 1 ⎪ dt K ⎠ ⎝ ⎪ ⎪ ⎪ dN 2 = b1a1 N1 N 2 − m1 N 2 ⎪ ⎨ dt ⎪ ⎪ dN ⎪ 3 = b2 a2 N1 N 3 − m2 N 3 ⎪ dt ⎪ ⎩ 10 Simulazione di scenari di gestione ambientale nel Golfo di Olbia 30' 31' 0 32' R io C o c c i a n i 1000 34' 56' 56' metri 33' R io P e d er d d u ir Cala Cocciani R io 2m S. I. Gabbia Ni c o la 5m Porto Romano R io Cala Saccaia So z z o Olbia P.ta Ginepro 2m m 10 I. Bianca I. di Mezzo . Pa D e l t a d el F gh R i o S el i ed dro gi o an I. della Bocca 5m 55' 40° 55' N 5m I. del Cavallo du 2m I. Manna P.ta delle Saline I. Lepre Stagno di Gravile 9° 30' E 31' 32' 33' 34' Depuratore comunale Rete di ripartizione dei reflui depurati Depuratore nucleo industriale Area con presenza di scarichi liberi dP = f (T , I , N ) P − g ( P, T ) Z − cmp P ± scambio dt dZ = (1 − cna ) ⋅ g ( P, OM , T ) Z − h(T ) Z − cmz Z ± scambio dt dOM = cmp P + cna g ( P, OM , T ) Z − k (T )OM − cs OM ± scambio + reflui + escrezione dt f (T , I , N ) = µ (T ) ⋅ f 1 ( I ) ⋅ f 2 ( N ) dN = cCN ⋅ (h(T ) Z + k (T )OM − f (T , I , N ) P) + j ( z , T ) ± scambio + reflui + escrezione dt µ (T ) = µ max f1 ( I ) = I Iopt f2 ( N ) = ekl ⋅T ekl ⋅Tmax 1− e I Iopt I= Iopt 1 z − cz ∫ I e dz z 0 0 . ⋅ It −3 = 0.7 ⋅ It −1 + 0.2 ⋅ It −2 + 01 c = 0.35 + 0.05 ⋅ Pchl N kN + N 11 30' 0 31' 32' R io C o c c ai n i 1000 34' 56' 56' metri 33' R oi P e d er d d u ir R io S. N ic o l Rio a C1 Sozzo Olbia B1 g R io S e li he dd E B2 C2 55' 40° 55' N A u 9° 30' E 31' 32' 33' 34' Tavola I. Compartimentazione spaziale del modello di produzione planctonica. 20 mg m-3 chl a 0 30' 0 31' 32' R io C o c c i a n i 1000 33' 34' R oi P e d er d d u ri 56' 56' metri R io S. N ic o l Rio a Sozzo Olbia C1 B1 C2 B2 g R io S e l i h ed E 55' 40° 55' N A du 9° 30' E 31' 32' 33' 34' 12 0 31' 32' R io C o c c i a n i 1000 56' metri R io P e d er d d u r i Cala Cocciani R io 2m S. Ni c o l 34' Dal 151.mo giorno dell'anno fino al 269.mo (giungo-settembre), se la biomassa fitoplanctonica supera i 90 mg C m (circa 2 mg Chl m ) nei comparti più interni del Golfo, allora i reflui depurati vengono immessi all'esterno del Golfo stesso. I. Gabbia a 5m Porto Romano Ri o 33' 56' 30' Cala Saccaia Sozz o Olbia P.ta Ginepro 2m m 10 I. Bianca I. di Mezzo d . Pa D e lt a d e l F g R i o S eli he dd r og ia no I. della Bocca 5 m 55' 40° 55' N 5m I. del Cavallo u 2m I. Manna P.ta delle Saline I. Lepre Stagno di Gravile 9° 30' E 31' 32' 33' 34' Tavola III. Criteri utilizzati per la simulazione della gestione in tempo reale dell'immissione di reflui. 0 31' 32' R io C o c c i a n i 1000 56' metri R io P e d er d d u r i Cala Cocciani R io 2m S. Ni c o l 34' NOTA L'effettiva posizione delle centraline sarà vincolata dalla possibilità di disporre di un accesso agevole per la manutenzione e dalle condizioni idrodinamiche ed ambientali locali. I. Gabbia a 5m Porto Romano R io 33' 56' 30' Cala Saccaia Sozz o Olbia P.ta Ginepro 2m m 10 I. Bianca I. di Mezzo d . Pa D e lt a d e l F h R i o S el ig ed r og ia no I. della Bocca 5 m 55' 40° 55' N 5m I. del Cavallo du I. Manna 2m P.ta delle Saline I. Lepre Stagno di Gravile 9° 30' E 31' 32' 33' 34' Tavola VII. Ipotesi di massima della collocazione di un insieme di tre centraline di monitoraggio. 13 31' 32' R io C o c c i a n i 1000 Cala Cocciani R io 2m S. 34' immissione oltre il limite inferiore delle praterie di fanerogame 56' metri 33' R io P e d er d d u ir 56' 30' 0 I. Gabbia Ni co la 5m Porto Romano R io Cala Saccaia S o zz o Olbia P.ta Ginepro 2m m 10 I. Bianca I. di Mezzo . Pa D e lt a d el F R io S el e ig h dd dro gi an o I. della Bocca 5 m 55' 40° 55' N 5m I. del Cavallo u I. Manna 2m P.ta delle Saline I. Lepre Stagno di Gravile 9° 30' E 31' Tavola VI. Ipotesi di ripartizione dei reflui depurati. 32' 33' 34' Depuratore comunale Rete di ripartizione dei reflui depurati Depuratore nucleo industriale Area con presenza di scarichi liberi med(chl): ~6 Æ ~4 mg m-3 med(chl): ~9 Æ ~5 mg m-3 14 Modelli empirici Stima della produzione primaria • La produzione primaria dipende da: – – – – Biomassa fitoplanctonica Irradianza Temperatura Efficienza fotosintetica del fitoplancton • La biomassa fitoplanctonica dipende da: – Produttività primaria – Disponibilità di nutrienti – Scambi advettivi 15 data I0(PAR) CHLm(0-2) k zp PT(0-60) Em-2d-1 mg m-3 m-1 m mg C m-2 d-1 02/09/84 11.831 3.04 0.113 40.8 678 03/01/84 15.110 0.25 0.087 53.0 80 03/15/84 30.966 0.93 0.100 46.1 168 03/29/84 13.783 7.33 0.112 41.2 426 04/12/84 37.119 13.52 0.127 36.3 541 04/26/84 44.005 3.93 0.127 36.3 325 05/09/84 45.180 5.27 0.128 36.0 620 05/24/84 55.343 6.26 0.109 42.3 657 06/06/84 12.762 6.83 0.123 37.5 410 06/28/84 57.094 6.25 0.126 36.6 646 07/10/84 55.333 5.20 0.119 38.7 1027 07/24/84 52.449 0.51 0.111 41.5 313 08/08/84 47.360 0.92 0.089 51.8 210 08/21/84 43.527 0.32 0.094 49.0 247 09/07/84 42.333 0.25 0.087 53.0 85 09/18/84 ... 15.649 ... 7.20 ... 0.158 ... 29.2 ... 536 ... I(0) Chl(0) k Zp Relazioni fra irradianza e biomassa fitoplanctonica superficiali, coefficiente di attenuazione dell’irradianza discendente, profondità della zona eufotica e produzione primaria integrata sulla verticale. IPP 16 produzione primaria (mg C m -2 giorno-1) 2500 PP = 72.623 chl 2000 Pd = a + b ⋅ B 1500 1000 Smith et al. (1982) 500 0 0 5 10 15 20 25 30 biomassa fitoplanctonica (mg chl m -3 a 0 metri) produzione primaria (mg C m -2 giorno-1) 2000 Pd = a + b ⋅ B Z p I 0 Cole & 4 Cloern . 61 (1984) Zp = k PP = 0.0722 B0 I0 Zp 1800 1600 1400 1200 1000 800 600 400 200 0 0 5000 10000 15000 20000 25000 30000 B0 I0 Zp Vertically Generalized Production Model (VGPM) (Behrenfeld & Falkowski, 1997) Σ PP 0.66125 . P I0 . . Chl . Z . Dl b_opt I eu 0 4.1 Where: if( Chl < 1.0 , 38.0 . Chl 0.425 , 40.2 . Chl 0.507) Chl tot( Chl ) Z eu( Chl ) if 568.2 . Chl tot ( Chl ) P b_opt( SST ) 0.746 < 102 , 568.2 . Chl tot ( Chl ) 0.746 , 200 . Chl tot ( Chl ) 0.293 PP=f(B ,Z ,fotoperiodo, PB. opt.SST ) ... if SST < 1.0 , 1.13 , if SST > 28.5 ,0 4.00 , 1.2956 p 2.75 .10 1 .SST 6.17 .10 2 .SST2 + 2.462 . 10 3 . SST 4 1.348 . 10 4 . SST 5 ... + 3.4132 . 10 6 . SST 6 3.27 . 10 8 . SST 7 2.05 10 2 3 Zp=f(B0) VGPM can be redefined as a function of 4 predictive variables: Σ PP Chl , I 0 , SST , Dl 0.66125 . P P opt=f(SST) I0 . B.Chl .Z eu( Chl ) .Dl b_opt( SST ) I 0 4.1 E.g.: Σ PP ( .601 , 0.1 , 13.83 , 13.21 ) = 29.095 More info about VGPM at http://warrior.rutgers.edu 17 PP media in giugno -2 -1 g C m giorno 0 0.5 1.0 1.5 Modelli empirici di nuova generazione: reti neurali 18 “...a neural network is a system composed of many simple processing elements operating in parallel whose function is determined by network structure, connection strengths, and the processing performed at computing elements or nodes.” “…una rete neurale è un sistema composto da molti elementi di processo semplici che operano in parallelo, la cui funzione è determinata dalla struttura della rete, dall’intensità delle connessioni e dai processi attuati negli elementi di calcolo o nodi.” (DARPA Neural Network Study, 1988, AFCEA International Press, p. 60) COME FUNZIONANO LE RETI NEURALI? SOLO UN PIZZICO DI TEORIA… 19 Connessioni sinaptiche Nodi (o neuroni) dello strato nascosto Ad ogni connessione è associato un peso sinaptico Nodi (o neuroni) di input Nodo (o neurone) di output Variabili predittive (input) Variabile dipendente (output) Sono generalmente scalate in un intervallo [0,1] o [-1,1] Se necessario l’output deve essere riscalato all’unità di misura originale Funzione di attivazione Nodi (o neuroni) di bias Hanno un ruolo analogo a quello del termine costante di una regressione x1 ·w 1 x2·w 2 x n· w n Una rete neurale di tipo error back-propagation (EBP) a tre strati, con architettura 5-7-1 a La funzione di attivazione accetta come argomento la somma degli input del nodo e ne restituisce l’output L’algoritmo EBP 3. L’algoritmo EBP (Rumelhart et al., 1986) è di gran lunga il più diffuso fra gli algoritmi di training per le reti neuronali e può essere schematizzato come segue: 1. f(a) xiwi tutti i pesi sinaptici vengono quindi modificati in funzione dello scarto rilevato tra outputs e valori noti (error-backpropagation) o z kl = z kl + ηδ l hk le connesioni sinaptiche sono inizializzate in maniera casuale o δl ( k = 1, K , nh + 1; l = 1, K , no ) = ( yl − ol ) ⋅ f ′( ol ) = ( yl − ol ) ⋅ ol (1 − ol ) h w jk = w jk + ηδ k i j ( k = 1, K , nh + 1; j = 1, K , ni + 1) no no l =1 l =1 δ k = f ′( hk ) ⋅ ∑ δ lo z kl = hk (1 − hk ) ⋅ ∑ δ lo z kl h 4. 2. un training pattern è immesso nella rete neuronale n E= ni +1 hk = ∑i w j jk ( k = 1, K , nh ) hk = f ( hk ) hn h +1 jk ( k = 1, K , nh ) hk = f ( hk ) hn h +1 j =1 ni +1 hk = ∑i w j j =1 l’output della rete è confrontato con i valori noti del set di validazione =1 =1 5. 1 o ∑ ( yl − ol ) 2 no l =1 se le condizioni di convergenza sono raggiunte, si termina il training, altrimenti si torna al punto 2 Demo 20 PP = f (I00, Zpp, CHL) generalizzazione overfitting PER EVITARE L’OVERFITTING: • early stopping • jittering (aggiunta di rumore agli inputs) • weight decay • training patterns in ordine casuale • etc. 21 INOLTRE, PER UNA BUONA GENERALIZZAZIONE: • gli inputs devono contenere abbastanza informazione predittiva in rapporto agli outputs desiderati (targets) • la relazione da modellizzare deve essere preferibilmente regolare (cioè piccola variazione in input --> piccola variazione in output) • il training set deve essere abbastanza grande e comunque deve essere un sottoinsieme rappresentativo del sistema reale skip A PHYTOPLANKTON PRIMARY PRODUCTION MODEL FOR CHESAPEAKE BAY Michele Scardi1 & Lawrence W. Harding, Jr.2 1. Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy 2. Horn Point Lab., University of Maryland, USA 22 3.0 3.0 2.5 2.5 2.0 2.0 PP 1.5 1.0 0.5 0.0 0.0 c.1 d.1 3.0 2.5 2.5 2.5 2.5 2.0 2.0 2.0 predicted PP 2.0 1.5 1.0 1.5 1.0 0.5 1.0 a.2 1.5 2.0 2.5 1.0 0.5 0.5 1.0 b.2 observed PP 1.5 2.0 2.5 1.0 0.5 r2 = 0.954 0.0 0.0 3.0 1.5 r2 = 0.900 0.0 0.5 1.5 r2 = 0.745 0.0 0.0 predicted PP 3.0 predicted PP 3.0 r2 = 0.271 3.0 0.0 0.0 0.5 1.0 c.2 observed PP 1.5 2.0 2.5 3.0 0.0 40 30 30 30 30 error 2.0 2.5 3.0 20 10 error 1.2 0.9 0.6 0.3 0.0 -0.3 -0.6 -0.9 0 -1.2 1.2 1.2 0.9 0.6 0.3 0.0 -0.3 -0.6 -0.9 -1.2 0.9 0 0 0.6 10 0.0 10 -0.3 10 -0.6 20 -0.9 20 -1.2 20 error 1.5 % % 50 40 % 50 40 % 50 c.3 1.0 observed PP 40 b.3 0.5 d.2 observed PP 50 0 a.3 20 3.0 0.5 Error distribution 15 d.3 1.2 10 B·kc/kt·I0 0.9 5 0.6 0 b.1 0.3 B·kc/kt·I0 a.1 0.0 20 -0.3 15 -0.6 10 -0.9 5 -1.2 0 predicted PP 1.5 1.0 0.5 Predicted vs. observed values Chesapeake Bay outliers Delaware Bay 0.3 Empirical model PP Chesapeake Bay error 23 Phytoplankton primary production in Chesapeake Bay Predictive variables True color SeaWiFS True color SeaWiFS image: image: New York-Chesapeake New York-Chesapeake Bay Bay (NASA-GSFC) (NASA-GSFC) • 1 ⎡cos⎛⎜ JulianDay⎞⎟ + 1⎤ ⎢ ⎥ 2⎣ ⎝ 2 ⋅ 365⋅π ⎠ ⎦ • 1 ⎡sin⎛⎜ JulianDay⎞⎟ + 1⎤ ⎢ ⎥ 2⎣ ⎝ 2 ⋅ 365⋅π ⎠ ⎦ • latitude • longitude • depth • water temperature • salinity • log chlorophyll • log chlorophyll (Zp) • I0 (PAR) •k • Zp NN structure: 12 - 5 - 1 Output variable: primary production (mg C m-2 day-1) training and validation sets (1982-96) testing set (1997) neural network output (g C m-2 day-1) 10 30% 1982-1996 data set 25% 1997 testing set 1 20% 15% 0.1 10% 5% 0.01 0.01 0% 0.1 1 observed values (g C m-2 day-1) 10 -1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 >1.0 output error (g C m -2 day-1) 24 Test data set: 1999-2000 CBPM-2 (2001) 1000 100 10000 R2=0.430 1 1 10 100 1000 10000 Observed net PP (mg C m-2 day-1) 10000 Predicted net PP (mg C m-2 day-1) CBPM-NN (1998) 10 CBPM2/NN (2002) 1000 Predicted net PP (mg C m-2 day-1) Predicted net PP (mg C m-2 day-1) 10000 1000 100 10 R2=0.604 1 1 10 100 1000 10000 Observed net PP (mg C m-2 day-1) 100 10 R2=0.431 1 1 10 100 1000 -2 -1 Observed net PP (mg C m day ) 10000 conventional model neural network 6 predictive variables 12 predictive variables PP=f(I0) August October June December February, April 25 Temp=8°C Temp=24°C -2 -1 neural network output (g C m day ) 3.5 3.0 2.5 2.0 1.5 1.0 0.5 Summer 1997 0.0 0 50 100 150 200 250 300 -2 total chlorophyll in the photic zone (mg m ) -2 -1 neural network output (g C m day ) 3.5 3.0 2.5 2.0 1.5 1.0 0.5 Fall 1997 0.0 0 50 100 150 200 250 300 -2 total chlorophyll in the photic zone (mg m ) 26 PREVISIONE DELLA STRUTTURA DELLA FAUNA ITTICA MEDIANTE RETI NEURALI ARTIFICIALI Michele Scardi1, Stefano Cataudella1, Paola Di Dato1, Giuseppe Maio2, Enrico Marconato2, Stefano Salviati2, Lorenzo Tancioni1, Paolo Turin3 e Marco Zanetti3 1. Dip. di Biologia, Univ. di Roma “Tor Vergata”, Roma 2. Aquaprogram s.r.l., Vicenza 3. Bioprogramm s.c.r.l., Padova Problema applicativo #1: 1. Previsione della composizione della fauna ittica sulla base di predittori ambientali 2. Comparazione della composizione attesa con quella osservata 3. Formulazione di un giudizio di qualità ambientale (es. sensu Direttiva 2000/60/CE) 27 Problema applicativo #2: 1. Analisi di sensibilità del modello previsionale 2. Identificazione dei fattori ambientali che determinano le maggiori variazioni nella risposta del modello 3. Definizione di possibili strategie per la gestione dell’ambiente Previsione della composizione di una comunità Caso 1: numero limitato di specie Caso 2: molte specie, ma un singolo cenoclino (in teoria, tutte le risposte sono unimodali) Case 3: molte specie e più cenoclini (interazioni di ordine superiore fra variabili ambientali) Case 4: elevatissimo numero di specie, cenospazio estremamente complesso con discontinuità 28 Caso 1 o 2: poche specie o singolo cenoclino • Buoni risultati si possono ottenere sia con metodi convenzionali (es. regressione logistica), sia con le reti neurali. • Le relazioni implicite (non note) fra specie riducono significativamente la dimensionalità reale del problema. • Solo le reti neurali possono trarre vantaggio da ciò. Specie presenti nel data set: 32 Combinazioni possibili: 232= 4294967296 Combinazioni osservate: 131 su 264 casi Le specie non sono indipendenti le une dalle altre (meno male, se no, poveri ecologi!) Una rete neurale può “catturare” l’informazione relativa alle relazioni interspecifiche (es. competizione), migliorando la sua capacità predittiva 29 da Matthews (1998) 30 Variabili predittive (inputs NN) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 altitudine (m) profondità media (m) correnti (superficie, %) pozze (superficie, %) raschi (superficie, %) larghezza media (m) massi (superficie, %) sassi e ciottoli (superficie, %) ghiaia (superficie, %) sabbia (superficie, %) peliti (superficie, %) velocità flusso (punteggio, 0-5) copertura vegetale (superficie, %) ombreggiatura (%) disturbo antropico (punteggio, 0-4) pH conducibilità (µS/cm) gradiente (%) bacino versante (km2) distanza dalla sorgente (km) Taxa considerati Abramis brama Alburnus alburnus alborella Anguilla anguilla Barbus meridionalis Barbus plebejus Carassius carassius Chondrostoma genei Cobitis taenia Cottus gobio Cyprinus carpio Esox lucius Gambusia holbrooki Gasterosteus aculeatus Gobio gobio Ictalurus melas Lampetra planeri Lepomis gibbosus Leuciscus cephalus Leuciscus souffia Micropterus salmoides Orsinigobius punctatissimus Padogobius martensii Perca fluviatilis Phoxinus phoxinus Rutilus erythrophthalmus Sabanejewia larvata Salmo (trutta) marmoratus Salmo (trutta) trutta Salvelinus fontinalis Scardinius erythrophthalmus Thymallus thymallus Tinca tinca Salmo (trutta) hybr. trutta/marmoratus Oncorhynchus mykiss 31 Struttura del modello: 20-17-32 training, n=131 • 264 patterns (campioni) validazione, n=66 test, n=67 • 20 variabili ambientali predittive • 32 specie (dati binari, presenza/assenza) • training della rete neurale: algoritmo di error back-propagation con early stopping basato sull’errore del set di validazione Un esempio di output Taxon NN output Abramide 0.032 Alborella 0.565 Anguilla 0.807 Barbo 0.905 Carassio 0.064 Carpa 0.038 Cavedano 0.817 Cobite 0.584 Gambusia 0.036 Ghiozzo di fiume 0.798 Gobione 0.384 Lampreda di ruscello 0.057 Lasca 0.739 Luccio 0.597 Panzarolo 0.407 Persico reale 0.053 Persico sole 0.054 Persico trota 0.026 Pesce gatto 0.011 Sanguinerola 0.536 Scardola 0.427 Scazzone 0.281 Spinarello 0.040 Temolo 0.074 Tinca 0.337 Triotto 0.663 Trota fario 0.948 Trota iridea 0.154 Trota marmorata 0.182 Vairone 0.111 >0.5? osservato 0 0 1 1 1 1 1 1 0 0 0 0 1 1 1 1 0 0 1 1 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 previsioni corrette: ok? 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 29 su 30 0.00 0.25 0.50 0.75 1.00 Abramide Alborella Anguilla Barbo Carassio Carpa Cavedano Cobite Gambusia Ghiozzo di Gobione Lampreda di Lasca Luccio Panzarolo Persico reale Persico sole Persico trota Pesce gatto Sanguinerola Scardola Scazzone Spinarello Temolo Tinca Triotto Trota fario Trota iridea Trota marmorata Vairone assente presente 32 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Ictalurus melas (Rafinesque, 1820) P erca fluviatilis (Linnaeus, 1758) A bramis brama (Linnaeus, 1758) Cyprinus carpio (Linnaeus, 1758) Salvelinus fo ntinalis M . Go bio go bio (Linnaeus, 1758) B arbus meridionalis Cho ndro sto ma genei (B o naparte, 1839) Gambusia ho lbroo ki (Girard, 1859) M icro pterus salmoides (Lacepede, 1802) Sabanejewia larvata (DeFilippi, 1859) Carassius carassius (Linnaeus, 1758) Salmo (trutta) marmo ratus (Cuvier, 1817) Previsioni esatte: 91.6% (media test set) Lepo mis gibbosus (Linnaeus, 1758) B arbus plebejus (B o naparte, 1839) Leuciscus so uffia (Risso, 1826) Thymallus thymallus (Linnaeus, 1758) Lampetra planeri (B lo ch, 1784) Rutilus erythrophthalmus (Zerunian, 1982) Tinca tinca (Linnaeus, 1758) A nguilla anguilla (Linnaeus, 1758) Gastero steus aculeatus (Linnaeus, 1758) Leuciscus cephalus (Linnaeus, 1758) P ado go bius martensii (Günther, 1861) Scardinius erythro phthalmus (Linnaeus, 1758) A lburnus alburnus albo rella (De Filippi, 1844) Eso x lucius (Linnaeus, 1758) Co bitis taenia (Linnaeus, 1758) Salmo (trutta) trutta (Linnaeus, 1758) P ho xinus pho xinus (Linnaeus, 1758) Orsinigo bius punctatissimus (Canestrini, 1864) Cottus go bio (Linnaeus, 1756) The K statistics target model output presence absence Oa − Ea K= N − Ea presence absence 1-1 0-1 1-0 0-0 H0 = modeled and observed data are independent of each other Oa = observed count of matches Ea = expected count of matches N = total number of cases 33 1.0 0.8 K 0.6 0.4 0.2 p(K=0)<0.05 p(K=0)>0.05 0.0 0.0 0.1 0.2 0.3 0.7 0.8 species frequency Come migliorare le basi di dati • Una copertura spaziale omogenea è utile, ma non sufficiente • Il piano di campionamento deve considerare più scale spaziali • Occorrono più osservazioni • Occorrono più osservazioni • Occorrono più osservazioni 34 Come migliorare l’apprendimento • Escludere specie, taxa, classi, cenotipi, etc. la cui frequenza nei set di training, validazione e test sia troppo alta o troppo bassa • Usare criteri alternativi all’MSE per misurare l’errore. • Utilizzare regole ecologiche per vincolare l’apprendimento Come misurare l’errore Con dati binari (presenza/assenza): Per singoli output, su tutti i patterns: numero (or percentuale) di previsioni esatte coefficiente Kappa correlazione tetracorica Tutti gli ouput per singolo pattern: indici di distanza/similarità Tutti gli outputs su tutti i patterns (totale): distanza/similarità media statistica di Mantel 35 Training di una EBP NN basato su misure di distanza Via! Si D: distanza media fra campioni osservati e predetti Training Set di training Validazione (calcolo D ) Set di validazione Di < D i −1 No Stop Misurare la distanza fra patterns (campioni) • • Sia la presenza che l’assenza predette sono rilevanti, quindi è necessario un indice simmetrico. es. la dissimilarità di Rogers & Tanimoto: D = 1− a+d a + 2b + 2c + d N.B. Le discordanze pesano più delle concordanze in questo indice (particolarità utile se le assenze sono molto più frequenti delle presenze nei dati o viceversa) 36 Risultati di un training basato su una misura di distanza Predizioni esatte totale training+validazione test Distanza MSE 94.4% 93.1% 95.4% 93.6% 91.8% 91.6% Inoltre, le specie la cui presenza non è stata mai predetta dal modello sono solo 2 e molto rare (carpa e salmerino, presenti due sole volte ciascuna nel test set). Con un training convenzionale, basato sull’MSE, sono ben 9. K -0.2 0 0.2 0.4 0.6 0.8 1 MSE Salmo (trutta) trutta (77%) Leuciscus cephalus (28%) Padogobius martensii (26%) Scardinius erythrophthalmus (25%) Esox lucius (25%) Dissimilarità Rutilus erythrophthalmus (25%) Alburnus alburnus alborella (21%) (Rogers & Tanimoto) Cottus gobio (21%) Tinca tinca (20%) Cobitis taenia (18%) Phoxinus phoxinus (18%) Anguilla anguilla (17%) Orsinigobius punctatissimus (17%) Salmo (trutta) marmoratus (10%) Sabanejewia larvata (10%) Ictalurus melas (9%) Lepomis gibbosus (9%) Barbus plebejus (7%) Chondrostoma genei (7%) Gasterosteus aculeatus (7%) Carassius carassius (6%) Gobio gobio (6%) Leuciscus souffia (5%) Thymallus thymallus (5%) Lampetra planeri (4%) Gambusia holbrooki (3%) Barbus meridionalis (3%) Micropterus salmoides (3%) Perca fluviatilis (1%) Abramis brama (1%) Cyprinus carpio (1%) Salvelinus fontinalis (1%) Error criterion { Mean Square Error Rogers & Tanimoto dissimilarity 37 UNO STRUMENTO PIU’ COMPLESSO skip EU 5th Framework Programme PAEQANN Contract n°: Proposal number: EVK1-CT1999-00026 EVK1-1999-00125 Predicting Aquatic Ecosystem Quality using Artificial Neural Networks: Impact of Environmental characteristics on the Structure of Aquatic Communities (Algae, Benthic and Fish Fauna) 1. France, Univ. Paul Sabatier, CESAC lab S. Lek (ccord.) 2. Denmark, Univ. Copehargen, DFH, Env. Chemistry lab S.E. Jorgensen 3. Italy, Univ. Rome Tor Vergata, Dept. Biology M. Scardi 4. Belgium, Univ. Namur, Freshwater Ecology lab (LFE) FUNDP J.P. Descy 5. France, CEMAGREF, Bordeaux F. Delmas / M. Coste 6. Luxemburg, Cell. Recherche Environ. Biotechnol. 7. Netherlands, ALTERRA Institute, Freshwater Ecol. team L. Ector P.F.M. Verdonschot 8. Austria, Austrian Research Center, Seibersdorf H.M. Knoflacher 38 http://aquaeco.ups-tlse.fr 39 40 APRIAMO IL BLACK BOX: COME ESTRARRE INFORMAZIONE DAI NOSTRI MODELLI Analisi di sensibilità 25 Altitudine variazione MSE (%) 20 15 10 5 0 -5 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 variazione input (normalizzato) 41 25 variazione MSE (%) 25 20 Altitudine 20 15 15 10 10 5 0 0.1 0.2 0.3 0.4 0.5 variazione MSE (%) Variazione MSE (%) 0.1 0.2 0.3 0.4 0.5 25 Raschi 15 15 10 10 5 10 5 Larghezza media -5 -0.5 -0.4 -0.3 -0.2 -0.1 0.1 0.2 0.3 0.4 0.5 0 0 0.1 0.2 0.3 0.4 0.5 20 Massi 0.1 0.2 0.3 0.4 0.5 15 15 10 10 Ghiaia 20 15 25 10 Sabbia 20 5 5 0 0 0.1 0.2 0.3 0.4 0.5 Peliti 0 0.1 0.2 0.3 0.4 0.5 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.4 0.5 0 0.1 0.2 0.3 0.4 0.5 Velocità flusso 15 10 5 0 0 -0.2 -0.1 -5 -0.5 -0.4 -0.3 -0.2 -0.1 20 5 -5 -0.5 -0.4 -0.3 0.3 25 10 -5 -0.5 -0.4 -0.3 0.2 0 0 15 10 0.1 5 -5 -0.5 -0.4 -0.3 -0.2 -0.1 25 25 0 Sassi e ciottoli 20 0 0 -5 -0.5 -0.4 -0.3 -0.2 -0.1 25 5 0 -5 -0.5 -0.4 -0.3 -0.2 -0.1 0 5 -5 -0.5 -0.4 -0.3 -0.2 -0.1 25 0 15 15 0 0 Pozze 20 10 5 -5 -0.5 -0.4 -0.3 -0.2 -0.1 20 25 Correnti 15 0 25 20 20 5 0 -5 -0.5 -0.4 -0.3 -0.2 -0.1 20 25 Profondità media -5 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 -5 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 mean change in NN input change in MSE (%) 25 20 25 Copertura vegetale 20 Ombreggiatura 20 25 Disturbo antropico 15 15 15 10 10 10 10 5 5 0 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 25 20 5 0 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 25 Conducibilità Conducibilità 20 5 0 -5 -0.5 -0.4 -5 -0.5 0 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 25 Gradiente 20 -5 -0.5 Bacino versante 20 15 15 15 10 10 10 10 5 5 0 5 0 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 variazione media input NN 0.4 0.5 -5 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 variazione media input NN 0.4 0.5 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 Distanza sorgente 5 0 -5 -0.5 -0.4 -0.3 25 15 -5 -0.5 pH 20 15 -5 -0.5 -0.4 variazione MSE (%) 25 0 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 variazione media input NN 0.5 -5 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 variazione media input NN Questi risultati sono ecologicamente significativi? • Una procedura di analisi di sensibilità di questo tipo è uno standard applicato comunemente ad un ampio spettro di problemi. • Questa procedura, in particolare, implica che il dato di presenza (1) o di assenza (0) siano numeri comparabili e trattabili in maniera quantitativa. • Tuttavia, il significato della presenza o dell’assenza di una specie varia in funzione del contesto ecologico. • Quindi, è necessario utilizzare altri criteri per valutare modelli che prevedano la presenza di specie. 42 50% Altitudine 60% 50% 40% 40% 30% 20% 10% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 60% 0 0.1 0.2 0.3 0.4 0.5 Profondità media 60% 50% 30% 30% 20% 20% 20% 10% 10% 0% -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 70% Larghezza media 60% 50% 40% 30% 30% 20% 20% 10% 10% 10% 70% 60% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% Ghiaia 60% 0 0.1 0.2 0.3 0.4 0.5 Sabbia 0 0.1 0.2 0.3 0.4 0.5 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% Massi 60% 50% 50% 40% 40% 30% 30% 20% 20% 0 0.1 0.2 0.3 0.4 0.5 Peliti 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 60% 50% 50% 50% 50% 40% 40% 40% 40% 30% 30% 30% 30% 20% 20% 20% 20% 10% 10% 10% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 60% 0 0.1 0.2 0.3 0.4 0.5 Copertura vegetale 60% 0 0.1 0.2 0.3 0.4 0.5 Ombreggiatura 0 0.1 0.2 0.3 0.4 0.5 Disturbo antropico 60% 50% 50% 50% 40% 40% 40% 40% 30% 30% 30% 30% 20% 20% 20% 20% 10% 10% 10% 0% -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 70% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 60% 60% Conducibilità Conducibilità 0.1 0.2 0.3 0.4 0.5 Gradiente 60% 0.1 0.2 0.3 0.4 0.5 Bacino versante 60% 50% 50% 50% 40% 40% 40% 30% 30% 30% 30% 20% 20% 20% 20% 10% 10% 10% 10% 0 0.1 0.2 0.3 0.4 0.5 0 0.1 0.2 0.3 0.4 0.5 0 0.1 0.2 0.3 0.4 0.5 pH 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 40% 0% -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.1 0.2 0.3 0.4 0.5 10% 0 50% 0% -0.5 -0.4 -0.3 -0.2 -0.1 0 Velocità flusso 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 50% 0 0.1 0.2 0.3 0.4 0.5 10% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 60% 0 Sassi e ciottoli 10% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% 60% Pozze 10% 0% -0.5 -0.4 -0.3 -0.2 -0.1 40% 0.1 0.2 0.3 0.4 0.5 50% 30% 60% 0 60% 40% 50% 0% -0.5 -0.4 -0.3 -0.2 -0.1 70% Correnti 40% 70% Raschi Variazione della Z di Mantel (%) variazione relativa della statistica di Mantel variazione relativa della statistica di Mantel variazione relativa variazione relativa della statistica di Mantel della statistica di Mantel variazione relativa della statistica di Mantel 60% 70% 70% 70% 0% -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0% -0.5 Distanza sorgente -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 20 15 Area sotto il profilo = sensibilità complessiva del modello rispetto alla variabile in input Ampiezza del profilo = sensibilità della variabile alle perturbazioni 10 5 0 -0.50 Altezza del profilio = sensibilità del modello ai cambiamenti -0.25 0.00 0.25 Variazione dell’input della rete neurale 0.50 43 Variazione MSE (%) 50 Distanza dalla sorgente 20 40 15 30 10 20 5 10 0 0 -0.50 Variazione Z di Mantel (%) 25 -0.25 0.00 0.25 0.50 Variazione nell’input della rete neurale sensibilità relativa altitudine (m) superficie bacino versante (km2) massi (superficie, %) larghezza media (m) gradiente (%) ombreggiatura (%) sabbia (superficie, %) pH distrubo antropico (punteggio, 0-4) raschi (superficie, %) velocità del flusso (punteggio, 0-5) correnti (superficie, %) peliti (superficie, %) sassi e ciottoli (superficie, %) conducibilità (µS/cm) distanza dalla sorgente (km) copertura vegetale (superficie, %) pozze (superficie, %) ghiaia (superficie, %) profondità media (m) 44 E LA DIRETTIVA SULLE ACQUE? Problema • Una volta definita la struttura della comunità di riferimento, date le condizioni dell’ambiente fisico al contorno, come si misura lo scarto da essa della comunità osservata? • Ovvero, come si formula un giudizio di qualità? 45 Alcune misure di scarto dall’assetto atteso della comunità cfr. Moss et al. (1987) O E Sokal & Michener (1958) S jk = a+d a+b+c+d Rogers & Tanimoto (1960) S jk = a+d a + 2b + 2c + d Jaccard (1900) S jk = a a+b+c <1 Æ comunità degradata O E ≈1 Æ comunità integra >1 Æ comunità arricchita Teoria del disturbo intermedio Connell, J. H. (1978): Diversity in Tropical Rain Forests and Coral Reefs. Science 199: 1302-1310. 46 skip AN EMPIRICAL MODEL CONSTRAINED BY A BIOLOGICAL RULE Michele Scardi Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy 47 Phytoplankton primary production sampling sites in Western Mediterranean Sea 90 60 30 0 -30 -60 -90 -180 -150 -120 -90 -60 -30 0 30 60 90 120 150 180 A simple 3-4-1 neural network model of phytoplankton primary production surface chlorophyll surface irradiance depth-integrated primary production surface temperature 48 BIOLOGICAL RULE There are no more than one relative maximum and four relative minima in a PP=f(I0 ,B0) surface P/B ⎛ ⎛ − αI ⎞ ⎞ ⎛ − βI ⎞ ⎟ ⎟ ⋅ exp⎜ ⎟ P B = PB s ⋅ ⎜1 − exp⎜⎜ ⎜ ⎟⎟ ⎟ ⎜ ⎝ PB s ⎠ ⎠ ⎝ PB s ⎠ ⎝ 1500 1500 1000 1000 PP PP 500 I0 500 0 0 1.5 50 40 1 30 I0 20 0.5 B0 10 PP 0 0 NN TRAINING RULE If more maxima and/or minima are found, then a penalty is added to the MSE during the NN training for each exceeding maximum or minimum. minimum. B0 MSE=89480 MSE=57932 overtrained model (works as a memory) MSE=70759 generalized NN model (early stopping) constrained NN model (no more than one maximum and four minima in f(I0,B)) 49 skip MODELLING EEL CATCHES IN THE TEVERE RIVER Eleonora Ciccotti, Stefano Cataudella & Michele Scardi Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy Eel catches in the Tevere river Predictive variables NN structure Output variable • julian day • no fishing • moon • river flow (day0) • river flow (day-1) • river flow (day-2) • cloud coverage (day0) • cloud coverage (day-1) • cloud coverage (day-2) • rainfall (day0) • rainfall (day-1) • rainfall (day-2) • 12 input nodes • 8 hidden nodes • 1 output node • eel catches (CPUE) Data sets • 1991, 1993 and 1995: training (n=532) • 1992 and 1994: validation (n=283) 50 8 2 r = 0.572 MSE = 0.447 7 25% NN output (CPUE) 6 96% errors < ±1.00 CPUE 81% errors < ± 0.50 CPUE 20% 5 15% 4 10% 3 5% 2 0% 0 5 0 0 0 0 4.0 >+ 0 4.0 <+ 0 2.0 <+ 0 1.0 <+ 0 0.5 <+ 5 0.2 <+ .00 <0 0.2 <- 0.5 <- 1.0 <- 2.0 <- 4.0 <- 1 NN output - observed value 0 0 1 2 3 4 5 6 7 8 observed values (CPUE) training set validation set + training & validation set + test set 8 7 training validation testing training validation testing training 6 CPUE 5 observed NN output 4 3 2 1 0 Jan-91 Jan-92 Jan-93 Jan-94 Jan-95 observed CPUE year-1 NN estimate 1991 197.4 183.0 -7% 1992 174.1 157.0 -10% year % error 1993 183.5 185.8 1% 1994 166.9 141.3 -15% 1995 134.3 176.7 32% 51 skip MODELLING HEAVY METAL AND HC CONCENTRATIONS IN MARINE SEDIMENTS Michele Scardi & Eugenio Fresi Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy Variabili predittive • • • • Latitudine Longitudine Profondità (log) Sabbie (%) • Distanza dalla costa • Distanza della batimetrica dei 200 m dal punto più vicino della linea di costa • Frequenza ponderata delle diverse tipologie del profilo di costa (3 variabili) • Composizione delle argille (4 variabili) skip 52 Correzione dei dati di concentrazione Ad esempio Cromo 200 y = 1.0824x R2 = 0.9791 Attacco totale ( µ g/g p.s.) I dati per i quali il tipo di attacco era riportato in maniera esplicita sono stati corretti secondo le indicazioni prodotte dalla campagna sperimentale. 150 100 50 0 0 50 100 150 200 Attacco parziale (µg/g p.s.) Distanza minima del punto dalla costa E’ una misura indiretta (se rapportata alla profondità del punto, dunque) dell’andamento batimetrico medio. D 53 Distanza del punto più prossimo della costa dalla batimetrica dei 200 m 200 Esprime l’andamento batimetrico medio dell’area indipendentemente dalla profondità del punto considerato. D 200 Frequenza delle tipologie del profilo di costa nell’intorno del punto Le tre tipologie riconosciute sono funzione delle differenze fra profilo emerso e sommerso: •concordante •poco discordante •molto discordante R( D) = D 0.25 0.60 Rmax= 20 mn 0.15 20 + D mn 20 54 Influenza della tipologia del profilo di costa E’ stata definita una semplice relazione empirica che esprime l’influenza della tipologia del profilo di costa come funzione della distanza dalla costa. W ( D) = D 20 − D mn 20 Influenza della tipologia del profilo di costa Quanto più è ampio il raggio di ricerca... R( D) = D ...tanto più è bassa l’influenza della tipologia del profilo di costa. 20 + D mn 20 W ( D) = 20 − D mn 20 x D Quindi la massima influenza si ha per distanze intermedie. R( D) ⋅W ( D) = D D 55 Origine del sedimento superficiale Sono state utilizzate come descrittrici dell’origine dei sedimenti le proporzioni medie in un raggio di 50 km di illite, smectite, caolinite e clorite nelle argille (dati derivati dalla letteratura). Laddove non sono disponibili dati vengono utilizzate le medie generali (0.56, 0.16, 0.15, 0.13 nell’ordine). Trasformazione dei dati Per: • profondità • concentrazioni degli inquinanti log 56 Ni (r2=0.82) Cd (r2=0.32) 57 Dai modelli preliminari a quelli finali varianza spiegata modelli finali modelli preliminari 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Cd Cr Cu Fe Hg IPA Mn Ni Pb PCB Zn Variazione di un profilo tipo in funzione della frazione di sabbie 45°20.00'N 14°30.00'E, profondità = 20 m 35 30 Pb (ppm) 25 20 15 10 5 0 0 20 40 60 80 100 Sabbie (% ) 58 Data base Modelli SediView SediPred 59 Data base + modelli + regole = SediExpert skip Stima della densità e della produzione attese in praterie di Posidonia oceanica (L.) Delile Michele Scardi & Eugenio Fresi Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy 60 variabile lat. (gradi decimali) long. (gradi decimali) profondità (m) gradiente concordanza esposizione concordanza venti dominanti concavo conformazione profilo piano batimetrico convesso runs variazione profilo "apertura" litorale esposizione ai venti dominanti sabbia tipologia fondale roccia matte ancoraggio sorgenti di disturbo inquinamento immissioni dens ass media variabili da predire prod rizoma { { { { ID LAT LON PROF GRAD CONCESP CONCVENT CONC PIANO CONV RUNS APERTLIT ESPVENTI SABBIA ROCCIA MATTE ANCOR INQUIN IMMISS DENSASS PRODRIZ minimo 39.9 7.5 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 massimo 44.4 18.6 35 0.3 1 1 1 1 1 4 5 1 1 1 1 1 1 1 900 100 Densità assoluta 1000 900 800 valore stimato 700 600 training set 500 test set 400 300 200 100 0 0 200 400 600 800 1000 valore osservato skip 61 Distribuzione degli scarti 400 300 100 0 -100 -200 Mediana 5%-95% -300 Rete neurale (MLP) PLS Produzione dei rizomi (stima diretta) 100 90 80 70 valore stimato fasci m-2 200 60 training set 50 test set 40 30 20 10 0 0 20 40 60 80 100 valore osservato 62 Produzione dei rizomi (modello a cascata) 100 90 80 valore stimato 70 60 training set 50 test set 40 30 20 10 0 0 20 40 60 80 100 valore osservato Scarti della stima della produzione dei rizomi 50 40 30 g m -2 anno-1 20 10 0 -10 -20 -30 Mediana 5%-95% -40 modello diretto modello "a cascata" 63 differenza fra densità stimata e densità osservata -150 -100 -50 0 50 100 150 COGOLETO-ARENZANO GALLINARA MARATEA MELORIA MONTEROSSO AL MARE MORTOLA OTRANTO PUNTA MANARA S. MICHELE DI PAGANA S. PIETRO (TA) SANTA MARINELLA TALAMONE TERRACINA TREMITI VADA VENTOTENE densità osservata maggiore di quella attesa densità osservata minore di quella attesa 64 10 metri 454 ciuffi m-2 21.4 g PS m-2 anno-1 65 Analisi di sensibilità del modello: densità assoluta IM M IS S CO NC A NCO R CO NV P IA N O R O C C IA A P E R TLIT CO NCE S P LO N S A B B IA M A TTE IN Q U IN CO NCV E NT G RA D RUNS LA T E S P V E N TI P RO F 0% 10 0% 20 0% 300 % 4 00 % 50 0% 60 0% 7 00 % 8 00 % v a ria z io n e M S E 66 The Third Primary Production Algorithm Round-Robin (PPARR3) Un’esercizio di comparazione dei modelli globali di produzione primaria fitoplanctonica http://oceans-www.jpl.nasa.gov/bio/PrimaryProd/index.html Partecipanti: 67 The NN PP model is based on: • The OPPWG global data set from OPPWG (Institute of Marine and Coastal Sciences at Rutgers University, New Brunswick, NJ, USA) • The F029 and F049 data sets (N.O.A.A. National Oceanographic Data Center, Silver Spring, MD, USA) • A time series from the Gulf of Naples, Italy (Stazione Zoologica ‘A. Dohrn’ of Naples) • Other models (VGPM by B&F, Howard-Yoder, MOD-27 by Esaias) 68 N.B. Estimates at each N.B. The observed data point are based on real have been filtered and predictive data, but other unlikely patterns have estimates have been also been excluded (e.g. generated by changing where P/B ratio was each the predictive value too large). within a given range. Metamodeling Predictive (input) variables: • • • • • • • • • • • Lat sinLon cosLon sinDay cosDay DL I0 log(MLD) SST Pbopt’ log(Chl) latitude 1/2[sin(2π⋅(Longitude+180)/360)+1] 1/2[cos(2π⋅(Longitude+180) /360)+1] 1/2[sin(2π⋅JulianDate/365)+1] 1/2[cos(2π⋅JulianDate/365)+1] day length surface downwelling PAR log-transformed mixed layer depth sea surface temperature measured or estimated after B&F log-transformed surface chlorophyll 69 X1 , X2 , … , Xm PP ... data #2 ... n = 27734 = 83200 / 3 PP #n X1 , X2 , … , Xm PP X1 , X2 , … , Xm PP f(X1 , X2 , … , Xm ) PP X1 , X2 , … , Xm PP X1 , X2 , … , Xm ... f(X1 , X2 , … , Xm ) PP PP test (25%) n=83200 PP f(X1 , X2 , … , Xm ) PP f(X1 , X2 , … , Xm ) PP ... #n X1 , X2 , … , Xm ... ... models f(X1 , X2 , … , Xm ) PP ... #2 ... f(X1 , X2 , … , Xm ) PP validation (25%) f(X1 , X2 , … , Xm ) PP #1 training (50%) X1 , X2 , … , Xm f(X1 , X2 , … , Xm ) PP ... PP ... X1 , X2 , … , Xm #1 Metamodeling, i.e. modeling other models 1 normalized PP (estimated by the NN model) n=227732 0.8 MSE=0.00156 R2=0.88 0.6 mean error=-0.0003 0.4 median error=-0.0001 -0.025<50% of errors<0.023 0.2 0 0 0.2 0.4 0.6 0.8 normalized PP (estimated by other models) 1 -0.063<90% of errors<0.064 70 Checking the NN metamodel using an independent test data set normalized PP (estimated) 1 n=552 MSE=0.00248 0.8 R2=0.85 0.6 mean error=-0.004 median error=-0.005 0.4 -0.034<50% of errors<0.026 0.2 0 0 0.2 0.4 0.6 0.8 normalized PP (observed) 1 -0.082<90% of errors<0.084 71 Sensitivity analysis +/- change in input Lat sinLon cosLon sinDay cosDay DL I0 log(MLD) SST 1.0% 0% 0% 0% 0% 0% 0% 0% 0% 0% 7% 4% 2.0% 0% 0% 0% 0% 0% 0% 1% 0% 0% 29% 17% 5.0% 1% 0% 0% 0% 0% 2% 5% 3% 1% 184% 105% 10.0% 4% 1% 0% 1% 0% 9% 18% 12% 4% 493% 417% 15.0% 8% 2% 1% 2% 1% 21% 36% 26% 8% 581% 921% 20.0% 13% 3% 1% 4% 1% 40% 59% 47% 13% 639% 1598% PBopt' log(Chl) 25.0% 18% 5% 1% 5% 1% 68% 89% 75% 19% 686% 2415% 30.0% 25% 7% 2% 7% 2% 108% 121% 107% 26% 722% 3334% 40.0% 38% 10% 2% 10% 3% 221% 201% 172% 41% 763% 5246% 50.0% 52% 12% 3% 14% 4% 323% 302% 216% 56% 780% 6771% 72 skip IMPROVING A GLOBAL MODEL OF PHYTOPLANKTON PRIMARY PRODUCTION Michele Scardi Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy Phytoplankton primary production sampling sites 90 60 30 0 -30 -60 -90 -180 -150 -120 -90 -60 -30 0 30 60 90 120 150 180 73 A global model of phytoplankton primary production (Scardi, Scardi, 2000) 10000 neural netw ork output (mg C m -2 day-1) Predictive variables: • surface biomass • surface irradiance • surface temperature • date* • longitude • latitude 1000 100 7-7-1 NN 10 date1 = 1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤ cos⎜ ⎟ +1 2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦ date2 = 1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤ sin ⎜ ⎟ +1 2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦ * 2 variables, i.e. 10 100 1000 10000 observed values (mg C m-2 day-1) Water column depth as a coco-predictor for primary production 10000 9000 Depth affects PP via: PP (mg C m -2 day-1) 8000 • water column dynamics 5000 • upwelling regions 4000 • coastal fronts • nutrient dynamics • freshwater runrun-off • etc. 7000 6000 3000 2000 1000 0 -8000 -6000 -4000 -2000 0 mean depth (m) 74 Primary production predictors and co-predictors: • Phytoplankton surface biomass (as Chl concentration) • Surface irradiance • Surface temperature • Latitude longitude1 = 1 ⎡ ⎛ 2π ⋅ (longitude + 180 ⎞ ⎤ cos⎜ ⎟ + 1⎥ 2 ⎢⎣ ⎝ 365 ⎠ ⎦ longitude2 = 1 ⎡ ⎛ 2π ⋅ (longitude + 180 ⎞ ⎤ sin ⎜ ⎟ + 1⎥ 2 ⎢⎣ ⎝ 365 ⎠ ⎦ • Longitude date1 = 1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤ cos⎜ ⎟ +1 2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦ date2 = 1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤ sin ⎜ ⎟ +1 2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦ • Date • Average depth 1.25° 1.25° Lon x 0.75° 0.75° Lat window • St. dev. of depth • Day length 75 10000 10000 day-1) MSE=330233 estimated PP (mg C m estimated PP (mg C m 1000 -2 1000 -2 day-1) MSE=405117 100 10 100 10 training and validation testing 1 1 1 10 100 1000 1 10000 10 7-7-1 NN model (Scardi, Scardi, 2000) 7-7-1 NN model 14 19 897 42 1.0E+08 14 5.0E+07 190 0.0E+00 The 77-7-1 NN model performed slightly better than the 1111-1414-1 NN model with coco-predictors only when PP>5000 mg C m-2 day-1 1000 -2 estimated PP (mg C m observed PP (mg C m-2 day-1) day-1) >5000 4000-5000 3000-4000 2000-3000 1000-2000 500-1000 <100 10000 100-500 sum of square errors 676 1.5E+08 10000 The largest improvements in square error occurred within this range (2257 out of 2522 cases) 544 2.0E+08 1000 1111-1414-1 NN model (with bathymetric predictive cocovariables) 11-14-1 NN model (with co-predictors) 2.5E+08 100 observed PP (mg C m -2 day-1) observed PP (mg C m -2 day-1) 100 10 training and validation testing 1 1 10 100 1000 10000 observed PP (mg C m-2 day-1) 76 7-7-1 model 11-14-1 model 700 600 n. of cases 500 400 300 200 100 4000 More 2000 500 1000 250 125 0 -125 -250 -500 -1000 -2000 -4000 0 output error 7-7-1 error < 250 mg C m-2day-1 11-14-1 0% 25% 50% 75% 1111-1414-1 NN model of phytoplankton primary production: a sensitivity analysis relative MSE 100% 1000% 10000% Chlorophyll log[med(z)] Latitude Irradiance f[sin(day)] stdev(z) f[cos(Longitude)] f[sin(Longitude)] Day length Temperature f[cos(day)] 77 1. Co-variables may help to improve neural network output (i.e. predictions) 2. Biological constraints damp variability in real systems as well as in neural network models 3. Data and knowledge (i.e. theoretical assumptions, other models, etc.) can be merged into neural network metamodels USO COMBINATO DI DIVERSE TIPOLOGIE DI MODELLI Analisi della produttività dello Stagno del Calich (Sardegna) 78 180 12 160 -3 (mg CHl m ) 120 8 100 6 80 60 4 40 2 20 0 gen (mg m-3, peso secco) 140 biomassa zooplancton biomassa fitoplancton 10 0 apr lug fitoplancton ott zooplancton 1600 1200 1000 -3 -1 PP (mg C m giorno ) 1400 800 600 400 200 0 gen apr lug ott produzione primaria fitoplanctonica (PP, rete neuronale) produzione primaria fitoplanctonica (PP, misurata) 79 1400 16 14 1200 12 1000 10 -3 -1 18 8 600 6 4 200 2 0 gen -1 400 -3 800 PS (mg C m giorno ) PP (mg C m giorno ) 1600 0 apr lug ott produzione primaria fitoplanctonica (PP, modello analitico) produzione primaria fitoplanctonica (PP, rete neuronale) produzione primaria fitoplanctonica (PP, misurata) produzione secondaria zooplanctonica (PS) PP [mg C/(m² giorno)] 1500 750 0 giorni PP misurata PP rete neuronale PP modello analitico 0 60 1 20 1 80 2 40 se la produzione stimata dal modello (quindi, sullainbase se la seproduzione laempirico produzione stimata misurata dal dimodello biomassa, luce e campo analitico è inferiore è trasparenza) superiore a quella a è superiore alla misurata quella attesa misurata, sullaproduzione base allora di èuno ipotizzabile o di inl’esistenza campo, allora l’efficienza entrambi dii fattori modelli, limitanti allora di nel fotosintetica fitoplancton natura sistema fisicaèdel (es. disponibile nuvolosità, potrebbe essereresidua limitata da una torbidità dell’energia stratificata, etc.)che o biologica insufficiente disponibilità di nutrienti (es.potrebbe composizione (in viadel teorica) fitoplancton, inefficiente essere 3sfruttata fotoadattamento, etc.) 3 00 60 4 20 4 80 gior ni (1) c'è en er g ia r esi d u a? (2) il p oo l d i n u t rie n ti è com p let am en te sf ru t tat o? (3) l'ef fic ien z a fo to si n tet ica è li m it ata ? 80 Produzione primaria fitoplancton 240 g C m-2 anno-1 Produzione secondaria zooplancton 0.8 g C m-2 anno-1 Produzione primaria fitobenthos 60 g C m-2 anno-1 Produzione secondaria necton 3 g C m-2 anno-1 (= 450 kg ha-1) Produzione secondaria macrozoobenthos 4.2 g C m-2 anno-1 Produzione terziaria necton+macrozoobenthos+avifauna 0.8 g C m-2 anno-1 (= 120 kg ha-1) Links utili • Il mio sito web (reti neurali, analisi dati, etc.) http://www.mare-net.com/mscardi • Progetto PAEQANN http://aquaeco.ups-tlse.fr/ • Modelling Community Structure in Freshwater Ecosystems http://www.springeronline.com/sgw/cda/frontpage/0,11855,4-40109-2236347264-0,00.html • Congressi International Society for Ecological Informatics http://www.isei3.org e http://www.isei4.org 81