Modellistica ambientale:
applicazioni e prospettive
Prof. Michele Scardi
Dipartimento di Biologia
Università di Roma “Tor Vergata”
http://www.mare-net.com/mscardi
[email protected]
sistema reale
astrazione
interpretazione
modello
1
Tipologie di modelli
• Modelli fisici
(es. mesocosmi)
• Modelli concettuali
(es. modello di Tilman)
• Modelli analitici
(es. modello di Lotka-Volterra)
• Modelli empirici
(es. modello di Von Bertalanffy)
Modelli fisici
2
Modelli concettuali
self-shading
Funzione
forzante
Immagazzinamento
passivo
N
Produttore
primario
L
+
Consumatore
Dissipazione
Fattore
limitante
T
P
Elemento di
controllo
Z
Flusso
3
Modelli analitici
4
dP
= f ( I , T , N ) P − g ( P, T ) Z − cmp P ± scambi
dt
dZ
= g ( P, OM , T ) Z − h(T ) Z − cna g ( P, T ) Z − cmz Z ± scambi
dt
dOM
= cmp P + cna g ( P, T ) Z − k (T )OM − cs OM ± scambi
dt
dN
= 12.6( g ( P, T ) Z + k (T )OM − f ( I , T , N ) P ) ± scambi
dt
g ( P, OM , T ) = g max ⋅ [g1 ( P ) + g 2 (OM )]⋅ g 3 (T )
T
T 1− Topt
g3 (T ) =
e
Topt
Parametri del modello (assunti come costanti)
densità iniziale fitoplancton (Chl mg m-3)
densità iniziale zooplancton (DW mg m-3)
concentrazione iniziale SOM (mg C m-3)
conc. iniziale azoto inorg. (mM N dm-3)
numero di giorni simulati dall'1 gennaio
torbidità relativa (componente inorganica)
temperatura massima acqua (°C)
temperatura minima acqua (°C)
tasso di crescita massimo del fitoplancton
pendenza della curva di crescita come f(T)
costante di semisaturazione per l'azoto
tasso di mortalità naturale fitoplancton
cost. conversione mg C dm-3 -> mM NXy dm-3
tasso di crescita max zooplancton erbivoro
costante di semisaturazione per il grazing
coeff. preferenza grazing su fitoplancton
coeff. preferenza grazing su part. org.
tasso di respirazione a 0 °C
pendenza curva respirazione [f(T)]
razione di fitoplancton non assimilata
tasso di mortalità dello zooplancton
tasso di decomposizione della SOM a 0 °C
pendenza funzione decomposizione [f(T)]
tasso di sedimentazione della SOM
10
0.2
20
1
1460
2
26
10
0.59
0.075
1.1
0.15
0.0126
1.2
25
0.66
0.33
0.06
0.085
0.33
0.21
0.05
0.06
0.33
5
⎧ dN1
⎪ dt = rN1 − aN1 N 2
⎪
⎨
⎪ dN 2
⎪ dt = baN1 N 2 − mN 2
⎩
6
= 0 per N2=
= 0 per N1=
m
ba
80
N2
60
N1N2-
N1N2+
N1+
N2-
N1+
N2+
r
a
40
20
0
0
20
40
60
80
N1
Sub MODELLO(f(),Y(),r1,p1,r2,m2)
'prede
f(1) = r1 * Y(1) - p1 * Y(1) * Y(2)
'predatori
f(2) = r2 * p1 * Y(1) * Y(2) - m2 * Y(2)
End Sub
Static Sub PREDCORR(x0, x9, k1, n%, k5, e, z%, fl%)
ReDim w(1 To 9) As Single
ReDim h2(n%, 22) As Single
On Error GoTo ErrorHandler
'verifica le possibili condizioni di errore alla
chiamata
If x0 >= x9 Then fl = 1: Exit Sub
If (n% <= 0) Or (n% <> Int(n%)) Then fl = 2: Exit Sub
If (k5 <= 0) Or (k5 <> Int(k5)) Then fl = 3: Exit Sub
If (k1 <= 0) Or (k1 <> Int(k1)) Then fl = 4: Exit Sub
If e < 0.000000001 Then fl = 5: Exit Sub
If (z - 1) * (z - 2) <> 0 Then fl = 6: Exit Sub
'definizione delle costanti
w(1) = 0.2071067811865
w(2) = 0.2928932188135
w(3) = 0.1
'inizializzazione
For i% = 1 to n%
For j% = x0 to x9
…
7
Skip
http://www.mare-net/mscardi/work/ecologia/mod_preda_predatore.xls
8
⎧ dN1
⎛ N1 ⎞
rN
=
⎟ − aN1 N 2
1 ⎜1 −
⎪ dt
K
⎝
⎠
⎪
⎨
⎪ dN 2
⎪ dt = baN1 N 2 − mN 2
⎩
competizione
intraspecifica
fra prede
300
60
preda
250
predatore
50
200
40
Q
150
30
100
20
50
10
0
0
0
20
40
60
80
100
120
t
⎧ dN1
⎛ N1 ⎞
⎪ dt = rN1 ⎜1 − K ⎟ − a1 N1 N 2
⎝
⎠
⎪
⎪
⎪ dN 2
= b1a1 N1 N 2 − a2 N 2 N 3
⎪
⎨ dt
⎪
⎪ dN
⎪ 3 = b2 a2 N 2 N 3 − mN 3
⎪ dt
⎪
⎩
0
50
100
150
200
250
P
competizione
intraspecifica
fra prede
la mortalità dei
predatori dipende solo
da predatori di livello
superiore
al vertice della rete trofica,
la mortalità è solo per
senescenza (in questo
caso si assume il tasso di
mortlaità come una
costante)
9
300
250
P, Q, R
200
preda
150
predatore 1
predatore 2
100
50
0
0
5
10
15
20
25
t
7
7
25
6
6
5
5
4
4
15
R
Q
20
R
30
3
3
2
2
1
1
10
5
0
0
0
0
50
100
P
150
0
50
100
150
0
10
P
20
30
Q
⎧ dN1
⎛ N1 ⎞
=
rN
⎜1 − ⎟ − (a1 N 2 + a2 N 3 )N1
1
⎪ dt
K ⎠
⎝
⎪
⎪
⎪ dN 2
= b1a1 N1 N 2 − m1 N 2
⎪
⎨ dt
⎪
⎪ dN
⎪ 3 = b2 a2 N1 N 3 − m2 N 3
⎪ dt
⎪
⎩
10
Simulazione di scenari di gestione ambientale
nel Golfo di Olbia
30'
31'
0
32'
R
io
C
o
c
c
i
a
n
i
1000
34'
56'
56'
metri
33'
R
io
P
e
d
er
d
d
u
ir
Cala
Cocciani
R
io
2m
S.
I. Gabbia
Ni c o la
5m
Porto Romano
R io
Cala Saccaia
So z z o
Olbia
P.ta Ginepro
2m
m
10
I. Bianca
I. di Mezzo
. Pa
D e l t a d el F
gh
R i o S el i
ed
dro
gi
o
an
I. della Bocca
5m
55'
40° 55' N
5m
I. del Cavallo
du
2m
I. Manna
P.ta delle Saline
I. Lepre
Stagno di Gravile
9° 30' E
31'
32'
33'
34'
Depuratore comunale
Rete di ripartizione dei reflui depurati
Depuratore nucleo industriale
Area con presenza di scarichi liberi
dP
= f (T , I , N ) P − g ( P, T ) Z − cmp P ± scambio
dt
dZ
= (1 − cna ) ⋅ g ( P, OM , T ) Z − h(T ) Z − cmz Z ± scambio
dt
dOM
= cmp P + cna g ( P, OM , T ) Z − k (T )OM − cs OM ± scambio + reflui + escrezione
dt
f (T , I , N ) = µ (T ) ⋅ f 1 ( I ) ⋅ f 2 ( N )
dN
= cCN ⋅ (h(T ) Z + k (T )OM − f (T , I , N ) P) + j ( z , T ) ± scambio + reflui + escrezione
dt
µ (T ) = µ max
f1 ( I ) =
I
Iopt
f2 ( N ) =
ekl ⋅T
ekl ⋅Tmax
1−
e
I
Iopt
I=
Iopt
1 z − cz
∫ I e dz
z 0 0
. ⋅ It −3
= 0.7 ⋅ It −1 + 0.2 ⋅ It −2 + 01
c = 0.35 + 0.05 ⋅ Pchl
N
kN + N
11
30'
0
31'
32'
R
io
C
o
c
c
ai
n
i
1000
34'
56'
56'
metri
33'
R
oi
P
e
d
er
d
d
u
ir
R
io
S.
N ic o l
Rio
a
C1
Sozzo
Olbia
B1
g
R io S e li
he
dd
E
B2
C2
55'
40° 55' N
A
u
9° 30' E
31'
32'
33'
34'
Tavola I. Compartimentazione spaziale del modello di produzione planctonica.
20
mg m-3
chl a
0
30'
0
31'
32'
R
io
C
o
c
c
i
a
n
i
1000
33'
34'
R
oi
P
e
d
er
d
d
u
ri
56'
56'
metri
R
io
S.
N ic o l
Rio
a
Sozzo
Olbia
C1
B1
C2
B2
g
R io S e l i
h ed
E
55'
40° 55' N
A
du
9° 30' E
31'
32'
33'
34'
12
0
31'
32'
R
io
C
o
c
c
i
a
n
i
1000
56'
metri
R
io
P
e
d
er
d
d
u
r
i
Cala
Cocciani
R
io
2m
S.
Ni c o l
34'
Dal 151.mo giorno dell'anno fino
al 269.mo (giungo-settembre),
se la biomassa fitoplanctonica
supera i 90 mg C m (circa 2 mg
Chl m ) nei comparti più interni del
Golfo, allora i reflui depurati vengono
immessi all'esterno del Golfo stesso.
I. Gabbia
a
5m
Porto Romano
Ri o
33'
56'
30'
Cala Saccaia
Sozz o
Olbia
P.ta Ginepro
2m
m
10
I. Bianca
I. di Mezzo
d
. Pa
D e lt a d e l F
g
R i o S eli
he
dd
r og
ia
no
I. della Bocca
5
m
55'
40° 55' N
5m
I. del Cavallo
u
2m
I. Manna
P.ta delle Saline
I. Lepre
Stagno di Gravile
9° 30' E
31'
32'
33'
34'
Tavola III. Criteri utilizzati per la simulazione della gestione in tempo reale dell'immissione di reflui.
0
31'
32'
R
io
C
o
c
c
i
a
n
i
1000
56'
metri
R
io
P
e
d
er
d
d
u
r
i
Cala
Cocciani
R
io
2m
S.
Ni c o l
34'
NOTA
L'effettiva posizione delle centraline
sarà vincolata dalla possibilità di
disporre di un accesso agevole per
la manutenzione e dalle condizioni
idrodinamiche ed ambientali locali.
I. Gabbia
a
5m
Porto Romano
R io
33'
56'
30'
Cala Saccaia
Sozz o
Olbia
P.ta Ginepro
2m
m
10
I. Bianca
I. di Mezzo
d
. Pa
D e lt a d e l F
h
R i o S el ig
ed
r og
ia
no
I. della Bocca
5
m
55'
40° 55' N
5m
I. del Cavallo
du
I. Manna
2m
P.ta delle Saline
I. Lepre
Stagno di Gravile
9° 30' E
31'
32'
33'
34'
Tavola VII. Ipotesi di massima della collocazione di un insieme di tre centraline di monitoraggio.
13
31'
32'
R
io
C
o
c
c
i
a
n
i
1000
Cala
Cocciani
R
io
2m
S.
34'
immissione oltre il limite
inferiore delle praterie
di fanerogame
56'
metri
33'
R
io
P
e
d
er
d
d
u
ir
56'
30'
0
I. Gabbia
Ni co la
5m
Porto Romano
R io
Cala Saccaia
S o zz o
Olbia
P.ta Ginepro
2m
m
10
I. Bianca
I. di Mezzo
. Pa
D e lt a d el F
R io S el
e
ig h
dd
dro
gi
an
o
I. della Bocca
5
m
55'
40° 55' N
5m
I. del Cavallo
u
I. Manna
2m
P.ta delle Saline
I. Lepre
Stagno di Gravile
9° 30' E
31'
Tavola VI. Ipotesi di ripartizione dei reflui depurati.
32'
33'
34'
Depuratore comunale
Rete di ripartizione dei reflui depurati
Depuratore nucleo industriale
Area con presenza di scarichi liberi
med(chl): ~6 Æ ~4 mg m-3
med(chl): ~9 Æ ~5 mg m-3
14
Modelli empirici
Stima della produzione primaria
• La produzione primaria dipende da:
–
–
–
–
Biomassa fitoplanctonica
Irradianza
Temperatura
Efficienza fotosintetica del fitoplancton
• La biomassa fitoplanctonica dipende da:
– Produttività primaria
– Disponibilità di nutrienti
– Scambi advettivi
15
data
I0(PAR)
CHLm(0-2)
k
zp
PT(0-60)
Em-2d-1
mg m-3
m-1
m
mg C m-2 d-1
02/09/84
11.831
3.04
0.113
40.8
678
03/01/84
15.110
0.25
0.087
53.0
80
03/15/84
30.966
0.93
0.100
46.1
168
03/29/84
13.783
7.33
0.112
41.2
426
04/12/84
37.119
13.52
0.127
36.3
541
04/26/84
44.005
3.93
0.127
36.3
325
05/09/84
45.180
5.27
0.128
36.0
620
05/24/84
55.343
6.26
0.109
42.3
657
06/06/84
12.762
6.83
0.123
37.5
410
06/28/84
57.094
6.25
0.126
36.6
646
07/10/84
55.333
5.20
0.119
38.7
1027
07/24/84
52.449
0.51
0.111
41.5
313
08/08/84
47.360
0.92
0.089
51.8
210
08/21/84
43.527
0.32
0.094
49.0
247
09/07/84
42.333
0.25
0.087
53.0
85
09/18/84
...
15.649
...
7.20
...
0.158
...
29.2
...
536
...
I(0)
Chl(0)
k
Zp
Relazioni fra irradianza e biomassa
fitoplanctonica superficiali, coefficiente di
attenuazione dell’irradianza discendente,
profondità della zona eufotica e
produzione primaria integrata sulla
verticale.
IPP
16
produzione primaria (mg C m -2 giorno-1)
2500
PP = 72.623 chl
2000
Pd = a + b ⋅ B
1500
1000
Smith et al. (1982)
500
0
0
5
10
15
20
25
30
biomassa fitoplanctonica (mg chl m -3 a 0 metri)
produzione primaria (mg C m -2 giorno-1)
2000
Pd = a + b ⋅ B Z p I 0
Cole & 4
Cloern
. 61 (1984)
Zp =
k
PP = 0.0722 B0 I0 Zp
1800
1600
1400
1200
1000
800
600
400
200
0
0
5000
10000
15000
20000
25000
30000
B0 I0 Zp
Vertically Generalized Production Model (VGPM)
(Behrenfeld & Falkowski, 1997)
Σ PP
0.66125 . P
I0
.
. Chl . Z . Dl
b_opt I
eu
0 4.1
Where:
if( Chl < 1.0 , 38.0 . Chl 0.425 , 40.2 . Chl 0.507)
Chl tot( Chl )
Z eu( Chl )
if 568.2 . Chl tot ( Chl )
P b_opt( SST )
0.746
< 102 , 568.2 . Chl tot ( Chl )
0.746
, 200 . Chl tot ( Chl )
0.293
PP=f(B ,Z ,fotoperiodo, PB. opt.SST
) ...
if SST < 1.0 , 1.13 , if SST > 28.5 ,0
4.00 , 1.2956
p 2.75 .10 1 .SST 6.17 .10 2 .SST2
+ 2.462 . 10 3 . SST 4 1.348 . 10 4 . SST 5 ...
+ 3.4132 . 10 6 . SST 6 3.27 . 10 8 . SST 7
2.05 10 2
3
Zp=f(B0)
VGPM can be redefined as a function of 4 predictive variables:
Σ PP Chl , I 0 , SST , Dl
0.66125 . P
P
opt=f(SST)
I0
.
B.Chl .Z eu( Chl ) .Dl
b_opt( SST ) I
0 4.1
E.g.: Σ PP ( .601 , 0.1 , 13.83 , 13.21 ) = 29.095
More info about VGPM at http://warrior.rutgers.edu
17
PP media in giugno
-2
-1
g C m giorno
0
0.5
1.0
1.5
Modelli empirici di nuova
generazione: reti neurali
18
“...a neural network is a system composed of
many simple processing elements operating in
parallel whose function is determined by
network structure, connection strengths, and
the processing performed at computing
elements or nodes.”
“…una rete neurale è un sistema composto da
molti elementi di processo semplici che
operano in parallelo, la cui funzione è
determinata dalla struttura della rete,
dall’intensità delle connessioni e dai processi
attuati negli elementi di calcolo o nodi.”
(DARPA Neural Network Study, 1988,
AFCEA International Press, p. 60)
COME FUNZIONANO
LE RETI NEURALI?
SOLO UN PIZZICO DI TEORIA…
19
Connessioni
sinaptiche
Nodi (o neuroni)
dello strato nascosto
Ad ogni connessione è
associato un peso sinaptico
Nodi (o neuroni)
di input
Nodo (o neurone)
di output
Variabili
predittive (input)
Variabile dipendente
(output)
Sono generalmente
scalate in un intervallo
[0,1] o [-1,1]
Se necessario l’output deve
essere riscalato all’unità di
misura originale
Funzione di attivazione
Nodi (o neuroni) di bias
Hanno un ruolo analogo a
quello del termine costante
di una regressione
x1 ·w
1
x2·w 2
x n· w n
Una rete neurale di tipo
error back-propagation (EBP)
a tre strati, con architettura 5-7-1
a
La funzione di attivazione accetta
come argomento la somma degli input
del nodo e ne restituisce l’output
L’algoritmo EBP
3.
L’algoritmo EBP (Rumelhart et al., 1986) è di
gran lunga il più diffuso fra gli algoritmi di
training per le reti neuronali e può essere
schematizzato come segue:
1.
f(a)
xiwi
tutti i pesi sinaptici vengono quindi
modificati in funzione dello scarto
rilevato tra outputs e valori noti
(error-backpropagation)
o
z kl = z kl + ηδ l hk
le connesioni sinaptiche sono
inizializzate in maniera casuale
o
δl
( k = 1, K , nh + 1; l = 1, K , no )
= ( yl − ol ) ⋅ f ′( ol ) = ( yl − ol ) ⋅ ol (1 − ol )
h
w jk = w jk + ηδ k i j
( k = 1, K , nh + 1; j = 1, K , ni + 1)
no
no
l =1
l =1
δ k = f ′( hk ) ⋅ ∑ δ lo z kl = hk (1 − hk ) ⋅ ∑ δ lo z kl
h
4.
2.
un training pattern è immesso
nella rete neuronale
n
E=
ni +1
hk =
∑i w
j
jk
( k = 1, K , nh )
hk = f ( hk )
hn
h +1
jk
( k = 1, K , nh )
hk = f ( hk )
hn
h +1
j =1
ni +1
hk =
∑i w
j
j =1
l’output della rete è confrontato con i
valori noti del set di validazione
=1
=1
5.
1 o
∑ ( yl − ol ) 2
no l =1
se le condizioni di convergenza
sono raggiunte, si termina il training,
altrimenti si torna al punto 2
Demo
20
PP = f (I00, Zpp, CHL)
generalizzazione
overfitting
PER EVITARE L’OVERFITTING:
• early stopping
• jittering (aggiunta di rumore agli inputs)
• weight decay
• training patterns in ordine casuale
• etc.
21
INOLTRE, PER UNA BUONA GENERALIZZAZIONE:
• gli inputs devono contenere abbastanza informazione
predittiva in rapporto agli outputs desiderati
(targets)
• la relazione da modellizzare deve essere
preferibilmente regolare (cioè piccola variazione in
input --> piccola variazione in output)
• il training set deve essere abbastanza grande e
comunque deve essere un sottoinsieme
rappresentativo del sistema reale
skip
A PHYTOPLANKTON PRIMARY
PRODUCTION MODEL FOR
CHESAPEAKE BAY
Michele Scardi1 & Lawrence W. Harding, Jr.2
1. Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy
2. Horn Point Lab., University of Maryland, USA
22
3.0
3.0
2.5
2.5
2.0
2.0
PP
1.5
1.0
0.5
0.0
0.0
c.1
d.1
3.0
2.5
2.5
2.5
2.5
2.0
2.0
2.0
predicted PP
2.0
1.5
1.0
1.5
1.0
0.5
1.0
a.2
1.5
2.0
2.5
1.0
0.5
0.5
1.0
b.2
observed PP
1.5
2.0
2.5
1.0
0.5
r2 = 0.954
0.0
0.0
3.0
1.5
r2 = 0.900
0.0
0.5
1.5
r2 = 0.745
0.0
0.0
predicted PP
3.0
predicted PP
3.0
r2 = 0.271
3.0
0.0
0.0
0.5
1.0
c.2
observed PP
1.5
2.0
2.5
3.0
0.0
40
30
30
30
30
error
2.0
2.5
3.0
20
10
error
1.2
0.9
0.6
0.3
0.0
-0.3
-0.6
-0.9
0
-1.2
1.2
1.2
0.9
0.6
0.3
0.0
-0.3
-0.6
-0.9
-1.2
0.9
0
0
0.6
10
0.0
10
-0.3
10
-0.6
20
-0.9
20
-1.2
20
error
1.5
%
%
50
40
%
50
40
%
50
c.3
1.0
observed PP
40
b.3
0.5
d.2
observed PP
50
0
a.3
20
3.0
0.5
Error
distribution
15
d.3
1.2
10
B·kc/kt·I0
0.9
5
0.6
0
b.1
0.3
B·kc/kt·I0
a.1
0.0
20
-0.3
15
-0.6
10
-0.9
5
-1.2
0
predicted PP
1.5
1.0
0.5
Predicted
vs.
observed
values
Chesapeake Bay
outliers
Delaware Bay
0.3
Empirical
model
PP
Chesapeake Bay
error
23
Phytoplankton primary production in Chesapeake Bay
Predictive variables
True color SeaWiFS
True color SeaWiFS
image:
image:
New
York-Chesapeake
New York-Chesapeake
Bay
Bay
(NASA-GSFC)
(NASA-GSFC)
• 1 ⎡cos⎛⎜ JulianDay⎞⎟ + 1⎤
⎢
⎥
2⎣
⎝ 2 ⋅ 365⋅π ⎠
⎦
• 1 ⎡sin⎛⎜ JulianDay⎞⎟ + 1⎤
⎢
⎥
2⎣
⎝ 2 ⋅ 365⋅π ⎠
⎦
• latitude
• longitude
• depth
• water temperature
• salinity
• log chlorophyll
• log chlorophyll (Zp)
• I0 (PAR)
•k
• Zp
NN structure: 12 - 5 - 1
Output variable: primary production (mg C m-2 day-1)
training and validation sets (1982-96)
testing set (1997)
neural network output (g C m-2 day-1)
10
30%
1982-1996 data set
25%
1997 testing set
1
20%
15%
0.1
10%
5%
0.01
0.01
0%
0.1
1
observed values (g C m-2 day-1)
10
-1.0 -0.8 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 0.8 1.0 >1.0
output error (g C m -2 day-1)
24
Test data set: 1999-2000
CBPM-2
(2001)
1000
100
10000
R2=0.430
1
1
10
100
1000
10000
Observed net PP (mg C m-2 day-1)
10000
Predicted net PP (mg C m-2 day-1)
CBPM-NN
(1998)
10
CBPM2/NN
(2002)
1000
Predicted net PP (mg C m-2 day-1)
Predicted net PP (mg C m-2 day-1)
10000
1000
100
10
R2=0.604
1
1
10
100
1000
10000
Observed net PP (mg C m-2 day-1)
100
10
R2=0.431
1
1
10
100
1000
-2
-1
Observed net PP (mg C m day )
10000
conventional
model
neural network
6 predictive
variables
12 predictive
variables
PP=f(I0)
August
October
June
December
February, April
25
Temp=8°C
Temp=24°C
-2
-1
neural network output (g C m day )
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Summer 1997
0.0
0
50
100
150
200
250
300
-2
total chlorophyll in the photic zone (mg m )
-2
-1
neural network output (g C m day )
3.5
3.0
2.5
2.0
1.5
1.0
0.5
Fall 1997
0.0
0
50
100
150
200
250
300
-2
total chlorophyll in the photic zone (mg m )
26
PREVISIONE DELLA STRUTTURA
DELLA FAUNA ITTICA MEDIANTE
RETI NEURALI ARTIFICIALI
Michele Scardi1, Stefano Cataudella1, Paola Di Dato1,
Giuseppe Maio2, Enrico Marconato2, Stefano Salviati2,
Lorenzo Tancioni1, Paolo Turin3 e Marco Zanetti3
1. Dip. di Biologia, Univ. di Roma “Tor Vergata”, Roma
2. Aquaprogram s.r.l., Vicenza
3. Bioprogramm s.c.r.l., Padova
Problema applicativo #1:
1. Previsione della composizione della
fauna ittica sulla base di predittori
ambientali
2. Comparazione della composizione
attesa con quella osservata
3. Formulazione di un giudizio di
qualità ambientale
(es. sensu Direttiva 2000/60/CE)
27
Problema applicativo #2:
1. Analisi di sensibilità del modello
previsionale
2. Identificazione dei fattori ambientali
che determinano le maggiori
variazioni nella risposta del modello
3. Definizione di possibili strategie per
la gestione dell’ambiente
Previsione della composizione di
una comunità
Caso 1: numero limitato di specie
Caso 2: molte specie, ma un singolo
cenoclino (in teoria, tutte le
risposte sono unimodali)
Case 3: molte specie e più cenoclini
(interazioni di ordine superiore
fra variabili ambientali)
Case 4: elevatissimo numero di specie,
cenospazio estremamente
complesso con discontinuità
28
Caso 1 o 2:
poche specie o singolo cenoclino
• Buoni risultati si possono ottenere
sia con metodi convenzionali
(es. regressione logistica), sia con le
reti neurali.
• Le relazioni implicite (non note) fra
specie riducono significativamente la
dimensionalità reale del problema.
• Solo le reti neurali possono trarre
vantaggio da ciò.
Specie presenti nel data set:
32
Combinazioni possibili:
232= 4294967296
Combinazioni osservate:
131 su 264 casi
Le specie non sono indipendenti le une dalle
altre (meno male, se no, poveri ecologi!)
Una rete neurale può “catturare” l’informazione
relativa alle relazioni interspecifiche (es.
competizione), migliorando la sua capacità
predittiva
29
da Matthews (1998)
30
Variabili predittive (inputs NN)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
altitudine (m)
profondità media (m)
correnti (superficie, %)
pozze (superficie, %)
raschi (superficie, %)
larghezza media (m)
massi (superficie, %)
sassi e ciottoli (superficie, %)
ghiaia (superficie, %)
sabbia (superficie, %)
peliti (superficie, %)
velocità flusso (punteggio, 0-5)
copertura vegetale (superficie, %)
ombreggiatura (%)
disturbo antropico (punteggio, 0-4)
pH
conducibilità (µS/cm)
gradiente (%)
bacino versante (km2)
distanza dalla sorgente (km)
Taxa considerati
Abramis brama
Alburnus alburnus alborella
Anguilla anguilla
Barbus meridionalis
Barbus plebejus
Carassius carassius
Chondrostoma genei
Cobitis taenia
Cottus gobio
Cyprinus carpio
Esox lucius
Gambusia holbrooki
Gasterosteus aculeatus
Gobio gobio
Ictalurus melas
Lampetra planeri
Lepomis gibbosus
Leuciscus cephalus
Leuciscus souffia
Micropterus salmoides
Orsinigobius punctatissimus
Padogobius martensii
Perca fluviatilis
Phoxinus phoxinus
Rutilus erythrophthalmus
Sabanejewia larvata
Salmo (trutta) marmoratus
Salmo (trutta) trutta
Salvelinus fontinalis
Scardinius erythrophthalmus
Thymallus thymallus
Tinca tinca
Salmo (trutta) hybr. trutta/marmoratus
Oncorhynchus mykiss
31
Struttura del modello: 20-17-32
training, n=131
• 264 patterns (campioni)
validazione, n=66
test, n=67
• 20 variabili ambientali predittive
• 32 specie (dati binari, presenza/assenza)
• training della rete neurale: algoritmo di error
back-propagation con early stopping basato
sull’errore del set di validazione
Un esempio di output
Taxon
NN output
Abramide
0.032
Alborella
0.565
Anguilla
0.807
Barbo
0.905
Carassio
0.064
Carpa
0.038
Cavedano
0.817
Cobite
0.584
Gambusia
0.036
Ghiozzo di fiume
0.798
Gobione
0.384
Lampreda di ruscello
0.057
Lasca
0.739
Luccio
0.597
Panzarolo
0.407
Persico reale
0.053
Persico sole
0.054
Persico trota
0.026
Pesce gatto
0.011
Sanguinerola
0.536
Scardola
0.427
Scazzone
0.281
Spinarello
0.040
Temolo
0.074
Tinca
0.337
Triotto
0.663
Trota fario
0.948
Trota iridea
0.154
Trota marmorata
0.182
Vairone
0.111
>0.5? osservato
0
0
1
1
1
1
1
1
0
0
0
0
1
1
1
1
0
0
1
1
0
0
0
0
1
1
1
1
0
0
0
0
0
0
0
0
0
0
1
1
0
1
0
0
0
0
0
0
0
0
1
1
1
1
0
0
0
0
0
0
previsioni corrette:
ok?
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
29 su 30
0.00
0.25
0.50
0.75
1.00
Abramide
Alborella
Anguilla
Barbo
Carassio
Carpa
Cavedano
Cobite
Gambusia
Ghiozzo di
Gobione
Lampreda di
Lasca
Luccio
Panzarolo
Persico reale
Persico sole
Persico trota
Pesce gatto
Sanguinerola
Scardola
Scazzone
Spinarello
Temolo
Tinca
Triotto
Trota fario
Trota iridea
Trota marmorata
Vairone
assente
presente
32
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Ictalurus melas (Rafinesque, 1820)
P erca fluviatilis (Linnaeus, 1758)
A bramis brama (Linnaeus, 1758)
Cyprinus carpio (Linnaeus, 1758)
Salvelinus fo ntinalis M .
Go bio go bio (Linnaeus, 1758)
B arbus meridionalis
Cho ndro sto ma genei (B o naparte, 1839)
Gambusia ho lbroo ki (Girard, 1859)
M icro pterus salmoides (Lacepede, 1802)
Sabanejewia larvata (DeFilippi, 1859)
Carassius carassius (Linnaeus, 1758)
Salmo (trutta) marmo ratus (Cuvier, 1817)
Previsioni
esatte:
91.6%
(media
test set)
Lepo mis gibbosus (Linnaeus, 1758)
B arbus plebejus (B o naparte, 1839)
Leuciscus so uffia (Risso, 1826)
Thymallus thymallus (Linnaeus, 1758)
Lampetra planeri (B lo ch, 1784)
Rutilus erythrophthalmus (Zerunian, 1982)
Tinca tinca (Linnaeus, 1758)
A nguilla anguilla (Linnaeus, 1758)
Gastero steus aculeatus (Linnaeus, 1758)
Leuciscus cephalus (Linnaeus, 1758)
P ado go bius martensii (Günther, 1861)
Scardinius erythro phthalmus (Linnaeus, 1758)
A lburnus alburnus albo rella (De Filippi, 1844)
Eso x lucius (Linnaeus, 1758)
Co bitis taenia (Linnaeus, 1758)
Salmo (trutta) trutta (Linnaeus, 1758)
P ho xinus pho xinus (Linnaeus, 1758)
Orsinigo bius punctatissimus (Canestrini, 1864)
Cottus go bio (Linnaeus, 1756)
The K statistics
target
model output
presence
absence
Oa − Ea
K=
N − Ea
presence
absence
1-1
0-1
1-0
0-0
H0 = modeled and
observed data
are independent
of each other
Oa = observed count of matches
Ea = expected count of matches
N = total number of cases
33
1.0
0.8
K
0.6
0.4
0.2
p(K=0)<0.05
p(K=0)>0.05
0.0
0.0
0.1
0.2
0.3 0.7
0.8
species frequency
Come migliorare le basi di dati
• Una copertura spaziale omogenea è
utile, ma non sufficiente
• Il piano di campionamento deve
considerare più scale spaziali
• Occorrono più osservazioni
• Occorrono più osservazioni
• Occorrono più osservazioni
34
Come migliorare l’apprendimento
• Escludere specie, taxa, classi,
cenotipi, etc. la cui frequenza nei
set di training, validazione e test
sia troppo alta o troppo bassa
• Usare criteri alternativi all’MSE per
misurare l’errore.
• Utilizzare regole ecologiche per
vincolare l’apprendimento
Come misurare l’errore
Con dati binari (presenza/assenza):
Per singoli output, su tutti i patterns:
„
numero (or percentuale) di previsioni esatte
coefficiente Kappa
„
correlazione tetracorica
„
Tutti gli ouput per singolo pattern:
„
indici di distanza/similarità
Tutti gli outputs su tutti i patterns (totale):
„
distanza/similarità media
„
statistica di Mantel
35
Training di una EBP NN basato su
misure di distanza
Via!
Si
D:
distanza media fra
campioni osservati
e predetti
Training
Set di training
Validazione
(calcolo D )
Set di validazione
Di < D i −1
No
Stop
Misurare la distanza fra patterns
(campioni)
•
•
Sia la presenza che l’assenza predette
sono rilevanti, quindi è necessario un
indice simmetrico.
es. la dissimilarità di Rogers & Tanimoto:
D = 1−
a+d
a + 2b + 2c + d
N.B. Le discordanze pesano più delle concordanze in
questo indice (particolarità utile se le assenze sono molto
più frequenti delle presenze nei dati o viceversa)
36
Risultati di un training basato su
una misura di distanza
Predizioni esatte
totale
training+validazione
test
Distanza
MSE
94.4%
93.1%
95.4%
93.6%
91.8%
91.6%
Inoltre, le specie la cui presenza non è stata mai
predetta dal modello sono solo 2 e molto rare
(carpa e salmerino, presenti due sole volte ciascuna
nel test set). Con un training convenzionale, basato
sull’MSE, sono ben 9.
K
-0.2
0
0.2
0.4
0.6
0.8
1
MSE
Salmo (trutta) trutta (77%)
Leuciscus cephalus (28%)
Padogobius martensii (26%)
Scardinius erythrophthalmus (25%)
Esox lucius (25%)
Dissimilarità
Rutilus erythrophthalmus (25%)
Alburnus alburnus alborella (21%)
(Rogers &
Tanimoto)
Cottus gobio (21%)
Tinca tinca (20%)
Cobitis taenia (18%)
Phoxinus phoxinus (18%)
Anguilla anguilla (17%)
Orsinigobius punctatissimus (17%)
Salmo (trutta) marmoratus (10%)
Sabanejewia larvata (10%)
Ictalurus melas (9%)
Lepomis gibbosus (9%)
Barbus plebejus (7%)
Chondrostoma genei (7%)
Gasterosteus aculeatus (7%)
Carassius carassius (6%)
Gobio gobio (6%)
Leuciscus souffia (5%)
Thymallus thymallus (5%)
Lampetra planeri (4%)
Gambusia holbrooki (3%)
Barbus meridionalis (3%)
Micropterus salmoides (3%)
Perca fluviatilis (1%)
Abramis brama (1%)
Cyprinus carpio (1%)
Salvelinus fontinalis (1%)
Error criterion
{
Mean Square Error
Rogers & Tanimoto dissimilarity
37
UNO STRUMENTO PIU’
COMPLESSO
skip
EU 5th Framework Programme
PAEQANN
Contract n°:
Proposal number:
EVK1-CT1999-00026
EVK1-1999-00125
Predicting Aquatic Ecosystem Quality using Artificial Neural
Networks: Impact of Environmental characteristics on the Structure
of Aquatic Communities (Algae, Benthic and Fish Fauna)
1. France, Univ. Paul Sabatier, CESAC lab
S. Lek (ccord.)
2. Denmark, Univ. Copehargen, DFH, Env. Chemistry lab
S.E. Jorgensen
3. Italy, Univ. Rome Tor Vergata, Dept. Biology
M. Scardi
4. Belgium, Univ. Namur, Freshwater Ecology lab (LFE) FUNDP
J.P. Descy
5. France, CEMAGREF, Bordeaux
F. Delmas / M. Coste
6. Luxemburg, Cell. Recherche Environ. Biotechnol.
7. Netherlands, ALTERRA Institute, Freshwater Ecol. team
L. Ector
P.F.M. Verdonschot
8. Austria, Austrian Research Center, Seibersdorf
H.M. Knoflacher
38
http://aquaeco.ups-tlse.fr
39
40
APRIAMO IL BLACK BOX: COME
ESTRARRE INFORMAZIONE DAI
NOSTRI MODELLI
Analisi di sensibilità
25
Altitudine
variazione MSE (%)
20
15
10
5
0
-5
-0.5
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
variazione input (normalizzato)
41
25
variazione MSE (%)
25
20
Altitudine
20
15
15
10
10
5
0
0.1
0.2
0.3
0.4
0.5
variazione MSE (%)
Variazione MSE (%)
0.1
0.2
0.3
0.4
0.5
25
Raschi
15
15
10
10
5
10
5
Larghezza
media
-5
-0.5 -0.4 -0.3 -0.2 -0.1
0.1
0.2
0.3
0.4
0.5
0
0
0.1
0.2
0.3
0.4
0.5
20
Massi
0.1
0.2
0.3
0.4
0.5
15
15
10
10
Ghiaia
20
15
25
10
Sabbia
20
5
5
0
0
0.1
0.2
0.3
0.4
0.5
Peliti
0
0.1
0.2
0.3
0.4
0.5
-0.2 -0.1
0.0
0.1
0.2
0.3
0.4
0.5
0.4
0.5
0
0.1
0.2
0.3
0.4
0.5
Velocità flusso
15
10
5
0
0
-0.2 -0.1
-5
-0.5 -0.4 -0.3 -0.2 -0.1
20
5
-5
-0.5 -0.4 -0.3
0.3
25
10
-5
-0.5 -0.4 -0.3
0.2
0
0
15
10
0.1
5
-5
-0.5 -0.4 -0.3 -0.2 -0.1
25
25
0
Sassi e ciottoli
20
0
0
-5
-0.5 -0.4 -0.3 -0.2 -0.1
25
5
0
-5
-0.5 -0.4 -0.3 -0.2 -0.1
0
5
-5
-0.5 -0.4 -0.3 -0.2 -0.1
25
0
15
15
0
0
Pozze
20
10
5
-5
-0.5 -0.4 -0.3 -0.2 -0.1
20
25
Correnti
15
0
25
20
20
5
0
-5
-0.5 -0.4 -0.3 -0.2 -0.1
20
25
Profondità
media
-5
-0.5 -0.4
-0.3 -0.2 -0.1
0
0.1
0.2
0.3
0.4
0.5
-5
-0.5 -0.4
-0.3 -0.2 -0.1
0
0.1
0.2
0.3
0.4
0.5
mean change in NN input
change in MSE (%)
25
20
25
Copertura vegetale
20
Ombreggiatura
20
25
Disturbo antropico
15
15
15
10
10
10
10
5
5
0
-0.3 -0.2
-0.1
0.0
0.1
0.2
0.3
0.4
0.5
25
20
5
0
-0.3 -0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
25
Conducibilità
Conducibilità
20
5
0
-5
-0.5 -0.4
-5
-0.5
0
-0.4 -0.3
-0.2 -0.1
0
0.1
0.2
0.3
0.4
0.5
25
Gradiente
20
-5
-0.5
Bacino versante
20
15
15
15
10
10
10
10
5
5
0
5
0
-0.4 -0.3
-0.2 -0.1
0
0.1
0.2
0.3
variazione media input NN
0.4
0.5
-5
-0.5
-0.4 -0.3
-0.2 -0.1
0.0
0.1
0.2
0.3
variazione media input NN
0.4
0.5
-0.2 -0.1
0
0.1
0.2
0.3
0.4
0.5
Distanza sorgente
5
0
-5
-0.5
-0.4 -0.3
25
15
-5
-0.5
pH
20
15
-5
-0.5 -0.4
variazione MSE (%)
25
0
-0.4 -0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
variazione media input NN
0.5
-5
-0.5
-0.4 -0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
0.5
variazione media input NN
Questi risultati sono ecologicamente significativi?
• Una procedura di analisi di sensibilità di questo
tipo è uno standard applicato comunemente ad
un ampio spettro di problemi.
• Questa procedura, in particolare, implica che il
dato di presenza (1) o di assenza (0) siano
numeri comparabili e trattabili in maniera
quantitativa.
• Tuttavia, il significato della presenza o
dell’assenza di una specie varia in funzione del
contesto ecologico.
• Quindi, è necessario utilizzare altri criteri per
valutare modelli che prevedano la presenza di
specie.
42
50%
Altitudine
60%
50%
40%
40%
30%
20%
10%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
60%
0
0.1 0.2 0.3 0.4 0.5
Profondità
media
60%
50%
30%
30%
20%
20%
20%
10%
10%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
0
0.1 0.2 0.3 0.4 0.5
70%
Larghezza
media
60%
50%
40%
30%
30%
20%
20%
10%
10%
10%
70%
60%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
Ghiaia
60%
0
0.1 0.2 0.3 0.4 0.5
Sabbia
0
0.1 0.2 0.3 0.4 0.5
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
Massi
60%
50%
50%
40%
40%
30%
30%
20%
20%
0
0.1 0.2 0.3 0.4 0.5
Peliti
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
60%
50%
50%
50%
50%
40%
40%
40%
40%
30%
30%
30%
30%
20%
20%
20%
20%
10%
10%
10%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
60%
0
0.1 0.2 0.3 0.4 0.5
Copertura vegetale
60%
0
0.1 0.2 0.3 0.4 0.5
Ombreggiatura
0
0.1 0.2 0.3 0.4 0.5
Disturbo antropico
60%
50%
50%
50%
40%
40%
40%
40%
30%
30%
30%
30%
20%
20%
20%
20%
10%
10%
10%
0%
-0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
70%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
60%
60%
Conducibilità
Conducibilità
0.1 0.2 0.3 0.4 0.5
Gradiente
60%
0.1 0.2 0.3 0.4 0.5
Bacino versante
60%
50%
50%
50%
40%
40%
40%
30%
30%
30%
30%
20%
20%
20%
20%
10%
10%
10%
10%
0
0.1 0.2 0.3 0.4 0.5
0
0.1 0.2 0.3 0.4 0.5
0
0.1 0.2 0.3 0.4 0.5
pH
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
40%
0%
-0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
0.1 0.2 0.3 0.4 0.5
10%
0
50%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
0
Velocità flusso
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
50%
0
0.1 0.2 0.3 0.4 0.5
10%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
60%
0
Sassi e ciottoli
10%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
60%
Pozze
10%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
40%
0.1 0.2 0.3 0.4 0.5
50%
30%
60%
0
60%
40%
50%
0%
-0.5 -0.4 -0.3 -0.2 -0.1
70%
Correnti
40%
70%
Raschi
Variazione della Z di Mantel (%)
variazione relativa
della statistica di Mantel
variazione relativa
della statistica di Mantel
variazione relativa
variazione relativa
della statistica di Mantel della statistica di Mantel
variazione relativa
della statistica di Mantel
60%
70%
70%
70%
0%
-0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5
0%
-0.5
Distanza sorgente
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
0.5
20
15
Area sotto il profilo =
sensibilità complessiva
del modello rispetto alla
variabile in input
Ampiezza del profilo = sensibilità della
variabile alle perturbazioni
10
5
0
-0.50
Altezza del
profilio =
sensibilità del
modello ai
cambiamenti
-0.25
0.00
0.25
Variazione dell’input della rete neurale
0.50
43
Variazione MSE (%)
50
Distanza dalla sorgente
20
40
15
30
10
20
5
10
0
0
-0.50
Variazione Z di Mantel (%)
25
-0.25
0.00
0.25
0.50
Variazione nell’input della rete neurale
sensibilità relativa
altitudine (m)
superficie bacino versante (km2)
massi (superficie, %)
larghezza media (m)
gradiente (%)
ombreggiatura (%)
sabbia (superficie, %)
pH
distrubo antropico (punteggio, 0-4)
raschi (superficie, %)
velocità del flusso (punteggio, 0-5)
correnti (superficie, %)
peliti (superficie, %)
sassi e ciottoli (superficie, %)
conducibilità (µS/cm)
distanza dalla sorgente (km)
copertura vegetale (superficie, %)
pozze (superficie, %)
ghiaia (superficie, %)
profondità media (m)
44
E LA DIRETTIVA SULLE ACQUE?
Problema
• Una volta definita la struttura della
comunità di riferimento, date le
condizioni dell’ambiente fisico al
contorno, come si misura lo scarto
da essa della comunità osservata?
• Ovvero, come si formula un
giudizio di qualità?
45
Alcune misure di scarto dall’assetto
atteso della comunità
cfr. Moss et al. (1987)
O E
Sokal & Michener (1958)
S jk =
a+d
a+b+c+d
Rogers & Tanimoto (1960)
S jk =
a+d
a + 2b + 2c + d
Jaccard (1900)
S jk =
a
a+b+c
<1 Æ comunità degradata
O E
≈1 Æ comunità integra
>1 Æ comunità arricchita
Teoria del disturbo
intermedio
Connell, J. H. (1978): Diversity in Tropical
Rain Forests and Coral Reefs. Science 199:
1302-1310.
46
skip
AN EMPIRICAL MODEL
CONSTRAINED BY
A BIOLOGICAL RULE
Michele Scardi
Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy
47
Phytoplankton primary production
sampling sites in Western
Mediterranean Sea
90
60
30
0
-30
-60
-90
-180 -150 -120
-90
-60
-30
0
30
60
90
120
150
180
A simple 3-4-1 neural network model
of phytoplankton primary production
surface chlorophyll
surface irradiance
depth-integrated
primary production
surface temperature
48
BIOLOGICAL RULE
There are no more than one
relative maximum and four
relative minima in a PP=f(I0 ,B0)
surface
P/B
⎛
⎛ − αI ⎞ ⎞
⎛ − βI ⎞
⎟ ⎟ ⋅ exp⎜
⎟
P B = PB s ⋅ ⎜1 − exp⎜⎜
⎜
⎟⎟
⎟
⎜
⎝ PB s ⎠ ⎠
⎝ PB s ⎠
⎝
1500
1500
1000
1000
PP
PP
500
I0
500
0
0
1.5
50
40
1
30
I0
20
0.5
B0
10
PP
0
0
NN TRAINING RULE
If more maxima and/or minima
are found, then a penalty is
added to the MSE during the NN
training for each exceeding
maximum or minimum.
minimum.
B0
MSE=89480
MSE=57932
overtrained model
(works as a memory)
MSE=70759
generalized NN model
(early stopping)
constrained NN model (no more than one
maximum and four minima in f(I0,B))
49
skip
MODELLING EEL CATCHES IN THE
TEVERE RIVER
Eleonora Ciccotti, Stefano Cataudella & Michele Scardi
Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy
Eel catches in the Tevere river
Predictive variables
NN structure
Output variable
• julian day
• no fishing
• moon
• river flow (day0)
• river flow (day-1)
• river flow (day-2)
• cloud coverage (day0)
• cloud coverage (day-1)
• cloud coverage (day-2)
• rainfall (day0)
• rainfall (day-1)
• rainfall (day-2)
• 12 input nodes
• 8 hidden nodes
• 1 output node
• eel catches
(CPUE)
Data sets
• 1991, 1993 and 1995: training (n=532)
• 1992 and 1994: validation (n=283)
50
8
2
r = 0.572
MSE = 0.447
7
25%
NN output (CPUE)
6
96% errors < ±1.00 CPUE
81% errors < ± 0.50 CPUE
20%
5
15%
4
10%
3
5%
2
0%
0
5
0
0
0
0
4.0
>+
0
4.0
<+
0
2.0
<+
0
1.0
<+
0
0.5
<+
5
0.2
<+
.00
<0
0.2
<-
0.5
<-
1.0
<-
2.0
<-
4.0
<-
1
NN output - observed value
0
0
1
2
3
4
5
6
7
8
observed values (CPUE)
training
set validation
set
+ training
& validation
set
+ test
set
8
7
training
validation
testing
training
validation
testing
training
6
CPUE
5
observed
NN output
4
3
2
1
0
Jan-91
Jan-92
Jan-93
Jan-94
Jan-95
observed
CPUE year-1
NN estimate
1991
197.4
183.0
-7%
1992
174.1
157.0
-10%
year
% error
1993
183.5
185.8
1%
1994
166.9
141.3
-15%
1995
134.3
176.7
32%
51
skip
MODELLING HEAVY METAL AND
HC CONCENTRATIONS IN MARINE
SEDIMENTS
Michele Scardi & Eugenio Fresi
Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy
Variabili predittive
•
•
•
•
Latitudine
Longitudine
Profondità (log)
Sabbie (%)
• Distanza dalla costa
• Distanza della
batimetrica dei 200 m
dal punto più vicino
della linea di costa
• Frequenza ponderata
delle diverse tipologie
del profilo di costa (3
variabili)
• Composizione delle
argille (4 variabili)
skip
52
Correzione dei dati di concentrazione
Ad esempio
Cromo
200
y = 1.0824x
R2 = 0.9791
Attacco totale ( µ g/g p.s.)
I dati per i quali il tipo
di attacco era
riportato in maniera
esplicita sono stati
corretti secondo le
indicazioni prodotte
dalla campagna
sperimentale.
150
100
50
0
0
50
100
150
200
Attacco parziale (µg/g p.s.)
Distanza minima del punto dalla costa
E’ una misura
indiretta (se
rapportata alla
profondità del punto,
dunque)
dell’andamento
batimetrico medio.
D
53
Distanza del punto più prossimo della
costa dalla batimetrica dei 200 m
200
Esprime l’andamento
batimetrico medio
dell’area
indipendentemente
dalla profondità del
punto considerato.
D 200
Frequenza delle tipologie del profilo di
costa nell’intorno del punto
Le tre tipologie
riconosciute sono
funzione delle
differenze fra profilo
emerso e sommerso:
•concordante
•poco discordante
•molto discordante
R( D) = D
0.25
0.60
Rmax= 20 mn
0.15
20 + D
mn
20
54
Influenza della tipologia
del profilo di costa
E’ stata definita una
semplice relazione
empirica che esprime
l’influenza della
tipologia del profilo di
costa come funzione
della distanza dalla
costa.
W ( D) =
D
20 − D
mn
20
Influenza della tipologia
del profilo di costa
Quanto più è
ampio il raggio
di ricerca...
R( D) = D
...tanto più è bassa
l’influenza della tipologia
del profilo di costa.
20 + D
mn
20
W ( D) =
20 − D
mn
20
x
D
Quindi la massima
influenza si ha per
distanze intermedie.
R( D) ⋅W ( D)
=
D
D
55
Origine del sedimento superficiale
Sono state utilizzate
come descrittrici
dell’origine dei sedimenti
le proporzioni medie in
un raggio di 50 km di
illite, smectite,
caolinite e clorite nelle
argille (dati derivati dalla
letteratura).
Laddove non sono
disponibili dati vengono
utilizzate le medie
generali (0.56, 0.16,
0.15, 0.13 nell’ordine).
Trasformazione dei dati
Per:
• profondità
• concentrazioni degli inquinanti
log
56
Ni (r2=0.82)
Cd (r2=0.32)
57
Dai modelli preliminari a quelli finali
varianza spiegata
modelli finali
modelli preliminari
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Cd
Cr
Cu
Fe
Hg
IPA
Mn
Ni
Pb
PCB
Zn
Variazione di un profilo tipo in funzione
della frazione di sabbie
45°20.00'N 14°30.00'E, profondità = 20 m
35
30
Pb (ppm)
25
20
15
10
5
0
0
20
40
60
80
100
Sabbie (% )
58
Data base
Modelli
SediView
SediPred
59
Data base + modelli + regole = SediExpert
skip
Stima della densità e della
produzione attese in praterie di
Posidonia oceanica (L.) Delile
Michele Scardi & Eugenio Fresi
Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy
60
variabile
lat. (gradi decimali)
long. (gradi decimali)
profondità (m)
gradiente
concordanza esposizione
concordanza venti dominanti
concavo
conformazione profilo
piano
batimetrico
convesso
runs variazione profilo
"apertura" litorale
esposizione ai venti dominanti
sabbia
tipologia fondale roccia
matte
ancoraggio
sorgenti di disturbo inquinamento
immissioni
dens ass media
variabili da predire
prod rizoma
{
{
{
{
ID
LAT
LON
PROF
GRAD
CONCESP
CONCVENT
CONC
PIANO
CONV
RUNS
APERTLIT
ESPVENTI
SABBIA
ROCCIA
MATTE
ANCOR
INQUIN
IMMISS
DENSASS
PRODRIZ
minimo
39.9
7.5
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
massimo
44.4
18.6
35
0.3
1
1
1
1
1
4
5
1
1
1
1
1
1
1
900
100
Densità assoluta
1000
900
800
valore stimato
700
600
training set
500
test set
400
300
200
100
0
0
200
400
600
800
1000
valore osservato
skip
61
Distribuzione degli scarti
400
300
100
0
-100
-200
Mediana
5%-95%
-300
Rete neurale
(MLP)
PLS
Produzione dei rizomi (stima diretta)
100
90
80
70
valore stimato
fasci m-2
200
60
training set
50
test set
40
30
20
10
0
0
20
40
60
80
100
valore osservato
62
Produzione dei rizomi (modello a cascata)
100
90
80
valore stimato
70
60
training set
50
test set
40
30
20
10
0
0
20
40
60
80
100
valore osservato
Scarti della stima della produzione dei rizomi
50
40
30
g m -2 anno-1
20
10
0
-10
-20
-30
Mediana
5%-95%
-40
modello
diretto
modello
"a cascata"
63
differenza fra densità stimata e densità osservata
-150
-100
-50
0
50
100
150
COGOLETO-ARENZANO
GALLINARA
MARATEA
MELORIA
MONTEROSSO AL MARE
MORTOLA
OTRANTO
PUNTA MANARA
S. MICHELE DI PAGANA
S. PIETRO (TA)
SANTA MARINELLA
TALAMONE
TERRACINA
TREMITI
VADA
VENTOTENE
densità osservata
maggiore di quella attesa
densità osservata
minore di quella attesa
64
10 metri
454 ciuffi m-2
21.4 g PS m-2 anno-1
65
Analisi di sensibilità del modello: densità assoluta
IM M IS S
CO NC
A NCO R
CO NV
P IA N O
R O C C IA
A P E R TLIT
CO NCE S P
LO N
S A B B IA
M A TTE
IN Q U IN
CO NCV E NT
G RA D
RUNS
LA T
E S P V E N TI
P RO F
0%
10 0%
20 0%
300 %
4 00 %
50 0%
60 0%
7 00 %
8 00 %
v a ria z io n e M S E
66
The Third Primary Production Algorithm
Round-Robin (PPARR3)
Un’esercizio di comparazione dei
modelli globali di produzione primaria
fitoplanctonica
http://oceans-www.jpl.nasa.gov/bio/PrimaryProd/index.html
Partecipanti:
67
The NN PP model is based on:
• The OPPWG global data set from OPPWG
(Institute of Marine and Coastal Sciences at
Rutgers University,
New Brunswick, NJ, USA)
• The F029 and F049 data sets
(N.O.A.A. National Oceanographic Data Center,
Silver Spring, MD, USA)
• A time series from the Gulf of Naples, Italy
(Stazione Zoologica ‘A. Dohrn’ of Naples)
• Other models
(VGPM by B&F, Howard-Yoder, MOD-27 by Esaias)
68
N.B. Estimates at each
N.B. The observed data
point are based on real
have been filtered and
predictive data, but other
unlikely patterns have
estimates have been also
been excluded
(e.g.
generated
by changing
where
P/B ratio
was
each the
predictive
value
too
large).
within a given range.
Metamodeling
Predictive (input) variables:
•
•
•
•
•
•
•
•
•
•
•
Lat
sinLon
cosLon
sinDay
cosDay
DL
I0
log(MLD)
SST
Pbopt’
log(Chl)
latitude
1/2[sin(2π⋅(Longitude+180)/360)+1]
1/2[cos(2π⋅(Longitude+180) /360)+1]
1/2[sin(2π⋅JulianDate/365)+1]
1/2[cos(2π⋅JulianDate/365)+1]
day length
surface downwelling PAR
log-transformed mixed layer depth
sea surface temperature
measured or estimated after B&F
log-transformed surface chlorophyll
69
X1 , X2 , … , Xm
PP
...
data
#2
...
n = 27734 = 83200 / 3
PP
#n
X1 , X2 , … , Xm
PP
X1 , X2 , … , Xm
PP
f(X1 , X2 , … , Xm ) PP
X1 , X2 , … , Xm
PP
X1 , X2 , … , Xm
...
f(X1 , X2 , … , Xm ) PP
PP
test
(25%)
n=83200
PP
f(X1 , X2 , … , Xm ) PP
f(X1 , X2 , … , Xm ) PP
...
#n
X1 , X2 , … , Xm
...
...
models
f(X1 , X2 , … , Xm ) PP
...
#2
...
f(X1 , X2 , … , Xm ) PP
validation
(25%)
f(X1 , X2 , … , Xm ) PP
#1
training
(50%)
X1 , X2 , … , Xm
f(X1 , X2 , … , Xm ) PP
...
PP
...
X1 , X2 , … , Xm
#1
Metamodeling, i.e. modeling
other models
1
normalized PP
(estimated by the NN model)
n=227732
0.8
MSE=0.00156
R2=0.88
0.6
mean error=-0.0003
0.4
median error=-0.0001
-0.025<50% of
errors<0.023
0.2
0
0
0.2
0.4
0.6
0.8
normalized PP
(estimated by other models)
1
-0.063<90% of
errors<0.064
70
Checking the NN metamodel using
an independent test data set
normalized PP (estimated)
1
n=552
MSE=0.00248
0.8
R2=0.85
0.6
mean error=-0.004
median error=-0.005
0.4
-0.034<50% of
errors<0.026
0.2
0
0
0.2
0.4
0.6
0.8
normalized PP (observed)
1
-0.082<90% of
errors<0.084
71
Sensitivity analysis
+/- change
in input
Lat
sinLon
cosLon
sinDay
cosDay
DL
I0
log(MLD)
SST
1.0%
0%
0%
0%
0%
0%
0%
0%
0%
0%
7%
4%
2.0%
0%
0%
0%
0%
0%
0%
1%
0%
0%
29%
17%
5.0%
1%
0%
0%
0%
0%
2%
5%
3%
1%
184%
105%
10.0%
4%
1%
0%
1%
0%
9%
18%
12%
4%
493%
417%
15.0%
8%
2%
1%
2%
1%
21%
36%
26%
8%
581%
921%
20.0%
13%
3%
1%
4%
1%
40%
59%
47%
13%
639%
1598%
PBopt' log(Chl)
25.0%
18%
5%
1%
5%
1%
68%
89%
75%
19%
686%
2415%
30.0%
25%
7%
2%
7%
2%
108%
121%
107%
26%
722%
3334%
40.0%
38%
10%
2%
10%
3%
221%
201%
172%
41%
763%
5246%
50.0%
52%
12%
3%
14%
4%
323%
302%
216%
56%
780%
6771%
72
skip
IMPROVING A GLOBAL MODEL OF
PHYTOPLANKTON PRIMARY
PRODUCTION
Michele Scardi
Dept. of Biology, Univ. of Roma “Tor Vergata”, Roma, Italy
Phytoplankton primary production sampling sites
90
60
30
0
-30
-60
-90
-180 -150 -120
-90
-60
-30
0
30
60
90
120
150
180
73
A global model of phytoplankton primary production
(Scardi,
Scardi, 2000)
10000
neural netw ork output (mg C m -2 day-1)
Predictive variables:
• surface biomass
• surface irradiance
• surface temperature
• date*
• longitude
• latitude
1000
100
7-7-1 NN
10
date1 =
1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤
cos⎜
⎟ +1
2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦
date2 =
1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤
sin ⎜
⎟ +1
2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦
* 2 variables, i.e.
10
100
1000
10000
observed values (mg C m-2 day-1)
Water column depth as a coco-predictor for primary production
10000
9000
Depth affects PP via:
PP (mg C m -2 day-1)
8000
•
water column
dynamics
5000
•
upwelling regions
4000
•
coastal fronts
•
nutrient dynamics
•
freshwater runrun-off
•
etc.
7000
6000
3000
2000
1000
0
-8000
-6000
-4000
-2000
0
mean depth (m)
74
Primary production predictors and co-predictors:
• Phytoplankton surface biomass (as Chl concentration)
• Surface irradiance
• Surface temperature
• Latitude
longitude1 =
1 ⎡ ⎛ 2π ⋅ (longitude + 180 ⎞ ⎤
cos⎜
⎟ + 1⎥
2 ⎢⎣ ⎝
365
⎠ ⎦
longitude2 =
1 ⎡ ⎛ 2π ⋅ (longitude + 180 ⎞ ⎤
sin ⎜
⎟ + 1⎥
2 ⎢⎣ ⎝
365
⎠ ⎦
• Longitude
date1 =
1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤
cos⎜
⎟ +1
2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦
date2 =
1 ⎡ ⎛ 2π ⋅ day ⎞ ⎤
sin ⎜
⎟ +1
2 ⎢⎣ ⎝ 365 ⎠ ⎥⎦
• Date
• Average depth
1.25°
1.25° Lon x 0.75°
0.75° Lat window
• St. dev. of depth
• Day length
75
10000
10000
day-1)
MSE=330233
estimated PP (mg C m
estimated PP (mg C m
1000
-2
1000
-2
day-1)
MSE=405117
100
10
100
10
training and
validation
testing
1
1
1
10
100
1000
1
10000
10
7-7-1 NN model
(Scardi,
Scardi, 2000)
7-7-1 NN model
14
19
897
42
1.0E+08
14
5.0E+07
190
0.0E+00
The 77-7-1 NN model performed
slightly better than the 1111-1414-1
NN model with coco-predictors
only when PP>5000 mg C m-2
day-1
1000
-2
estimated PP (mg C m
observed PP (mg C m-2 day-1)
day-1)
>5000
4000-5000
3000-4000
2000-3000
1000-2000
500-1000
<100
10000
100-500
sum of square errors
676
1.5E+08
10000
The largest
improvements
in square error occurred
within this range
(2257 out of 2522 cases)
544
2.0E+08
1000
1111-1414-1 NN model
(with bathymetric
predictive cocovariables)
11-14-1 NN model (with co-predictors)
2.5E+08
100
observed PP (mg C m -2 day-1)
observed PP (mg C m -2 day-1)
100
10
training and
validation
testing
1
1
10
100
1000
10000
observed PP (mg C m-2 day-1)
76
7-7-1 model
11-14-1 model
700
600
n. of cases
500
400
300
200
100
4000
More
2000
500
1000
250
125
0
-125
-250
-500
-1000
-2000
-4000
0
output error
7-7-1
error < 250 mg C m-2day-1
11-14-1
0%
25%
50%
75%
1111-1414-1 NN model of phytoplankton primary
production: a sensitivity analysis
relative MSE
100%
1000%
10000%
Chlorophyll
log[med(z)]
Latitude
Irradiance
f[sin(day)]
stdev(z)
f[cos(Longitude)]
f[sin(Longitude)]
Day length
Temperature
f[cos(day)]
77
1. Co-variables may help to
improve neural network output
(i.e. predictions)
2. Biological constraints damp
variability in real systems as
well as in neural network
models
3. Data and knowledge (i.e.
theoretical assumptions, other
models, etc.) can be merged into
neural network metamodels
USO COMBINATO DI DIVERSE
TIPOLOGIE DI MODELLI
Analisi della produttività dello
Stagno del Calich (Sardegna)
78
180
12
160
-3
(mg CHl m )
120
8
100
6
80
60
4
40
2
20
0
gen
(mg m-3, peso secco)
140
biomassa zooplancton
biomassa fitoplancton
10
0
apr
lug
fitoplancton
ott
zooplancton
1600
1200
1000
-3
-1
PP (mg C m giorno )
1400
800
600
400
200
0
gen
apr
lug
ott
produzione primaria fitoplanctonica (PP, rete neuronale)
produzione primaria fitoplanctonica (PP, misurata)
79
1400
16
14
1200
12
1000
10
-3
-1
18
8
600
6
4
200
2
0
gen
-1
400
-3
800
PS (mg C m giorno )
PP (mg C m giorno )
1600
0
apr
lug
ott
produzione primaria fitoplanctonica (PP, modello analitico)
produzione primaria fitoplanctonica (PP, rete neuronale)
produzione primaria fitoplanctonica (PP, misurata)
produzione secondaria zooplanctonica (PS)
PP [mg C/(m² giorno)]
1500
750
0
giorni
PP misurata
PP rete neuronale
PP modello analitico
0
60
1 20
1 80
2 40
se la produzione stimata dal
modello
(quindi,
sullainbase
se la
seproduzione
laempirico
produzione
stimata
misurata
dal
dimodello
biomassa,
luce e
campo
analitico
è inferiore
è trasparenza)
superiore
a quella a è
superiore
alla
misurata
quella
attesa
misurata,
sullaproduzione
base
allora
di èuno
ipotizzabile
o di
inl’esistenza
campo,
allora
l’efficienza
entrambi
dii fattori
modelli,
limitanti
allora di
nel
fotosintetica
fitoplancton
natura
sistema
fisicaèdel
(es.
disponibile
nuvolosità,
potrebbe
essereresidua
limitata
da
una
torbidità
dell’energia
stratificata,
etc.)che
o biologica
insufficiente
disponibilità
di nutrienti
(es.potrebbe
composizione
(in viadel
teorica)
fitoplancton,
inefficiente
essere 3sfruttata
fotoadattamento,
etc.)
3 00
60
4 20
4 80
gior ni
(1) c'è en er g ia r esi d u a?
(2) il p oo l d i n u t rie n ti è com p let am en te sf ru t tat o?
(3) l'ef fic ien z a fo to si n tet ica è li m it ata ?
80
Produzione primaria fitoplancton
240 g C m-2 anno-1
Produzione secondaria
zooplancton
0.8 g C m-2 anno-1
Produzione primaria fitobenthos
60 g C m-2 anno-1
Produzione secondaria
necton
3 g C m-2 anno-1 (= 450 kg ha-1)
Produzione secondaria
macrozoobenthos
4.2 g C m-2 anno-1
Produzione terziaria
necton+macrozoobenthos+avifauna
0.8 g C m-2 anno-1 (= 120 kg ha-1)
Links utili
• Il mio sito web (reti neurali, analisi dati, etc.)
http://www.mare-net.com/mscardi
• Progetto PAEQANN
http://aquaeco.ups-tlse.fr/
• Modelling Community Structure in Freshwater
Ecosystems
http://www.springeronline.com/sgw/cda/frontpage/0,11855,4-40109-2236347264-0,00.html
• Congressi International Society for Ecological
Informatics
http://www.isei3.org e http://www.isei4.org
81
Scarica

cenni su modelli matematici avanzati