Introduzione alle reti neurali
Francesco Piva
Istituto di Biologia e Genetica
Università Politecnica delle Marche
Caratteristiche delle sequenze codificanti
Poiché il codice genetico è degenere, nelle sequenze codificanti dei geni si
possono trovare due peculiarità:
• la non equiprobabilità nell’uso dei codoni sinonimi definisce un ‘codon
usage’ caratteristico delle specie
• la correlazione tra basi in posizioni diverse definisce il ‘context-dependent
codon bias’
Nella teoria dell’informazione, la non equiprobabilità nella comparsa dei
simboli e la correlazione tra simboli di un codice definiscono la ridondanza
di un linguaggio.
Vantaggi e svantaggi della ridondanza:
• tanto più un linguaggio è ridondante, tanto minore è la sua efficienza
informativa. In altre parole: a parità di messaggio da trasmettere o
memorizzare, dobbiamo utilizzare più simboli per il linguaggio più
ridondante
• maggiore è la ridondanza di un linguaggio, maggiore è la sua robustezza
cioè la capacità di essere compreso anche a seguito di disturbi o mutazioni
• la ridondanza permette la coesistenza di linguaggi a diversi strati:
traduzione in proteina ma anche regolazione dell’efficienza di splicing. Es.
motivi ESE (exon splicing enhancer) e ESS (exon splicing silencer).
La nostra anslisi
Tramite software da noi realizzato,
abbiamo analizzato le correlazioni tra un
codone e un nucleotide separati da una
distanza compresa tra 1 e 90 basi,
a c g
1
2 3
nelle sequenze
codificanti di
H.sapiens,
C.elegans e
M.musculus,
per determinare
in che modo la
presenza di un
certo codone
influenzi le basi
che seguono
90
Origine e trattamento dei dati
I file contenenti le sequenze dei geni sono state prelevate da Genbank.
Purtroppo una parte delle sequenze contenute nei file presentavano dei
problemi: alcuni geni non iniziavano con ‘atg’, codoni di stop prematuri,
sequenze troncate prima del codone di STOP, sequenze duplicate, geni ‘not
experimental’.
I file sono stati puliti e ordinati con dei
programmi che abbiamo sviluppato ‘ad
hoc’.
t r i p l e t t a
c h e
p r e c e d e
l e
b a s i
b
aaa
aac
aag
aat
aca
acc
acg
act
aga
agc
agg
agt
ata
atc
atg
att
caa
cac
cag
cat
cca
ccc
ccg
cct
cga
cgc
cgg
cgt
cta
ctc
ctg
ctt
gaa
gac
gag
gat
gca
gcc
gcg
gct
gga
ggc
ggg
ggt
gta
gtc
gtg
gtt
tac
tat
tca
tcc
tcg
tct
tgc
tgg
tgt
tta
ttc
ttg
ttt
a
s i
a
v
H. sapiens
1 2 3 4 5 6 7 8 9 10 11
g a
a a
a a
a a
a t c
a c g a c
a
a/g a g
a g g a g g a
g a
a a
g a
a a
g a
g a
g a
a
a
c/g g
c g
c g
g
g g
c g
c g
g
g a
a
a
g/a a
a
a a
g a
a/c
c g
c/g g
c g
a a g
a g g a g g a
g a
a
g a
g a
g a
g a
a a
a a
a
c g a c g a c g a
g a g g a
g a
g a
g a
g a
g a
g a
g a
a
g a
a
a/c
c/g g a c/g g a c/g
a
a g
g/c g a g g a
g a
a
g a
a
g a
c
g
a
c/g g
c c c c/g g
g/c c g/c c c c/g g c c/g g/c c
g
g
g
g a
a
g a
g a
a
c/g g
c/g c/g
c/g g
g/c a g/c c
g/c g
g/c g
g
c g a
g a
g a
g a
g a
g a
a
a t c g a c
c g
g a g/c g a c/g g
g/c g
c/g
g a
a
a
g a
g a
g/a a
g/a a
a
c/g g a c/g g a c/g g a
g a g g a g/c g a g/c g a
g a
g a
g a
g a
g a
g
g a
g
a
c/g g
c/g g
c/g g
g/c c g/c g c g/c g
g/c g
g
g a
g a
g
g a
g
g
g
a
c g
c/g g
c/g g
g a c/g g
g/c g
c/g g
g
c g
g
g
a
a
a t c g a c g a c g
g a c/g g
g/c g
c/g g
g
g a
g a
g a
a
c/g g a c g a c g a
g a
a
a
g a
g a
g a
a
a
c/g g
c
c
g
g
c c g
c g
g
g a
a
a
a/c
c g a c/g
c g
g/a a
a g g
c g a
g a
a
g
g
a a
g a
g a
a a
a/c
c g a c g a c
g a
a
g a
g a
g a
g a
a
a
a
l
l
e
d e l l a
C.elegans
12 1 2 3 4 5 6 7 8 9 10
g/a a
g a
g/a a a g
c a a
g a
g a
g
g a a
a/g a
g a
g
g a t
a t/a
a t g
a t t g
t g a a g
c a/g a c g a
g a
g
a a t a a
g a
a
g
t/a g a t g a t g
a a t g a
g a a g
c/g a a
g a
g a
g
g a a t a a
g a
a
g a t/a g a t g a t/a g
a t t g a a g a t
c/g a a
g a
g a
g
a/g a
g a
g a
g
g
t g a t g a t g
a
g a
g a
g
c/g a/g a
g a
a
g
g/c a a
a a
g a
g
a a t
a t
a t
c a/t g a t g a a g
c/g g a
g a
a
g
c/g a a t a
t g a
g c a
a a
a t
a a a g a/t t g a t g
c/g a a
g a
a
g
g/c a a a a a t g a t g
g a t g a t
a/t t g
t a g a t g a t g
c/g a/g a c g a
a/t
g
g/c a a a a a t g a
g
c/g t
g a t g a t g
g a t g a
g a a g
c/g g/a a
g a
g a
g
g/c a a
g/a a
g a
g
g a t g a t g a t g
a t t g
t g a t/a g
c/g g/a a
g a
g a
g
g/c a a
a
t g a
g
g/c
t/a g a t g a t g
a/g a t g
t g
t g
c/g g a
g a
g
g
c/g
g
t/a g a t g
t g
t t g a t g a
g
c a/g a c g a
g a
g
c/g a a/t
a a t g a
g
g
t g a t g a t g
c/g a a
g a
g a
g
g a t g a t g a t g
a c t g
t g a t
c a a
g a
g
c a a t a
t g a
g c a g a t g a t g
c a a
g a
a t g
c a a t g a t g a t g
g a t g a t g a t g
t a g a t a a t g
c a a
g a
g a
g
a a
a a t g a t g
g t
g a t g a t
t
r
11
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
12 1
g
a
a
t
g
t
g
a
g
t
g
t a/g
a
a
t
g
g
a
g
t
g
t/a g
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
t
a
i
g
g
a
g
t
g
a/t g
c
a
g
g
t
g
a
g
t g/c
a/t g
a
g
t
g
t/a g
a
g
t
g
t
g
a
a/g
t
g
t
g
a
g
t
g
a
t
g
t
g
a
g
t
g
c/a
g/a
t
g
t
g
c/a
g
t
g
p
2
a
a
a
a
t
l
3
c
g
c
g
a
c
a
a
a
a
a
a
a
a
a
c
c
g
c
g
e
t t a
M.musculus
4 5 6 7
a a
a
a c g
a g g
a a
a
g
g a c
g
g/c g
g a
a
g
c g
g g
g a
g
g/a a
g a c g
g a
g
g a
g
a
g
g a c g
g g
a
g/c g
c/g c
g
a
g/c
c/g
c
g
c
g
g
a
c
g
a
g
t
g
a
g
g
a
g
t c g
a g g
a
g
a
g
t g/c g
c/g g
g
a
g
c g
a c
c g
a
g
t c g
a g/c g
g
c g
a
a
c g
g
8
a
a
a
a
a
c
c
c
c
g
c
a g/c
a
a
c
a g
a
a
a c
a
a
a
a c
a g
a
c
c g/c g
g
g/c
c/g g
c
a
g
a c
a c/g g
a
a
g
a c g
a g g
a
g
g
g/c g
c/g g
a
g
g
c g
g g
g
a
g
a c g
c/g g
a
g
a c
a
9
c
g/c
a
g/c
c/g
a c
a
c
c/g
a
a
a c
a g
a
a
g/c
c/g
a
c
c
a
c
g/c
a
a
a
a
c
c
g/c
g
a
c
a
a
a
t
a
a
g
a
a
a/g a
c g a
a
a
c
c
g
c
a
c
c
g
a
a
10 11 12
a a
aaa
a c aac
g a g aag
a
aat
a
aca
c acc
g
g/c acg
a
act
a
aga
g
c agc
g a
agg
g a
agt
a a
ata
g a c atc
g a
atg
g a
att
g a
caa
a c cac
g a g cag
a
cat
g
cca
g
c ccc
g
g/c ccg
g
cct
g a
cga
g
g/c cgc
g a c/g cgg
g a
cgt
a
cta
c ctc
g
c/g ctg
a
ctt
g a
gaa
g a c gac
g a a gag
g a
gat
g
gca
g
c gcc
g
c/g gcg
g
gct
g
gga
g
c ggc
g
c ggg
g
ggt
g a
gta
g
c gtc
g
g/c gtg
g a
gtt
a c tac
a
tat
a
tca
c tcc
g
g/c tcg
tct
g
c tgc
a
tgg
tgt
a
tta
c ttc
g a
ttg
a
ttt
Tabella
riassuntiva che
riporta le
principali
correlazioni tra
una tripletta e i
nucleotidi a
valle
Uno sguardo di dettaglio
1
aaa
aac
aag
aat
aca
acc
acg
act
aga
agc
agg
agt
ata
atc
atg
att
g a
a t
a/g a
g a
g a
a
g
g
g/a a
a/c
a a
g a
g a
a
g a
g a
2
3
4
a
c
g
a
g
c/g g
g g
g
c
g
c
g
5
a
a
a
a
a
a
a
g
g
g
g
g
a
a
a
a
a
a
H. sapiens
6 7 8 9 10
a a
a
c g a c
g g a g g
g a
a
g a
c g
c g
c g
c g
a
a a
g
c/g g
c g
g g a g g
g a
g
a a
a
c g a c g
g a
g
g a
g
11 12
a
a c
a g
a
a
c
aaa
aac
aag
aat
aca
acc
acg
act
aga
agc
agg
agt
ata
atc
atg
att
a
a
a
a
a
a
a
a
1
g
a
a
g
g
a
g
g
a/g
a
a
g
g
a
g
g
c/g
g
c/g
2
a
a
a
a
t
3
c
g
c
g
a
c
a
a
a
a
a
c
c
g
M.musculus
5 6 7
a
a
a c g
a g g
a a
a
g
g a c
g
g/c g
g a
a
g
c g
g g
g a
g
g/a a
g a c g
g a
g
g a
g
4
a
8
a
a
a
a
a
9
C.elegans
1 2 3 4 5 6 7 8 9 10
g/a a
g a
g/a a a g
a a
g a
g a
g
a a
a/g a
g a
g
g a t
a t/a
a t g
a t t g
t g a a g
a/g a c g a
g a
g
a a t a a
g a
a
g
t/a g a t g a t g
a a t g a
g a a g
a a
g a
g a
g
a a t a a
g a
a
g a t/a g a t g a t/a g
a t t g a a g a t
a a
g a
g a
g
a/g a
g a
g a
g
g
t g a t g a t g
10 11 12
a a
aaa
c
a c aac
g g a g aag
a
aat
a
aca
c
c acc
a g/c g
g/c acg
a
a
act
a
a
aga
c g
c agc
a g g a
agg
a
g a
agt
a
a a
ata
a c g a c atc
a
g a
atg
a
g a
att
11
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
a
12
t
t
t
t
t
t
Idea
Poiché lo schema delle correlazioni nelle posizioni 3n, è caratteristico di una
specie, si è pensato di utilizzarlo per provare a riconoscere la specie a cui
appartiene una certa sequenza genica.
Sequenza genica
?
………………
H.sapiens
C.elegans
M.musculus
Per la non linearità e l’elevato numero di variabili del problema si è scelto di
affrontarlo utilizzando un algoritmo che implementa una rete neurale.
Uno dei più grossi problemi del modello computazionale
matematico introdotto da John von Neumann (Macchina di von
Neumann) è la sua rigidità e l'impossibilità di rispondere a stimoli
esterni (input) in maniera diversa da ciò che viene inizialmente
immesso nell'elaboratore.
In parole semplici, un computer, generalmente, può riconoscere e
rispondere solo a stimoli che sono stati codificati
precedentemente; anche le risposte, inoltre, sono sempre
rigidamente decise a priori.
Le Reti Neurali nascono dall’idea di poter riprodurre alcune delle
funzioni e capacità del cervello umano
L’area di applicazione dominante delle Reti Neurali (RN) è il
riconoscimento di regolarità, o pattern recognition, e l’obiettivo
fondamentale di tale caratteristica è la classificazione.
(categorizzazione)
Un esempio delle sue potenzialità è la possibilità di riconoscere
volti, voci etc.
Il neurone artificiale
assoni
n
sinapsi
x1
x2
w1
x3
w3
xn
wn
w2
i 1
dendriti

b
inputs
weights
y  f (  wi xi b)
corpo
bias
assone
f
non linear
function
Struttura di una rete neurale
nodi
uscite
Similitudine
tra una rete
neurale
biologica e
una artificiale
strato di
neuroni
di
ingresso
strato di
neuroni
nascosto o
intermedio
strato di
neuroni
di uscita
Vantaggi dell’utilizzo delle reti neurali:
Capacità di apprendere e costruire una conoscenza da esempi o dati di esperimenti
Sistema da
studiare
uscita
uscita
ingresso
.
.
. .
.
.
.
.. . .
.
uscita
Capacità di riprodurre (o modellare) qualsiasi comportamento non lineare di un
.
sistema
.
.
.
. . .
.
.
.
.
..
.
ingresso
Capacità di classificare dati apparentemente non raggruppabili
Es: statistica multivariata
.
ingresso
Altre caratteristiche
Risposta continua
ad esclusione di un numero finito di discontinuità ad input simili la rete
risponde con output simili
Tolleranza agli errori
scostamenti non significativi dei valori di input vengono assorbiti dalla rete,
diminuendo così il rumore statistico e risultando tolleranti agli errori o al
decadimento del segnale
Tolleranza ai guasti
La presenza di molte unità di processamento parallele l'eventuale perdita di
un unità ha, nel caso di architetture con molti neuroni, conseguenze non
irreparabili
Capacità di memorizzare
Svantaggi dell’utilizzo delle reti neurali:
Ai fini dell’apprendimento dobbiamo fornire alla rete neurale tanti più esempi
quanto più fortemente non lineare è il sistema da modellare.
Non sappiamo a priori quale sia la miglior topologia (numero di nodi, di strati,
collegamenti fra nodi e tipo di funzioni che devono implementare i nodi di
ciascun strato) da assegnare alla rete neurale affinchè modelli al meglio il
nostro sistema.
Una volta che la rete funziona, non sappiamo nulla del suo modello interno, in
altre parole non fornisce spiegazioni sul funzionamento del sistema che
stiamo studiando. La rete è per noi una scatola nera.
Apprendimento Supervisionato
input
Rete
neurale
Modifica
dei pesi
output
desiderato

output
Il problema dei minimi locali
Con reti neurali a più strati e funzioni non lineari, l’apprendimento può
arrivare ad un minimo locale e non garantire la convergenza
Problemi di apprendimento
Per avere un’idea della complessità di addestramento di una rete
neurale
All’aumentare della complessità della rete aumentano le possibilità di
classificazione
Esempi di applicazione
•
•
•
•
•
•
•
•
Riconoscimento caratteri
Riconoscimento immagini tele-rilevate
Macchina da scrivere fonetica
Eliminazione del rumore (sonar)
Sistemi di controllo
Previsioni di marketing
Previsioni finanziarie
Compressione di dati e immagini
Evoluzione della capacità di classificare della rete neurale
Implicazioni:
• I geni di una stessa specie hanno delle caratteristiche in termini di sequenza
che li accomuna e permette di riconoscerli
• Si possono distinguere anche specie che hanno geni con forte omologia
(uomo e topo)
• Queste differenze sono legate ad una diversa selezione delle mutazioni nel
corso dell’evoluzione? O a un diversa funzionalità (splicing, attivazione
genica, interazioni con proteine di regolazione)?
• E’ una possibile prova dell’esistenza di un linguaggio o codice ad un livello
diverso da quello conosciuto?
• Se non si spinge troppo l’apprendimento si ha una situazione in cui è
possibile definire un nuovo modo per valutare la distanza di un gene fra
specie diverse.
Possibili utilizzi dell’algoritmo:
Riconoscere le specie quando si estraggono geni da matrici biologiche
complesse o sconosciute
Migliorare i programmi di riconoscimento dei geni dal genoma
Individuazione di specie estranee in organismi OGM
Avere un sistema di riconoscimento delle specie che sia portatile, nel caso ci si
trovi sul campo e non si abbia accesso alle banche dati su internet
Avere nuove indicazioni per la comprensione del funzionamento e
dell’evoluzione delle sequenze codificanti
Definire meglio le incompatibilità fra genomi di specie diverse molto simili, le
barriere tra le specie
Sviluppi futuri:
Provare a distinguere le sequenze introniche ed esoniche
Provare a distinguere le sequenze codificanti e non
Aumentare il numero delle specie che è possibile riconoscere
Ringraziamenti:
Prof Giovanni Principato
Direttore dell’Istituto di Biologia e Genetica, Università Politecnica delle
Marche, Ancona
Dott Michela Raponi
Istituto di Biologia e Genetica, Università Politecnica delle Marche e
International Centre for Genetic Engineering and Biotechnology, AREA
Science Park, Trieste
Un esempio pratico: previsione dell’efficienza di splicing
Affinchè lo splicing del pre-mRNA avvenga correttamente è
necessario che gli introni e gli esoni siano definiti attraverso i siti di
splicing in 5’ e in 3’. A seguito del processo di splicing, non tutti gli
mRNA processati da pre-mRNA di ugual sequenza potrebbero
contenere gli esoni definiti in precedenza e allora si definisce
efficienza di splicing relativa ad un particolare esone, il rapporto tra
la quantità di mRNA contenente l’esone e il pre-mRNA totale
processato.
Per modulare l’efficienza di
ritenzione dell’esone
intervengono proteine che si
legano a sequenze esoniche
promuovendone od
ostacolandone l’inclusione. Di
queste sequenze, le prime si
dicono exon splicing enhancer
(ESE), le altre si dicono exon
splicing silencer (ESS).
PARTE DELL'ESONE 12 DEL GENE CFTR
AAAAATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAACATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGAAGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGACGCAGACCTGTATCTGCTCGACAGTCCGTTCGGGTAT
AAAGACGCAGACTTATACTTATTAGACTCCCCCTTTGGATAC
AAAGACGCAGACTTATACTTATTGGACTCACCGTTTGGTTAT
AAAGACGCAGACTTGTATTTGTTGGACTCACCGTTCGGTTAT
AAAGACGCAGATTTATACTTGTTGGATTCCCCCTTCGGCTAT
AAAGACGCAGATTTATATTTGTTGGACTCCCCGTTTGGATAT
AAAGACGCAGATTTGTATTTATTGGATTCTCCGTTTGGGTAT
AAAGACGCCGACCTCTATCTACTCGATAGCCCCTTCGGCTAT
AAAGACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAT
AAAGACGCGGACCTGTACCTACTGGATAGCCCTTTCGGATAT
AAAGACGCGGATTTGTATTTATTGGATTCACCTTTCGGCTAT
AAAGACGCTGATTTGTACTTATTGGATTCACCGTTCGGATAT
AAAGACGCTGATTTGTATTTATTAGACTCGCCATTCGGATAT
AAAGACGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGAGGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATACTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATCCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATGCAGACCTCTACCTCCTAGATAGTCCATTTGGGTAT
AAAGATGCAGATCTTTATCTCCTAGACAGCCCATTCGGATAT
AAAGATGCAGATTTGTACTTGTTAGACTCGCCCTTTGGCTAT
AAAGATGCCGACTTATATTTGTTGGATTCACCCTTCGGCTAT
AAAGATGCCGATTTGTACTTATTGGATTCACCCTTCGGATAT
AAAGATGCGGACCTTTACCTACTGGACAGTCCCTTTGGTTAT
AAAGATGCGGACTTATATTTGTTGGACTCCCCCTTCGGATAT
AAAGATGCGGACTTGTATTTATTGGATTCGCCATTTGGTTAT
AAAGATGCGGATTTGTATTTGTTAGACTCACCGTTTGGCTAT
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTAGATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGAATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGCATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAAAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAGAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAG
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAT
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATGC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATTC
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGGTAC
EFFICIENZA
15%
15%
100%
85%
50%
100%
100%
60%
100%
90%
70%
100%
100%
100%
100%
90%
100%
95%
10%
45%
40%
70%
25%
100%
100%
100%
100%
90%
60%
5%
10%
10%
70%
10%
80%
5%
25%
100%
95%
10%
AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGTTAC
AAAGATGGTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGATGTTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGGTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAAGTTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAATATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC
AAGAACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGACGCAGACCTGTATCTGCTGGACAGCCCGTTCGGGTAT
AAGGACGCAGATCTTTATCTTCTCGACAGTCCCTTCGGATAT
AAGGACGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGACGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC
AAGGACGCAGATTTGTACTTATTAGATTCACCCTTCGGATAT
AAGGACGCAGATTTGTACTTATTAGATTCGCCGTTCGGGTAT
AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAC
AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT
AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT
AAGGACGCCGACCTATACCTACTAGACAGTCCCTTCGGTTAT
AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT
AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT
AAGGACGCCGACTTGTACTTATTGGATTCCCCATTTGGCTAT
AAGGACGCCGACTTGTATTTGTTGGACTCTCCGTTCGGTTAT
AAGGACGCCGATCTCTACCTTCTGGACAGTCCGTTTGGGTAT
AAGGACGCCGATCTCTATCTACTGGATAGTCCGTTTGGTTAT
AAGGACGCCGATTTATACTTGTTGGATTCCCCGTTCGGGTAT
AAGGACGCGGACTTGTACTTATTGGACTCCCCCTTCGGTTAT
AAGGACGCGGACTTGTATTTATTAGATTCGCCGTTCGGCTAT
AAGGACGCGGATCTATACCTTCTCGACAGCCCATTCGGCTAT
AAGGACGCTGACTTATACTTGTTAGATTCCCCTTTCGGTTAT
AAGGACGCTGACTTGTATTTATTGGACTCCCCATTTGGGTAT
AAGGACGCTGATCTCTACCTCCTCGACAGTCCATTTGGCTAT
AAGGATGCAGACTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGATGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC
AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAT
AAGGATGCCGACCTGTACCTGCTAGATAGCCCGTTCGGGTAT
AAGGATGCCGATCTATATCTACTCGATAGCCCTTTCGGATAT
AAGGATGCCGATCTCTACCTCCTTGACAGCCCTTTCGGTTAT
AAGGATGCCGATTTATATTTATTAGACTCCCCCTTTGGATAC
AAGGATGCGGACTTATACTTGTTGGATTCCCCCTTTGGCTAT
AAGGATGCTGACCTCTACCTTCTGGACAGTCCATTCGGTTAT
AAGGATGCTGATTTATATTTATTAGACTCTCCGTTCGGTTAT
10%
45%
10%
40%
50%
10%
100%
100%
100%
60%
0%
100%
90%
75%
25%
75%
90%
100%
100%
100%
100%
100%
75%
100%
100%
100%
75%
25%
100%
100%
60%
60%
0%
0%
100%
100%
90%
80%
100%
100%
75%
Di seguito riportiamo le previsioni in formato grafico della distribuzione dei motivi ESE ottenuta con
il programma ESEfinder (http://exon.cshl.edu/ESE/index.html). I primi tre grafici sono stati ottenuti
con sequenze esoniche che sappiamo avere efficienza di splicing nulla o al massimo del 5%.
SF2/ASF
SC35
SRp40
SRp55
Questi grafici sono stati ottenuti inserendo sequenze esoniche che sappiamo avere efficienza del 100%.
Si nota che in termini di densità di motivi ESE, non c’è una grande differenza tra i grafici delle
sequenze a minima e a massima efficienza, di qui la limitata utilità dei programmi attualmente
disponibili.
….G
T
A
C
G
T
T
T
A
C
G….
0100 1000 0001 0010 0100 1000 1000 1000 0001 0010 0100







Efficienza 0..100%


Campus di Padriciano
SISSA Scuola
Internazionale
Superiore di
Studi Avanzati
Campus di Basovizza
Osservatorio Astronomico
di Trieste INAF
the abdus salam international
centre for theoretical physics
Laboratorio di biologia marina
Il castello di Miramare
Istituto talassografico
Scarica

applicazioni delle reti neurali in genomica