Che cosa è la bioinformatica?
Approccio multidisciplinare al problema della gestione e della
elaborazione delle informazioni biologiche. Se si vuole capire il
funzionamento degli organismi bisogna maneggiare enormi
contenuti di informazione!!
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC---
--MLKFKYGVRNPPEA--
Primi compiti della bioinformatica
1. Gestire i dati di sequenza
2. Analizzare le sequenze per
comprenderne il significato biologico
Obiettivi della bioinformatica
nell’era post-genomica
1. Immagazzinare, gestire e distribuire
l’enorme quantità di informazioni
biologiche disponibili
2. Estrarre da queste informazioni, ed in
particolare dalla sequenza del genoma degli
organismi viventi, informazioni utili per la
comprensione dei fenomeni biologici e per
lo sviluppo di nuove strategie biomediche e
biotecnologiche.
Discipline che contribuiscono allo sviluppo della
Bioinformatica
• Biologia
• Biochimica
• Informatica (sviluppo di programmi
di analisi e banche dati)
• Scienza dei calcolatori
• Matematica
• Fisica
http://www.ncbi.nlm.nih.gov/entrez/query/static/help/entrez_tutorial_BIB.pdf
Principali banche dati che fanno capo al sistema Entrez
• PubMed: principale banca dati della letteratura scientifica. Raccoglie le
informazioni principali riguardanti gli articoli pubblicati nelle riviste di tutto
il mondo. Spesso consente di recuperare facilmente il testo completo.
• cDNA
completi
(full length),
con rispettive
traduzioni
• Books:
consente
l’accesso gratuito
on-line ai principali
testi di biologia
• GeneBank:
raccoglie tutte le sequenze nucleotidiche disponibili. In realtà,
in aminoacidi
per la maggior parte contiene sequenze di cDNA (con le rispettive traduzioni
• EST Sezioni separate per le banche dati dei genomi.
in minoacidi).
• PDB:
raccoglie tutte
le strutture
tridimensionali
pubbliche
di etc.)
molecole
• Sequenze
non
codificanti
(rRNA,
tRNA
biologiche
• Sequenze genomiche complete o incomplete
• Unigene: raccogie tutte le sequenze di cDNA derivanti dallo stesso gene,
• Genomi
comprese
le EST. virali
• RefSeq:
raccoglie
le sequenze di cDNA più rappresentative e meglio
• Genomi
mitocondriali
annotate di tutti i geni
• Polimorfismi
a carico
di tutte le sequenze
• Gene:
raccoglie ed unifica
tutte le denominazioni
(alias) con cuiprecedenti
è noto un
certo
• gene
Vettori di clonaggio
• OMIM: raccoglie tutte le informazioni riguardanti i geni implicati, o
potenzialmente implicati, nelle patologie umane.
Concetto fondamentale: integrazione
Queste banche dati sono estremamente legate le une
alle altre, in modo tale da poter reperire facilmente
informazioni diverse sugli stessi geni.
Come orientarsi nelle banche dati:
l’allineamento di sequenze
Allineamento di sequenze
Perché è importante?
•
Le caratteristiche funzionali delle molecole biologiche
dipendono dalle conformazione tridimensionale che gli
atomi costituenti assumono nello spazio. Questa a sua
volta dipende dalla sequenza delle unità elementari (in
genere si tratta di aminoacidi, ma lo stesso discorso vale
anche per i nucleotidi).
•
Molecole che hanno sequenza primaria simile tendono
ad avere strutture secondarie e terziarie simili.
•
Se due proteine sono identiche al 50%, è altamente
probabile che la loro struttura tridimensionale sia quasi
completamente sovrapponibile.
Analisi filogenetica
Confrontando le sequenze
ortologhe di specie diverse
si può arrivare a tracciare
una storia molto precisa
della loro evoluzione
Evoluzione divergente delle sequenze biologiche
A
Specie ancestrale
Sequenze ortologhe
B
C
B
Specie derivata 1
C
Specie derivata 2
Evoluzione divergente delle sequenze biologiche
A
Specie 1
Sequenze paraloghe
Duplicazione genica
A
A’
A’ A
Specie 1
Identità ed omologia
•
Gli aminoacidi possono essere raggruppati in base alle
loro caratteristiche fisico-chimiche. Su questa base un
aminoacido può essere definito simile ad un altro
R
K
•
Carichi
positivamente
RK
DE
Carichi
FL
I VW
Idrofobici
Dato un allineamento di sequenze:
Percentuale di identità= di residui identici/residui totali*100
(residui identici + residui simili)
Percentuale di omologia=
* 100
(residui totali)
Sequenze simili= struttura e funzione simili
Sequenze identiche al 62%
Chymotrypsin
Elastase
Chymotrypsin
Elastase
10
20
30
40
50
60
MLGITVLAALLACASSCGVPSFPPNLSARVVGGEDARPHSWPWQISLQYLKNDTWRHTCG
:.
.:..:.: : ::: :..:: .. ::::::.:::.:::::.:::: .: : ::::
MIRTLLLSTLVAGALSCGDPTYPPYVT-RVVGGEEARPNSWPWQVSLQYSSNGKWYHTCG
10
20
30
40
50
70
80
90
100
110
GTLIASNFVLTAAHCISNTRTYRVAVGKNNLEVEDEEGSLFVGVDTIHVHKRWNALLLR:.:::...:::::::::..:::::..:..:: : : ::: :.:. : ::: ::. .
GSLIANSWVLTAAHCISSSRTYRVGLGRHNLYVA-ESGSLAVSVSKIVVHKDWNSNQISK
60
70
80
90
100
110
120
130
140
150
160
170
Chymotrypsin -NDIALIKLAEHVELSDTIQVACLPEKDSLLPKDYPCYVTGWGRLWTNGPIADKLQQGLQ
:::::.:::. : :.: ::.::::
..::..::::::::::: ::: . : ::::
Elastase
GNDIALLKLANPVSLTDKIQLACLPPAGTILPNNYPCYVTGWGRLQTNGAVPDVLQQGRL
120
130
140
150
160
170
180
190
200
210
220
230
Chymotrypsin PVVDHATCSRIDWWGFRVKKTMVCAGGDGVISACNGDSGGPLNCQLENGSWEVFGIVSFG
:::.::::
::: :: .:.:::::::::.:::::::::::: .: :.: ::::::
Elastase
LVVDYATCSSSAWWGSSVKTSMICAGGDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFG
180
190
200
210
220
230
Chymotrypsin
Elastase
240
250
260
SRRGCNTRKKPVVYTRVSAYIDWINEKM-QL
:: ::: .:: :.:::: :::::: . .
SRLGCNYYHKPSVFTRVSNYIDWINSVIANN
240
250
260
Sequenze identiche al 62%
Allineamento di sequenze
•
L’evoluzione non opera direttamente né sulla sequenza
del DNA né sulla struttura primaria delle proteine, ma
sulla conformazione tridimensionale di queste ultime.
-ATGTTGAAGTTT- M L K F -
-ATGTTGAAGTTT- M L K F -
-ATGTTGAAGTTT- M L K F -
-ATGTTGAAGTTC- M L K F Sequenza a.a identica
-ATGTTGAAGTAT- M L K Y Sequenza a.a diversa,
stuttura conservata
-ATGTTGAAGGTT- M L K V Sequenza a.a diversa,
stuttura destabilizzata
•
In considerazione di questo e della degenerazione del
codice genetico, la struttura tridimensionale delle
proteine è più conservata della sequenza primaria, che a
sua volta è più conservata della sequenza dei nucleotidi
codificanti.
Alcune regioni delle proteine sopportano meglio le mutazioni rispetto
ad altre. In particolare le regioni importanti per la produzione della
struttura secondaria (alfa eliche e foglietti beta) sono poco tolleranti,
mentre le regioni di giunzione possono essere molto più variabili.
Come faccio a stabilire quale è l’allineamento migliore
tra tutti gli allineamenti possibili?
L’allineamento migliore tra due sequenze è quello che mi
dà il punteggio più elevato. Non è detto che l’allineamento
ottimale per un sistema di scoring sia ottimale anche
usando un sistema di scoring differente.
Esistono algoritmi che sono in grado di trovare gli
allineamenti migliori tra due sequenze. Alcuni lo fanno in
maniera matematicamente esatta (programmi lenti e
accurati). Altri non danno la garanzia di trovare
l’allineamento matematicamente migliore, ma sono
decisamente più veloci. Questi ultimi sono estremamente
più usati per fare ricerche in banca dati.
Tutti questi programmi creano ed esplorano
sistematicamente una matrice bidimensionale
Comparazione di sequenze: Dot Plot Analysis
Sequenze identiche
P A O L O R
O S
S I
P
A
O
*
*
*
*
*
*
*
L
O
*
*
R
O
S
S
I
*
*
*
*
*
*
*
*
*
Comparazione di sequenze: Dot Plot Analysis
Sequenze simili
P A O L O R
O S
S I
P
A
*
*
*
O
*
*
L
A
*
*
R
*
U
S
*
*
S
O
*
*
*
*
*
Comparazione di sequenze: Dot Plot Analysis
Sequenze diverse
P A O L O R
O S
S I
C
A
*
*
R
*
L
A
*
V
E
R
*
D
I
*
Comparazione di sequenze: Dot Plot Analysis
Inserzioni/delezioni
P A O L O M A R I A R O S S I
P *
A
O
*
*
*
*
*
*
*
*
L
O
*
R
O
S
S
I
*
*
*
*
*
*
* *
* *
*
Come posso allineare due sequenze?
Slittamento relativo
AATGACTA
|
|
AGATTGTC
-AATGACTA
||
AGATTGTC-
--AATGACTA
| || |
AGATTGTC--
A volte per ottenere un buon allineamento può essere
necessario inserire delle interruzioni (gaps)
AAGTGACTA
||
|
AATGACTAA
AAGTGACTA|| ||||||
AA-TGACTAA
Come faccio a stabilire quanto è ‘buono’ un allineamento?
E’ estremamente importante fissare delle regole per
attribuirgli un punteggio (score). In particolare, se
sto lavorando con due sequenze nucleotidiche devo
decidere:
• Quanto vale trovare una identità (match)
• Quanto vale trovare una non identità (mismatch)
• Quanto vale trovare una interruzione (gap open penalty)
• Quanto vale la lunghezza dell’interruzione (gap extension
penalty)
Esempi
Sistema di punteggio (scoring system):
• Match = +1
• Mismatch = 0
• Gap open penalty = -1
• Gap extension penalty = 0
Valutazione allineamenti:
AAGTGACTA
||
|
AATGACTAA
AAGTGACTA|| ||||||
AA-TGACTAA
AAGGTGACTA|| ||||||
AA--TGACTAA
Score = 3+0+0+0= 3
Score = 8+0-2+0= 6
Score = 8+0-2+0= 6
Esempi
Sistema di punteggio (scoring system):
• Match = +2
• Mismatch = -1
• Gap open penalty = -1
• Gap extension penalty = 0
Valutazione allineamenti:
AAGTGACTA
||
|
AATGACTAA
AAGTGACTA|| ||||||
AA-TGACTAA
Score = 6-6+0+0= 0
Score = 16+0-2+0= 14
AAGGTGACTA|| ||||||
AA--TGACTAA
Score = 16+0-2+0= 14
Esempi
Sistema di punteggio (scoring system):
• Match = +2
• Mismatch = -1
• Gap open penalty = -2
• Gap extension penalty = -1
Valutazione allineamenti:
AAGTGACTA
||
|
AATGACTAA
AAGTGACTA|| ||||||
AA-TGACTAA
Score = 6-6+0+0= 0
Score = 16+0-4+0= 12
AAGGTGACTA|| ||||||
AA--TGACTAA
Score = 16+0-2-1= 13
Nel caso delle sequenze aminoacidiche il sistema di
punteggio deve essere più complicato. Infatti in questo
caso devo tenere conto non solo del fatto che due
aminoacidi possono essere uguali o diversi, ma anche
del fatto che alcuni aminoacidi hanno proprietà simili,
e per questo possono non destabilizzare la struttura e
la funzione della proteina. Il sistema di punteggio per
le sequenze aminoacidiche si chiama matrice di
sostituzione (substitution matrix). Per gli acidi
nucleici il discorso è più semplice, ma anche in questo
caso esistono delle matrici apposite, che tengono conto
del fatto che, quando il DNA muta, le transizioni
hanno una frequenza diversa dalle transversioni.
Matrice PAM 30
Calcolo matrici di sostituzione su base evolutiva
KQASHLLKYDSTLGIFDADVKPSGETAISVD
KQASHLVKYDSTLGIFDADVRPSGETAISVD
KQASHLLKYESTLGIFDADVKPSGATAISVD
KQACHLLKYDSTLGIFDAEVKPSGETAISVD
KQASHLLKYDSTLGIFDADVKPSGETAISVD
KQASHLLKYDSSLGIFDADVKASGETAISVD
KQASHILKYDSTLGIFDADVKPSGETAITVD
DQASHLLKYDSTLGLFDADVKPSGETAISVD
KQASHLLKFDSTLGIFDADVRPSGETAISVD
KQASSLLKYDSTLGIFDADVKPTGETAISVD
KQVSHLLKYDSTLGIFEADVKPSGETAISVD
KQASHLLKYDVTLGIFDADVKPSGETPISVD
KQASHLCKYDSTLGIFDADVKPSVETAISVD
KQASHLLKYQSTLGIFDADVKPSGETAISVE
Freq. Oss.
Coppia a.a.
Score= ln Odd (bit)
Odd=
Freq. attesa
Coppia a.a.
Calcolo dello score di un allineamento
V
V
H
H
K
K
R
D
W
W
N
N
7
9
7 -10 13 8
A
S
L
N
L
Q
L
I
R
S
K
G
N
N
D
D
I
I
A
A
L
L
0 -7 -5 -1 -3 -10 -2 8
8
8
6
7 -1 7 -1 6 -2
Scoring matrix = PAM 30
Gap open penalty = -10
Gap extension penalty = -2
I
L
K
K
L
L
A E
A N
Comparazione di sequenze: Dot Plot Analysis
V
H
K
D
W
N
S
N
Q
I
V
H
K
R
W
N
A
L
7
-6
-9
-8
-15
-8
-6
-8
-7
2
-6 -9 -8 -15 -8 -2 -2
9 -6 -2 -7 0 -7 -6
-6 7 0 -12 -1 -7 -8
-4 -4 -10 -15 2 -3 -12
-7 -12 -2 13 -8 -13 -6
0 -1 -6 -8 8 -4 -7
-6 -4 -3 -5 0 0 -8
0 -1 -6 -8 8 -4 -7
-3 -3 -2 -13 -3 -4 -5
-9 -6 -5 -14 -5 -5 -1
L
L
-2
-6
-8
-12
-6
-7
-8
-7
-5
-1
-2
-6
-8
-12
-6
-7
-8
-7
-5
-1
Comparazione di sequenze: Dot Plot Analysis
V
H
K
D
W
N
S
N
Q
I
V
H
K
R
W
N
A
L
7
-6
-9
-8
-15
-8
-6
-8
-7
2
-6 -9 -8 -15 -8 -2 -2
9 -6 -2 -7 0 -7 -6
-6 7 0 -12 -1 -7 -8
-4 -4 -10 -15 2 -3 -12
-7 -12 -2 13 -8 -13 -6
0 -1 -6 -8 8 -4 -7
-6 -4 -3 -5 0 0 -8
0 -1 -6 -8 8 -4 -7
-3 -3 -2 -13 -3 -4 -5
-9 -6 -5 -14 -5 -5 -1
L
L
-2
-6
-8
-12
-6
-7
-8
-7
-5
-1
-2
-6
-8
-12
-6
-7
-8
-7
-5
-1
Allineamento globale e allineamento locale
Alcuni programmi, date due sequenze, generano in ogni
caso l’allineamento migliore possibile tra di esse, su tutta
la lunghezza. Questo tipo di allineamento prende il nome
di allineamento globale. Non necessariamente un
allineamento globale ha significato biologico.
Altri programmi, date due sequenze, non le allineano
necessariamente su tutta la lunghezza, ma vanno a
cercare soltanto i tratti in cui l’omologia tra le due
sequenze (ossia lo score) supera una certa soglia. In questi
si parla di allineamento locale.
A causa della struttura modulare delle proteine, i programmi di
allineamento locale sono preferibili per cercare similitudini all’interno di
una banca dati. I programmi di allineamento globale vanno bene quando si
confrontano tra loro sequenze omologhe su tutta la lunghezza
Alcuni dei programmi più utilizzati
Algoritmo di Needleman-Wunsch = allineamento globale,
matematicamente rigoroso. Molto lento mai utilizzato per
ricerhe in banca dati.
Algoritmo di Smith-Watermann = allineamento locale,
matematicamente rigoroso. Molto lento, utilizzato solo
recentemente per ricerhe in banca dati, grazie allo
sviluppo di calcolatori dedicati.
FASTA = allineamento locale, piuttosto rigoroso, più
veloce dei precedenti.
BLAST = (Basic Local Alignment Search Tool). Poco
rigoroso, ma estremamente più veloce dei precedenti.
Pertanto è molto utilizzato per le ricerche di routine. Gli
altri sono più utilzzati quando si vogliono trovare deboli
similitudini.
Come funziona BLAST?
La sequenza di cui si vogliono trovare gli omologhi viene
scomposta in tutte le possibili parole di una lunghezza
prefissata (ad esempio due o tre se si tratta di aminoacidi)
MLFFRRQPKHCSDTEF
MLF
PKH
LFF
KHC
FFR
HCS
FRR
CSD
RRQ
SDT
RQP
DTE
QPK
TEF
Le parole di tre lettere vengono quindi cercate in tutte le
sequenze della banca dati (operazione estremamente
rapida)
Query: MLFFRRQPKHCSDTEF
MLF
PKH
LFF
KHC
FFR
HCS
FRR
CSD
RRQ
SDT
RQP
DTE
QPK
TEF
QPK
:::
Subject: ASDDERTGLFDRKQPKACMDSEFKATT
In seguito l’allineamento viene esteso
Query:
MLFFRRQPK HCSDTEF
:: :.::: : :.:
Subject: ASDDERTGLFDRKQPKACMDSEFKATT
Gapped BLAST
Gapped BLAST
Versioni disponibili del programma Blast
BlastN = ricerca in un database di sequenze nucleotidiche
le sequenze omologhe ad una sequenza nucleotidica data.
BlastP = ricerca in un database di sequenze aminoacidiche
le sequenze omologhe ad una sequenza aminoacidica data.
BlastX = data una sequenza nucleotidica, la traduce in tutte
e sei le possibili cornici di lettura (traduzione dinamica), e
cerca le seqeunze omologhe alle traduzioni in un database
di sequenze aminoacidiche
tBlastN = data una sequenza aminoacidica, la confronta
con tutte le possibili traduzioni di un database di sequenze
nucleotidiche.
tBlastX = data una sequenza nucleotidica, confronta la sua
traduzione dinamica con tutte le possibili traduzioni di un
database di sequenze nucleotidiche.
Geni ortologhi
Due geni appartenenti a specie diverse si definiscono
ortologhi se hanno una forte omologia e svolgono la
stessa funzione. Quasi certamente le proteine codificate
hanno strutture tridimensionali sovrapponibili. Ùquesti
geni hanno avuto origine da un antenato comune in un
periodo evolutivo precedente.
Geni paraloghi
Si definiscono paraloghi i geni derivanti da eventi di
duplicazione e divergenza nel genoma della stessa
specie. Questi eventi possono portare alla produzione di
famiglie di proteine correlate con strutture e funzioni
biologiche simili. A volte però i paraloghi possono
diversificarsi moltissimo, ed acquisire funzioni
specializzate nonostante la struttura simile.
Una volta stabilito che un insieme di proteine
sono tra di loro omologhe posso procedere ad un
allineamento multiplo. Il programma più usato a
questo scopo si chiama CLUSTALW.
Da un allineamento multiplo posso derivare molte
informazioni. In particolare mi può aiutare a fare
una predizione di struttura secondaria, a dire quali
sono gli aminoacidi essenziali per tutta la
famiglia, a dire quali sono gli aminoacidi che
conferiscono particolari caratteristiche, a
identificare particolari domini funzionali.
Allineamento multiplo generato dal programma CLUSTALW
ATA
--------SSGGYRKGVTEAKLKVAINGFGRIGRNFLRCWHGRKDSPLDIIAIND-TGGV 99
ATB
AQIIPKAVTTSTPVRGETVAKLKVAINGFGRIGRNFLRCWHGRKDSPLEVVVLND-SGGV 119
HS
----------------MG--KVKVGVNGFGRIGRLVTRAAF--NSGKVDIVAINDPFIDL 40
MM
--------------------MVKVGVNGFGRIGRLVTRAAI--CSGKVEIVAINDPFIDL 38
XL
--------------------MVKVGINGFGCIGRLVTRAAF--DSGKVQVVAINDPFIDL 38
DM
--------------------MSKIGINGFGRIGRLVLRAAI--DKG-ANVVAVNDPFIDV 37
CE
----------------MS--KANVGINGFGRIGRLVLRAAV--EKDTVQVVAVNDPFITI 40
SP
----------------MA--IPKVGINGFGRIGRIVLRNAI--LTGKIQVVAVNDPFIDL 40
ATC
----------------MADKKIRIGINGFGRIGRLVARVVL--QRDDVELVAVNDPFITT 42
OS
----------------MG--KIKIGINGFGRIGRLVARVAL--QSEDVELVAVNDPFITT 40
SC
--------------------MVRVAINGFGRIGRLVMRIAL--SRPNVEVVALNDPFITN 38
ECA
-------------------MTIKVGINGFGRIGRIVFRAAQ--KRSDIEIVAIND-LLDA 38
HI
-------------------MAIKIGINGFGRIGRIVFRAAQ--HRDDIEVVGIND-LIDV 38
ECC
--------------------MSKVGINGFGRIGRLVLRRLL-EVKSNIDVVAIND-LTSP 38
.:.:**** *** . *
::: :**.
ATA
KQASHLLKYDSTLGIFDADVKPSGETAISVD-----GKIIQVVSNRNPSLLPWKELGIDI 154
ATB
KNASHLLKYDSMLGTFKAEVKIVDNETISVD-----GKLIKVVSNRDPLKLPWAELGIDI 174
HS
NYMVYMFQYDSTHGKFHG-TVKAENGKLVIN-----GNPITIFQERDPSKIKWGDAGAEY 94
MM
NYMVYMFQYDSTHGKFNG-TVKAENGKLVIN-----GKPITIFQERDPTNIKWGEAGAEY 92
XL
DYMVYMFKYDSTHGRFKG-TVKAENGKLIIN-----DQVITVFQERDPSSIKWGDAGAVY 92
DM
NYMVYLFKFDSTHGRFKG-TVAAEGGFLVVN-----GQKITVFSERDPANINWASAGAEY 91
CE
DYMVYLFKYDSTHGQFKG-TVTYDGDFLIVQKDGKSSHKIKVFNSKDPAAIAWGSVKADF 99
SP
DYMAYMFKYDSTHGRFEG-SVETKGGKLVID-----GHSIDVHNERDPANIKWSASGAEY 94
ATC
EYMTYMFKYDSVHGQWKHNELKIKDEKTLLFG----EKPVTVFGIRNPEDIPWAEAGADY 98
OS
DYMTYMFKYDTVHGQWKHSDIKIKDSKTLLLG----EKPVTVFGIRNPDEIPWAEAGAEY 96
SC
DYAAYMFKYDSTHGRYAG-EVSHDDKHIIVD-----GKKIATYQERDPANLPWGSSNVDI 92
ECA
DYMAYMLKYDSTHGRFDG-TVEVKDGHLIVN-----GKKIRVTAERDPANLKWDEVGVDV 92
HI
EYMAYMLKYDSTHGRFDG-TVEVKDGNLVVN-----GKTIRVTAERDPANLNWGAIGVDI 92
ECC
KILAYLLKHDSNYGPFPW-SVDFTEDSLIVD-----GKSIAVYAEKEAKNIPWKAKGAEI 92
.
::::.*:
* :
:
: :
::.
: *
Caratteristiche di famiglie di proteine derivabili
da allineamenti multipli:
Profilo= rappresentazione numerica dell’allineamento
che valuta:
a) Quali residui sono presenti in ogni posizione e con quale
frequenza.
b) Presenza di residui assolutamente conservati.
c) Presenza di eventuali gap.
Dagli allineamenti multipli si possono costruire delle
position-specific scoring tables (PSST), che riflettono
la probabilità di trovare un certo aminoacido in ogni
posizione.
Caratteristiche di famiglie di proteine derivabili
da allineamenti multipli:
Pattern= rappresentazione dell’allineamento che
valuta unicamente la presenza di determinati
residui per ogni posizione.
[IV]-G-x-G-T-[LIVMF]-x(2)-[GS]
Motivo= sequenza conservata di aminoacidi che
conferisce una specifica funzione o struttura.
Blocco= regione conservata di un allineamento
multiplo priva di gaps.
Per annotazione si intende il complesso delle
informazioni che si possiedono su una determinata
sequenza di acido nucleico, come ad esempio:
• Traduzione nei rispettivi aminoacidi
• Siti di inizio della trascrizione
• Siti di inizio della traduzione
• Segnali di poliadenilazione
• Giunzioni esoni-introni
• Informazioni sulla funzione
• Varianti di sequenza
Predizione di geni all’interno di regioni genomiche
• Esoni interni (-exon---gt---intron-----ag--exon---)
• Primo esone (sequenza 5’ UTR)
• Ultimo esone (sequenza 3’ UTR)
• Esoni unici
• Siti di splicing alternativo
• Promotori (TATA e CAAT boxes)
• Segnali di poliadenilazione (AAUAAA)
• ATG di inizio
• STOP codon
• Se la sequenza non è completa può essere
necessario predire i singoli esoni.
Problema estremamente complesso perché per ognuna delle cose
da predire non basta un unico criterio. Moltissimi programmi
Scarica

Lezione 6 - sistemi informativi service desk