Che cosa è la bioinformatica?
Approccio multidisciplinare al problema della gestione e della
elaborazione delle informazioni biologiche. Se si vuole capire il
funzionamento degli organismi bisogna maneggiare enormi
contenuti di informazione!!
---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC---
--MLKFKYGVRNPPEA--
Obiettivo della bioinformatica
Estrarre dalla sequenza del genoma
degli organismi viventi informazioni utili
per la comprensione dei fenomeni
biologici e per lo sviluppo di nuove
strategie biomediche e biotecnologiche.
Discipline che contribuiscono allo
sviluppo della Bioinformatica
• Biologia
• Biochimica
• Informatica (sviluppo di
programmi di analisi e banche dati)
• Scienza dei calcolatori
• Matematica
• Fisica
A cosa serve la bioinformatica ?
Creazione, gestione e interrogazione di banche dati
di sequenze di acidi nucleici e proteine
GenBank (USA)
DNA database
of Japan
10-10-2003
20.200.000.000
di paia di basi depositate
EMBL
Che tipo di sequenze di acidi nucleici posso
trovare nelle banche dati pubbliche?
• cDNA completi (full length), con rispettive
traduzioni in aminoacidi
• mRNA parziali (sequenze EST)
• Sequenze non codificanti (rRNA, tRNA etc.)
• Sequenze genomiche complete o incomplete
• Genomi virali
• Genomi mitocondriali
• Polimorfismi a carico di tutte le sequenze precedenti
• Vettori di clonaggio
Comparazione di sequenze nucleotidiche e aminoacidiche
Chymotrypsin
Elastase
10
20
30
40
50
60
MLGITVLAALLACASSCGVPSFPPNLSARVVGGEDARPHSWPWQISLQYLKNDTWRHTCG
:.
.:..:.: : ::: :..:: .. ::::::.:::.:::::.:::: .: : ::::
MIRTLLLSTLVAGALSCGDPTYPPYVT-RVVGGEEARPNSWPWQVSLQYSSNGKWYHTCG
10
20
30
40
50
70
80
90
100
110
Chymotrypsin GTLIASNFVLTAAHCISNTRTYRVAVGKNNLEVEDEEGSLFVGVDTIHVHKRWNALLLR:.:::...:::::::::..:::::..:..:: : : ::: :.:. : ::: ::. .
Elastase
GSLIANSWVLTAAHCISSSRTYRVGLGRHNLYVA-ESGSLAVSVSKIVVHKDWNSNQISK
60
70
80
90
100
110
120
130
140
150
160
170
Chymotrypsin -NDIALIKLAEHVELSDTIQVACLPEKDSLLPKDYPCYVTGWGRLWTNGPIADKLQQGLQ
:::::.:::. : :.: ::.::::
..::..::::::::::: ::: . : ::::
Elastase
GNDIALLKLANPVSLTDKIQLACLPPAGTILPNNYPCYVTGWGRLQTNGAVPDVLQQGRL
120
130
140
150
160
170
180
190
200
210
220
230
Chymotrypsin PVVDHATCSRIDWWGFRVKKTMVCAGGDGVISACNGDSGGPLNCQLENGSWEVFGIVSFG
:::.::::
::: :: .:.:::::::::.:::::::::::: .: :.: ::::::
Elastase
LVVDYATCSSSAWWGSSVKTSMICAGGDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFG
180
190
200
210
220
230
Allineamento di sequenze
Perché è importante?
•
Le caratteristiche funzionali delle molecole biologiche
dipendono dalle conformazione tridimensionale che gli
atomi costituenti assumono nello spazio. Questa a sua
volta dipende dalla sequenza delle unità elementari (in
genere si tratta di aminoacidi, ma lo stesso discorso vale
anche per i nucleotidi).
•
Molecole che hanno sequenza primaria simile tendono
ad avere strutture secondarie e terziarie simili.
•
Se due proteine sono identiche al 50%, è altamente
probabile che la loro struttura tridimensionale sia quasi
completamente sovrapponibile.
Sequenze identiche al 62%
Allineamento di sequenze
•
L’evoluzione non opera direttamente né sulla sequenza
del DNA né sulla struttura primaria delle proteine, ma
sulla conformazione tridimensionale di queste ultime.
-ATGTTGAAGTTT- M L K F -
-ATGTTGAAGTTT- M L K F -
-ATGTTGAAGTTT- M L K F -
-ATGTTGAAGTTC- M L K F Sequenza a.a identica
-ATGTTGAAGTAT- M L K Y Sequenza a.a diversa,
stuttura conservata
-ATGTTGAAGGTT- M L K V Sequenza a.a diversa,
stuttura destabilizzata
•
In considerazione di questo e della degenerazione del
codice genetico, la struttura tridimensionale delle
proteine è più conservata della sequenza primaria, che a
sua volta è più conservata della sequenza dei nucleotidi
codificanti.
Identità ed omologia
•
Gli aminoacidi possono essere raggruppati in base alle
loro caratteristiche fisico-chimiche. Su questa base un
aminoacido può essere definito simile ad un altro
R
K
•
Carichi
positivamente
RK
DE
FL
I VW
Carichi
Idrofobici
Dato un allineamento di sequenze:
Percentuale di identità= di residui identici/residui totali*100
(residui identici + residui simili)
Percentuale di omologia=
* 100
(residui totali)
Evoluzione divergente delle sequenze biologiche
A
Specie ancestrale
Sequenze ortologhe
B
C
B
Specie derivata 1
C
Specie derivata 2
Evoluzione divergente delle sequenze biologiche
A
Specie 1
Sequenze paraloghe
Duplicazione genica
A
A’
A’ A
Specie 1
La comparazione tra sequenze omologhe serve ad identificare le
regioni più importanti dal punto di vista strutturale e funzionale.
Comparando la sequenza delle proteine si può comprendere quali
aminoacidi sono responsabili delle caratteristiche comuni, e quali
sono responsabili delle differenze.
ATA
ATB
HS
MM
XL
DM
CE
SP
ATC
OS
SC
ECA
HI
ECC
GAAKAVALVLPNLKGKLNGIALRVPTPNVSVVDLVVQVSKK-TFAEEVNAAFRDSAEK-GAAKAVSLVLPQLKGKLNGIALRVPTPNVSVVDLVINVEKKGLTAEDVNEAFRKAANG-GAAKAVGKVIPELNGKLTGMAFRVPTANVSVVDLTCRLEKP-AKYDDIKKVVKQASEG-GAAKAVGKVIPELNGKLTGMAFRVPTPNVSVVDLTCRLEKP-AKYDDIKKVVKQASEG-GAAKAVGKVIPELNGKITGMAFRVPTPNVSVVDLTCRLQKP-AKYDDIKAAIKTASEG-GAAKAVGKVIPALNGKLTGMAFRVPTPNVSVVDLTVRLGKG-ASYDEIKAKVQEAANG-GAAKAVGKVIPELNGKLTGMAFRVPTPDVSVVDLTVRLEKP-ASMDDIKKVVKAAADG-GAAKAVGKVIPALNGKLTGMAFRVPTPDVSVVDLTVKLAKP-TNYEDIKAAIKAASEG-GAAKAVGKVLPALNGKLTGMSFRVPTVDVSVVDLTVRLEKA-ATYEEIKKAIKEESEG-GAAKAVGKVLPDLNGKLTGMSFRVPTVDVSVVDLTVRIEKA-ASYDAIKSAIKSASEG-GAAKAVGKVLPELQGKLTGMAFRVPTVDVSVVDLTVKLNKE-TTYDEIKKVVKAAAEG-GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKA-ATYEQIKAAVKAAAEG-GAAKAVGKVLPALNGKLTGMAFRVPTPNVSVVDLTVNLEKP-ASYDAIKQAIKDAAEGKT
GAAKAIGLVIPELSGKLKGHAQRVPVKTGSVTELVSILGKK-VTAEEVNNALKQATTN--
328
351
268
266
266
265
274
268
272
270
266
266
268
266
Costruzione di modelli di struttura tridimensionale delle
proteine per omologia
Determinare la struttura tridimensionale di una proteina richiede
moltissimo lavoro. Però, siccome a sequenza simile corrisponde
struttura simile, se una proteina assomiglia ad un’altra di cui
conosco la struttura, si può costrurirne un modello senza ricorrere
a metodi sperimentali.
Homology
modeling
=
convenientissima
scorciatioia
Geni ortologhi
Due geni appartenenti a specie diverse si definiscono
ortologhi se hanno una forte omologia e svolgono la
stessa funzione. Quasi certamente le proteine codificate
hanno strutture tridimensionali sovrapponibili. Questi
geni hanno avuto origine da un antenato comune in un
periodo evolutivo precedente.
Geni paraloghi
Si definiscono paraloghi i geni derivanti da eventi di
duplicazione e divergenza nel genoma della stessa
specie. Questi eventi possono portare alla produzione di
famiglie di proteine correlate con strutture e funzioni
biologiche simili. A volte però i paraloghi possono
diversificarsi moltissimo, ed acquisire funzioni
specializzate nonostante la struttura simile.
Analisi filogenetica
Confrontando le sequenze
ortologhe di specie diverse
si può arrivare a tracciare
una storia molto precisa
della loro evoluzione
La bioinformatica è stata fondamentale per
arrivare ad ottenere la sequenza completa del
genoma umano
Schema whole genome shotgun
DNA Genomico
Frammenti casuali lunghi (5-20 kb) e corti (0.4-1.2 kb) derivanti da
rottura meccanica del DNA clonati in vettori da sequenziamento
Sequenziamento automatico bidirezionale
Ricostruzione computerizzata della sequenza genomica
Predizione di geni all’interno di regioni genomiche
• Esoni interni (-exon---gt---intron-----ag--exon---)
• Primo esone (sequenza 5’ UTR)
• Ultimo esone (sequenza 3’ UTR)
• Esoni unici
• Siti di splicing alternativo
• Promotori (TATA e CAAT boxes)
• Segnali di poliadenilazione (AAUAAA)
• ATG di inizio
• STOP codon
• Se la sequenza non è completa può essere
necessario predire i singoli esoni.
Problema estremamente complesso perché per ognuna delle cose
da predire non basta un unico criterio. Moltissimi programmi
La Bioinformatica è fondamentale per ‘navigare’
nella sequenza del genoma
La Bioinformatica è fondamentale per gestire il volume di
dati derivante dagli esperimenti di microarray e dalle
tecnologie proteomiche
La Bioinformatica è fondamentale per interpretare le
complesse reti di interconnessione tra geni e proteine
Scarica

Lezione 7