Che cosa è la bioinformatica? Approccio multidisciplinare al problema della gestione e della elaborazione delle informazioni biologiche. Se si vuole capire il funzionamento degli organismi bisogna maneggiare enormi contenuti di informazione!! ---ATGTTGAAGTTCAAGTATGGTGTGCGGAAC--- --MLKFKYGVRNPPEA-- Obiettivo della bioinformatica Estrarre dalla sequenza del genoma degli organismi viventi informazioni utili per la comprensione dei fenomeni biologici e per lo sviluppo di nuove strategie biomediche e biotecnologiche. Discipline che contribuiscono allo sviluppo della Bioinformatica • Biologia • Biochimica • Informatica (sviluppo di programmi di analisi e banche dati) • Scienza dei calcolatori • Matematica • Fisica A cosa serve la bioinformatica ? Creazione, gestione e interrogazione di banche dati di sequenze di acidi nucleici e proteine GenBank (USA) DNA database of Japan 10-10-2003 20.200.000.000 di paia di basi depositate EMBL Che tipo di sequenze di acidi nucleici posso trovare nelle banche dati pubbliche? • cDNA completi (full length), con rispettive traduzioni in aminoacidi • mRNA parziali (sequenze EST) • Sequenze non codificanti (rRNA, tRNA etc.) • Sequenze genomiche complete o incomplete • Genomi virali • Genomi mitocondriali • Polimorfismi a carico di tutte le sequenze precedenti • Vettori di clonaggio Comparazione di sequenze nucleotidiche e aminoacidiche Chymotrypsin Elastase 10 20 30 40 50 60 MLGITVLAALLACASSCGVPSFPPNLSARVVGGEDARPHSWPWQISLQYLKNDTWRHTCG :. .:..:.: : ::: :..:: .. ::::::.:::.:::::.:::: .: : :::: MIRTLLLSTLVAGALSCGDPTYPPYVT-RVVGGEEARPNSWPWQVSLQYSSNGKWYHTCG 10 20 30 40 50 70 80 90 100 110 Chymotrypsin GTLIASNFVLTAAHCISNTRTYRVAVGKNNLEVEDEEGSLFVGVDTIHVHKRWNALLLR:.:::...:::::::::..:::::..:..:: : : ::: :.:. : ::: ::. . Elastase GSLIANSWVLTAAHCISSSRTYRVGLGRHNLYVA-ESGSLAVSVSKIVVHKDWNSNQISK 60 70 80 90 100 110 120 130 140 150 160 170 Chymotrypsin -NDIALIKLAEHVELSDTIQVACLPEKDSLLPKDYPCYVTGWGRLWTNGPIADKLQQGLQ :::::.:::. : :.: ::.:::: ..::..::::::::::: ::: . : :::: Elastase GNDIALLKLANPVSLTDKIQLACLPPAGTILPNNYPCYVTGWGRLQTNGAVPDVLQQGRL 120 130 140 150 160 170 180 190 200 210 220 230 Chymotrypsin PVVDHATCSRIDWWGFRVKKTMVCAGGDGVISACNGDSGGPLNCQLENGSWEVFGIVSFG :::.:::: ::: :: .:.:::::::::.:::::::::::: .: :.: :::::: Elastase LVVDYATCSSSAWWGSSVKTSMICAGGDGVISSCNGDSGGPLNCQASDGRWQVHGIVSFG 180 190 200 210 220 230 Allineamento di sequenze Perché è importante? • Le caratteristiche funzionali delle molecole biologiche dipendono dalle conformazione tridimensionale che gli atomi costituenti assumono nello spazio. Questa a sua volta dipende dalla sequenza delle unità elementari (in genere si tratta di aminoacidi, ma lo stesso discorso vale anche per i nucleotidi). • Molecole che hanno sequenza primaria simile tendono ad avere strutture secondarie e terziarie simili. • Se due proteine sono identiche al 50%, è altamente probabile che la loro struttura tridimensionale sia quasi completamente sovrapponibile. Sequenze identiche al 62% Allineamento di sequenze • L’evoluzione non opera direttamente né sulla sequenza del DNA né sulla struttura primaria delle proteine, ma sulla conformazione tridimensionale di queste ultime. -ATGTTGAAGTTT- M L K F - -ATGTTGAAGTTT- M L K F - -ATGTTGAAGTTT- M L K F - -ATGTTGAAGTTC- M L K F Sequenza a.a identica -ATGTTGAAGTAT- M L K Y Sequenza a.a diversa, stuttura conservata -ATGTTGAAGGTT- M L K V Sequenza a.a diversa, stuttura destabilizzata • In considerazione di questo e della degenerazione del codice genetico, la struttura tridimensionale delle proteine è più conservata della sequenza primaria, che a sua volta è più conservata della sequenza dei nucleotidi codificanti. Identità ed omologia • Gli aminoacidi possono essere raggruppati in base alle loro caratteristiche fisico-chimiche. Su questa base un aminoacido può essere definito simile ad un altro R K • Carichi positivamente RK DE FL I VW Carichi Idrofobici Dato un allineamento di sequenze: Percentuale di identità= di residui identici/residui totali*100 (residui identici + residui simili) Percentuale di omologia= * 100 (residui totali) Evoluzione divergente delle sequenze biologiche A Specie ancestrale Sequenze ortologhe B C B Specie derivata 1 C Specie derivata 2 Evoluzione divergente delle sequenze biologiche A Specie 1 Sequenze paraloghe Duplicazione genica A A’ A’ A Specie 1 La comparazione tra sequenze omologhe serve ad identificare le regioni più importanti dal punto di vista strutturale e funzionale. Comparando la sequenza delle proteine si può comprendere quali aminoacidi sono responsabili delle caratteristiche comuni, e quali sono responsabili delle differenze. ATA ATB HS MM XL DM CE SP ATC OS SC ECA HI ECC GAAKAVALVLPNLKGKLNGIALRVPTPNVSVVDLVVQVSKK-TFAEEVNAAFRDSAEK-GAAKAVSLVLPQLKGKLNGIALRVPTPNVSVVDLVINVEKKGLTAEDVNEAFRKAANG-GAAKAVGKVIPELNGKLTGMAFRVPTANVSVVDLTCRLEKP-AKYDDIKKVVKQASEG-GAAKAVGKVIPELNGKLTGMAFRVPTPNVSVVDLTCRLEKP-AKYDDIKKVVKQASEG-GAAKAVGKVIPELNGKITGMAFRVPTPNVSVVDLTCRLQKP-AKYDDIKAAIKTASEG-GAAKAVGKVIPALNGKLTGMAFRVPTPNVSVVDLTVRLGKG-ASYDEIKAKVQEAANG-GAAKAVGKVIPELNGKLTGMAFRVPTPDVSVVDLTVRLEKP-ASMDDIKKVVKAAADG-GAAKAVGKVIPALNGKLTGMAFRVPTPDVSVVDLTVKLAKP-TNYEDIKAAIKAASEG-GAAKAVGKVLPALNGKLTGMSFRVPTVDVSVVDLTVRLEKA-ATYEEIKKAIKEESEG-GAAKAVGKVLPDLNGKLTGMSFRVPTVDVSVVDLTVRIEKA-ASYDAIKSAIKSASEG-GAAKAVGKVLPELQGKLTGMAFRVPTVDVSVVDLTVKLNKE-TTYDEIKKVVKAAAEG-GAAKAVGKVLPELNGKLTGMAFRVPTPNVSVVDLTVRLEKA-ATYEQIKAAVKAAAEG-GAAKAVGKVLPALNGKLTGMAFRVPTPNVSVVDLTVNLEKP-ASYDAIKQAIKDAAEGKT GAAKAIGLVIPELSGKLKGHAQRVPVKTGSVTELVSILGKK-VTAEEVNNALKQATTN-- 328 351 268 266 266 265 274 268 272 270 266 266 268 266 Costruzione di modelli di struttura tridimensionale delle proteine per omologia Determinare la struttura tridimensionale di una proteina richiede moltissimo lavoro. Però, siccome a sequenza simile corrisponde struttura simile, se una proteina assomiglia ad un’altra di cui conosco la struttura, si può costrurirne un modello senza ricorrere a metodi sperimentali. Homology modeling = convenientissima scorciatioia Geni ortologhi Due geni appartenenti a specie diverse si definiscono ortologhi se hanno una forte omologia e svolgono la stessa funzione. Quasi certamente le proteine codificate hanno strutture tridimensionali sovrapponibili. Questi geni hanno avuto origine da un antenato comune in un periodo evolutivo precedente. Geni paraloghi Si definiscono paraloghi i geni derivanti da eventi di duplicazione e divergenza nel genoma della stessa specie. Questi eventi possono portare alla produzione di famiglie di proteine correlate con strutture e funzioni biologiche simili. A volte però i paraloghi possono diversificarsi moltissimo, ed acquisire funzioni specializzate nonostante la struttura simile. Analisi filogenetica Confrontando le sequenze ortologhe di specie diverse si può arrivare a tracciare una storia molto precisa della loro evoluzione La bioinformatica è stata fondamentale per arrivare ad ottenere la sequenza completa del genoma umano Schema whole genome shotgun DNA Genomico Frammenti casuali lunghi (5-20 kb) e corti (0.4-1.2 kb) derivanti da rottura meccanica del DNA clonati in vettori da sequenziamento Sequenziamento automatico bidirezionale Ricostruzione computerizzata della sequenza genomica Predizione di geni all’interno di regioni genomiche • Esoni interni (-exon---gt---intron-----ag--exon---) • Primo esone (sequenza 5’ UTR) • Ultimo esone (sequenza 3’ UTR) • Esoni unici • Siti di splicing alternativo • Promotori (TATA e CAAT boxes) • Segnali di poliadenilazione (AAUAAA) • ATG di inizio • STOP codon • Se la sequenza non è completa può essere necessario predire i singoli esoni. Problema estremamente complesso perché per ognuna delle cose da predire non basta un unico criterio. Moltissimi programmi La Bioinformatica è fondamentale per ‘navigare’ nella sequenza del genoma La Bioinformatica è fondamentale per gestire il volume di dati derivante dagli esperimenti di microarray e dalle tecnologie proteomiche La Bioinformatica è fondamentale per interpretare le complesse reti di interconnessione tra geni e proteine