Allineamento multiplo Allineamenti multipli Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il modo migliore per conoscere le caratteristiche di una determinata famiglia è allineare molte proteine a funzione analoga. I siti funzionalmente o strutturalmente più rilevanti tendono a mantenersi invariati nelle proteine omologhe, mentre i siti meno importanti possono cambiare anche molto. Osservare e studiare le conservazioni significa capire come le famiglie di proteine funzionano, cosa la rende diverse tra loro, se esistono o meno relazioni filogenetiche inter e intrafamiglia. In questo modo è possibile individuare la funzione di una proteina ignota solo osservando la sequenza dei suoi residui. Applicazioni dell’allineamento multiplo ‘Assemblaggio’ dei genomi Primers per PCR Consensi, motivi Profili, modelli markoviani Definizione di famiglie Filogenesi Inferenze strutturali Inferenze funzionali Similitudine e omologia Omologia: carattere QUALITATIVO che posseggono quelle sequenze che derivano da un antenato comune in seguito al processo evolutivo. O due geni sono omologhi o non lo sono. Non esiste una percentuale di omologia. Similitudine: carattere QUANTITATIVO che origina da un allineamento. Il grado di identità che si determina tra i residui allineati o il fatto che residui simili possano corrispondere in un allineamento, può essere quantificato disponendo di metri di valutazione oggettivi, come le matrici di sostituzione. => un’alta similitudine tra proteine può essere indice di omologia, ma non si può escludere il contrario. Esistono infatti proteine molto simili in organismi filogeneticamente non correlati tra loro e proteine molto diverse che possono essere ricondotte a omologhe mediante altri studi Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle proteine che essi codificano. es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa 80 milioni di anni fa, quando avvenne la divisione che dette vita ai primati e ai roditori. I due geni sono da considerarsi ortologhi. Geni paraloghi: geni originati dalla duplicazione di un unico gene nello stesso organismo. es. α-globina e β-globina umana hanno iniziato a divergere in seguito alla duplicazione di un gene globinico ancestrale. I due geni sono da considerarsi paraloghi. Le sequenze da multiallineare in genere si ottengono dalla ricerca in banca dati mediante i sistemi di ricerca per similarità come BLAST e FASTA. Visto che derivano già da un allineamento (anche se prodotto con metodi euristici) e visto che si prendono in considerazione solo sequenze che hanno un alto score (o un basso E, expectation value), l’allineamento mutiplo su questi DATASET darà risultati soddisfacenti. In un allineamento multiplo si prendono in considerazione le colonne di residui, più che le proteine a cui appartengono. Ogni residuo incolonnato è da considerarsi in modo implicito come evolutivamente correlato, in qualche modo. Significato biologico dell’allineamento multiplo L’allineamento multiplo riassume La storia evolutiva di una famiglia di proteine La conservazione dei residui dipendente dalla funzione La conservazione dei residui dipendente dalla struttura Allineamenti multipli Vs. allineamenti a coppie A B 1: 2: 3: 4: 5: 6: EAGFPPGVVNVIPGFGPTAGAAHASHEDVDKVAFTGSTEVGHLIQVA EAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVA QYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAA NVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAA EAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEM DI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH 11:: 22:: 33:: 44:: 55:: 66:: EAGFPPGVVNVIPGFGPTAGAAIASHEDVDKVAFTGSTEVGHLIQVA EAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVA QYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAA NVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAA EAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEM DI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH Significato funzionale della conservazione TRYI_DROME ENTK_PIG/8 THRB_BOVIN KLK1_MOUSE CTRA_BOVIN CTR1_ANOGA CTRL_HALRU : : : : : : : IIGGSDQLIRNAPWQVSIQISAR----HECGGVIYSKEIIITAGHCLHER-SVTLMKV-----RVGA---QNHNYGG-TLVPVAAY--KVHEQFDSRFLH--IVGGNDSREGAWPWVVALYYNG----QLLCGASLVSRDWLVSAAHCVYG----RNLEPSKWKAILG--LHMTSNLTSPQIVTRLIDEIVINPHYNRRRKD--IVEGQDAEVGLSPWQVMLFRKSPQE--LLCGASLISDRWVLTAAHCLLYPPWDKNFTVDDLLVRIGK-HSRTRYERKVEKISMLDK-IYIHPRYNWKEN---IVGGFNCEKNSQPWQVAVYRFT----KYQCGGILLNVNWVLTAAHCHND-----KYQV-----WLGK-NNFLEDEPSAQHRLVSK--AIPHPDFNMSLLNEHT IVNGEEAVPGSWPWQVSLQDKTG---FHFCGGSLINENWVVTAAHCGVT----TSDVV-----VAGEFDQGSSSEK-IQKLKIAK--VFKNSKYNSLTIN--VVGGEVAKNGSAPYQVSLQVPGWG---HNCGGSLLNDRWVLTAAHCLVG-HAPGDLMV-----LVGT---NSLKEGG-ELLKVDK--LLYHSRYNLPRFH--IVGGSNAAAGEFPWQGSLQVRSGTSWFHICGCVLYTTSKALTAAHCLSN--SASSYRL--G---FGMLR-MNNVDGTEQYSSVTS--YTNHPNYNGNAAG--- : : : : : : : 84 90 95 86 85 85 90 TRYI_DROME ENTK_PIG/8 THRB_BOVIN KLK1_MOUSE CTRA_BOVIN CTR1_ANOGA CTRL_HALRU : : : : : : : --------YDIAVLRLSTP-LTFGLSTRAINLAS---TSP--SGGTTVTVTGWGH----TDNG---ALSDSLQKAQLQIIDRGECASQKFGYGAD-FVGEETI --------SDIAMMHLEFK-VNYTDYIQPICLPE---ENQVFPPGRICSIAGWGK---VIYQG---SPADILQEADVPLLSNEKCQQQMP-EYN---ITENMM ------LDRDIALLKLKRP-IELSDYIHPVCLPDKQTAAKLLHAGFKGRVTGWGNRRETWTTSVAEVQPSVLQVVNLPLVERPVCKAS---TRIR--ITDNMF PQPEDDYSNDLMLLRLKKP-ADITDVVKPIDLPT---EEP--KLGSTCLASGWGS---ITPVKY--EYPDELQCVNLKLLPNEDCAKA---HIEK--VTDDML --------NDITLLKLSTA-ASFSQTVSAVCLPS---ASDDFAAGTTCVTTGWGL---TRYTNA--NTPDRLQQASLPLLSNTNCKKY---WGTK--IKDAMI --------NDIGLVRLEQP-VQFSELVQSVEYSE-----KAVPANATVRLTGWGR---TSANG---PSPTLLQSLNVVTLSNEDCNKK---GGDPGYTDVGHL ------YPNDIAVLRLTSSMDTSSSAVGPSVWLL---------VERLCRTNMYDQR--MGKTQWRWQHPNNLQKVDMTVLTNSDCSSRWSGISGAT-VNSGHI : : : : : : : 165 171 186 173 166 165 175 TRYI_DROME ENTK_PIG/8 THRB_BOVIN KLK1_MOUSE CTRA_BOVIN CTR1_ANOGA CTRL_HALRU : : : : : : : CAAS----TD-ADACTGDSGGPLVASSQ------LVGIVSWG-YRCADDNYPGVYADVAILRPWI CAGYE--EGG-IDSCQGDSGGPLMCLEN--NRWLLAGVTSFG-YQCALPNRPGVYARVPKFTEWI CAGYKPGEGKRGDACEGDSGGPFVMKSPYNNRWYQMGIVSWG-EGCDRDGKYGFYTHVFRLKKWI CAGDM--DGG-KDTCAGDSGGPLICDGV------LQGITSWGPSPCGKPNVPGIYTRVLNFNTWI CAGA----SG-VSSCMGDSGGPLVCKKN--GAWTLVGIVSWG-SSTCSTSTPGVYARVTALVNWV CTLTK---TG-EGACNGDSGGPLVYEGK------LVGVVNFG-VPCALG-YPDGFARVSYYHDWV CIFE----SG-RSACSGDSGGPLVCGNT------LTGITSWGISSCSGS-YPSVYTRVSSFYNWV : : : : : : : 218 230 250 229 223 218 228 Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina Significato strutturale dell’allineamento multiplo PDBSUM of 1tlk a b e c f C d g Sequenze molto divergenti del domino immunoglobulinico allineate manualmente sulla base dell’informazione della struttura di uno dei membri della famiglia (PDB 1tlk). Si noti la presenza di inserzioni o delezioni soprattutto in regioni corrispondenti a loop. Due residui di cisteina che formano un ponte disolfuro nel core idrofobico della proteina sono conservati in tutti i componenti della famiglia. Somiglianze locali di struttura Eli et al. EMBO, 2001 Fungal/bacterial Phospholipase A2 TbSP1 Neu_1.629 Neu_1.351 Str_AL360055 Str_AL035654 : : : : : MVKIAAIILLMGILANAAAIPVSEP-AALNKRGNAEVIAEQTGDVPDFNTQITEPTGEG MK-FFSALALSSLLPTAAWAWTGSESDSTGADSLFRRAETIQ-QT-------------MKPFFLISLLVTVFMSLMLATTAQPSLPLNNRRELAEHPPVKGNPPN-----------MHRRLATGLSAAALAVTTVVATAAA-ADAAPADKAQVLASWT----------------MRTTTRTRTTLAAVGAALALGVAAAPAQAAPADKPQVLASFT----------------- TbSP1 Neu_1.629 Neu_1.351 Str_AL360055 Str_AL035654 : : : : : DRGDVADETNLSTDIVPETEAASFAASSVSAALSPVSDTDRLLYSTAMPAFLTAKRNKN --------------------------------------TDRYLFRITLPQFTAYRNARS ----------------------------TGYALDWCKYTAGMLFQWDLPTFIKHREANF -----------------------------------------QTSASSYQAWTAARANKS -----------------------------------------QTSASSQNAWLAANRNQS TbSP1 Neu_1.629 Neu_1.351 Str_AL360055 Str_AL035654 : : : : : PGNL---DWSDDGCSKSPDRPAGFNFLDSCKRHDFGYRNYKKQHRFTEANRKRIDDNFK PATL---DWSSDSCSYSPDNPLGFPFSPACNRHDFGYRNYKAQSRFTDNNKLKIDGNFK SLGRLTWDWSSDGCTHVPDNPVGFPFKPACQRHDFGYRNYQVQFHFTPRARWKIDENFL AWSAYGFDWTTDYCSSSPDNPFGFPFNTSCARHDFGYRNYKDAGTF-SANKSRLDSAFY AWAAYEFDWSTDLCTQAPDNPFGFPFNTACARHDFGYRNYKAAGSF-DANKSRIDSAFY TbSP1 Neu_1.629 Neu_1.351 Str_AL360055 Str_AL035654 : : : : : KDLYNECAKYSGLESWKGVACRKIANTYYDAVRTFGWL T-LYYQCDTHGYGS-----TCHALANVYYAAVREFGRK-MKFQCIGHNIFN-----ACHFMAHVYHWGVRTFYKG EDLKRVCAGYGGATK---TACNSTAWTYYQAVKVFG-EDMKRVCTGYTGEKN---TACNSTAWTYYQAVKIFG-- Phospholipase A2 active site TbSP1 PLA2IX_snail PLA2XII_human PLA2III_bee PLA2XIA_rice PLA2X_human PLA2V_human PLA2IIA_human PLA2IA_cobra : : : : : : : : : DWSDDGCSKSPDR-----PAGFN-FLDSCKRHDFGYRN KINSNACSVPFSXI----PCQK-XFLAACDRHDTCYHC PSPPNGCGSPLFGLN--IGIPS--LTKCCNQHDRCYET YPGTLWCGHGNKSSGPNELGRFKHTDACCRTHDMCPDV IRYGKYCGVGWSGCDGEEPCDD--LDACCRDHDHCVDK MKYGCFCGLGGHGQ----PRDA--IDWCCHGHDCCYTR GFYGCYCGWGGRGT----PKDG--TDWCCWAHDHCYGR GFYGCHCGVGGRGS----PKDA--TDRCCVTHDCCYKR ADYGCYCGRGGSGT----PVDD--LDRCCQVHDNCYNE Ca2+ loop Active site Una regione conservata delle fosfolipasi A2 da funghi e batteri è allineabile con altre sequenze della famiglia. Inferenze strutturali e funzionali possono essere fatte sulla base della struttura della sequenza di cobra (PDB 1a3d) Divergenza strutturale (RMS) Allineamenti strutturalmente “corretti” Divergenza di sequenza Relazione tra la divergenza in struttura e in sequenza. La conservazione della struttura è sempre maggiore della conservazione di sequenza. Somiglianze che sono difficilmente riscontrabili in sequenza possono emergere chiaramente da un confronto strutturale. Un allineamento strutturalmente “corretto” non è sempre possibile. Solo il 50% dei residui è allineabile strutturalmente in proteine che hanno tra il 20% e il 30% di identità Significato evolutivo dell’allineamento multiplo In linea di principio esiste sempre un allineamento evolutivamente “corretto”. Tuttavia, non esiste un riferimento indipendente (come nel caso delle strutture cristallografiche), e la storia evolutiva delle sequenze deve anzi essere inferita dall’allineamento Difficoltà dell’allineamento multiplo • Complessità del problema - Tempo di elaborazione • Funzione oggettiva di punteggio - ”Peso” da assegnare alle varie sequenze Complessità dell’allineamento multiplo Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C e A-C. L’allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e la valutazione di tutte le possibili mosse all’interno del cubo. La complessità di questo algoritmo è (O(LN)), dove L è la lunghezza e N il numero delle sequenze. Per tre sequenze di 300 amino acidi il numero di confronti è 2.7 x 107. Un algoritmo completo di programmazione dinamica è utilizzabile solo nel caso di tre sequenze. Funzione oggettiva per l’allineamento multiplo Seq1 Seq2 Seq3 Seq4 Seq1 AAAA Seq2 A A A A A A A A A A A C A A C C Seq1 Seq3 AAAA AAAC AAAC AAAA AAAA AACC Seq3 Seq4 Somma delle coppie N(N-1)/2 confronti AAAA AAAC AACC Seq4 Seq2 Possibile relazione filogenetica delle sequenze Viene usato il metodo della somma delle coppie in ogni colonna per determinare il punteggio totale dell’allineamento. Questo metodo non tiene in considerazione la storia delle sequenze e il fatto che uno stesso carattere nella colonna può essere facilmente condiviso da sequenze molto simili per ragioni evolutive. Per ovviare a questo si assegna un peso alle sequenze in modo da aumentare il punteggio in confronti tra sequenze evolutivamente distanti e diminuirlo in confronti tra sequenze vicine. Metodi per l’allineamento multiplo • Allineamento ottimale • Programmazione dinamica, MSA • Allineamento euristico • Progressivo globale (CLUSTALW,Pileup) locale (PIMA) • Iterativo globale (PRRP) locale (DIALIGN) Allineamento con programmazione dinamica Carrillo & Lipmann, 1988 Per trovare un allineamento ottimale tra tre sequenze è necessario solo calcolare i punteggi all’interno del volume in grigio il volume è delimitato dalle proiezioni delle aree sulle facce del cubo. Le aree sulle facce del cubo sono definite da due segmenti. Uno è il percorso dall’allineamento ottimale a coppie, l’altro la proiezione dell’allineamento multiplo euristico. Questo algoritmo (implementato nel programma MSA) può essere utilizzato per poche (<10) sequenze corte. N sequenze (dataset) disposte a caso, non allineate Allineare tutte le proteine con tutte le proteine, a coppie ( N(N-1)/2 allineamenti) A partire dalla coppia più simile, determinare le colonne conservate, e allineare la coppia successiva mantenendo queste colonne e ricalcolando lo score complessivo Determinare un albero guida basato sui punteggi di similarità di tutte le coppie N sequenze (dataset) allineate Allineamento progressivo Allineamento di tre sequenze A, B, C per passi successivi Allineamento della coppia A-B Aggiunta della coppia C al precedente allineamento Allineamento multiplo DGEKFGPPQRSGQRSG SeqA |||.||| ||||.||| DGERFGP-QRSGNRSG SeqB consenso DHEKFGSSQRSGQRSG SeqC DGEKFGPPQRSGQRSG SeqA |||.||| ||||.||| DGERFGP-QRSGNRSG SeqB | |.||. .|||.||| DHEKFGSSQRSGQRSG SeqC Allineamento progressivo • Allineamenti a coppie [N(N-1)/2 confronti] di tutte le sequenze con programmazione dinamica o metodi approssimati (BLAST, FASTA). Calcolare una matrice diagonale di distanze. • Costruire un albero (Neighbor-joining, UPGMA, etc.) sulla base della matrice. L’albero serve da guida per gli allineamenti successivi. • Cominciando dal primo nodo aggiunto all’albero, che rappresenta le due sequenze più vicine, allineare via via gli altri nodi (i quali possono essere due sequenze, una sequenza ed un allineamento o due allineamenti) fino a che tutte le sequenze sono state allineate Feng-Doolittle algorithm • Does all pairwise alignments and scores them • Converts pairwise scores to “distances” • D = -log Seff = -log [(Sobs –Srand)/(Smax –Srand)] • Sobs = pairwise alignment score • Srand = expected score for random alignment • Smax = average of self-alignments of the two sequences L’albero guida e la clusterizzazione 1 2 3 4 5 Hbb_human Hbb_horse Hba_human Hba_horse Myg_whale - 2° .17 .59 .60 .59 .59 .77 .77 b_hu b_ho 1 2 3 4 5 E’ una matrice di distanze, minore è il numero, maggiore è la similitudine... 1° .13 .75 .75 a_hu a_ho M_w 2° 3° 4° Ordine di clusterizzazione 1° PEEKSAVTALWGKVN--VDEVGG GEEKAAVLALWDKVN--EEEVGG PADKTNVKAAWGKVGAHAGEYGA AADKTNVKAAWSKVGGHAGEYGA EHEWQLVLHVWAKVEAGVAGHGQ Hbb_human Hbb_horse Hba_human Hba_horse Myg_whale Allineamento finale Allineamento progressivo: CLUSTAL Higgins & Sharp 1988 Matrice di distanza ottenuta con confronti a coppie Albero filogenetico di neighbor-joining costruito dalla matrice Allineamento progressivo delle coppie (sequenzasequenza, sequenzaprofilo, profilo -profilo) utilizzando l’albero come guida CLUSTALW improvement Thompson et al 1994 Le sequenze filogeneticamente più distanti ricevono un peso proporzionalmente più alto nell’allineamento La penalità da assegnare ai gap dipende dal tipo di residui come osservato in sequenze a struttura nota (Pascarella & Argos) La penalità dipende anche dalla posizione. Se ci sono gap nelle vicinanze la penalità aumenta CLUSTALW e CLUSTALX Allineamento delle globine ottenuto con CLUSTALW CLUSTALX. Stesso algoritmo con interfaccia grafica (PC) Valutare la bontà di un multi-allineamento In genere: si sommano tutti gli score di tutte le possibili coppie di proteine allineate, pesando i valori in base alla similitudine nello stesso cluster per evitare che alcuni cluster prevalgano su altri nel conteggio finale. Ottengo un WSP (Weighted Sum of Pairs): N-1 WSPscore = N ΣΣW i=1 j=1 ij Ŝ(Aij) N: numero di sequenze i,j: coppia di sequenze Ŝ: punteggio di similarità della coppia W: peso per la coppia Il valore complessivo del WSP dipende dai criteri di punteggio utilizzati nell’allineamento più che da considerazioni biologiche, ma è comunque un criterio valido per tutti gli allineamenti con gli stessi parametri Uno score così è chiamato Objective Function (OF) Allineamento iterativo Il primo allineamento multiplo viene usato per predire un nuovo albero, nuovi pesi e nuovi allineamenti fino a che non si ha un miglioramento nel punteggio dell’allineamento. Implementato in PRRP, DIALIGN Comparazione dei metodi di allineamento multiplo Thompson et al 1999 Set di riferimento BAliBASE Una bancadati di proteine allineate strutturalmente e suddivisa in set che rappresentano problemi tipici che si hanno in allineamenti multipli: - estensioni terminali - inserzioni - famiglia rispetto ad orfani Comparazione dei metodi di allineamento multiplo V1= <25% id. V2= 20-40% id. V3= >35% id. Sequenze di lunghezza simile Orfani allineati ad una famiglia Sequenze con estensioni terminali Conclusioni: 1) per sequenze di lunghezza comparabile i sistemi globali e iterativi funzionano meglio; 2) per allineare una sequenza orfana ad una famiglia conviene usare i sistemi progressivi (CLUSTALX) e si ottengono risultati migliori se si usano molti membri della famiglia; 3) se le sequenze presentano diverse estensioni alle estremità N e C terminali conviene utilizzare sistemi di allineamento locale Utilizzo dei colori I file raw-text possono essere utilizzati per visualizzare le colonne, ma è possibile associare colori diversi per residui con caratteristiche chimico fisiche diverse. Questo facilita molto la visualizzazione dei multiallineamenti Rappresentazioni dell’allineamento multiplo: conservazione Rappresentazioni dell’allineamento multiplo: sostituzioni Le sequenze consenso Si definisce sequenza consenso una sequenza derivata da un multiallineamento che presenta solo i residui più conservati per ogni posizione riassume un multiallineamento. non è identica a nessuna delle proteine del dataset. si possono definire dei simboli che la definiscano e che indichino anche conservazioni non perfette in una posizione. è possibile utilizzare una formattazione precisa che permetta di capire anche le variazioni in una posizione, non solo le conservazioni. Alcuni modi di indicare le sequenze consenso Consenso esatto Consenso a simboli GRVQGV--R------A--LG—-GWV GRVQGh-aRvvvvvvAvvLGivGWV GRVQG[VI]-[FY]R------A—L----GWY GRVQGV--R-6A—LG--GWV Consenso con variazioni Consenso con ripetizioni Profili dei multi-allineamenti Un multi-allineamento genera molte più informazioni per l’individuazione dei residui importanti per una famiglia di proteine di tanti allineamenti a coppie. Diventa quindi basilare poter riassumere le conservazioni osservate in un unico formato. Inoltre multi-allineare proteine divergenti tra loro è molto più informativo rispetto alla stessa analisi fatta su proteine molto simili. Un PROFILO è un metodo di SCORING in cui ad ognuno dei venti amino acidi viene assegnato un punteggio basato sulla frequenza e sul valore in una matrice di sostituzione. Ogni cella di un profilo esprime quindi il peso da attribuire ad ogni aminoacido in quella posizione Profili Gribskov et al 1987 HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI Sequenza di consenso dell’allineamento Cons V A A A D N V A E V A 0.7 3.3 8.7 2.1 0.4 1.7 3.1 6.7 3.1 1.0 C 1.6 0.0 2.7 0.4 -0.7 -1.9 3.0 -0.3 -1.7 2.0 D -3.1 3.3 3.3 0.4 2.1 5.6 -0.3 5.4 5.3 1.7 E -2.6 3.7 3.0 0.4 1.4 4.4 -0.4 5.3 6.4 1.0 F 4.4 -2.1 -4.3 -0.7 -1.4 -4.1 1.7 -5.4 -4.7 0.4 G 0.1 3.3 7.7 0.9 0.9 2.9 2.3 5.9 6.1 1.1 H -2.7 1.4 -1.3 -0.1 0.6 4.7 -1.3 0.9 0.6 2.0 I 10.9 -1.3 -1.0 0.0 -0.3 -1.7 5.0 -1.3 -1.4 2.4 ...vga--hagey... ...v----nvdev... ...vea--dvag-... ...vkg------d... ...vys--tyets... ...fna--nipkh... ...iagadngagv... K -2.6 2.1 0.0 0.0 0.4 2.6 -1.9 0.9 3.0 -0.6 L 8.6 -1.9 -2.4 -0.1 -0.7 -2.9 3.0 -2.6 -2.9 1.1 M 5.9 -1.0 -1.3 0.0 -0.6 -2.3 2.0 -1.6 -1.1 0.1 N -3.3 4.1 2.4 0.3 0.9 8.3 -0.6 2.7 3.4 1.0 P -0.4 0.3 3.6 0.7 0.1 0.9 0.0 4.3 1.7 0.1 Q -3.0 1.7 1.3 0.3 0.9 3.3 -1.3 3.0 2.7 0.1 Penalità allungamento gap Penalità apertura gap R -3.3 -0.4 -2.0 -0.4 0.0 1.0 -3.0 -0.9 0.1 -0.9 S -1.3 1.9 5.6 0.6 0.3 1.7 0.4 3.1 3.0 1.3 T 1.3 1.6 3.3 0.6 0.3 3.1 1.6 2.7 4.1 0.7 V 12.6 -0.6 1.3 0.3 -0.3 -1.7 6.3 0.4 0.0 3.3 W -4.7 -2.9 -5.9 -1.1 -1.6 -3.9 -4.0 -8.0 -6.7 -2.0 Y Gap 1.3 4.6 -0.9 2.1 -3.6 2.1 -0.4 1.6 -0.7 1.6 -1.1 1.6 0.7 1.6 -4.3 1.6 -4.4 1.6 1.0 4.6 Len 4.6 2.1 2.1 1.6 1.6 1.6 1.6 1.6 1.6 4.6 Un profilo rappresenta l’informazione di un allineamento multiplo assegnando a ciascuna colonna dell’allineamento punteggi specifici per ciascun amino acido e per i gap. E’ rappresentato in figura un profilo ottenuto con una porzione allineata di alcune globine. In ciascuna riga è rappresentato l’amino acido di consenso ed i valori di punteggio per i vari amino acidi della corrispondente colonna dell’allineamento (la prima riga corrisponde alla prima colonna dell’allineamento e così via). Gli amino acidi che hanno punteggio maggiore (sottolineati) sono indicati nel consenso. Calcolo dei punteggi nei profili HBA_HUMAN HBB_HUMAN MYG_PHYCA GLB3_CHITP GLB5_PETMA LGB2_LUPLU GLB1_GLYDI ...vga--hagey... ...v----nvdev... ...vea--dvag-... ...vkg------d... ...vys--tyets... ...fna--nipkh... ...iagadngagv... Punteggio di un aminoacido X per la prima colonna: 5 1 1 s (V , X ) s ( F , X ) s ( I , X ) 7 7 7 Dove s(Y,X) è il punteggio della sostituzione dell’aminoacido Y in X nelle matrici PAM o BLOSUM. I punteggi per i vari amino acidi nelle colonne sono calcolati dalle matrici di sostituzione assegnando un “peso” diverso ai punteggi a seconda della frequenza degli amino acidi nell’allineamento. Non è un modello probabilisticamente rigoroso e produce alcune anomalie. Sequence logos Rappresentazione grafica del grado di conservazione delle colonne dell’allineamento. Derivano dalla teoria dell’informazione di Shannon: Massima incertezza di osservare uno su M simboli equiprobabili H = log2(M) = - log2(P) Quando i simboli non sono equiprobabili si utilizza la formula generale di Shannon M H Pi log 2 ( Pi ) i 1 Nel grafico è rappresentata in ordinata la conservazione come diminuzione di incertezza. Nel caso dei nucleotidi log2(4) - H. Per i gli aminoacidi log2(20) - H La massima conservazione in bits è quindi 2 per i nucleotidi e 4.32 per gli amino acidi. Hidden Markov Models (HMM) transizioni Krog, Haussler Eddy, Durbin stato Gli “Hidden Markov Models” (HMM) sono una classe di modelli probabilistici che si applicano a serie temporali o sequenze lineari. Un modello è caratterizzato da una determinata architettura composta da stati e da transizioni di stato. Ciascuno stato ha una data probabilità di emettere simboli o di effettuare una transizione. Il modello in figura rappresenta sequenze composte da due lettere (a,b) generate da due stati, ciascuno con una diversa probabilità di emissione. Partendo dalla stato 1 il modello ha generato una sequenza (aba) attraverso una successione di stati. Ciò che viene osservata è la sequenza di simboli, mentre la successione degli stati rimane nascosta (hidden). La probabilità combinata P(x, | HMM) della sequenza di simboli osservata è il prodotto di tutte le probabilità di emissioni e transizioni. Profili HMM inserzione match delezione Gli HMM possono essere usati per modellare allineamenti multipli di sequenze di una data famiglia (profili HMM). L’architettura del modello prevede tre tipi di stati ( match, inserzione, delezione), più uno stato finale ed uno stato iniziale. L’HMM rappresentato in figura modella l’allineamento multiplo delle sei sequenze (3 colonne) visualizzato a fianco. La probabilità di emissione dei vari aminoacidi derivano dalle frequenze osservate nell’allineamento. Modelli generati con allineamento multipli possono essere impiegati per: 1) allineare nuove sequenze al modello; 2) individuare in un database sequenze aderenti al modello; 3) individuare corrispondenze tra una sequenza e un database di modelli. Questioni legate ai profili HMM Dato un allineamento, quali sono la struttura e i parametri di un HMM che descrivono nel modo migliore possibile la conservazione (APPRENDIMENTO)? Qual è la sequenza ottimale di stati con cui un HMM genera una data sequenza (ALLINEAMENTO)? Qual è la probabilita che una data sequenza sia stata generata da un HMM (SIGNIFICATIVITA’)? • K-means segmentation per costruire albero delle distanze • Costruzione di HMMs per ricostruire l’allineamento • Reiterazione a convergenza Protein family PFAM (acronimo di Protein Families) è un database di domini di proteine descritti con modelli markoviani. E’ diviso in due sezioni: pfamA contiene allineamenti curati da esperti; pfam-B contiene sequenze che vengono automaticamente raggruppate. Pfam Pfam: family description