Allineamento multiplo
Allineamenti multipli
Finora ci siamo occupati di allineamenti a coppie (pairwise), ma il
modo migliore per conoscere le caratteristiche di una determinata
famiglia è allineare molte proteine a funzione analoga.
I siti funzionalmente o strutturalmente più rilevanti tendono a
mantenersi invariati nelle proteine omologhe, mentre i siti meno
importanti possono cambiare anche molto.
Osservare e studiare le conservazioni significa capire come le famiglie
di proteine funzionano, cosa la rende diverse tra loro, se esistono o
meno relazioni filogenetiche inter e intrafamiglia.
In questo modo è possibile individuare la funzione di una proteina
ignota solo osservando la sequenza dei suoi residui.
Applicazioni dell’allineamento multiplo
‘Assemblaggio’ dei genomi
Primers per PCR
Consensi, motivi
Profili, modelli markoviani
Definizione di famiglie
Filogenesi
Inferenze strutturali
Inferenze funzionali
Similitudine e omologia
Omologia: carattere QUALITATIVO che posseggono quelle sequenze che
derivano da un antenato comune in seguito al processo evolutivo. O
due geni sono omologhi o non lo sono. Non esiste una percentuale di
omologia.
Similitudine: carattere QUANTITATIVO che origina da un allineamento.
Il grado di identità che si determina tra i residui allineati o il fatto che
residui simili possano corrispondere in un allineamento, può essere
quantificato disponendo di metri di valutazione oggettivi, come le
matrici di sostituzione.
=> un’alta similitudine tra proteine può essere indice di omologia, ma
non si può escludere il contrario. Esistono infatti proteine molto simili
in organismi filogeneticamente non correlati tra loro e proteine molto
diverse che possono essere ricondotte a omologhe mediante altri studi
Geni ortologhi e geni paraloghi
Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro.
Il fenomeno della speciazione porta alla divergenza dei geni e quindi
delle proteine che essi codificano.
es. l’ α-globina di uomo e di topo hanno iniziato a divergere circa 80
milioni di anni fa, quando avvenne la divisione che dette vita ai
primati e ai roditori. I due geni sono da considerarsi ortologhi.
Geni paraloghi: geni originati dalla duplicazione di un unico gene nello
stesso organismo.
es. α-globina e β-globina umana hanno iniziato a divergere in seguito
alla duplicazione di un gene globinico ancestrale. I due geni sono da
considerarsi paraloghi.
Le sequenze da multiallineare in genere si ottengono dalla ricerca in
banca dati mediante i sistemi di ricerca per similarità come BLAST e
FASTA.
Visto che derivano già da un allineamento (anche se prodotto con
metodi euristici) e visto che si prendono in considerazione solo
sequenze che hanno un alto score (o un basso E, expectation value),
l’allineamento mutiplo su questi DATASET darà risultati soddisfacenti.
In un allineamento multiplo si prendono in
considerazione le colonne di residui, più che le proteine
a cui appartengono. Ogni residuo incolonnato è da
considerarsi in modo implicito come evolutivamente
correlato, in qualche modo.
Significato biologico dell’allineamento multiplo
L’allineamento multiplo riassume
La storia evolutiva di una famiglia di proteine
La conservazione dei residui dipendente dalla funzione
La conservazione dei residui dipendente dalla struttura
Allineamenti multipli Vs. allineamenti a coppie
A
B
1:
2:
3:
4:
5:
6:
EAGFPPGVVNVIPGFGPTAGAAHASHEDVDKVAFTGSTEVGHLIQVA
EAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVA
QYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAA
NVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAA
EAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEM
DI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH
11::
22::
33::
44::
55::
66::
EAGFPPGVVNVIPGFGPTAGAAIASHEDVDKVAFTGSTEVGHLIQVA
EAGFPPGVVNIVPGFGPTAGAAIASHEDVDKVAFTGSTEIGRVIQVA
QYMDQNLYLVVKGG-VPETTELL--KERFDHIMYTGSTAVGKIVMAA
NVFSPAWA-TVVEGDETISQQLL--QEKFDHIFFTGSPRVGRLIMAA
EAGVPVGLVNVVQG-GAETGSLLCHHPNVAKVSFTGSVPTGKKVMEM
DI-FPAGVINILFGRGKTVGDPLTGHPKVRMVSLTGSIATGEHIISH
Significato funzionale della conservazione
TRYI_DROME
ENTK_PIG/8
THRB_BOVIN
KLK1_MOUSE
CTRA_BOVIN
CTR1_ANOGA
CTRL_HALRU
:
:
:
:
:
:
:
IIGGSDQLIRNAPWQVSIQISAR----HECGGVIYSKEIIITAGHCLHER-SVTLMKV-----RVGA---QNHNYGG-TLVPVAAY--KVHEQFDSRFLH--IVGGNDSREGAWPWVVALYYNG----QLLCGASLVSRDWLVSAAHCVYG----RNLEPSKWKAILG--LHMTSNLTSPQIVTRLIDEIVINPHYNRRRKD--IVEGQDAEVGLSPWQVMLFRKSPQE--LLCGASLISDRWVLTAAHCLLYPPWDKNFTVDDLLVRIGK-HSRTRYERKVEKISMLDK-IYIHPRYNWKEN---IVGGFNCEKNSQPWQVAVYRFT----KYQCGGILLNVNWVLTAAHCHND-----KYQV-----WLGK-NNFLEDEPSAQHRLVSK--AIPHPDFNMSLLNEHT
IVNGEEAVPGSWPWQVSLQDKTG---FHFCGGSLINENWVVTAAHCGVT----TSDVV-----VAGEFDQGSSSEK-IQKLKIAK--VFKNSKYNSLTIN--VVGGEVAKNGSAPYQVSLQVPGWG---HNCGGSLLNDRWVLTAAHCLVG-HAPGDLMV-----LVGT---NSLKEGG-ELLKVDK--LLYHSRYNLPRFH--IVGGSNAAAGEFPWQGSLQVRSGTSWFHICGCVLYTTSKALTAAHCLSN--SASSYRL--G---FGMLR-MNNVDGTEQYSSVTS--YTNHPNYNGNAAG---
:
:
:
:
:
:
:
84
90
95
86
85
85
90
TRYI_DROME
ENTK_PIG/8
THRB_BOVIN
KLK1_MOUSE
CTRA_BOVIN
CTR1_ANOGA
CTRL_HALRU
:
:
:
:
:
:
:
--------YDIAVLRLSTP-LTFGLSTRAINLAS---TSP--SGGTTVTVTGWGH----TDNG---ALSDSLQKAQLQIIDRGECASQKFGYGAD-FVGEETI
--------SDIAMMHLEFK-VNYTDYIQPICLPE---ENQVFPPGRICSIAGWGK---VIYQG---SPADILQEADVPLLSNEKCQQQMP-EYN---ITENMM
------LDRDIALLKLKRP-IELSDYIHPVCLPDKQTAAKLLHAGFKGRVTGWGNRRETWTTSVAEVQPSVLQVVNLPLVERPVCKAS---TRIR--ITDNMF
PQPEDDYSNDLMLLRLKKP-ADITDVVKPIDLPT---EEP--KLGSTCLASGWGS---ITPVKY--EYPDELQCVNLKLLPNEDCAKA---HIEK--VTDDML
--------NDITLLKLSTA-ASFSQTVSAVCLPS---ASDDFAAGTTCVTTGWGL---TRYTNA--NTPDRLQQASLPLLSNTNCKKY---WGTK--IKDAMI
--------NDIGLVRLEQP-VQFSELVQSVEYSE-----KAVPANATVRLTGWGR---TSANG---PSPTLLQSLNVVTLSNEDCNKK---GGDPGYTDVGHL
------YPNDIAVLRLTSSMDTSSSAVGPSVWLL---------VERLCRTNMYDQR--MGKTQWRWQHPNNLQKVDMTVLTNSDCSSRWSGISGAT-VNSGHI
:
:
:
:
:
:
:
165
171
186
173
166
165
175
TRYI_DROME
ENTK_PIG/8
THRB_BOVIN
KLK1_MOUSE
CTRA_BOVIN
CTR1_ANOGA
CTRL_HALRU
:
:
:
:
:
:
:
CAAS----TD-ADACTGDSGGPLVASSQ------LVGIVSWG-YRCADDNYPGVYADVAILRPWI
CAGYE--EGG-IDSCQGDSGGPLMCLEN--NRWLLAGVTSFG-YQCALPNRPGVYARVPKFTEWI
CAGYKPGEGKRGDACEGDSGGPFVMKSPYNNRWYQMGIVSWG-EGCDRDGKYGFYTHVFRLKKWI
CAGDM--DGG-KDTCAGDSGGPLICDGV------LQGITSWGPSPCGKPNVPGIYTRVLNFNTWI
CAGA----SG-VSSCMGDSGGPLVCKKN--GAWTLVGIVSWG-SSTCSTSTPGVYARVTALVNWV
CTLTK---TG-EGACNGDSGGPLVYEGK------LVGVVNFG-VPCALG-YPDGFARVSYYHDWV
CIFE----SG-RSACSGDSGGPLVCGNT------LTGITSWGISSCSGS-YPSVYTRVSSFYNWV
:
:
:
:
:
:
:
218
230
250
229
223
218
228
Conservazione degli amino acidi catalitici in alcuni membri della famiglia della tripsina
Significato strutturale dell’allineamento multiplo
PDBSUM of 1tlk
a
b
e
c
f
C
d
g
Sequenze molto divergenti del domino
immunoglobulinico allineate manualmente sulla
base dell’informazione della struttura di uno dei
membri della famiglia (PDB 1tlk). Si noti la
presenza di inserzioni o delezioni soprattutto in
regioni corrispondenti a loop. Due residui di
cisteina che formano un ponte disolfuro nel core
idrofobico della proteina sono conservati in tutti i
componenti della famiglia.
Somiglianze locali di struttura
Eli et al. EMBO, 2001
Fungal/bacterial Phospholipase A2
TbSP1
Neu_1.629
Neu_1.351
Str_AL360055
Str_AL035654
:
:
:
:
:
MVKIAAIILLMGILANAAAIPVSEP-AALNKRGNAEVIAEQTGDVPDFNTQITEPTGEG
MK-FFSALALSSLLPTAAWAWTGSESDSTGADSLFRRAETIQ-QT-------------MKPFFLISLLVTVFMSLMLATTAQPSLPLNNRRELAEHPPVKGNPPN-----------MHRRLATGLSAAALAVTTVVATAAA-ADAAPADKAQVLASWT----------------MRTTTRTRTTLAAVGAALALGVAAAPAQAAPADKPQVLASFT-----------------
TbSP1
Neu_1.629
Neu_1.351
Str_AL360055
Str_AL035654
:
:
:
:
:
DRGDVADETNLSTDIVPETEAASFAASSVSAALSPVSDTDRLLYSTAMPAFLTAKRNKN
--------------------------------------TDRYLFRITLPQFTAYRNARS
----------------------------TGYALDWCKYTAGMLFQWDLPTFIKHREANF
-----------------------------------------QTSASSYQAWTAARANKS
-----------------------------------------QTSASSQNAWLAANRNQS
TbSP1
Neu_1.629
Neu_1.351
Str_AL360055
Str_AL035654
:
:
:
:
:
PGNL---DWSDDGCSKSPDRPAGFNFLDSCKRHDFGYRNYKKQHRFTEANRKRIDDNFK
PATL---DWSSDSCSYSPDNPLGFPFSPACNRHDFGYRNYKAQSRFTDNNKLKIDGNFK
SLGRLTWDWSSDGCTHVPDNPVGFPFKPACQRHDFGYRNYQVQFHFTPRARWKIDENFL
AWSAYGFDWTTDYCSSSPDNPFGFPFNTSCARHDFGYRNYKDAGTF-SANKSRLDSAFY
AWAAYEFDWSTDLCTQAPDNPFGFPFNTACARHDFGYRNYKAAGSF-DANKSRIDSAFY
TbSP1
Neu_1.629
Neu_1.351
Str_AL360055
Str_AL035654
:
:
:
:
:
KDLYNECAKYSGLESWKGVACRKIANTYYDAVRTFGWL
T-LYYQCDTHGYGS-----TCHALANVYYAAVREFGRK-MKFQCIGHNIFN-----ACHFMAHVYHWGVRTFYKG
EDLKRVCAGYGGATK---TACNSTAWTYYQAVKVFG-EDMKRVCTGYTGEKN---TACNSTAWTYYQAVKIFG--
Phospholipase A2 active site
TbSP1
PLA2IX_snail
PLA2XII_human
PLA2III_bee
PLA2XIA_rice
PLA2X_human
PLA2V_human
PLA2IIA_human
PLA2IA_cobra
:
:
:
:
:
:
:
:
:
DWSDDGCSKSPDR-----PAGFN-FLDSCKRHDFGYRN
KINSNACSVPFSXI----PCQK-XFLAACDRHDTCYHC
PSPPNGCGSPLFGLN--IGIPS--LTKCCNQHDRCYET
YPGTLWCGHGNKSSGPNELGRFKHTDACCRTHDMCPDV
IRYGKYCGVGWSGCDGEEPCDD--LDACCRDHDHCVDK
MKYGCFCGLGGHGQ----PRDA--IDWCCHGHDCCYTR
GFYGCYCGWGGRGT----PKDG--TDWCCWAHDHCYGR
GFYGCHCGVGGRGS----PKDA--TDRCCVTHDCCYKR
ADYGCYCGRGGSGT----PVDD--LDRCCQVHDNCYNE
Ca2+ loop
Active site
Una regione conservata delle fosfolipasi
A2 da funghi e batteri è allineabile con
altre sequenze della famiglia. Inferenze
strutturali e funzionali possono essere
fatte sulla base della struttura della
sequenza di cobra (PDB 1a3d)
Divergenza strutturale (RMS)
Allineamenti strutturalmente “corretti”
Divergenza di sequenza
Relazione tra la divergenza in struttura e in
sequenza. La conservazione della struttura è
sempre maggiore della conservazione di
sequenza. Somiglianze che sono difficilmente
riscontrabili in sequenza possono emergere
chiaramente da un confronto strutturale.
Un allineamento strutturalmente “corretto” non è
sempre possibile. Solo il 50% dei residui è
allineabile strutturalmente in proteine che hanno
tra il 20% e il 30% di identità
Significato evolutivo dell’allineamento multiplo
In linea di principio esiste sempre un allineamento evolutivamente “corretto”. Tuttavia,
non esiste un riferimento indipendente (come nel caso delle strutture cristallografiche),
e la storia evolutiva delle sequenze deve anzi essere inferita dall’allineamento
Difficoltà dell’allineamento multiplo
• Complessità del problema
- Tempo di elaborazione
• Funzione oggettiva di punteggio
- ”Peso” da assegnare alle varie sequenze
Complessità dell’allineamento multiplo
Sulla superficie del cubo si hanno le matrici di confronto a coppie tra le sequenze A-B, B-C
e A-C. L’allineamento ottimale di tre sequenze (A-B-C) richiede il riempimento del cubo e
la valutazione di tutte le possibili mosse all’interno del cubo. La complessità di questo
algoritmo è (O(LN)), dove L è la lunghezza e N il numero delle sequenze. Per tre
sequenze di 300 amino acidi il numero di confronti è 2.7 x 107. Un algoritmo completo di
programmazione dinamica è utilizzabile solo nel caso di tre sequenze.
Funzione oggettiva per l’allineamento multiplo
Seq1
Seq2
Seq3
Seq4
Seq1
AAAA
Seq2
A
A
A
A
A
A
A
A
A
A
A
C
A
A
C
C
Seq1
Seq3
AAAA
AAAC
AAAC
AAAA
AAAA
AACC
Seq3
Seq4
Somma delle coppie
N(N-1)/2 confronti
AAAA
AAAC
AACC
Seq4
Seq2
Possibile relazione
filogenetica delle sequenze
Viene usato il metodo della somma delle coppie in ogni colonna per determinare il punteggio totale
dell’allineamento. Questo metodo non tiene in considerazione la storia delle sequenze e il fatto che uno
stesso carattere nella colonna può essere facilmente condiviso da sequenze molto simili per ragioni
evolutive. Per ovviare a questo si assegna un peso alle sequenze in modo da aumentare il punteggio in
confronti tra sequenze evolutivamente distanti e diminuirlo in confronti tra sequenze vicine.
Metodi per l’allineamento multiplo
• Allineamento ottimale
• Programmazione dinamica, MSA
• Allineamento euristico
• Progressivo
globale (CLUSTALW,Pileup)
locale (PIMA)
• Iterativo
globale (PRRP)
locale (DIALIGN)
Allineamento con programmazione dinamica
Carrillo & Lipmann, 1988
Per trovare un allineamento ottimale tra tre sequenze è necessario solo calcolare
i punteggi all’interno del volume in grigio il volume è delimitato dalle proiezioni
delle aree sulle facce del cubo. Le aree sulle facce del cubo sono definite da due
segmenti. Uno è il percorso dall’allineamento ottimale a coppie, l’altro la
proiezione dell’allineamento multiplo euristico. Questo algoritmo (implementato
nel programma MSA) può essere utilizzato per poche (<10) sequenze corte.
N sequenze (dataset)
disposte a caso, non
allineate
Allineare tutte le proteine con
tutte le proteine, a coppie (
N(N-1)/2 allineamenti)
A partire dalla coppia più simile,
determinare le colonne conservate,
e allineare la coppia successiva
mantenendo queste colonne e
ricalcolando lo score complessivo
Determinare un albero
guida basato sui
punteggi di similarità
di tutte le coppie
N sequenze (dataset)
allineate
Allineamento progressivo
Allineamento di tre sequenze A, B, C per passi successivi
Allineamento della coppia A-B
Aggiunta della coppia C al
precedente allineamento
Allineamento multiplo
DGEKFGPPQRSGQRSG SeqA
|||.||| ||||.|||
DGERFGP-QRSGNRSG SeqB
consenso
DHEKFGSSQRSGQRSG SeqC
DGEKFGPPQRSGQRSG SeqA
|||.||| ||||.|||
DGERFGP-QRSGNRSG SeqB
| |.||. .|||.|||
DHEKFGSSQRSGQRSG SeqC
Allineamento progressivo
• Allineamenti a coppie [N(N-1)/2 confronti] di tutte le
sequenze con programmazione dinamica o metodi
approssimati (BLAST, FASTA). Calcolare una matrice
diagonale di distanze.
• Costruire un albero (Neighbor-joining, UPGMA, etc.)
sulla base della matrice. L’albero serve da guida per gli
allineamenti successivi.
• Cominciando dal primo nodo aggiunto all’albero, che
rappresenta le due sequenze più vicine, allineare via
via gli altri nodi (i quali possono essere due sequenze,
una sequenza ed un allineamento o due allineamenti)
fino a che tutte le sequenze sono state allineate
Feng-Doolittle algorithm
• Does all pairwise alignments and scores them
• Converts pairwise scores to “distances”
• D = -log Seff = -log [(Sobs –Srand)/(Smax –Srand)]
• Sobs = pairwise alignment score
• Srand = expected score for random alignment
• Smax = average of self-alignments of the two sequences
L’albero guida e la clusterizzazione
1
2
3
4
5
Hbb_human
Hbb_horse
Hba_human
Hba_horse
Myg_whale
- 2°
.17
.59 .60
.59 .59
.77 .77
b_hu b_ho
1
2
3
4
5
E’ una matrice di distanze,
minore è il numero, maggiore è
la similitudine...
1°
.13 .75 .75 a_hu a_ho M_w
2°
3° 4°
Ordine di clusterizzazione
1°
PEEKSAVTALWGKVN--VDEVGG
GEEKAAVLALWDKVN--EEEVGG
PADKTNVKAAWGKVGAHAGEYGA
AADKTNVKAAWSKVGGHAGEYGA
EHEWQLVLHVWAKVEAGVAGHGQ
Hbb_human
Hbb_horse
Hba_human
Hba_horse
Myg_whale
Allineamento finale
Allineamento progressivo: CLUSTAL
Higgins & Sharp 1988
Matrice di distanza
ottenuta con confronti
a coppie
Albero filogenetico di
neighbor-joining
costruito dalla matrice
Allineamento progressivo
delle coppie (sequenzasequenza, sequenzaprofilo, profilo -profilo)
utilizzando l’albero come
guida
CLUSTALW improvement
Thompson et al 1994
Le sequenze filogeneticamente
più distanti ricevono un peso
proporzionalmente più alto
nell’allineamento
La penalità da assegnare ai gap
dipende dal tipo di residui come
osservato in sequenze a struttura
nota (Pascarella & Argos)
La penalità dipende anche dalla
posizione. Se ci sono gap nelle
vicinanze la penalità aumenta
CLUSTALW e CLUSTALX
Allineamento delle globine
ottenuto con CLUSTALW
CLUSTALX. Stesso
algoritmo con interfaccia
grafica (PC)
Valutare la bontà di un multi-allineamento
In genere: si sommano tutti gli score di tutte le possibili coppie di
proteine allineate, pesando i valori in base alla similitudine nello
stesso cluster per evitare che alcuni cluster prevalgano su altri nel
conteggio finale. Ottengo un WSP (Weighted Sum of Pairs):
N-1
WSPscore =
N
ΣΣW
i=1
j=1
ij
Ŝ(Aij)
N: numero di sequenze
i,j: coppia di sequenze
Ŝ: punteggio di similarità della coppia
W: peso per la coppia
Il valore complessivo del WSP dipende dai criteri di punteggio utilizzati
nell’allineamento più che da considerazioni biologiche, ma è comunque
un criterio valido per tutti gli allineamenti con gli stessi parametri
Uno score così è chiamato Objective Function (OF)
Allineamento iterativo
Il primo allineamento multiplo
viene usato per predire un nuovo
albero, nuovi pesi e nuovi
allineamenti fino a che non si ha un
miglioramento nel punteggio
dell’allineamento. Implementato in
PRRP, DIALIGN
Comparazione dei metodi di allineamento multiplo
Thompson et al 1999
Set di riferimento
BAliBASE
Una bancadati di proteine
allineate strutturalmente e
suddivisa in set che
rappresentano problemi
tipici che si hanno in
allineamenti multipli:
- estensioni terminali
- inserzioni
- famiglia rispetto ad orfani
Comparazione dei metodi di allineamento multiplo
V1= <25% id.
V2= 20-40% id.
V3= >35% id.
Sequenze di lunghezza simile
Orfani allineati ad una famiglia
Sequenze con estensioni
terminali
Conclusioni: 1) per sequenze di lunghezza comparabile i sistemi globali e iterativi funzionano
meglio; 2) per allineare una sequenza orfana ad una famiglia conviene usare i sistemi progressivi
(CLUSTALX) e si ottengono risultati migliori se si usano molti membri della famiglia; 3) se le
sequenze presentano diverse estensioni alle estremità N e C terminali conviene utilizzare sistemi di
allineamento locale
Utilizzo dei colori
I file raw-text possono essere utilizzati per visualizzare le
colonne, ma è possibile associare colori diversi per residui con
caratteristiche chimico fisiche diverse. Questo facilita molto la
visualizzazione dei multiallineamenti
Rappresentazioni dell’allineamento multiplo:
conservazione
Rappresentazioni dell’allineamento multiplo:
sostituzioni
Le sequenze consenso
Si definisce sequenza consenso una sequenza derivata da un
multiallineamento che presenta solo i residui più conservati per ogni
posizione
 riassume un multiallineamento.
 non è identica a nessuna delle proteine del dataset.
 si possono definire dei simboli che la definiscano e che indichino
anche conservazioni non perfette in una posizione.
 è possibile utilizzare una formattazione precisa che permetta di
capire anche le variazioni in una posizione, non solo le
conservazioni.
Alcuni modi di indicare le
sequenze consenso
Consenso esatto
Consenso a simboli
GRVQGV--R------A--LG—-GWV
GRVQGh-aRvvvvvvAvvLGivGWV
GRVQG[VI]-[FY]R------A—L----GWY
GRVQGV--R-6A—LG--GWV
Consenso con variazioni
Consenso con ripetizioni
Profili dei multi-allineamenti
Un multi-allineamento genera molte più informazioni per
l’individuazione dei residui importanti per una famiglia di proteine
di tanti allineamenti a coppie.
Diventa quindi basilare poter riassumere le conservazioni osservate
in un unico formato.
Inoltre multi-allineare proteine divergenti tra loro è molto più
informativo rispetto alla stessa analisi fatta su proteine molto
simili.
Un PROFILO è un metodo di SCORING in cui ad ognuno dei venti
amino acidi viene assegnato un punteggio basato sulla frequenza e
sul valore in una matrice di sostituzione. Ogni cella di un profilo
esprime quindi il peso da attribuire ad ogni aminoacido in quella
posizione
Profili
Gribskov et al 1987
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB3_CHITP
GLB5_PETMA
LGB2_LUPLU
GLB1_GLYDI
Sequenza di consenso
dell’allineamento
Cons
V
A
A
A
D
N
V
A
E
V
A
0.7
3.3
8.7
2.1
0.4
1.7
3.1
6.7
3.1
1.0
C
1.6
0.0
2.7
0.4
-0.7
-1.9
3.0
-0.3
-1.7
2.0
D
-3.1
3.3
3.3
0.4
2.1
5.6
-0.3
5.4
5.3
1.7
E
-2.6
3.7
3.0
0.4
1.4
4.4
-0.4
5.3
6.4
1.0
F
4.4
-2.1
-4.3
-0.7
-1.4
-4.1
1.7
-5.4
-4.7
0.4
G
0.1
3.3
7.7
0.9
0.9
2.9
2.3
5.9
6.1
1.1
H
-2.7
1.4
-1.3
-0.1
0.6
4.7
-1.3
0.9
0.6
2.0
I
10.9
-1.3
-1.0
0.0
-0.3
-1.7
5.0
-1.3
-1.4
2.4
...vga--hagey...
...v----nvdev...
...vea--dvag-...
...vkg------d...
...vys--tyets...
...fna--nipkh...
...iagadngagv...
K
-2.6
2.1
0.0
0.0
0.4
2.6
-1.9
0.9
3.0
-0.6
L
8.6
-1.9
-2.4
-0.1
-0.7
-2.9
3.0
-2.6
-2.9
1.1
M
5.9
-1.0
-1.3
0.0
-0.6
-2.3
2.0
-1.6
-1.1
0.1
N
-3.3
4.1
2.4
0.3
0.9
8.3
-0.6
2.7
3.4
1.0
P
-0.4
0.3
3.6
0.7
0.1
0.9
0.0
4.3
1.7
0.1
Q
-3.0
1.7
1.3
0.3
0.9
3.3
-1.3
3.0
2.7
0.1
Penalità allungamento gap
Penalità apertura gap
R
-3.3
-0.4
-2.0
-0.4
0.0
1.0
-3.0
-0.9
0.1
-0.9
S
-1.3
1.9
5.6
0.6
0.3
1.7
0.4
3.1
3.0
1.3
T
1.3
1.6
3.3
0.6
0.3
3.1
1.6
2.7
4.1
0.7
V
12.6
-0.6
1.3
0.3
-0.3
-1.7
6.3
0.4
0.0
3.3
W
-4.7
-2.9
-5.9
-1.1
-1.6
-3.9
-4.0
-8.0
-6.7
-2.0
Y Gap
1.3 4.6
-0.9 2.1
-3.6 2.1
-0.4 1.6
-0.7 1.6
-1.1 1.6
0.7 1.6
-4.3 1.6
-4.4 1.6
1.0 4.6
Len
4.6
2.1
2.1
1.6
1.6
1.6
1.6
1.6
1.6
4.6
Un profilo rappresenta l’informazione di un allineamento multiplo assegnando a ciascuna colonna
dell’allineamento punteggi specifici per ciascun amino acido e per i gap. E’ rappresentato in figura un profilo
ottenuto con una porzione allineata di alcune globine. In ciascuna riga è rappresentato l’amino acido di
consenso ed i valori di punteggio per i vari amino acidi della corrispondente colonna dell’allineamento (la
prima riga corrisponde alla prima colonna dell’allineamento e così via). Gli amino acidi che hanno punteggio
maggiore (sottolineati) sono indicati nel consenso.
Calcolo dei punteggi nei profili
HBA_HUMAN
HBB_HUMAN
MYG_PHYCA
GLB3_CHITP
GLB5_PETMA
LGB2_LUPLU
GLB1_GLYDI
...vga--hagey...
...v----nvdev...
...vea--dvag-...
...vkg------d...
...vys--tyets...
...fna--nipkh...
...iagadngagv...
Punteggio di un aminoacido X per la prima colonna:
5
1
1
s (V , X )  s ( F , X )  s ( I , X )
7
7
7
Dove s(Y,X) è il punteggio della sostituzione dell’aminoacido Y in X nelle matrici
PAM o BLOSUM.
I punteggi per i vari amino acidi nelle colonne sono calcolati dalle matrici di sostituzione
assegnando un “peso” diverso ai punteggi a seconda della frequenza degli amino acidi
nell’allineamento. Non è un modello probabilisticamente rigoroso e produce alcune anomalie.
Sequence logos
Rappresentazione grafica del grado di conservazione delle colonne
dell’allineamento. Derivano dalla teoria dell’informazione di Shannon:
Massima incertezza di osservare uno su M simboli equiprobabili
H = log2(M) = - log2(P)
Quando i simboli non sono equiprobabili si utilizza la formula generale di Shannon
M
H   Pi log 2 ( Pi )
i 1
Nel grafico è rappresentata in ordinata la
conservazione come diminuzione di incertezza.
Nel caso dei nucleotidi log2(4) - H.
Per i gli aminoacidi
log2(20) - H
La massima conservazione in bits è quindi 2
per i nucleotidi e 4.32 per gli amino acidi.
Hidden Markov Models (HMM)
transizioni
Krog, Haussler
Eddy, Durbin
stato
Gli “Hidden Markov Models” (HMM) sono una classe di modelli probabilistici che si applicano a serie temporali
o sequenze lineari. Un modello è caratterizzato da una determinata architettura composta da stati e da
transizioni di stato. Ciascuno stato ha una data probabilità di emettere simboli o di effettuare una
transizione. Il modello in figura rappresenta sequenze composte da due lettere (a,b) generate da due stati,
ciascuno con una diversa probabilità di emissione. Partendo dalla stato 1 il modello ha generato una sequenza
(aba) attraverso una successione di stati. Ciò che viene osservata è la sequenza di simboli, mentre la
successione degli stati rimane nascosta (hidden). La probabilità combinata P(x, | HMM) della sequenza di
simboli osservata è il prodotto di tutte le probabilità di emissioni e transizioni.
Profili HMM
inserzione
match
delezione
Gli HMM possono essere usati per modellare allineamenti multipli di sequenze di una data famiglia
(profili HMM). L’architettura del modello prevede tre tipi di stati ( match, inserzione, delezione),
più uno stato finale ed uno stato iniziale. L’HMM rappresentato in figura modella l’allineamento multiplo
delle sei sequenze (3 colonne) visualizzato a fianco. La probabilità di emissione dei vari aminoacidi
derivano dalle frequenze osservate nell’allineamento. Modelli generati con allineamento multipli possono
essere impiegati per: 1) allineare nuove sequenze al modello; 2) individuare in un database sequenze
aderenti al modello; 3) individuare corrispondenze tra una sequenza e un database di modelli.
Questioni legate ai profili HMM
Dato un allineamento, quali sono la struttura e i parametri
di un HMM che descrivono nel modo migliore possibile la
conservazione (APPRENDIMENTO)?
Qual è la sequenza ottimale di stati con cui un HMM
genera una data sequenza (ALLINEAMENTO)?
Qual è la probabilita che una data sequenza sia stata
generata da un HMM (SIGNIFICATIVITA’)?
• K-means segmentation per costruire albero
delle distanze
• Costruzione di HMMs per ricostruire
l’allineamento
• Reiterazione a convergenza
Protein family
PFAM (acronimo di Protein Families) è un database di domini di
proteine descritti con modelli markoviani. E’ diviso in due sezioni: pfamA contiene allineamenti curati da esperti; pfam-B contiene sequenze
che vengono automaticamente raggruppate.
Pfam
Pfam: family description
Scarica

Lezione 7 – Allineamento multiplo - Uninsubria