Allineamenti e Misure
di Similarità
Evoluzione  diversità
•A livello molecolare le diversità si creano a causa di
errori avvenuti in fase replicativa del DNA e non corretti
dai sistemi di riparo
•Ciò implica che frammenti di DNA aventi la stessa
funzione in organismi differenti, o funzioni correlate
nello stesso organismo, non hanno esattamente la stessa
sequenza in quanto sono avvenute delle sostituzioni
puntiformi, delle delezioni e delle inserzioni.
L'ALFABETO delle biosequenze.
Un testo biologico è costituito da stringhe il cui
alfabeto, indicato con X, ha dimensione D.
Nel caso degli acidi nucleici l'alfabeto è costituito da 4
caratteri :
A(denina), C(itosina), G(uanina) e T(imina nel DNA) o
U(racile nel RNA))  (D=4),
mentre per le proteine l'alfabeto ha dimensione D=20.
Codice Ambiguità Nucleotidi
Codice IUB
A
C
G
T
M
R
W
S
Y
K
V
H
D
B
N
Nucleotidi
A
C
G
T/U
A or C
A or G
A or T
C or G
C or T
G or T
A or C or G
A or C or T
A or G orT
C or G or T
G or A or T or C
Gli Alfabeti degli Aminoacidi
Alfabeto Classico
(D = 20)
Alfabeto Chimico
(D=8)
Alfabeto funzionale
(D=4)
Alfabeto Idrofobicità
(D=2)
AA
SI
SC
Significato
SF
Significato
SH
Significato
Ala
Arg
Asn
Asp
Cys
Gln
Glu
Gly
His
Ile
Leu
Lys
Met
Phe
Pro
Ser
Thr
Trp
Tyr
Val
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
L
B
M
A
S
M
A
L
B
L
L
B
S
R
I
H
H
R
R
L
alifatico
basico
amidico
acido
sulfureo
amidico
acido
alifatico
basico
alifatico
alifatico
basico
sulfureo
aromatico
iminico
idrossilico
idrossilico
aromatico
aromatico
alifatico
H
P
O
M
O
O
M
O
P
H
H
P
H
H
H
O
O
H
O
H
idrofobico non polare
positivo
polare non carico
negativo
polare non carico
polare non carico
negativo
polare non carico
positivo
idrofobico non polare
idrofobico non polare
Positivo
idrofobico non polare
idrofobico non polare
idrofobico non polare
polare non carico
polare non carico
idrofobico non polare
polare non carico
idrofobico non polare
O
I
I
I
I
I
I
I
I
O
O
I
O
O
O
I
I
O
I
O
idrofobico
idrofilico
idrofilico
idrofilico
idrofilico
idrofilico
idrofilico
idrofilico
idrofilico
idrofobico
idrofobico
idrofilico
idrofobico
idrofobico
idrofobico
idrofilico
idrofilico
idrofobico
idrofilico
idrofobico
ALFABETO CHIMICO
L B M A S R I H (dimension=8)
ALFABETO FUNZIONALE
H P 0 M (dimension=4)
ALFABETO IDROFOBICO
0 I (dimension=2)
ALFABETO CHARGE
0 + – (dimension=3)
ALFABETO CHIMICO/FUNZIONALE
A H D C I F (dimension=6)
Symbol
3-letter
Aminoacido
Codone
A
B
Ala
Asp,Asn
Alanine
Aspartic,
Asparagine
Cysteine
Aspartic
Glutamic
Phenylalanine
Glycine
Histidine
Isoleucine
Lysine
Leucine
Methionine
Asparagine
Proline
Glutamine
Arginine
GCT, GCC, GCA, GCG
!GCX
GAT, GAC, AAT, AAC
TGT, TGC
GAT, GAC
GAA, GAG
TTT,TTC
GGT,GGC,GGA,GGG
CAT,CAC
ATT, ATC, ATA
AAA, AAG
!AAR
TTG, TTA, CTT, CTC, CTA, CTG
ATG
AAT,AAC
CCT,CCC,CCA,CCG
CAA,CAG
CGT,CGC,CGA,CGG,AGA,AGG
!RAY
!TGY
!GAY
!GAR
!TTY
!GGX
!CAY
!ATH
TCT,TCC,TCA,TCG,AGT,AGC
ACT,ACC,ACA,ACG
GTT,GTC,GTA,GTG
TGG
TAT, TAC
!TCX,AGY;WSX
!ACZ
!GTX
!TGG
!XXX
!TAY
GAA,GAG,CAA,CAG
TAA, TAG, TGA
!SAR
!TAR,TRA;TRR
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Codifica IUB del Codone
!TTR,CTX,YTR;YTX
!ATG
!AAY
!CCX
!CAR
!CGX,AGR,MGR;MGX
S
T
V
W
X
Y
Z
*
Ser
Thr
Val
Trp
Xxz
Tyr
Glu, Gln
End
Serine
Threonine
Valine
Tryptophan
Unknown
Tyrosine
Glutamic,
Glutamine
Terminator
Misura della SIMILARITA’
Anche se dal punto di vista biologico la similarità
tra due sequenze esprime una relazione di
omologia, i termini “similarità” e “omologia”
hanno significati distinti
SIMILARITA' E OMOLOGIA
Due sequenze si definiscono omologhe se derivano
da una comune sequenza ancestrale in seguito ad
un
processo
speciazione.
di
duplicazione
genica
o
di
SIMILARITA' E OMOLOGIA
L’omologia é dunque un carattere qualitativo che fa
riferimento ad una relazione evolutiva presente o assente e
non é corretto quindi riferirsi a valori di “percentuale di
omologia”.
La similarità, invece, può essere espressa in termini
quantitativi, in quanto fa riferimento al grado di
similitudine che viene misurato tra due sequenze
precedentemente allineate.
La determinazione del grado di similarità tra due o
più sequenze richiede, dunque, che le sequenze in esame
vengano previamente allineate.
Allineamento:
Determinazione di una relazione tra i residui della prima
sequenza con quelli della seconda in modo da rendere
massimo il grado di similarità o analogamente rendere
minimo il numero di differenze.
Stabilisce una relazione biunivoca tra due sequenze (o parti
di esse) in modo da minimizzare il numero di operazioni
necessarie per la trasformazione di una nell’altra.
SA= E V D Q K I S K W D
SB= E V K K I T R P K W D
allineamento
match
E V D Q K I - - S K W D
| |
| |
| | |
E V - K K I T R P K W D
gap
mismatch
Fra due sequenze di lunghezza n e m il numero possibile di
differenti allineamenti e’ pari a n+m-1 quando si esclude
l’inserimento di gaps.
Allineamento ottenuto facendo scorrere una sequenza
sull’altra. Vince l’allineamento con il max n. di match.
Fra tutti i possibili allineamenti con o senza gaps vince
quello che in base all’algoritmo scelto e in base ai
parametri impostati corrisponde al più alto grado di
similarità
Se si volesse lavorare in modo rigoroso, bisognerebbe
provare fra gli n+m-1 allineamenti e scegliere il migliore,
ma ciò implicherebbe tempi lunghi in quanto si dovrebbero
eseguire n × m confronti; si seguono quindi vie alternative.
Le vie alternative all’allineamento esatto
•Utilizzo di algoritmi basati sulla programmazione
dinamica.
•Utilizzo di algoritmi euristici (approssimati)
La scelta dell’algoritmo dipende anche dalle
finalità che l’allineamento si propone:
allineamento globale
allineamento locale
Programmazione dinamica
• Utilizzo di algoritmi basati sulla programmazione
dinamica implementati
 nel metodo di Needleman e Wunsch per la
ricerca dell’allineamento globale
 nel metodo di Smith e Waterman per la
ricerca dell’allineamento locale.
Dot plot
DotPlot permette di individuare graficamente
regioni allineabili
A XX
X
X X
X
X
X
G
X
X X
XX
XX X
C
XXX
X
X
T X
X X
X
X X
X
G
X
X X
XX
XX X
T X
X X
X
X X
X
C
XXX
X
X
C
XXX
X
X
G
X
X X
XX
XX X
A XX
X
X X
X
X
X
A XX
X
X X
X
X
X
T X
X X
X
X X
X
TAAGCCCTEGTAGCTAGGTATCGGATG
TAAGCCCTAGTAGCTAGGTATCGGATG
Sequence Comparison
EMBnet www.embnet.org
Versione semplice: una
croce o un punto sono
collocati all’incrocio fra
due caratteri identici
Con solo 4 caratteri si
introduce molto rumore di
fondo
Dot plots
Versione “Window” o finestra, una stringa
corta interna alla sequenza.
A
X
G
X
C
X X
X
X
T
X
X
X X
G
X
X
X
T
X
X
X X
C
X
X
C
XX
X
G
X
X X
X
X
A
X
X X
X
X
A X
X X
X
X
T X
X X
X
X
TAAGCCCTAGTAGCTAGGTATCGGATG
Sequence Comparison
EMBnet www.embnet.org
Qui si utilizza una finestra
di 3 nucleotidi e poniamo
il punto se ci sono almeno
2 match nella finestra in
esame (analisi con
stringenza 2)
Regioni allineabili si
individuano sul grafico per
la presenza di diagonali
piu’ o meno estese
Caratteristiche di una matrice
dotplot
Diagonali
Diagonali appaiono quando 2
sequenze sono sufficientemente
simili
Interruzioni
Interruzioni di diagonali o
spostamenti di diagonali indicano
la presenza di delezioni o
inserzioni
Sequence Comparison
EMBnet www.embnet.org
Allineamento semplice
L’allineamento semplice si ottiene facendo
scorrere una sequenza sull’altra spostandosi di
un nucleotide per volta
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC
||| |||
||
||||||||||||||||||||||||||||||
| ||
||
|||||
| |||||
||
| ||
|||||
|||||
|||||||
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
Sequence Comparison
EMBnet www.embnet.org
Allineamento semplice
L’allineamento semplice implica la ricerca
sulla matrice dot-plot della diagonale piu’
lunga corrispondente alla regione la cui
somma degli scores è massima.
Sequence Comparison
EMBnet www.embnet.org
Allineamento con Gaps
L’allineamento semplice non funziona
sempre bene
CGCTTCGGACGAAATCGCATCA-GCATACGATCGCATGCCGGGCGGGATAA
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC
||| |||
||
||||||||||||||
| ||
||
|||||
| |
|||||
|| |
||
||
|||||||||||||||||
||
||||||||||||||||
|||||
|
|||||||
|
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
A meno che le sequenze non siano
perfettamente coincidenti conviene
introdurre I gaps
Sequence Comparison
EMBnet www.embnet.org
Allineamento con Gaps
I gaps nell’allieneamento appaiono come
“shifts” nella diagonale.
Gap
Uno shift orizzontale rappresenta
un’inserzione nella sequenza orizzontale.
Sequence Comparison
EMBnet www.embnet.org
Allineamento con Gaps
L’allineamento con Gaps ottimale (max
similarità) corrisponde al percorso sulla dotplot corrispondente alla max somma di scores.
Ci sono molti percorsi nella dot-plot.
Sequence Comparison
EMBnet www.embnet.org
Algoritmi euristici
•Utilizzo di algoritmi euristici (approssimati)
implementati nei metodi di Database Similarity
Searching (FASTA e BLAST)
GRADO DI SIMILARITA’
s(ai,bi) é il punteggio di similarità relativo al confronto tra i
residui ai e bi, e l’indice i individua una qualunque posizione
dell’allineamento in cui non siano presenti inserzioni o
delezioni (gaps).
L
NG
i 1
k 1
S AB   s (ai , bi )      (k )  1
La presenza di NG gaps decrementa il punteggio di similarità
in misura proporzionale ai valori che vengono imposti ai
parametri δ e γ che corrispondono rispettivamente alla
penalità costante δ attribuita alla creazione di un gap e alla
penalità variabile γ[l(k)-1)] attribuita alla estensione del kmo gap che incrementa la penalità costante delta in misura
proporzionale alla lunghezza del gap pari a l(k).
L
NG
i 1
k 1
S AB   s (ai , bi )      (k )  1
Per la determinazione del grado di similarità tra
sequenze di nucleotidi si utilizza essenzialmente il
criterio identità/non identità (match/mismatch)
nel calcolo di s(ai,bi)
Match: s(ai,bi) =1
Mismatch : s(ai,bi) =0
Per la determinazione del grado di similarità tra
sequenze di proteine possono essere applicati
diversi metodi basati essenzialmente sulle proprietà
chimico-fisiche degli aminoacidi omologhi
1. Criterio di identità/non-identità, secondo il quale si
attribuisce un punteggio costante alle coppie di residui
identici con la possibilità di usare alfabeti differenti
per la codifica degli aminoacidi.
Qui oltre al codice classico che per gli aminoacidi
utilizza un alfabeto di venti lettere, possono essere
utilizzati altri alfabeti che raggruppano gli aminoacidi
sulla base delle loro similarità chimico-funzionali.
2. Criterio del codice genetico, secondo il quale il
punteggio di similarità per una coppia di aminoacidi è
correlato al numero di sostituzioni nucleotidiche che
sulla base del codice genetico è necessario per la loro
interconversione.
Gli aminoacidi sono considerati tanto più simili quante
meno sono le sostituzioni necessarie per la loro
conversione.
T  W
ACN  UGG
s(T,W)=a
AV
GCN  GUN
a<b
s(A,V)=b
3. Criterio del codice genetico congiunto ad un peso legato
alla similarità strutturale degli aminoacidi.
Viene considerato congiuntamente il peso legato alla
facilità di conversione tra gli aminoacidi e quello legato
alle loro somiglianze strutturali (Feng et al., 1985).
T
W
ACN
UGG
s(T,W)=1
CH3
CHOH
NH2
C
COOH
H
NH
NH2
CH2
H
C
COOH
H
A V
GCN
s(A,V)=5
GUN
CH3
NH2
C
COOH
H
C2H5
NH2
C
H
COOH
scala arbitraria utilizzata per pesare la similarità tra i 20 aminoacidi
(rappresentati dal codice ad una lettera) basata sulla somiglianza
strutturale e sulla interconvertibilità genetica (Feng et al., 1985)
C S T
6 4 2
6 5
6
P
2
4
4
6
A
2
5
5
5
6
G
3
5
2
3
5
6
N
2
5
4
2
3
3
6
D
1
3
2
2
4
4
5
6
E
0
3
3
3
4
4
3
5
6
Q
1
3
3
3
3
2
3
4
4
6
H
2
3
2
3
2
1
4
3
2
4
6
R
2
3
3
3
2
3
2
2
2
3
4
6
K
0
3
4
2
3
2
4
3
4
4
3
5
6
M
2
1
3
2
2
1
1
0
1
2
1
2
2
6
I
2
2
3
2
2
2
2
1
1
1
1
2
2
4
6
L
2
2
2
3
2
2
1
1
1
2
3
2
2
5
5
6
V
2
2
3
3
5
4
2
3
4
2
1
2
3
4
5
5
6
F
3
3
1
2
2
1
1
1
0
1
2
1
0
2
4
4
4
6
Y
3
3
2
2
2
2
3
2
1
2
3
1
1
2
3
3
3
5
6
W
3
2
1
2
2
3
0
0
1
1
1
2
1
3
2
4
3
3
3
6
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
4. Criterio basato sui dati di interconvertibilità
degli
aminoacidi determinati dalla osservazione di insiemi di
proteine omologhe:
Matrici Dayhoff : PAM
Blocks Substitution Matrix : BLOSUM
MATRICE PAM
La matrice proposta da Dayhoff et al. (1978) si basa su una compilazione
di sostituzioni aminoacidiche osservate su una collezione di proteine
omologhe.
Sono state considerate 1572 sostituzioni aminoacidiche da 71 gruppi di
proteine omologhe con un grado di similarità superiore all’85%.
La DAYHOFF introducendo il concetto di ”mutazione puntiforme
accettata” (PAM, point accepted mutation) per indicare una sostituzione
aminoacidica accettata dalla selezione naturale, determina una serie di
matrici i cui elementi sono utilizzati come punteggio di similarità per
ciascuna coppia di aminoacidi. Le varie matrici corrispondono a differenti
valori di distanza evolutiva.
Calcolo Matrice PAM
s(a,b) = int(10 x log(M(a,b)/C(a,b)
dove int sta per intero del valore ottenuto
moltiplicando per 10 il logaritmo decimale del
rapporto fra M(a,b) e C(a,b).
• M(a,b) è la frequenza di sostituzione
dell’amminoacido a nell’amminoacido b osservata
nei 71 gruppi di proteine omologhe considerate
• C(a,b) è la frequenza di sostituzione attesa, stimata
come prodotto delle frequenze degli amminoacidi a
e b nei 71 gruppi di proteine omologhe considerate
PAM - 250
A 2
R -2 6
N 0 0
D 0 -1
C -2 -4
Q 0 1
2
2 4
-4 -5 12
1 2 -5 4
E
G
H
I
L
K
M
1
0
2
-2
-3
1
-2
0
1
-1
-1
-2
-1
-1
-1
-3
2
-2
-3
3
0
3
1
1
-2
-4
0
-3
-5
-3
-3
-2
-6
-5
-5
2
-1
3
-2
-2
1
-1
4
0
1
-2
-3
0
-2
5
-2
-3
-4
-2
-3
6
-2
-2
0
-2
5
2 6
-2 -3 5
2 4 0
6
F -3 -4 -3 -6 -4
P 1 0 0 -1 -3
S 1 0 1 0 0
T 1 -1 0 0 -2
W -6 2 -4 -7 -8
Y -3 -4 -2 -4 0
V 0 -2 -2 -2 -2
-5
0
-1
-1
-5
-4
-2
-5
-1
0
0
-7
-4
-2
-5
0
1
0
-7
-5
-1
-2
0
-1
-1
-3
0
-2
1
-2
-1
0
-5
-1
4
2
-3
-3
-2
-2
-1
2
-5
-1
0
0
-3
-4
-2
0
-2
-2
-1
-4
-2
2
9
-5
-3
-3
0
7
-1
6
1
0
-6
-5
-1
2
1
-2
-3
-1
3
-5 17
-3 0 10
0 -6 -2 4
I
L
K M F
P
S
T W Y
A R N D C Q E G H
V
MATRICI BLOSUM
Henikoff & Henikoff (1992) usano un approccio differente
basato sull’osservazione di circa 2000 blocchi di segmenti
di sequenze allineate corrispondenti a più di 50 gruppi di
proteine omologhe, producendo le cosiddette matrici
BLOSUM (Blocks Substitution Matrices) che test empirici
hanno mostrato essere più accurate per il calcolo del
grado di similarità tra due sequenze aminoacidiche.
Matrice BLOSUM
Al fine di ridurre il contributo di coppie di aminoacidi relative
a proteine strettamente correlate, le sequenze che mostrano
una percentuale di identità al di sopra di un valore soglia
predeterminato costituiscono un raggruppamento cui viene
attribuito il peso di una singola sequenza.
In questo modo, variando la percentuale di similarità usata
come soglia si possono ottenere matrici differenti. Ad esempio
la matrice BLOSUM-62, che è quella più comunemente
utilizzata, viene costruita raggruppando tutte le sequenze con
una percentuale di identità superiore al 62%.
Calcolo Matrice BLOSUM
s(a,b) = int(kxlog(M(a,b)/C(a,b)
dove int sta per intero del valore ottenuto moltiplicando
per k il logaritmo decimale del rapporto fra M(a,b) e C(a,b).
•M(a,b) è la frequenza di sostituzione dell’amminoacido a
nell’amminoacido b, osservata nei blocchi di proteine
omologhe considerate.
•C(a,b) è la frequenza di sostituzione attesa, stimata come
prodotto delle frequenze degli amminoacidi a e b nella
totalità dei blocchi di proteine omologhe considerate.
BLOSUM - 62
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
4
-1
-2
-2
0
-1
-1
0
-2
-1
-1
-1
-1
-2
-1
1
0
-3
-2
0
A
5
0
-2
-3
1
0
-2
0
-3
-2
2
-1
-3
-2
-1
-1
-3
-2
-3
R
6
1
-3
0
0
0
1
-3
-3
0
-2
-3
-2
1
0
-4
-2
-3
N
6
-3
0
2
-1
-1
-3
-4
-1
-3
-3
-1
0
-1
-4
-3
-3
D
9
-3
-4
-3
-3
-1
-1
-3
-1
-2
-3
-1
-1
-2
-2
-1
C
5
2
-2
0
-3
-2
1
0
-3
-1
0
-1
-2
-1
-2
Q
5
-2
0
-3
-3
1
-2
-3
-1
0
-1
-3
-2
-2
E
6
-2
-4
-4
-2
-3
-3
-2
0
-2
-2
-3
-3
G
8
-3
-3
-1
-2
-1
-2
-1
-2
-2
2
-3
H
4
2
-3
1
0
-3
-2
-1
-3
-1
3
I
4
-2
2
0
-3
-2
-1
-2
-1
1
L
5
-1
-3
-1
0
-1
-3
-2
-2
K
5
0
-2
-1
-1
-1
-1
1
M
6
-4
-2
-2
1
3
-1
F
7
-1
-1
-4
-3
-2
P
4
1
-3
-2
-2
S
5
-2
-2
0
T
11
2 7
-3 -1 4
W Y V
La matrice Dotplot può essere generata
con gli scores al posto dei dots
In questo esempio, due proteine sono confrontate e per ogni coppia
di aa si inserisce lo score derivato dalla matrice BLOSUM-50.
P
A
W
H
E
A
E
H
-2
-2
-3
10
0
-2
0
Sequence Comparison
E
-1
-1
-3
0
6
-1
6
A
-1
5
-3
-2
-1
5
-1
G
-2
0
-3
-2
-3
0
-3
A
-1
5
-3
-2
-1
5
-1
W
-4
-3
15
-3
-3
-3
-3
G
-2
0
-3
-2
-3
0
-3
EMBnet www.embnet.org
H
-2
-2
-3
10
0
-2
0
E
-1
-1
-3
0
6
-1
6
E
-1
-1
-3
0
6
-1
6
Scarica

Allineamento - Uninsubria