Caratterizzazione di una sequenza genomica
>UNKNOWN_SEQUENCE
ATGCCCTCCTACCCACTTCTGGCCACCCTATCCCATACATTTACTTAGGGACTTATTTAG
GGACACGCAGAACATCCTCCTACACAGCTCAGTGCGTTTCCAGTCCCTGCAGCGCCCAGT
AGCTAAGACTGGCTTCTCTATAAGTATTTTATAGATTGAACCTAAAGAATGGCAACGATT
TCTAACATCTATAGAATTTTTACGAAGTCACTTCGCTCTGATATTGAAGAATACAACGCT
GTTCTTCTTATCCTGTATGTTCAGGCCTGTTTCAGCTTGCAAGTAATACGGGAAGTGAAC
TTCACCTCGAGGATGATCTACTGAAAAGGAAGAGAGTCGCCCACACACTCCCCCTTCAGC
TCAAAACTACAGACAAAGCGAAGCTCAGGAGACTCCGTTCGCACAAAACGCTTAAGATGG
GATTCGAACCACCAAACACCCAACAGAAGTTCCCCATATGACTCACCGCGTGAGCCCACC
TGGAGCCGCACACTCTCCGCAGCCTCAGCCAGCAGAGTGGCGCTAAACCTGCAGATACAA
ACTCCACCCTCAGCCAATCAAAACCCCCTCCCCTGCCGCCGGACCAATGAGGAGCAGCAG
ATGTGGCCGTCAGGCGCCGCCTCAATGCCTCCTGGGAGTTGTAGTTTAGAAGGGAGAGCG
GAACTTAGAACCCGGGTTCCCCTCGGGTGATCCCGCCCCCTCGACTCCCCAGCCAATCAG
CAACATTAGTCTGGTTAGACGCTCTCTTTGCTTTTCCCCACGAGTGACCACGGCTAGATA
GGCCGCCGGCCAGATGTGGCGGGGGAGAGCCGGGGCTTTGCTCCGGGTGTGGGGGTTTTG
GCCGACAGGGGTTCCCAGAAGGAGACCGCTAAGCTGCGATGCTGCGTCGCAGGCGGGAAG
CAATTATCCCCGCTGTTGGAACTGCGGCGGCCCATGGGGCCCCGGGCGGGAGGACAGGTT
CTTCTGCCCACAGTGCCGAGCGCTGCAGGCACCTGACCCCACTCGAGACTACTTCAGCCT
TATGGACTGGTACGAGCGACGGTTTCGGGAAACGGGCCCGGGCGAGAGACACGTCGAGGT
CTGGCCTGCGAGAGGGGAGGACGGATCTGGCTGGCGGAAGAGAAGGCGGGACTGATGGGG
GGGCGGAGGTCTAGAGAGCAGGCGTGAGAGAAGTGTCTTGATTTCTCAGGAGGAAATTGA
GAGGCGGGGACTGAGGGAAGCAACGTTGAGGTGTGGAGAAGGGAGACGAACGGGACTGGA
GGGGCGGGCGCTGAAGTTAGAGGAAATAGGGGGGCCGAGGCTAGAGGGGAGGGAGATTTG
AGGGGCGGTACCTACGGGAAAGGGAAGGAGAAGTCGAGGGGCGGAACTTGAGGAAAGGGT
ACTTGAGGGGCAGGGCCTGGGAGACTGGAAGACTTGAATGAATAGGGTGAGTAAGGTTTA
Caratterizzazione di una sequenza genomica
- Identificazione di sequenze ripetute
- Ricerca di isole CpG
- Caratterizzazione di Promotori
- Predizione di geni (Gene Finding)
- Validazione della predizione di geni
- Caratterizzazione funzionale dei geni
Caratterizzazione di una sequenza genomica
- Identificazione di sequenze ripetute
- RepeatMasker (ricerca di repeats noti)
- trf (ricerca di minisatelliti)
RepeatMasker
(http://
http://ftp
://ftp.
ftp.genome.
genome.washington.
washington.edu/
edu/cgicgi-bin/
bin/RepeatMasker)
RepeatMasker)
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
Caratterizzazione di una sequenza genomica
1. Identificazione di sequenze ripetute
(RepeatMasker)
S W
s co r e
22 0
23
19 8
17 8
23 7
24 7
16 3
18 8
22 8
18 8
16 3
17 8
16 3
3
4
9
2
7
9
2
0
4
0
2
8
2
p e r c p e r c p e r c q u e yr
p o ist i o n
iqnu e r y
d i v . d e l . i n s . s e q eun c e b e g
in
en d ( le f t )
m at c h i gn
r ep e a t
r ep e a t
c la s s / afm i l y
17
29
14
14
7
8
16
15
10
15
16
18
16
M
L
A
A
A
A
M
A
A
A
M
A
M
L TR /
L I
NE
S IN E
S IN E
S IN E
S IN E
L TR /
S IN E
S IN E
S IN E
L TR /
S IN E
L TR /
.
.
.
.
.
.
.
.
.
.
.
.
.
112
628
1 3
7 9
2 0
3 0
2 1
0 0
8 0
0 0
2 1
2 0
2 1
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0
4
9
7
0
9
3
3
3
9
3
9
0
1
0
0
0
0
8
5
0
5
8
0
8
.
.
.
.
.
.
.
.
.
.
.
.
.
2
6
7
0
7
0
0
1
0
1
0
7
0
S
S
S
S
S
S
S
S
S
S
S
S
S
E
E
E
E
E
E
E
E
E
E
E
E
E
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
Q
1
2
2
3
3
4
5
5
5
5
5
6
6
74 4
24 9
96 8
49 9
96 6
79 9
10 5
16 9
31 6
61 3
77 9
00 4
30 0
2
2
3
3
4
5
5
5
5
5
6
6
6
17 6
50 5
26 5
77 0
25 6
10 0
16 8
31 5
61 2
77 8
00 3
29 9
37 1
(
(
(
(
(
(
(
(
42 4
39 1
31 5
26 4
21 6
13 1
12 4
11 0
(8 0
(6 3
(4 1
(1 1
(4
1
2
2
7
1
7
9
2
5
9
4
8
6
)C
)+
)+
)+
)+
)+
)C
)+
)+
)+
)C
)C
)C
ER 3
2
lu S
lu J
lu S
lu S
LT 2
lu J
lu S
lu J
LT 2
lu J
LT 2
1 B
x
b
g 1
x
E
b
x
b
E
b
E
M
/
/
/
/
/
R
/
/
/
R
/
R
E 4RL 2
A ul
A ul
A ul
A ul
e rto
A ul
A ul
A ul
e rto
A ul
e rto
g r uop
p os i t i
on i n
b e
gi n e n d(
(0 ) 4 8 5
287 1 31 9 5
1 3 0 6
1 2 9 9
1 2 9 1
3 3 0 4
v i arl
(5 6 ) 3 4 1
1 1 2 7
1 2 9 8
12 7 2 9 9
v i arl ( 12 2 ) 4 3 1
(1 6 ) 2 9 6
v i arl ( 47 7 )
7 6
TRF
(http://tandem.
http://tandem.biomath
://tandem.biomath.
biomath.mssm.
mssm.edu/
edu/trf/
trf/trf.basic.
trf.basic.submit
.basic.submit.
submit.html)
html)
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
UCSC Genome Browser
(http://
http://genome
://genome.
genome.ucsc.
ucsc.edu)
edu)
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
Caratterizzazione di una sequenza genomica
Identificazione di isole CpG
- Il dinucleotide CpG è generalmente evitato nel
genoma in quanto sito preferenziale di metilazione
(CpG →m5CpG … → TpG).
- Le isole CpG sono regioni del genoma ”ipometilate” e caratterizzate da una minore scarsità
del nucleotide CpG:
- genoma
Obs(CpG) = 1/4 dell’atteso
- isola CpG
Obs(CpG) = >2/3 dell’atteso
- Le isole G pG si trovano a monte (5’) di oltre il
50% dei geni umani.
Caratterizzazione di una sequenza genomica
Identificazione di isole CpG
- L > 200 bp
- C+G% > 50%
- CpG Obs/Exp > 0.6
CpG Exp = pC x pG x L
Esempio:
L = 138940
CpG = 4160 (0.03)
C = 40295 (0.29)
CpG Exp = 0.29 x 0.28 x 138940 = 11282
CpG Obs/Exp = 4160 / 11282 = 0.37
G = 39264 (0.28)
Caratterizzazione di una sequenza genomica
Identificazione di isole CpG
Programmi per l’identificazione di CpG islands:
CpGplot (EMBOSS)
CpGreport (EMBOSS)
GRAIL
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
Vertebrate pol II promoters usually consist of multiple binding sites for
transcription factors which are necessary for promoter function. However,
individual promoter elements require a specific order to constitute a
functional promoter. This organization can be dissected into at least three
different levels with distinct functionality encoded at each level.
Organizzazione gerarchica dei promotori
eucariotici
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
The ground level is represented by individual TF-sites. These are relatively
short stretches of DNA (10 - 20 nucleotides), sufficiently conserved in
sequence to allow specific recognition by the corresponding transcription
factor.
TF-acquisition by DNA binding is the sole function of a TF-site!
TF-site detection in sequences:
TF-sites are generally best described by nucleotide weight matrices.
Position Weight Matrix (PWM)
( A) TATA - b ocxo se
n n ssumatrix (TRA NSFA Centr yV $ T TA
A _ 0) 1calc ulate d o3n8 9TATA - b o x
eleme nts. (B) Lo dsc
- oer matrix (b ase tw olo g aithms)
r
c alc ulate dass umin g homo
a
g e n es obuck
a grou
fr e qen
u c y(0.2 5 ) as=
n d0.0 1 .
(A)
Base
A
C
G
T
Consensus
1
2
3
4
5
6
61 16 352
3 354 268
145 46
0 10
0
0
152 18
2
2
5
0
31 309 35 374 30 121
S
T
A
T
A
A
Positi on
7
8
9 10 11 12 13 14 15
360 222 155 56 83 82 82 68 77
3
2 44 135 147 127 118 107 101
20 44 157 150 128 128 128 139 140
6 121 33 48 31 52 61 75 71
A W
R
N
N
N
N
N
N
(B)
Positi on
Base
A
1
2
-0.65 -2.52
3
4
5
6
7
8
1. 86 -4.61
1. 87
1. 47
1. 89
1. 20
9
10
11
12
13
14
15
0. 68 -0.77 -0.21 -0.23 -0.23 -0.50 -0.32
C
0. 59 -1.05 -6.64 -3.16 -6.64 -6.64 -4.61 -5.03 -1.11
0. 48
0. 61
0. 40
0. 29
0. 15
0. 07
G
0. 65 -2.36 -5.03 -5.03 -4.03 -6.64 -2.21 -1.11
0. 63
0. 41
0. 41
0. 41
0. 53
0. 54
T
-1.60
1. 67 -1.43
1. 95 -1.65
0. 3 -3.80
0. 70
0. 3 -1.52 -0.99 -1.60 -0.88 -0.65 -0.36 -0.43
The next higher level of promoter organization is the one of promoter modules which
are composed of two or more TF-sites in a defined distance range. In contrast to
isolated binding sites these sites allow synergistic or antagonistic effects.
The module below, for example, confers inducibility by tumor necrosis factor alpha
(TNF-alpha) and gamma-Interferon (gamma-IFN) to several promoters of the
MHC/HLA class I genes as well as to beta-2 microglobulin and beta-Interferon genes.
The function of a promoter module is specific activation or repression!
Promoter modules cannot be detected reliably by alignment procedures. They can be successfully
detected by searching for combinations of individual elements (individual models).
Promoter models
Functionally related promoters often exhibit a clearly defined core organization of binding
sites conserved both in orientation as well as in distances (with some variability). This is true even
when the promoter sequences show no significant overall sequence similarity precluding
alignment-based detection also for whole promoters (except phylogenetic footprints of
evolutionary related promoters).
The promoter model shown below describes the general framework of TF-sites which is common
to all mammalian actin promoters even across species!
This model does not contain all functional TF-sites that are present in individual actin promoters.
However, the combination of these six TF-sites is sufficient to detect all mammalian actin
promoters with unprecedented specificity, yielding only about 30 additional matches in all the
vertebrate sections of GenBank! A promoter contains all response elements necessary for its
complete transcriptional regulation! (However, in many cases additional elements like enhancers
might be required.)
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
Muscle specific promoter of mammalian actin
genes
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
P1
A
C
G
T
9
22
18
19 3
P2
P3
P4
P5
P6
21 4 63 14 2 11 8
8
7 26 31 52 13
2 29 38 29
5
19 12 4 31 43 21 6
Count matrix
P1
A
C
G
T
P2
P3
P4
P5
0.04 0.88 0.26 0.59 0.49 0.03
0.09 0.03 0.11 0.13 0.21 0.05
0. 07 0. 01 0. 12 0. 16 0. 12 0. 02
0. 80 0. 08 0. 51 0. 13 0. 18 0. 89
Frequency matrix
A
C
G
T
P1
-2 .7
-1 .5
-1 .7
1 .7
P2 P3
1 .8 0 .1
-3 .1 -1 .2
-4 .9 -1 .1
-1 .7 1 .0
P4
1 .2
-1 .0
-0 .7
-1 .0
Log-Odds matrix
P5
1 .0
-0 .2
-1 .1
-0 .5
P6
-2 .9
-2 .2
-3 .6
1 .8
P6
æ fi ö
ç
÷ (e = 0.25)
log2
i
è ei ø
Score
Score
=Score
-6.0
= +8.5
= -5.9
-2 .7
-1 .5
-1 .7
1 .7
A C
-21 .78 10-2.81.7 011.12.8
-1
-3 .51 -3
-1-1.12.5 -1-3.20.1
-1
-4 .79 -4
-1-1.91.7 -1
-0-4.17.9
1 .7 -111.70.7 -1
1-1.0.7
-1
T
A T
10.20.1
-1
-0-1.02.2
-0
-1-1.71.1
-1
-01.05.0
11.09.2
-2
-0
-2-1.2.0
-1
-3-0.16.7
-01-1.58.0
-21.9.0 -2 .9
-2-0.2.2 -2 .2
-3-1.6.1 -3 .6
1-0.8.5 1 .8
A A T C G
Threshold Score = +7.0
A C
T
A T
A A T C G
T able 6 . .7S pecializ e d atad b aess cllectin
o
g D Nbindin
A
gsite srec o gizn e d bpro
y k a r tic
y oa n d
e u kryotic
a
tra nscri ption.
D ataba s e
U RL
D esc ription
C OMPEL
htt p /c: /ompel . iob net nsc.ru
.
/
C omposite re g latory
u
lemen
e
st
D BTSB
htt p /e: mo
/l ims.
.
u-tokyo . c.a p/
j dbt bs/
Ba cill us subtilis b i ning
d facto rs and
promo et rs
EP D
htt p /www.e
: /
p disb-s
.
b.
i ch /
Eu k a r tic
y oPolII promoters wit h
e x prime
e ntally-d ete rmin e dtran s ription
c
start site s
Reg u l oDB
n
htt p /www.ci
: /
n.
f u anm mx/Compu
.
at t ina
o _B
l iloo gy/re gulo ndb /
E. c oli tra nscri ptio n laregulatio n a n d
o p ro
e n rgo a iz
n ation
TR A N
SFA C
htt p /tra
: / ns f ac . gbf . ed/ TRANS F C
A/
Tr a scrip
n
iton fa cto rs and bindin gsite s
O oTFD
htt p /www.if
: /
torg
i ./
Tr a scrip
n
iton fa cto rs and g e n e
e x re
p s ion
SCPD
htt p /c: /gs igm a.cs h lorg
. ji/ an /
S a c c ro
h am yesc ce revisia ep r moter
o
d ata b se
a
Dato un gruppo di geni con un simile profilo di
espressione (es. geni attivati simultaneamente
durante il ciclo cellulare) una semplice
assunzione è che questo profilo è almeno in
parte determinato da similarità a livello del
PROMOTORE.
La ricerca è stata dunque focalizzata alla
ricerca di motivi oligonucleotidici (probabili
siti di legame per Fattori di Trascrizione)
comuni ai promotori dei geni co-regolati.
Pattern Significativo
Pattern casuale
L Occorrenza
L Posizione non casuale
L Contenuto informativo
L Occorrenza
PATTER N S
AATAAA
AAATAA
ATAAAG
ATAAAA
CCCCCC
ATAAAT
G AAATA
TAAATA
TG TATTT
TG TATAT
ATATTTA
TTTATAT
TG TAC AT
ATATATA
G CG G CCG C
ATATATTT
G G G TG G G G
TTTAAAAA
TAC ATTTT
TATTTATTT
TTTTTAAAA
Il numero di sequenze che contiene un certo
pattern è significativamente maggiore di
quanto atteso (es. algoritmo WordUP).
O BSER VED
EXPEC TED
C H I-SQ U AR E
1345
414.00035
2093.62225
834
414.00035
426.08588
578
258.12928
396.37997
744
414.00035
263.04270
273
654.61047
222.46291
584
321.22291
214.96537
443
239.14498
173.77269
496
285.44362
155.31610
243
103.18333
189.45602
154
56.34083
169.27891
221
95.25445
165.99689
218
103.87432
125.38875
130
50.48650
125.22942
136
59.08119
100.14193
38
5.41527
196.06842
100
31.42024
149.68643
92
31.82251
113.79774
211
103.89444
110.41593
92
33.40711
102.76638
94
16.60269
360.80574
139
40.25077
242.26645
Le sequenze di DNA come “catene Markoviane”
Markov chain order k=0
2 2
AT
Exp(TATA
)=p p L
Markov chain order k=1
Markov chain order k=2
fTAfATfTA
Exp(TATA
)=
fAfT
fTATfATA
Exp(TATA
)=
fAT
L Posizione
I pattern funzionali sono generalmente localizzati
in posizioni conservate (es. ad una certa distanza
dal sito di inizio della trascrizione).
TATA-box distribution
60
50
40
N 30
20
10
0
Distance from TSS
L Contenuto Informazionale
Le costrizioni funzionali su ogni specifica posizione del pattern sono
diverse, con alcuni siti assolutamente conservati ed altri variabil. (es.
contenuto informazionale secondo Shannon variabile tra 0 e 100).
Due differenti approcci possono essere
utilizzati per individuare motivi funzionali
da regioni regolatorie di geni co-regolati.
L Metodi di Allineamento
L Metodi Enumerativi
Metodi basati sull’identificazione di SEGNALI
Metodi basati sulle proprietà generali delle sequenze codificanti
cap-site Y Y A N W Y Y
Start Codon Context (Homo sapiens - > 9000 genes)
%G
%A
%T
%C
38
20
19
24
g
-6 -5 -4 -3 -2 -1 +1 +2 +3 +4 +5
29 25 36 18 31 0 0
17 23 47 32 16
100
20 12 6 12 7 0
34 41 12 38 46 0 0 0 15 40 27
c c R c c
A
+6 +7 +8
100 49 19 37 34 21
0 0 22 27 15 23 26
100 0 14 14 21 17 22
27 31
T G
g c a n n
Exon / Intron Profile Matrix (Donor Site)
A
C
G
T
-3
28
40
17
14
c
-2 -1
+1 +2 +3 +4 +5 +6
59 8 /
0
0 54 74 5 16
14 5 /
0
0 2 8 6 18
13 81 / 100
0 42 11 85 21
14 6 /
0 100 2 8 4 45
A G
G
T A A G N
Intron /Exon
Profile M atrix (A cceptorSite)
-8 -7 -6 -5 -4 -3 -2 -1 +1
A 11 11 7 8 25 3 100 0 /27
C 37 38 39 36 26 75 0 0 /14
G 10 9 7 6 26 1 0 100 /49
T 42 43 47 51 23 21 0 0 /10
Y Y Y Y N C A G
G
Fickett Method: qa, qc, qg, qt, Aasim, Casim, Gasim, Tasim
Aasim =
max (A1 , A2 , A3 )
min ( A1 , A2 , A3 ) + 1
f xyz / Fxyz
p=
rxyz / Rxyz
L
ln pi
P = exp å
(L = 25 − 50 codons)
L
i =1
LTR AluSx AluJb
CpG island
Mer
Line/L2
AluSx
AluJb
AluSg1
AluSx AluJb
LTR
LTR AluJb
GRAIL
Genscan
1000
2000
3000
4000
6000
5000
GENSCANW output for sequence 03:43:58
poly-A site
GENSCAN 1.0
Date run: 12-Jan-100
Sequence SEQ : 6417 bp : 48.36% C+G :
Parameter matrix: HumanIso.smat
Predicted
Gn.Ex
----1
1
1
1
1
.
.
.
.
.
0
0
0
0
0
1
2
3
4
5
genes/exons:
Type
----
S
-
I
I
I
T
P
+
+
+
+
+
n
n
n
e
l
i
t
t
r
y
Time:
Isochore
t
r
r
m
A
.Begin
------
2
3
4
5
7
5
3
5
7
9
8
1
6
6
4
0
3
2
8
...End
-----1
2
3
4
5
0
6
4
7
7
2
7
0
1
7
9
6
2
7
3
.Len
---23
9
9
15
6
7
0
6
6
Fr
--
Ph
--
1
0
0
1
2
1
0
0
I/Ac
---5
8
5
7
0
4
9
9
Do/
-7
7
6
3
Transcription Map
LTR AluSx AluJb
CpG island
Mer
Line/L2
AluSx
AluJb
AluSg1
AluSx AluJb
LTR AluJb
GRAIL
Genscan
1000
2000
poly-A site
(mRNA UTRs are not predicted)
3000
4000
5000
LTR
6000
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
Tblastx di una sequenza
contro l’altra associato ad
una procedura di genefinding
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
Predizione della funzione genica
Analisi della similarità con altre
sequenze nucleotidiche o
aminoacidiche a funzione nota :
- Database searching
- Allineamento e Multiallineamento
- Costruzione di profili
- Ricerca di Motivi
- Studi di Evoluzione Molecolare
Evoluzione Molecolare
Gli “errori” nella trasmissione genetica sono alla
base dei processi evolutivi che a partire da una
forma di vita primitiva hanno prodotto l’enorme
diversità delle forme di vita attuali.
• mutazioni puntiformi
• inserzioni
• delezioni
• riarrangiamenti di vario tipo
Basi Molecolari delle Mutazioni
Le mutazioni possono essere “spontanee” o “indotte” da
specifici agenti chimici. Le mutazioni puntiformi spontanee
sono generalmente dovute alle peculiari proprietà delle basi
azotate ed in particolare alla proprietà diassumere due
diverse forme in seguito alla “tautomeria cheto-enolica”.
Genolo - T
Cimino - A
Tenolo - G
Aimino - C
(es. GC →AT)
In questo modo possiamo spiegare le “transizioni” (es.
purina →purina). Analogamente la rotazione del legame
glicosidico di una purina sullo stampo in una conformazione
sfavorevole (anti → syn) e il concomitante tautomerismo
della base appaiata potrebbe originare le “trasversioni”
(purina →pirimidina).
Basi Molecolari delle Mutazioni
La probabilità della forma tautomerica sfavorita (enolo/imino)
è pari a 10-4 - 10 -5
La probabilità della conformazione syn di G o A è pari
rettivamente a 0.1 e 0.05
Le transizioni sono effettivamente più probabili delle
transversioni anche se hanno probabilità complessivamente
più basse a causa dell’intervento dei meccanismi di riparo.
Altre dovute ad appaiamenti non canonici diversi, a processi
di depurinazione, a deaminazioni ossidative, ecc.)
(A )
Mutazioni
5’-ATGGACCGGATGGATGATGGACCGTTAGGAT-3’
So sti t uzi o n i p iform
unt i
Tipi di mutazione che
intervengono nel corso del
processo di evoluzione
molecolare.
A partire da una sequenza
progenitore (A) possono
verificarsi:
sostituzioni puntiformi (B);
delezioni (C);
inserzioni (D);
inversioni (E).
Questo fa sì che la sequenza
discendente possa risultare
differente da quella ancestrale
anche nella lunghezza (F).
(B)
5’-ATGGACCGAATGGCTGACGGACCGTGAGGAT-3’
(C)
De lez i o en
-( CGAA)
5’ - ATGG
AC.TGGCTGACGGACCGTGAGGAT-3 ’
Inserzio n e
(D )
5’ - ATGG
AC.TGGCTGACGGAACTCCGTGAGGAT-3 ’
In v resi o ne
(E)
5’ - AGTCCA.T GGCTGACGGAACTCCGTGAGGAT-3 ’
(F)
5’ - ATGG
ACCGGA
TGGAT
GATGG
A---C CGTTAGGAT-3’
|
| || | | | ||
|
| | || | | |||
5’ - AGTCCA-- - -TGGCTGACGGAACTCCGTGAGGAT-3 ’
Slippage
Generazione di piccole
inserzioni o delezioni
attraverso il meccanismo
dello slippage.
Nell’esempio qui riportato
si osserva un
misappaiamento
dell’elica di nuova sintesi
sull’elica stampo dovuto
alla presenza di un
microsatellite (TA)n che
produce l’inserzione di
un dinucleotide TA in una
delle due eliche figlie (B).
Allo stesso modo il
misappaiamento può
riguardare l’elica stampo,
in questo caso si
produce una delezione in
una delle due eliche figlie
(B).
(A)
5’
3’
TA
A
T
TCCGTCTACTAATAT
ATAT
e l i c a 3d ’i n usoivnat e s i
A G G C A G A T G A T T A T A T A T A T A T A Ae Gl CiTc TaA Gs At a 5m ’p o
5 ’ T C C G T C T A C TTA AA
TT
AA
TT
AA
T
.. 3’
3 ’ A G G C A G A T G A TATTA T A T A . . 5 ’
inser zione
(B)
5’
3’
TCCGTCTACTAAT
AGGCAGATGATTA
T
ATATAT
e l i c a 3d ’i n u o v a
T A T A T A T A Te Al AiGc CaT Ts AtoGa Am p5 ’
A
AT
5’
3’
TCCGTCTACTAA--TATATAT
AGGCAGATGATT--ATATATA
de ez
l one
i
..
..
3’
5’
sint
Duplicazioni e
Inserzioni
Generazione di
inserzioni e delezioni
attraverso il
meccanismo del
crossing-over
disuguale mediato da
segmenti ripetuti
(rappresentati da
rettangoli con colore
uguale) nel caso di
appaiamento intercromosomico (A) e
intracromosomico
(B).
(A)
Inserzione
+
Delezione
(B)
Delezi ne
o
Mutazione e Fissazione
Il fatto che una mutazione venga fissata all’interno di una popolazione
può risultare da due processi distinti: 1) la selezione naturale e 2) la
deriva genica casuale (neutral genetic drift).
La selezione naturale è definita come la capacità differenziata di
riproduzione di individui geneticamente distinti (o genotipi) all’interno di
una popolazione. La capacità di riproduzione di un individuo è
determinata dal proprio livello di adattamento all’ambiente rispetto ad
altri individui della stessa specie. Rispetto alla selezione naturale, le
mutazioni possono essere vantaggiose, svantaggiose o neutrali. La
selezione naturale contrasta la fissazione di mutazioni svantaggiose,
favorisce la fissazione di mutazioni vantaggiose e non ha alcuna
influenza sulle mutazioni neutrali.
La deriva genica casuale può produrre la fissazione di mutazioni neutrali
attraverso un processo stocastico per cui la frequenza dell’allele mutato
può aumentare nel tempo in seguito ad un processo di tipo
esclusivamente casuale.
Similarità vs. Omologia
♦ Similarità
• Somiglianza tra due sequenze (DNA o proteine)
• può essere locale o globale
• si può misurare (grandezza quantitativa)
♦ Omologia
• Comune origine evolutiva di due sequenze
• Si determina per mezzo di una analisi evolutiva
• C’è o non c’è (carattere qualitativo)
Ortologia e Paralogia
n Implicano entrambe OMOLOGIA
n Ortologia
• Sequenze che hanno avuto origine da un
progenitore comune in seguito a speciazione
n Paralogia
• Sequenze che hanno avuto origine da un
progenitore comune in seguito a duplicazione
genica
n Xenologia
• Sequenze che hanno avuto origine da un processo di trasferimento
orizzontale
(A )
Le strutture
sono più
conservate delle
sequenze
(Confronto tra
Ferredossina di
Spinacio e di
Azotobacter)
7 FD1
1A70
(B)
1
1
46
42
96
90
.AFVVTDNCIK
|: ||
XAYKVT....L
.
EPECPAQAIFS
:. :...: :.
GSCSSCAGKLK
.
GVKGKLQHLER
|:.|
HKKEELTA...
CKYTDCVEV.
.. |: ||.
VTPTGNVEFQ
.
EDEVPEDMQE
.:.: :| |.
TGSLNQDDQS
106
97
CPVDCFYEGP
|| |.:
CPDDVY....
.
FIQLNAELAE
|:: :.::.|
FLD.DDQIDE
NFLVI
:|
.ILDA
VWPNI
.|. :
GWV.L
Ortologia e Paralogia
gene ancestrale
duplicazione genica
gene A
0
gene B
speciazione
ortologhi
gene A1
gene A2
paraloghi
gene B1
gene B2
ortologhi
A
C
T
G
A
A
C
G
T
A
A
C
G
C
Divergenza genetica
A causa della possibilità di
mutazioni multiple sullo stesso
sito, di retromutazioni, o di
sostituzioni
convergenti,
il
numero di sostituzioni che viene
osservato tra due sequenze é
inferiore al numero effettivo di
sostituzioni. In questo esempio,
in seguito a divergenza da una
sequenza
ancestrale,
il
confronto tra le sequenze
discendenti 1 e 2, evidenzia due
sole differenze a fronte dei sette
eventi di sostituzione che hanno
avuto
luogo
in
realtà.
L’allineamento
riporta
in
carattere minuscolo le basi
coinvolte
nel
processo
di
sostituzione.
tempo
Sequenza ancestrale
Divergenza
Œ
A
C ➨ T ➨ A sostituzione multipla
T
G ➨ A
sostituzioni coincidenti
A
A
C
G
T
A
A ➨ G ➨ A sostituzione convergente
C
G
C

A ➨ T sostituzione singola
C
T
G ➨ A
A
A
C
G
T
A
A
C
G
C
Sequenze discendenti
Œ

A a T a A A C GT A a C G C
t C T a A A CG T A AC G C
Confronto delle
sequenze evolute
(A)
DNA vs proteine
G AP
of :
P erc e n t
(B)
o f:
hhu
2m
a.
_ep
p x h2 a _us
m . ep
p F ebr u ay r 6 ,19 1 0 2
P erc e n t
1
1
51
51
1 01
1 01
M
|
M
Y
|
Y
V
|
V
Sla
ir
m iy:
t
.
SRG
G K QGK
G
|||
| | |||
|
SRG
G K QGK
G
.
LAV
A L ELT
Y
:||
| | |||
|
MAV
A L ELT
Y
.
TAQ
I G GLP
V
|||
| | |||
|
TAQ
I G GLP
V
1 00. 0 0 0
.
A RKA
A K SSS
R
| |||
| | |||
|
A RKA
A K SSS
R
.
A ELE
I L ANA
G
| |||
| | |||
|
A ELE
I L ANA
G
.
N IAV
Q L LKK
P
| |||
| | |||
|
N IAV
Q L LKK
P
Per c et n I
.
R GL
A Q FVG
PR
| ||
| | |||
||
R GL
A Q FVG
PR
.
A DN
R K KRI
TI
| ||
| | |||
||
A DN
R K KRI
TI
.
T SH
E H KKG
AK
| ||
| | |||
||
T SH
E H KKG
AK
dnt
e i t: y 9
.
VRL
H L RGN
KY
|||
| | |||
||
VRL
H L RGN
KY
.
PHL
R Q LIR
AN
|||
| | |||
||
PHL
R Q LIR
AN
*13 1
|
*13 1
Sla
i m
r iy:
t 8 6.7 6 8 P erc e n t
Iti
d t
e y
n :
250 :. 2.
868
6 . 7
.
.
.
.
.
1 ATGTCTGGACGTGGTAAGCAAGGAGGCAAAGCTCGCGCCAAAGCGAAATC
||||| || ||||
|
|||||||||||||| || |||||||| || || ||
1 ATGTCCGGTCGTGGCAAGCAAGGAGGCAAGGCCCGCGCCAAGGCCAAGTC
.
.
.
.
.
51 CCGCTCTTCTCGCGCTGGTCTCCAGTTCCCGGTGGGCCGAGTGCACCGCC
|| ||||
|
|| || || || |||||||||||||
|
|| |||||||| |
51 GCGGTCTTCCCGGGCCGGGCTACAGTTCCCGGTGGGGCGTGTGCACCGGC
.
.
.
.
.
101 TGCTCCGTAAAGGCAACTACGCAGAGCGGGTTGGGGCAGGCGCGCCGGTG
|||| || || ||||||||||| ||||| || || || |||||||||||
101 TGCTGCGGAAGGGCAACTACGCGGAGCGCGTGGGCGCCGGCGCGCCGGTA
.
.
.
.
.
151 TACCTGGCGGCGGTGTTAGAGTACCTGACCGCCGAGATCCTGGAGCTGGC
||| ||||||||||
|
| |||||||| || ||||||||||||||||||||
151 TACATGGCGGCGGTGCTGGAGTACCTAACGGCCGAGATCCTGGAGCTGGC
.
.
.
.
.
201 CGGCAACGCGGCTCGCGACAACAAGAAGACTCGCATCATCCCGCGCCACT
||||||||||| ||||||||||||||||| ||||||||||||||||||
201 GGGCAACGCGGCCCGCGACAACAAGAAGACGCGCATCATCCCGCGCCACC
.
.
.
.
.
251 TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAACTGCTAGGCCGG
||||||||||||||||||||||||||||||||||||| ||||| |||
251 TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAGCTGCTGGGCAAA
.
.
.
.
.
301 GTGACCATTGCTCAGGGCGGCGTCCTTCCTAACATCCAGGCCGTGCTTCT
||||| || || |||||||||||||| || ||||||||||||||||| ||
301 GTGACGATCGCGCAGGGCGGCGTCCTGCCCAACATCCAGGCCGTGCTGCT
.
.
.
.
351 GCCTAAGAAGACCGAGAGTCACCACAAGGCCAAGGGCAAGTGA 393
||| |||||||
|
||||| ||||| ||||| ||||||||||||
351 GCCCAAGAAGACGGAGAGCCACCATAAGGCGAAGGGCAAGTGA 393
Il confronto tra sequenze di DNA
è più informativo di quello tra le
corrispondenti
sequenze
di
proteine. In questo esempio che
riporta l’allineamento sia a livello
di DNA che di proteina tra gli
istoni H2A di uomo (Z80778) e
topo (X16148) mostra che a
fronte
di
52
sostituzioni
nucleotidiche si osservano solo
due sostituzioni aminoacidiche di
tipo conservativo.
G AP
52 sost. (DNA)
hhu
2 a
m _
.eq
s x h2 a _us
m . eq
s F ebr u ayr 6 ,19 1 0 2
25 0 :. 2.
847
.3
.
ARV
E G AAP
G V 50
|||
| | |||
||
ARV
E G AAP
G V 50
.
DEL
E N KLG
L R 100
|||
| | |||
|:
DEL
E N KLG
L K 100
2 sost. (proteina)
50
50
100
100
150
150
200
200
250
250
300
300
350
350
Metodi Stocastici
per la stima delle distanze genetiche tra sequenze omologhe
I modelli stocastici descrivono il processo di evoluzione
molecolare come un processo probabilistico dipendente dal
tempo. I vari modelli si differenziano per le assunzioni “a
priori” incorporate nel modello.
• tutti i siti evolvono in modo indipendente
• tutti i siti possono mutare con la stessa probabilità
• tutti i tipi di sostituzione sono ugualmente probabili
• la velocità di sostituzione è costante nel tempo
• la composizione in basi delle sequenze è all’equilibrio
Metodi Stocastici
A
T
G
C
Metodi Stocastici
M odello
J u eks & Can t ro( 1 9 6) 9
Kimura (1980)
Tamu r a(1 9 9 2 )
M atric edelle pr obabilit àdelle
s ostituzioni nucle otidiche
p11
α
α
α
α
p22
α
α
p11 β
β p22
α β
β α
α
α
p33
α
α
α
α
p44
α β
β α
p33 β
β p44
p11
θβ θα (1 − θ )β
(1 − θ )β p22 θβ (1 − θ)α
(1 − θ )α θβ p33 (1 − θ )β
(1 − θ )β θα θβ
p44
C ompo sizione in ba si
nello st ato sta ziona rio
( fi ∞ , i = A, C, G, T
Nume r odi
pa r m
a e tri
é1 , 1 , 1 , 1 ù
ë4 4 4 4 û
1
é1 1 1 1 ù
, , ,
ë4 4 4 4 û
2
é1 − θ θ θ 1 − θ ù
, , ,
ë 2
2 2
2 û
3
Metodi Stocastici
M odello
J u eks & Can t ro( 1 9 6) 9
H ase g a w taal.e( 1 9 8) 5
La n a vete al. (1984)
Sa c c oe net al. ( 1 9 9) 0
M atric edelle pr obabilit àdelle
s ostituzioni nucle otidiche
p11
α
α
α
α
p22
α
α
α
α
p33
α
α
α
α
p44
p11 π C β π Gα π T β
π A β p22 π G β π T α
π Aα π Cβ p33 π T β
π A β π Cα π G β p44
p11
π C β1 π Gα1
π A β1
p22 π G β3
π Aα 1 π C β3
p33
π Aβ 2 π Cα 2 π G β 4
πTβ2
π Tα 2
πTβ 4
p44
C ompo sizione in ba si
nello st ato sta ziona rio
( fi ∞ , i = A, C, G, T
Nume r odi
pa r m
a e tri
é1 , 1 , 1 , 1 ù
ë4 4 4 4 û
1
[πA, πC, πG, πT]
[πA, πC, πG, πT]
5
9
(A)
Nucleotide frequencies
pi(A)
pi(C)
pi(G)
pi(T)
=
=
=
=
Stazionarietà della
composizione in basi
estimated
(
from data set):
29.5%
19.1%
23.7%
27.7%
Expected transition/transversion ratio: 2.50
Expected pyrimidine transition/purine transition ratio:
SEQUENCE COMPOSITION (SEQUENCES IN INPUT
CHIMP
HUMAN
GORILLA
ORANG
MACAQUE
OWL_MONKEY
5% chi-square test
passed
passed
passed
passed
passed
passed
.76
0
RDER)
O
-value
p
99.19%
99.92%
95.69%
95.63%
97.86%
96.98%
The chi-square tests compares the nucleotide composition of each sequence
to he
t frequency distribution assumed in he
t maximum likelihood model.
(B)
S equ e nes
c a nal y zde : CHI M P- H UMA N
P osi t ino a nly
a z e d t :ot
A
C
G
T
- --- - --- - --- - --- - --- - --- A
5 9 6
0
9
0
C
0 3 84
3
5
G
5
0
473
3
T
0
4
0
55 5
- --- - --- - --- - --- - --- - --- - --S equ
i)q
i i)q
- --A ver
q A=
e
A
A
a
0
--nec
=.2
0
=.2
0
--g:e
.96
2
p
9
9
-
--- - --- - --- - --- - -ari b aes c opo
m s iio
t n :
7 0 q.1
C 9
= 2
0 4 q.2
G 3
= 16
0
5 0 q.1
C 9
= 0 5 q.2
G 3
= 18
0
--- - --- - --- - --- - --
q C=
0 .91
1 q G=
- --- - --- - --- - --- - --- - --- - --- - --- - --- - q T0.
= 2 744 A +=0
T . 514
7 G +C= 0 .28
4 6 G+C / AT=
+ 0 .50
7 0
q T0.
= 2 746 A +=0
T . 514
7 G +C= 0 .28
4 6 G+C / AT=
+ 0 .50
7 0
- --- - --- - --- - --- - --- - --- - --- - --- - --- - -
0 .37
2 qT= 0 .27 5
S ubs t iut
t i osn ( S)B = 29
Tr a si
n t ins
o ( TS) = 23
S ite s = 2 0 3 7
S tat i oar
n y Con d iio
t n = V E RFI
I E D ( 2C H=I7.2 5 4)0
T r asv
n e rio
s n s(T V ) =
6
Differente variabilità dei siti
Analizzare separatamente le prime (100% repl.) e seconde
posizioni del codone (95% repl.) rispetto alle terze posizioni
(30% repl.).
Tener conto della diversa variabilità dei siti considerati
(GAMMA distribution).
Tener conto dei siti invarianti.
Calcolo delle distanze genetiche
(A)
U nco r rct
e e d(" p " )
1
2
3
4
5
6
7
C
H
G
O
M
O
S
HMP
I
UAN
M
0
OIL
RL A
0
RNG
A
0
AAQ
CU E
0
W L MEY
O N K0
PDE
I R MON K E 0
dan
ic
se
tma t ix
r
.
.
.
.
.
.
042
1
096
1
062
3
069
7
183
0
107
0
1
2
1
7
6
3
4
2
0.
0.
0.
0.
0.
0 47
1
0 13
3
0 15
7
1 49
0
0 64
9
1
7
7
0
3
3
0.
0.
0.
0.
0
0
1
0
325
7
749
5
084
7
976
7
4
5
6
0.0 7 59 4
0.1 0 74 8 0 .12 1 5 7
0.1 0 02 5 0 .11 1 5 50 . 52
0 5 6
7
-
(B)
J uke s -an
Ct o r
1
2
3
4
5
6
7
C
H
G
O
M
O
S
dan
ic
se
tma t rx i
HMP
I
UAN
M
0
OIL
RL A
0
RNG
A
0
AAQ
CU E
0
W L MEY
O N K0
PDE
I R MON K E 0
.
.
.
.
.
.
043
1
098
1
071
3
012
8
170
1
181
0
1
5
7
8
0
0
8
2
0.
0.
0.
0.
0.
0 48
1
0 20
3
0 52
7
1 30
1
1 32
0
5
5
2
0
2
3
0.
0.
0.
0.
0
0
1
1
321
8
757
9
143
6
075
4
4
5
6
0.0 7 97 5
0.1 1 63 4 0 .13 2 6 3
0.1 0 72 9 0 .12 0 7 70 . 54
0 4 9
7
-
Calcolo delle distanze genetiche
(C)
K imu r a2- p aam
r e tr e d ita
sn c e
1
2
3
4
5
6
7
C
H
G
O
M
O
S
HMP
I
UAN
M
0
OIL
RL A
0
RNG
A
0
AAQ
CU E
0
W L MEY
O N K0
PDE
I R MON K E 0
.
.
.
.
.
.
043
1
099
1
073
3
018
8
186
1
193
0
1
9
3
6
6
2
2
ri
m ax t
2
0.
0.
0.
0.
0.
0 48
1
0 21
3
0 57
7
1 45
1
1 42
0
9
8
4
1
2
3
0.
0.
0.
0.
0
0
1
1
341
8
817
0
102
8
076
5
4
5
6
0.0 8 01 1
0.1 1 74 8 0 .13 4 5 8
0.1 0 89 8 0 .12 2 2 00 . 54
0 7 8
7
-
(D)
G ene r a l
1
2
3
4
5
6
7
C
H
G
O
M
O
S
t-r
ie
mv
ers
e i be l d ita
s n ec m ari
tx
HMP
I
UAN
M
0
OIL
RL A
0
RNG
A
0
AAQ
CU E
0
W L MEY
O N K0
PDE
I R MON K E 0
.
.
.
.
.
.
044
1
099
1
074
3
020
8
189
1
196
0
1
0
5
4
4
0
7
2
0.
0.
0.
0.
0.
0 49
1
0 22
3
0 58
7
1 47
1
1 44
0
0
3
7
4
9
3
0.
0.
0.
0.
0
0
1
1
346
8
828
0
129
8
004
6
4
5
6
0.0 8 01 3
0.1 1 87 1 0 .13 5 1 2
0.1 0 94 2 0 .12 2 8 20 . 54
0 9 0
7
-
Calcolo delle distanze tra
sequenze proteiche (Kimura)
d = − ln(1 − p − 0.2p)
p ≤ 0.7
FILOGENESI MOLECOLARE
Le relazioni evolutive tra gli organismi, o più in generale tra geni
omologhi possono essere rappresentate attraverso “alberi filogenetici”.
Un albero filogenetico è un grafo costituito da nodi e da rami, in cui
ogni ramo mette in relazione solo due nodi. I nodi rappresentano le
unità tassonomiche mentre i rami definiscono le relazioni tra queste in
termini di ascendenza e discendenza.
FILOGENESI MOLECOLARE
Topologia
Rooted Tree
Unr ooted Tree
A
F
node
NR =
( 2n − 3)!
2 n− 2 (n − 2)!
B
branch
C
NU =
(2n − 5)!
2n −3 (n − 3)!
D
E
E
root
C
OTU
B
D
F
A
FILOGENESI MOLECOLARE
Scelta della radice dell’albero
CHIMP
CHIMP
HUMAN
HUMAN
GORILLA
ra icd e
GORILLA
ORANG
MACAQUE
OWL MONKEY
MACAQUE
OWL MONKEY
o uroup
t g
SPIDER MONKEY
SPIDER MONKEY
FILOGENESI MOLECOLARE
Lunghezza dei rami - NEWICK format
0.0098
CHIMP
0.00014
0.0046
HUMAN
0.0091
0.0101
GORILLA
0.0140
0.0534
0.0187
ORANG
0.0480
MACAQUE
#NEXUS
0.0328
0.0222
OWL MONKEY
SPIDER MONKEY
Begin trees; [Treefile saved Mercoledì, 6marzo 2002 20:59]
[!>Neighbor-joining search settings:
>
sing
U
BioNJ method
>
ies
T
if
( encountered) will be broken systematically
>
istance
D
measure = general time-reversible
>
Tree
(
is unrooted)
]
tree nj =[&U]
(((((CHIMP:0.00979,HUMAN:0.00460):0.00014,GORILLA:0.01011):0.00909,ORANG:0.01867
):0.01396,MACAQUE:0.04797):0.05338,OWL_MONKEY:0.03275,SPIDER_MONKEY:0.02215);
end;
FILOGENESI MOLECOLARE
Metodi per la costruzione degli alberi filogenetici
I metodi comunemente utilizzati per la costruzione degli alberi
filogenetici possono essere classificati sulla base del tipo di metodologia
utilizzata o della natura dei dati analizzati. Si possono adottare due
diverse metodologie:
M1) metodi che applicano algoritmi di clustering o raggruppamento delle
OTUs analizzate, generalmente basati su misure di distanze genetiche
M2) metodi che utilizzano algoritmi che massimizzano una funzione
obiettiva di qualità dell’albero (criterio di ottimalità).
Per quanto riguarda i dati analizzati possono essere utilizzate o le
sequenze omologhe multiallineate oppure semplicemente le distanze
geniche calcolate tra tutte le possibili coppie di sequenze con i metodi
precedentemente illustrati.
FILOGENESI MOLECOLARE
Metodi per la costruzione degli alberi filogenetici
T ipo d Dati
i
T ipo d i emtodo
Di s at nze
Algori t m di
i
cl uster ing
UPGMA
Sequenze
Nei ghbor-joi n ni g
Algori t m di
i
ot t i mzzazi
i
one
Mi n m
i a
Evol uzione
Mas s m
i a
Pars imoni a
Mas s m
i a
Veros imi g ilanza
FILOGENESI MOLECOLARE
UPGMA - Alberi “rooted” ultrametrici
0.007
CHIMP
0.007
HUMAN
0.002
0.009
0.009
0.022
0.018
0.018
0.040
GORILLA
ORANG
MACAQUE
radice
0.027
OWL MONKEY
0.030
0.027
0.01
substitutions/site
SPIDER MONKEY
FILOGENESI MOLECOLARE UPGMA
QuickTime™
e un
decompressore
TIFF
(LZW)
sono
necessari
per
visualizzare
quest'immagine.
QuickTime™
un
decompressore
TIFF
(LZW)
sono
necessari
per
visualizzare
quest'immagine.
QuickTime™
un
decompressore
TIFF
(LZW)
sono
necessari
per
visualizzare
quest'immagine.
QuickTime™
eeeun
decompressore
TIFF
(LZW)
sono
necessari
per
visualizzare
quest'immagine.
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
etica
Divergenza genetica
L’ OROLOGIO MOLECOLARE
●
Tempo di
Divergenza n oto
●
● ●
●
●
●
●
V= K/2T
T= K/2V
●
●
●
Tempo di Di vergenza
FILOGENESI MOLECOLARE
Molecular Clock
Stima dei tempi di Divergenza
calibrazione
T
1
T2
A
B
C
2dAB
dAB
d AB
T2 =
T1 =
T1 =
T1
d AC + dBC
d AC
dBC
FILOGENESI MOLECOLARE
Molecular Clock
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
(Nature 392:917-920, 2998)
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
Calibrazione
B
C
A
C
A
D
F
D
B
E
F
E
FILOGENESI MOLECOLARE
Neighbor-Joining
Tra tutti i possibili “neighbors” scegliamo
quelli che minimizzano la lunghezza
complessiva dell’albero. La procedura viene
iterata finchè non siano determinati tutti gli
N-3 nodi interni dell’albero.
C
A
D
E
B
F
FILOGENESI MOLECOLARE
0.0098
CHIMP
0.00014
0.0046
HUMAN
0.0091
0.0101
GORILLA
0.0140
0.0534
0.0187
ORANG
0.0480
0.0328
0.0222
OWL MONKEY
SPIDER MONKEY
MACAQUE
Neighbor-Joining
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
FILOGENESI MOLECOLARE
Massima Parsimonia
I
II
1G
A3
III
1G
A2
1G
A2
sito 2
2
1
2
3
4
5
1
G
G
G
G
G
A
A
A
C
G
T
T
A
C
G
T
G
G
A
A
2
3
4
6
T
T
T
T
A
A
1C
Sito
Sequenz a
A
A
4
T3
3
A
A
A
A
1C
4
G2
4
A
A
A
A
1C
3
G2
sito 3
7
C
C
T
T
8
C
C
C
C
9 10
A C
G C
A C
G C
2
G
T
G
T
1G
4
A3
3
T
T
T
T
1G
4
G2
4
T
T
T
T
1G
3
G2
sito 5
2
G
A
G
A
1C
4
T3
3
A
A
A
A
1C
4
C2
4
A
A
A
A
1C
3
C2
sito 7
2
T
T
C
T
1A
4
A3
3
T
T
T
T
1A
4
G2
4
T
T
T
T
1A
3
G2
sito 9
2
G
G
G
G
4
3
A
A
G
G
4
4
A
G
A
A
3
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
FILOGENESI MOLECOLARE
Maximum Lilelihood
n Metodo estremamente accurato che oltre alla topologia e
alle lunghezze dei rami dell’albero consente di tener conto
della variabilità dei siti (stima del parametro alpha della
distribuzione Gamma) e del numero sei siti invarianti.
n … ma presenta notevoli limiti di natura computazionale
(in alternativa si possono usare metodi approssimati come
“Quartet Puzzling”).
n Consente di stimare ipotesi filogenetiche alternative
FILOGENESI MOLECOLARE
Maximum Lilelihood
Valutazione Ipotesi Filogenetiche Alternative
QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine.
H0 : no Clock
H1 : Clock
L0
L1
Likelihood Ratio Test (LRT): 2(L1 - L0 ) ≅ χ2 (k-2)
FILOGENESI MOLECOLARE
Valutazione della Affidabilità delle Ipotesi Filogenetiche
Bootstrap
2
1
a
c
a
a
2
g
g
g
g
3
c
t
c
t
4
c
c
a
g
5
t
t
g
t
6
a
g
g
g
7
t
t
t
c
8
a
a
a
a
9
g
g
a
g
10
a
a
a
a
5
Ricampionamento
con ripetizione
CHIMP
CHIMP
HUMAN
HUMAN
GORILLA
5
g
g
g
g
t
t
g
t
2
g
g
g
g
7
t
t
t
c
7
t
t
g
t
1
a
c
a
a
9
t
t
t
c
g
g
a
g
9
g
g
a
g
3
c
t
c
t
2
6
g
g
g
g
10
a
a
a
a
1
a
g
g
g
1
a
c
a
a
5
a
c
a
a
10
a
a
a
a
t
t
g
t
3
c
t
c
t
9
g
g
a
g
6
a
g
g
g
GORILLA
CHIMP
ORANG
ORANG
HUMAN
MACAQUE
MACAQUE
GORILLA
OWL MONKEY
OWL MONKEY
ORANG
SPIDER MONKEY
SPIDER MONKEY
CHIMP
MACAQUE
HUMAN
OWL MONKEY
GORILLA
SPIDER MONKEY
CHIMP
ORANG
HUMAN
MACAQUE
CHIMP
GORILLA
OWL MONKEY
ORANG
HUMAN
SPIDER MONKEY
MACAQUE
GORILLA
OWL MONKEY
CHIMP
ORANG
MACAQUE
SPIDER MONKEY
HUMAN
GORILLA
OWL MONKEY
ORANG
Albero Consenso
SPIDER MONKEY
MACAQUE
OWL MONKEY
SPIDER MONKEY
Jacknife : Ricampionamento senza ripetizione
FILOGENESI MOLECOLARE
Valutazione della Affidabilità delle Ipotesi Filogenetiche
Bootstrap
CHIMP
100
100
100
HUMAN
GORILLA
ORANG
MACAQUE
OWL MONKEY
SPIDER MONKEY
FILOGENESI MOLECOLARE
Valutazione della omogeneità della velocità evolutiva
Relative Rate Test
radice
dA
ingroup A
dB
ingroup B
outgroup
∆R AB=d A/d B=(d AB+d AO-d BO)/(d AB-d AO+d BO)
Software per Analisi Filogenetiche
Pac chetto/ P ogra
r
mm
a
Desc riz oi ne
URL
PH YLIP
Pa c he
c to c he c ompre nde numerosi programmi per ana ilsi volutive
e
he
c onsentono
c
la
costru zione di al beri fi ogen
l
eti ci me diant el’appl ca
i zone
i di metodi basa it sull amassima
pa srimoni a sull
, amatric ed ell edista nze ,sulla massima v erosimigl an
i za. Consen et di
ana ilz z rea vari tipi di dati ,DNA prote ni e ,fre quenz ege nic he, ecc .
evolu ion.ge
t
net cs
i washi
.
ngton edu/phyl
.
p.
i html
PA UP*
Programma p er ana ilsi evolut ve
i ,svilupp ato origi nariament eper ana ilsi di massima
pa srimoni a(PAUP deri va da Phyl ogene itc An alysis Using Parsimony), c he n ell asu a
ve srione più rec ent econse nte de t rmina
e
zioni filoge net ch
i eat raverso
t
una seri edi metod i
basa it su p arsimonia ,matric edell edista n eze massima ve or simig ilanz a Inc
. ul d ea nch e
va ire op zioni ch e nse
c o ntono d ieff ettuare umerosi
n
t est stat sti
i ci per cnfron
o ar
t e la
signific ati vit àdi varie potesi
i
filog ene itc he.
pa up.cs t.i sfu edu/
.
Mar k o v
bi ghost ar
. ea.ba cn
. .ri /BIG/Markov/
t
Programma c h ce onsent eil ca l olo
c de le ist
d anz eg ene itc he, fornendoi a nch e nau stima
de le lfl uttua zioni sta itsti che ,a tr averso i lmetodo rev ersibile (G TR, Gene ar l Time
Rev ersibl e), effett ua un test de la sta zonarie
i
t dà ell ac omposiz oi n ei nb asi de le sequ enz e ,
e conse nte la stima di tempi di diverge nza .
PA ML
Pa c he
c to di programmi per eff ettuare na
a ilsi evol utive ,su sequ enz edi DNA e protei ne,
basa t sul
e me ot do de la lmassima v erosimigl an
i za.
abacus. gene.uc lac.uk/
.
os f ware/p
t
aml.html
MrBay e s
Programma p er effe tu are an alisi filog ene itche si se que nze di DNA e prote ni e ttrave
a
sro
l’appli c zion
a edi un me ot do di infere nza Bay esia n . a
morphbank. ebc uu.s
.
e/mrbayes /
Tr ee-Pu z le
z
Programma p er effe tu are an alisi filog ene itche idsequ enz ed iDNA e prot eine a trav erso
l’appli c zion
a edi metod idi massima v erosimigl an
i z a e ceffet
h uano
t
un ad ecomposizi one
a quarte ti de le sequen z en esame.
i
www.tr e -puzz e.
l de/
Phylo Win
Programma dot ato di interf acc i arafig c pa er l’appl i az
c oi n edi vari me ot di di ana ilsi
fi ogen
l
eti ca b asat isu parsimonia, matric ede le distan z e massima
e
verosimiglia nza .
pb l.i univ- yon1
l
fr
. softwa
/
er /phyl owin.html
MEG A
Pa c he
c to di programmi per ’app
l
ic
l a ione
z di vari metodi d ia nal si
i fi ogen
l
eti c ba asat isu
pa srimoni a ma
, rti ce del el dist anz ee massima v erosimigl i nz
a a.
www.megas oftwa er .ne /t
Pr otML
Programma p er la etd ermina zone
i di alb eri filog ene itc id amulti all ne
i amenti
amminoac di i ci me diant eil met odo d ell amassima verosimigli anz a
www.ism.ac .p/so
j tfware/ smli
i
b/sof othe
t
.re html#molphy
.
Scarica

terza giornata