Caratterizzazione di una sequenza genomica >UNKNOWN_SEQUENCE ATGCCCTCCTACCCACTTCTGGCCACCCTATCCCATACATTTACTTAGGGACTTATTTAG GGACACGCAGAACATCCTCCTACACAGCTCAGTGCGTTTCCAGTCCCTGCAGCGCCCAGT AGCTAAGACTGGCTTCTCTATAAGTATTTTATAGATTGAACCTAAAGAATGGCAACGATT TCTAACATCTATAGAATTTTTACGAAGTCACTTCGCTCTGATATTGAAGAATACAACGCT GTTCTTCTTATCCTGTATGTTCAGGCCTGTTTCAGCTTGCAAGTAATACGGGAAGTGAAC TTCACCTCGAGGATGATCTACTGAAAAGGAAGAGAGTCGCCCACACACTCCCCCTTCAGC TCAAAACTACAGACAAAGCGAAGCTCAGGAGACTCCGTTCGCACAAAACGCTTAAGATGG GATTCGAACCACCAAACACCCAACAGAAGTTCCCCATATGACTCACCGCGTGAGCCCACC TGGAGCCGCACACTCTCCGCAGCCTCAGCCAGCAGAGTGGCGCTAAACCTGCAGATACAA ACTCCACCCTCAGCCAATCAAAACCCCCTCCCCTGCCGCCGGACCAATGAGGAGCAGCAG ATGTGGCCGTCAGGCGCCGCCTCAATGCCTCCTGGGAGTTGTAGTTTAGAAGGGAGAGCG GAACTTAGAACCCGGGTTCCCCTCGGGTGATCCCGCCCCCTCGACTCCCCAGCCAATCAG CAACATTAGTCTGGTTAGACGCTCTCTTTGCTTTTCCCCACGAGTGACCACGGCTAGATA GGCCGCCGGCCAGATGTGGCGGGGGAGAGCCGGGGCTTTGCTCCGGGTGTGGGGGTTTTG GCCGACAGGGGTTCCCAGAAGGAGACCGCTAAGCTGCGATGCTGCGTCGCAGGCGGGAAG CAATTATCCCCGCTGTTGGAACTGCGGCGGCCCATGGGGCCCCGGGCGGGAGGACAGGTT CTTCTGCCCACAGTGCCGAGCGCTGCAGGCACCTGACCCCACTCGAGACTACTTCAGCCT TATGGACTGGTACGAGCGACGGTTTCGGGAAACGGGCCCGGGCGAGAGACACGTCGAGGT CTGGCCTGCGAGAGGGGAGGACGGATCTGGCTGGCGGAAGAGAAGGCGGGACTGATGGGG GGGCGGAGGTCTAGAGAGCAGGCGTGAGAGAAGTGTCTTGATTTCTCAGGAGGAAATTGA GAGGCGGGGACTGAGGGAAGCAACGTTGAGGTGTGGAGAAGGGAGACGAACGGGACTGGA GGGGCGGGCGCTGAAGTTAGAGGAAATAGGGGGGCCGAGGCTAGAGGGGAGGGAGATTTG AGGGGCGGTACCTACGGGAAAGGGAAGGAGAAGTCGAGGGGCGGAACTTGAGGAAAGGGT ACTTGAGGGGCAGGGCCTGGGAGACTGGAAGACTTGAATGAATAGGGTGAGTAAGGTTTA Caratterizzazione di una sequenza genomica - Identificazione di sequenze ripetute - Ricerca di isole CpG - Caratterizzazione di Promotori - Predizione di geni (Gene Finding) - Validazione della predizione di geni - Caratterizzazione funzionale dei geni Caratterizzazione di una sequenza genomica - Identificazione di sequenze ripetute - RepeatMasker (ricerca di repeats noti) - trf (ricerca di minisatelliti) RepeatMasker (http:// http://ftp ://ftp. ftp.genome. genome.washington. washington.edu/ edu/cgicgi-bin/ bin/RepeatMasker) RepeatMasker) QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. Caratterizzazione di una sequenza genomica 1. Identificazione di sequenze ripetute (RepeatMasker) S W s co r e 22 0 23 19 8 17 8 23 7 24 7 16 3 18 8 22 8 18 8 16 3 17 8 16 3 3 4 9 2 7 9 2 0 4 0 2 8 2 p e r c p e r c p e r c q u e yr p o ist i o n iqnu e r y d i v . d e l . i n s . s e q eun c e b e g in en d ( le f t ) m at c h i gn r ep e a t r ep e a t c la s s / afm i l y 17 29 14 14 7 8 16 15 10 15 16 18 16 M L A A A A M A A A M A M L TR / L I NE S IN E S IN E S IN E S IN E L TR / S IN E S IN E S IN E L TR / S IN E L TR / . . . . . . . . . . . . . 112 628 1 3 7 9 2 0 3 0 2 1 0 0 8 0 0 0 2 1 2 0 2 1 . . . . . . . . . . . . . 0 0 4 9 7 0 9 3 3 3 9 3 9 0 1 0 0 0 0 8 5 0 5 8 0 8 . . . . . . . . . . . . . 2 6 7 0 7 0 0 1 0 1 0 7 0 S S S S S S S S S S S S S E E E E E E E E E E E E E Q Q Q Q Q Q Q Q Q Q Q Q Q 1 2 2 3 3 4 5 5 5 5 5 6 6 74 4 24 9 96 8 49 9 96 6 79 9 10 5 16 9 31 6 61 3 77 9 00 4 30 0 2 2 3 3 4 5 5 5 5 5 6 6 6 17 6 50 5 26 5 77 0 25 6 10 0 16 8 31 5 61 2 77 8 00 3 29 9 37 1 ( ( ( ( ( ( ( ( 42 4 39 1 31 5 26 4 21 6 13 1 12 4 11 0 (8 0 (6 3 (4 1 (1 1 (4 1 2 2 7 1 7 9 2 5 9 4 8 6 )C )+ )+ )+ )+ )+ )C )+ )+ )+ )C )C )C ER 3 2 lu S lu J lu S lu S LT 2 lu J lu S lu J LT 2 lu J LT 2 1 B x b g 1 x E b x b E b E M / / / / / R / / / R / R E 4RL 2 A ul A ul A ul A ul e rto A ul A ul A ul e rto A ul e rto g r uop p os i t i on i n b e gi n e n d( (0 ) 4 8 5 287 1 31 9 5 1 3 0 6 1 2 9 9 1 2 9 1 3 3 0 4 v i arl (5 6 ) 3 4 1 1 1 2 7 1 2 9 8 12 7 2 9 9 v i arl ( 12 2 ) 4 3 1 (1 6 ) 2 9 6 v i arl ( 47 7 ) 7 6 TRF (http://tandem. http://tandem.biomath ://tandem.biomath. biomath.mssm. mssm.edu/ edu/trf/ trf/trf.basic. trf.basic.submit .basic.submit. submit.html) html) QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. UCSC Genome Browser (http:// http://genome ://genome. genome.ucsc. ucsc.edu) edu) QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. Caratterizzazione di una sequenza genomica Identificazione di isole CpG - Il dinucleotide CpG è generalmente evitato nel genoma in quanto sito preferenziale di metilazione (CpG →m5CpG … → TpG). - Le isole CpG sono regioni del genoma ”ipometilate” e caratterizzate da una minore scarsità del nucleotide CpG: - genoma Obs(CpG) = 1/4 dell’atteso - isola CpG Obs(CpG) = >2/3 dell’atteso - Le isole G pG si trovano a monte (5’) di oltre il 50% dei geni umani. Caratterizzazione di una sequenza genomica Identificazione di isole CpG - L > 200 bp - C+G% > 50% - CpG Obs/Exp > 0.6 CpG Exp = pC x pG x L Esempio: L = 138940 CpG = 4160 (0.03) C = 40295 (0.29) CpG Exp = 0.29 x 0.28 x 138940 = 11282 CpG Obs/Exp = 4160 / 11282 = 0.37 G = 39264 (0.28) Caratterizzazione di una sequenza genomica Identificazione di isole CpG Programmi per l’identificazione di CpG islands: CpGplot (EMBOSS) CpGreport (EMBOSS) GRAIL QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. Vertebrate pol II promoters usually consist of multiple binding sites for transcription factors which are necessary for promoter function. However, individual promoter elements require a specific order to constitute a functional promoter. This organization can be dissected into at least three different levels with distinct functionality encoded at each level. Organizzazione gerarchica dei promotori eucariotici QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. The ground level is represented by individual TF-sites. These are relatively short stretches of DNA (10 - 20 nucleotides), sufficiently conserved in sequence to allow specific recognition by the corresponding transcription factor. TF-acquisition by DNA binding is the sole function of a TF-site! TF-site detection in sequences: TF-sites are generally best described by nucleotide weight matrices. Position Weight Matrix (PWM) ( A) TATA - b ocxo se n n ssumatrix (TRA NSFA Centr yV $ T TA A _ 0) 1calc ulate d o3n8 9TATA - b o x eleme nts. (B) Lo dsc - oer matrix (b ase tw olo g aithms) r c alc ulate dass umin g homo a g e n es obuck a grou fr e qen u c y(0.2 5 ) as= n d0.0 1 . (A) Base A C G T Consensus 1 2 3 4 5 6 61 16 352 3 354 268 145 46 0 10 0 0 152 18 2 2 5 0 31 309 35 374 30 121 S T A T A A Positi on 7 8 9 10 11 12 13 14 15 360 222 155 56 83 82 82 68 77 3 2 44 135 147 127 118 107 101 20 44 157 150 128 128 128 139 140 6 121 33 48 31 52 61 75 71 A W R N N N N N N (B) Positi on Base A 1 2 -0.65 -2.52 3 4 5 6 7 8 1. 86 -4.61 1. 87 1. 47 1. 89 1. 20 9 10 11 12 13 14 15 0. 68 -0.77 -0.21 -0.23 -0.23 -0.50 -0.32 C 0. 59 -1.05 -6.64 -3.16 -6.64 -6.64 -4.61 -5.03 -1.11 0. 48 0. 61 0. 40 0. 29 0. 15 0. 07 G 0. 65 -2.36 -5.03 -5.03 -4.03 -6.64 -2.21 -1.11 0. 63 0. 41 0. 41 0. 41 0. 53 0. 54 T -1.60 1. 67 -1.43 1. 95 -1.65 0. 3 -3.80 0. 70 0. 3 -1.52 -0.99 -1.60 -0.88 -0.65 -0.36 -0.43 The next higher level of promoter organization is the one of promoter modules which are composed of two or more TF-sites in a defined distance range. In contrast to isolated binding sites these sites allow synergistic or antagonistic effects. The module below, for example, confers inducibility by tumor necrosis factor alpha (TNF-alpha) and gamma-Interferon (gamma-IFN) to several promoters of the MHC/HLA class I genes as well as to beta-2 microglobulin and beta-Interferon genes. The function of a promoter module is specific activation or repression! Promoter modules cannot be detected reliably by alignment procedures. They can be successfully detected by searching for combinations of individual elements (individual models). Promoter models Functionally related promoters often exhibit a clearly defined core organization of binding sites conserved both in orientation as well as in distances (with some variability). This is true even when the promoter sequences show no significant overall sequence similarity precluding alignment-based detection also for whole promoters (except phylogenetic footprints of evolutionary related promoters). The promoter model shown below describes the general framework of TF-sites which is common to all mammalian actin promoters even across species! This model does not contain all functional TF-sites that are present in individual actin promoters. However, the combination of these six TF-sites is sufficient to detect all mammalian actin promoters with unprecedented specificity, yielding only about 30 additional matches in all the vertebrate sections of GenBank! A promoter contains all response elements necessary for its complete transcriptional regulation! (However, in many cases additional elements like enhancers might be required.) QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. Muscle specific promoter of mammalian actin genes QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. P1 A C G T 9 22 18 19 3 P2 P3 P4 P5 P6 21 4 63 14 2 11 8 8 7 26 31 52 13 2 29 38 29 5 19 12 4 31 43 21 6 Count matrix P1 A C G T P2 P3 P4 P5 0.04 0.88 0.26 0.59 0.49 0.03 0.09 0.03 0.11 0.13 0.21 0.05 0. 07 0. 01 0. 12 0. 16 0. 12 0. 02 0. 80 0. 08 0. 51 0. 13 0. 18 0. 89 Frequency matrix A C G T P1 -2 .7 -1 .5 -1 .7 1 .7 P2 P3 1 .8 0 .1 -3 .1 -1 .2 -4 .9 -1 .1 -1 .7 1 .0 P4 1 .2 -1 .0 -0 .7 -1 .0 Log-Odds matrix P5 1 .0 -0 .2 -1 .1 -0 .5 P6 -2 .9 -2 .2 -3 .6 1 .8 P6 æ fi ö ç ÷ (e = 0.25) log2 i è ei ø Score Score =Score -6.0 = +8.5 = -5.9 -2 .7 -1 .5 -1 .7 1 .7 A C -21 .78 10-2.81.7 011.12.8 -1 -3 .51 -3 -1-1.12.5 -1-3.20.1 -1 -4 .79 -4 -1-1.91.7 -1 -0-4.17.9 1 .7 -111.70.7 -1 1-1.0.7 -1 T A T 10.20.1 -1 -0-1.02.2 -0 -1-1.71.1 -1 -01.05.0 11.09.2 -2 -0 -2-1.2.0 -1 -3-0.16.7 -01-1.58.0 -21.9.0 -2 .9 -2-0.2.2 -2 .2 -3-1.6.1 -3 .6 1-0.8.5 1 .8 A A T C G Threshold Score = +7.0 A C T A T A A T C G T able 6 . .7S pecializ e d atad b aess cllectin o g D Nbindin A gsite srec o gizn e d bpro y k a r tic y oa n d e u kryotic a tra nscri ption. D ataba s e U RL D esc ription C OMPEL htt p /c: /ompel . iob net nsc.ru . / C omposite re g latory u lemen e st D BTSB htt p /e: mo /l ims. . u-tokyo . c.a p/ j dbt bs/ Ba cill us subtilis b i ning d facto rs and promo et rs EP D htt p /www.e : / p disb-s . b. i ch / Eu k a r tic y oPolII promoters wit h e x prime e ntally-d ete rmin e dtran s ription c start site s Reg u l oDB n htt p /www.ci : / n. f u anm mx/Compu . at t ina o _B l iloo gy/re gulo ndb / E. c oli tra nscri ptio n laregulatio n a n d o p ro e n rgo a iz n ation TR A N SFA C htt p /tra : / ns f ac . gbf . ed/ TRANS F C A/ Tr a scrip n iton fa cto rs and bindin gsite s O oTFD htt p /www.if : / torg i ./ Tr a scrip n iton fa cto rs and g e n e e x re p s ion SCPD htt p /c: /gs igm a.cs h lorg . ji/ an / S a c c ro h am yesc ce revisia ep r moter o d ata b se a Dato un gruppo di geni con un simile profilo di espressione (es. geni attivati simultaneamente durante il ciclo cellulare) una semplice assunzione è che questo profilo è almeno in parte determinato da similarità a livello del PROMOTORE. La ricerca è stata dunque focalizzata alla ricerca di motivi oligonucleotidici (probabili siti di legame per Fattori di Trascrizione) comuni ai promotori dei geni co-regolati. Pattern Significativo Pattern casuale L Occorrenza L Posizione non casuale L Contenuto informativo L Occorrenza PATTER N S AATAAA AAATAA ATAAAG ATAAAA CCCCCC ATAAAT G AAATA TAAATA TG TATTT TG TATAT ATATTTA TTTATAT TG TAC AT ATATATA G CG G CCG C ATATATTT G G G TG G G G TTTAAAAA TAC ATTTT TATTTATTT TTTTTAAAA Il numero di sequenze che contiene un certo pattern è significativamente maggiore di quanto atteso (es. algoritmo WordUP). O BSER VED EXPEC TED C H I-SQ U AR E 1345 414.00035 2093.62225 834 414.00035 426.08588 578 258.12928 396.37997 744 414.00035 263.04270 273 654.61047 222.46291 584 321.22291 214.96537 443 239.14498 173.77269 496 285.44362 155.31610 243 103.18333 189.45602 154 56.34083 169.27891 221 95.25445 165.99689 218 103.87432 125.38875 130 50.48650 125.22942 136 59.08119 100.14193 38 5.41527 196.06842 100 31.42024 149.68643 92 31.82251 113.79774 211 103.89444 110.41593 92 33.40711 102.76638 94 16.60269 360.80574 139 40.25077 242.26645 Le sequenze di DNA come “catene Markoviane” Markov chain order k=0 2 2 AT Exp(TATA )=p p L Markov chain order k=1 Markov chain order k=2 fTAfATfTA Exp(TATA )= fAfT fTATfATA Exp(TATA )= fAT L Posizione I pattern funzionali sono generalmente localizzati in posizioni conservate (es. ad una certa distanza dal sito di inizio della trascrizione). TATA-box distribution 60 50 40 N 30 20 10 0 Distance from TSS L Contenuto Informazionale Le costrizioni funzionali su ogni specifica posizione del pattern sono diverse, con alcuni siti assolutamente conservati ed altri variabil. (es. contenuto informazionale secondo Shannon variabile tra 0 e 100). Due differenti approcci possono essere utilizzati per individuare motivi funzionali da regioni regolatorie di geni co-regolati. L Metodi di Allineamento L Metodi Enumerativi Metodi basati sull’identificazione di SEGNALI Metodi basati sulle proprietà generali delle sequenze codificanti cap-site Y Y A N W Y Y Start Codon Context (Homo sapiens - > 9000 genes) %G %A %T %C 38 20 19 24 g -6 -5 -4 -3 -2 -1 +1 +2 +3 +4 +5 29 25 36 18 31 0 0 17 23 47 32 16 100 20 12 6 12 7 0 34 41 12 38 46 0 0 0 15 40 27 c c R c c A +6 +7 +8 100 49 19 37 34 21 0 0 22 27 15 23 26 100 0 14 14 21 17 22 27 31 T G g c a n n Exon / Intron Profile Matrix (Donor Site) A C G T -3 28 40 17 14 c -2 -1 +1 +2 +3 +4 +5 +6 59 8 / 0 0 54 74 5 16 14 5 / 0 0 2 8 6 18 13 81 / 100 0 42 11 85 21 14 6 / 0 100 2 8 4 45 A G G T A A G N Intron /Exon Profile M atrix (A cceptorSite) -8 -7 -6 -5 -4 -3 -2 -1 +1 A 11 11 7 8 25 3 100 0 /27 C 37 38 39 36 26 75 0 0 /14 G 10 9 7 6 26 1 0 100 /49 T 42 43 47 51 23 21 0 0 /10 Y Y Y Y N C A G G Fickett Method: qa, qc, qg, qt, Aasim, Casim, Gasim, Tasim Aasim = max (A1 , A2 , A3 ) min ( A1 , A2 , A3 ) + 1 f xyz / Fxyz p= rxyz / Rxyz L ln pi P = exp å (L = 25 − 50 codons) L i =1 LTR AluSx AluJb CpG island Mer Line/L2 AluSx AluJb AluSg1 AluSx AluJb LTR LTR AluJb GRAIL Genscan 1000 2000 3000 4000 6000 5000 GENSCANW output for sequence 03:43:58 poly-A site GENSCAN 1.0 Date run: 12-Jan-100 Sequence SEQ : 6417 bp : 48.36% C+G : Parameter matrix: HumanIso.smat Predicted Gn.Ex ----1 1 1 1 1 . . . . . 0 0 0 0 0 1 2 3 4 5 genes/exons: Type ---- S - I I I T P + + + + + n n n e l i t t r y Time: Isochore t r r m A .Begin ------ 2 3 4 5 7 5 3 5 7 9 8 1 6 6 4 0 3 2 8 ...End -----1 2 3 4 5 0 6 4 7 7 2 7 0 1 7 9 6 2 7 3 .Len ---23 9 9 15 6 7 0 6 6 Fr -- Ph -- 1 0 0 1 2 1 0 0 I/Ac ---5 8 5 7 0 4 9 9 Do/ -7 7 6 3 Transcription Map LTR AluSx AluJb CpG island Mer Line/L2 AluSx AluJb AluSg1 AluSx AluJb LTR AluJb GRAIL Genscan 1000 2000 poly-A site (mRNA UTRs are not predicted) 3000 4000 5000 LTR 6000 QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. Tblastx di una sequenza contro l’altra associato ad una procedura di genefinding QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. Predizione della funzione genica Analisi della similarità con altre sequenze nucleotidiche o aminoacidiche a funzione nota : - Database searching - Allineamento e Multiallineamento - Costruzione di profili - Ricerca di Motivi - Studi di Evoluzione Molecolare Evoluzione Molecolare Gli “errori” nella trasmissione genetica sono alla base dei processi evolutivi che a partire da una forma di vita primitiva hanno prodotto l’enorme diversità delle forme di vita attuali. • mutazioni puntiformi • inserzioni • delezioni • riarrangiamenti di vario tipo Basi Molecolari delle Mutazioni Le mutazioni possono essere “spontanee” o “indotte” da specifici agenti chimici. Le mutazioni puntiformi spontanee sono generalmente dovute alle peculiari proprietà delle basi azotate ed in particolare alla proprietà diassumere due diverse forme in seguito alla “tautomeria cheto-enolica”. Genolo - T Cimino - A Tenolo - G Aimino - C (es. GC →AT) In questo modo possiamo spiegare le “transizioni” (es. purina →purina). Analogamente la rotazione del legame glicosidico di una purina sullo stampo in una conformazione sfavorevole (anti → syn) e il concomitante tautomerismo della base appaiata potrebbe originare le “trasversioni” (purina →pirimidina). Basi Molecolari delle Mutazioni La probabilità della forma tautomerica sfavorita (enolo/imino) è pari a 10-4 - 10 -5 La probabilità della conformazione syn di G o A è pari rettivamente a 0.1 e 0.05 Le transizioni sono effettivamente più probabili delle transversioni anche se hanno probabilità complessivamente più basse a causa dell’intervento dei meccanismi di riparo. Altre dovute ad appaiamenti non canonici diversi, a processi di depurinazione, a deaminazioni ossidative, ecc.) (A ) Mutazioni 5’-ATGGACCGGATGGATGATGGACCGTTAGGAT-3’ So sti t uzi o n i p iform unt i Tipi di mutazione che intervengono nel corso del processo di evoluzione molecolare. A partire da una sequenza progenitore (A) possono verificarsi: sostituzioni puntiformi (B); delezioni (C); inserzioni (D); inversioni (E). Questo fa sì che la sequenza discendente possa risultare differente da quella ancestrale anche nella lunghezza (F). (B) 5’-ATGGACCGAATGGCTGACGGACCGTGAGGAT-3’ (C) De lez i o en -( CGAA) 5’ - ATGG AC.TGGCTGACGGACCGTGAGGAT-3 ’ Inserzio n e (D ) 5’ - ATGG AC.TGGCTGACGGAACTCCGTGAGGAT-3 ’ In v resi o ne (E) 5’ - AGTCCA.T GGCTGACGGAACTCCGTGAGGAT-3 ’ (F) 5’ - ATGG ACCGGA TGGAT GATGG A---C CGTTAGGAT-3’ | | || | | | || | | | || | | ||| 5’ - AGTCCA-- - -TGGCTGACGGAACTCCGTGAGGAT-3 ’ Slippage Generazione di piccole inserzioni o delezioni attraverso il meccanismo dello slippage. Nell’esempio qui riportato si osserva un misappaiamento dell’elica di nuova sintesi sull’elica stampo dovuto alla presenza di un microsatellite (TA)n che produce l’inserzione di un dinucleotide TA in una delle due eliche figlie (B). Allo stesso modo il misappaiamento può riguardare l’elica stampo, in questo caso si produce una delezione in una delle due eliche figlie (B). (A) 5’ 3’ TA A T TCCGTCTACTAATAT ATAT e l i c a 3d ’i n usoivnat e s i A G G C A G A T G A T T A T A T A T A T A T A Ae Gl CiTc TaA Gs At a 5m ’p o 5 ’ T C C G T C T A C TTA AA TT AA TT AA T .. 3’ 3 ’ A G G C A G A T G A TATTA T A T A . . 5 ’ inser zione (B) 5’ 3’ TCCGTCTACTAAT AGGCAGATGATTA T ATATAT e l i c a 3d ’i n u o v a T A T A T A T A Te Al AiGc CaT Ts AtoGa Am p5 ’ A AT 5’ 3’ TCCGTCTACTAA--TATATAT AGGCAGATGATT--ATATATA de ez l one i .. .. 3’ 5’ sint Duplicazioni e Inserzioni Generazione di inserzioni e delezioni attraverso il meccanismo del crossing-over disuguale mediato da segmenti ripetuti (rappresentati da rettangoli con colore uguale) nel caso di appaiamento intercromosomico (A) e intracromosomico (B). (A) Inserzione + Delezione (B) Delezi ne o Mutazione e Fissazione Il fatto che una mutazione venga fissata all’interno di una popolazione può risultare da due processi distinti: 1) la selezione naturale e 2) la deriva genica casuale (neutral genetic drift). La selezione naturale è definita come la capacità differenziata di riproduzione di individui geneticamente distinti (o genotipi) all’interno di una popolazione. La capacità di riproduzione di un individuo è determinata dal proprio livello di adattamento all’ambiente rispetto ad altri individui della stessa specie. Rispetto alla selezione naturale, le mutazioni possono essere vantaggiose, svantaggiose o neutrali. La selezione naturale contrasta la fissazione di mutazioni svantaggiose, favorisce la fissazione di mutazioni vantaggiose e non ha alcuna influenza sulle mutazioni neutrali. La deriva genica casuale può produrre la fissazione di mutazioni neutrali attraverso un processo stocastico per cui la frequenza dell’allele mutato può aumentare nel tempo in seguito ad un processo di tipo esclusivamente casuale. Similarità vs. Omologia ♦ Similarità • Somiglianza tra due sequenze (DNA o proteine) • può essere locale o globale • si può misurare (grandezza quantitativa) ♦ Omologia • Comune origine evolutiva di due sequenze • Si determina per mezzo di una analisi evolutiva • C’è o non c’è (carattere qualitativo) Ortologia e Paralogia n Implicano entrambe OMOLOGIA n Ortologia • Sequenze che hanno avuto origine da un progenitore comune in seguito a speciazione n Paralogia • Sequenze che hanno avuto origine da un progenitore comune in seguito a duplicazione genica n Xenologia • Sequenze che hanno avuto origine da un processo di trasferimento orizzontale (A ) Le strutture sono più conservate delle sequenze (Confronto tra Ferredossina di Spinacio e di Azotobacter) 7 FD1 1A70 (B) 1 1 46 42 96 90 .AFVVTDNCIK |: || XAYKVT....L . EPECPAQAIFS :. :...: :. GSCSSCAGKLK . GVKGKLQHLER |:.| HKKEELTA... CKYTDCVEV. .. |: ||. VTPTGNVEFQ . EDEVPEDMQE .:.: :| |. TGSLNQDDQS 106 97 CPVDCFYEGP || |.: CPDDVY.... . FIQLNAELAE |:: :.::.| FLD.DDQIDE NFLVI :| .ILDA VWPNI .|. : GWV.L Ortologia e Paralogia gene ancestrale duplicazione genica gene A 0 gene B speciazione ortologhi gene A1 gene A2 paraloghi gene B1 gene B2 ortologhi A C T G A A C G T A A C G C Divergenza genetica A causa della possibilità di mutazioni multiple sullo stesso sito, di retromutazioni, o di sostituzioni convergenti, il numero di sostituzioni che viene osservato tra due sequenze é inferiore al numero effettivo di sostituzioni. In questo esempio, in seguito a divergenza da una sequenza ancestrale, il confronto tra le sequenze discendenti 1 e 2, evidenzia due sole differenze a fronte dei sette eventi di sostituzione che hanno avuto luogo in realtà. L’allineamento riporta in carattere minuscolo le basi coinvolte nel processo di sostituzione. tempo Sequenza ancestrale Divergenza A C ➨ T ➨ A sostituzione multipla T G ➨ A sostituzioni coincidenti A A C G T A A ➨ G ➨ A sostituzione convergente C G C A ➨ T sostituzione singola C T G ➨ A A A C G T A A C G C Sequenze discendenti A a T a A A C GT A a C G C t C T a A A CG T A AC G C Confronto delle sequenze evolute (A) DNA vs proteine G AP of : P erc e n t (B) o f: hhu 2m a. _ep p x h2 a _us m . ep p F ebr u ay r 6 ,19 1 0 2 P erc e n t 1 1 51 51 1 01 1 01 M | M Y | Y V | V Sla ir m iy: t . SRG G K QGK G ||| | | ||| | SRG G K QGK G . LAV A L ELT Y :|| | | ||| | MAV A L ELT Y . TAQ I G GLP V ||| | | ||| | TAQ I G GLP V 1 00. 0 0 0 . A RKA A K SSS R | ||| | | ||| | A RKA A K SSS R . A ELE I L ANA G | ||| | | ||| | A ELE I L ANA G . N IAV Q L LKK P | ||| | | ||| | N IAV Q L LKK P Per c et n I . R GL A Q FVG PR | || | | ||| || R GL A Q FVG PR . A DN R K KRI TI | || | | ||| || A DN R K KRI TI . T SH E H KKG AK | || | | ||| || T SH E H KKG AK dnt e i t: y 9 . VRL H L RGN KY ||| | | ||| || VRL H L RGN KY . PHL R Q LIR AN ||| | | ||| || PHL R Q LIR AN *13 1 | *13 1 Sla i m r iy: t 8 6.7 6 8 P erc e n t Iti d t e y n : 250 :. 2. 868 6 . 7 . . . . . 1 ATGTCTGGACGTGGTAAGCAAGGAGGCAAAGCTCGCGCCAAAGCGAAATC ||||| || |||| | |||||||||||||| || |||||||| || || || 1 ATGTCCGGTCGTGGCAAGCAAGGAGGCAAGGCCCGCGCCAAGGCCAAGTC . . . . . 51 CCGCTCTTCTCGCGCTGGTCTCCAGTTCCCGGTGGGCCGAGTGCACCGCC || |||| | || || || || ||||||||||||| | || |||||||| | 51 GCGGTCTTCCCGGGCCGGGCTACAGTTCCCGGTGGGGCGTGTGCACCGGC . . . . . 101 TGCTCCGTAAAGGCAACTACGCAGAGCGGGTTGGGGCAGGCGCGCCGGTG |||| || || ||||||||||| ||||| || || || ||||||||||| 101 TGCTGCGGAAGGGCAACTACGCGGAGCGCGTGGGCGCCGGCGCGCCGGTA . . . . . 151 TACCTGGCGGCGGTGTTAGAGTACCTGACCGCCGAGATCCTGGAGCTGGC ||| |||||||||| | | |||||||| || |||||||||||||||||||| 151 TACATGGCGGCGGTGCTGGAGTACCTAACGGCCGAGATCCTGGAGCTGGC . . . . . 201 CGGCAACGCGGCTCGCGACAACAAGAAGACTCGCATCATCCCGCGCCACT ||||||||||| ||||||||||||||||| |||||||||||||||||| 201 GGGCAACGCGGCCCGCGACAACAAGAAGACGCGCATCATCCCGCGCCACC . . . . . 251 TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAACTGCTAGGCCGG ||||||||||||||||||||||||||||||||||||| ||||| ||| 251 TGCAGCTGGCCATCCGCAACGACGAGGAGCTCAACAAGCTGCTGGGCAAA . . . . . 301 GTGACCATTGCTCAGGGCGGCGTCCTTCCTAACATCCAGGCCGTGCTTCT ||||| || || |||||||||||||| || ||||||||||||||||| || 301 GTGACGATCGCGCAGGGCGGCGTCCTGCCCAACATCCAGGCCGTGCTGCT . . . . 351 GCCTAAGAAGACCGAGAGTCACCACAAGGCCAAGGGCAAGTGA 393 ||| ||||||| | ||||| ||||| ||||| |||||||||||| 351 GCCCAAGAAGACGGAGAGCCACCATAAGGCGAAGGGCAAGTGA 393 Il confronto tra sequenze di DNA è più informativo di quello tra le corrispondenti sequenze di proteine. In questo esempio che riporta l’allineamento sia a livello di DNA che di proteina tra gli istoni H2A di uomo (Z80778) e topo (X16148) mostra che a fronte di 52 sostituzioni nucleotidiche si osservano solo due sostituzioni aminoacidiche di tipo conservativo. G AP 52 sost. (DNA) hhu 2 a m _ .eq s x h2 a _us m . eq s F ebr u ayr 6 ,19 1 0 2 25 0 :. 2. 847 .3 . ARV E G AAP G V 50 ||| | | ||| || ARV E G AAP G V 50 . DEL E N KLG L R 100 ||| | | ||| |: DEL E N KLG L K 100 2 sost. (proteina) 50 50 100 100 150 150 200 200 250 250 300 300 350 350 Metodi Stocastici per la stima delle distanze genetiche tra sequenze omologhe I modelli stocastici descrivono il processo di evoluzione molecolare come un processo probabilistico dipendente dal tempo. I vari modelli si differenziano per le assunzioni “a priori” incorporate nel modello. • tutti i siti evolvono in modo indipendente • tutti i siti possono mutare con la stessa probabilità • tutti i tipi di sostituzione sono ugualmente probabili • la velocità di sostituzione è costante nel tempo • la composizione in basi delle sequenze è all’equilibrio Metodi Stocastici A T G C Metodi Stocastici M odello J u eks & Can t ro( 1 9 6) 9 Kimura (1980) Tamu r a(1 9 9 2 ) M atric edelle pr obabilit àdelle s ostituzioni nucle otidiche p11 α α α α p22 α α p11 β β p22 α β β α α α p33 α α α α p44 α β β α p33 β β p44 p11 θβ θα (1 − θ )β (1 − θ )β p22 θβ (1 − θ)α (1 − θ )α θβ p33 (1 − θ )β (1 − θ )β θα θβ p44 C ompo sizione in ba si nello st ato sta ziona rio ( fi ∞ , i = A, C, G, T Nume r odi pa r m a e tri é1 , 1 , 1 , 1 ù ë4 4 4 4 û 1 é1 1 1 1 ù , , , ë4 4 4 4 û 2 é1 − θ θ θ 1 − θ ù , , , ë 2 2 2 2 û 3 Metodi Stocastici M odello J u eks & Can t ro( 1 9 6) 9 H ase g a w taal.e( 1 9 8) 5 La n a vete al. (1984) Sa c c oe net al. ( 1 9 9) 0 M atric edelle pr obabilit àdelle s ostituzioni nucle otidiche p11 α α α α p22 α α α α p33 α α α α p44 p11 π C β π Gα π T β π A β p22 π G β π T α π Aα π Cβ p33 π T β π A β π Cα π G β p44 p11 π C β1 π Gα1 π A β1 p22 π G β3 π Aα 1 π C β3 p33 π Aβ 2 π Cα 2 π G β 4 πTβ2 π Tα 2 πTβ 4 p44 C ompo sizione in ba si nello st ato sta ziona rio ( fi ∞ , i = A, C, G, T Nume r odi pa r m a e tri é1 , 1 , 1 , 1 ù ë4 4 4 4 û 1 [πA, πC, πG, πT] [πA, πC, πG, πT] 5 9 (A) Nucleotide frequencies pi(A) pi(C) pi(G) pi(T) = = = = Stazionarietà della composizione in basi estimated ( from data set): 29.5% 19.1% 23.7% 27.7% Expected transition/transversion ratio: 2.50 Expected pyrimidine transition/purine transition ratio: SEQUENCE COMPOSITION (SEQUENCES IN INPUT CHIMP HUMAN GORILLA ORANG MACAQUE OWL_MONKEY 5% chi-square test passed passed passed passed passed passed .76 0 RDER) O -value p 99.19% 99.92% 95.69% 95.63% 97.86% 96.98% The chi-square tests compares the nucleotide composition of each sequence to he t frequency distribution assumed in he t maximum likelihood model. (B) S equ e nes c a nal y zde : CHI M P- H UMA N P osi t ino a nly a z e d t :ot A C G T - --- - --- - --- - --- - --- - --- A 5 9 6 0 9 0 C 0 3 84 3 5 G 5 0 473 3 T 0 4 0 55 5 - --- - --- - --- - --- - --- - --- - --S equ i)q i i)q - --A ver q A= e A A a 0 --nec =.2 0 =.2 0 --g:e .96 2 p 9 9 - --- - --- - --- - --- - -ari b aes c opo m s iio t n : 7 0 q.1 C 9 = 2 0 4 q.2 G 3 = 16 0 5 0 q.1 C 9 = 0 5 q.2 G 3 = 18 0 --- - --- - --- - --- - -- q C= 0 .91 1 q G= - --- - --- - --- - --- - --- - --- - --- - --- - --- - q T0. = 2 744 A +=0 T . 514 7 G +C= 0 .28 4 6 G+C / AT= + 0 .50 7 0 q T0. = 2 746 A +=0 T . 514 7 G +C= 0 .28 4 6 G+C / AT= + 0 .50 7 0 - --- - --- - --- - --- - --- - --- - --- - --- - --- - - 0 .37 2 qT= 0 .27 5 S ubs t iut t i osn ( S)B = 29 Tr a si n t ins o ( TS) = 23 S ite s = 2 0 3 7 S tat i oar n y Con d iio t n = V E RFI I E D ( 2C H=I7.2 5 4)0 T r asv n e rio s n s(T V ) = 6 Differente variabilità dei siti Analizzare separatamente le prime (100% repl.) e seconde posizioni del codone (95% repl.) rispetto alle terze posizioni (30% repl.). Tener conto della diversa variabilità dei siti considerati (GAMMA distribution). Tener conto dei siti invarianti. Calcolo delle distanze genetiche (A) U nco r rct e e d(" p " ) 1 2 3 4 5 6 7 C H G O M O S HMP I UAN M 0 OIL RL A 0 RNG A 0 AAQ CU E 0 W L MEY O N K0 PDE I R MON K E 0 dan ic se tma t ix r . . . . . . 042 1 096 1 062 3 069 7 183 0 107 0 1 2 1 7 6 3 4 2 0. 0. 0. 0. 0. 0 47 1 0 13 3 0 15 7 1 49 0 0 64 9 1 7 7 0 3 3 0. 0. 0. 0. 0 0 1 0 325 7 749 5 084 7 976 7 4 5 6 0.0 7 59 4 0.1 0 74 8 0 .12 1 5 7 0.1 0 02 5 0 .11 1 5 50 . 52 0 5 6 7 - (B) J uke s -an Ct o r 1 2 3 4 5 6 7 C H G O M O S dan ic se tma t rx i HMP I UAN M 0 OIL RL A 0 RNG A 0 AAQ CU E 0 W L MEY O N K0 PDE I R MON K E 0 . . . . . . 043 1 098 1 071 3 012 8 170 1 181 0 1 5 7 8 0 0 8 2 0. 0. 0. 0. 0. 0 48 1 0 20 3 0 52 7 1 30 1 1 32 0 5 5 2 0 2 3 0. 0. 0. 0. 0 0 1 1 321 8 757 9 143 6 075 4 4 5 6 0.0 7 97 5 0.1 1 63 4 0 .13 2 6 3 0.1 0 72 9 0 .12 0 7 70 . 54 0 4 9 7 - Calcolo delle distanze genetiche (C) K imu r a2- p aam r e tr e d ita sn c e 1 2 3 4 5 6 7 C H G O M O S HMP I UAN M 0 OIL RL A 0 RNG A 0 AAQ CU E 0 W L MEY O N K0 PDE I R MON K E 0 . . . . . . 043 1 099 1 073 3 018 8 186 1 193 0 1 9 3 6 6 2 2 ri m ax t 2 0. 0. 0. 0. 0. 0 48 1 0 21 3 0 57 7 1 45 1 1 42 0 9 8 4 1 2 3 0. 0. 0. 0. 0 0 1 1 341 8 817 0 102 8 076 5 4 5 6 0.0 8 01 1 0.1 1 74 8 0 .13 4 5 8 0.1 0 89 8 0 .12 2 2 00 . 54 0 7 8 7 - (D) G ene r a l 1 2 3 4 5 6 7 C H G O M O S t-r ie mv ers e i be l d ita s n ec m ari tx HMP I UAN M 0 OIL RL A 0 RNG A 0 AAQ CU E 0 W L MEY O N K0 PDE I R MON K E 0 . . . . . . 044 1 099 1 074 3 020 8 189 1 196 0 1 0 5 4 4 0 7 2 0. 0. 0. 0. 0. 0 49 1 0 22 3 0 58 7 1 47 1 1 44 0 0 3 7 4 9 3 0. 0. 0. 0. 0 0 1 1 346 8 828 0 129 8 004 6 4 5 6 0.0 8 01 3 0.1 1 87 1 0 .13 5 1 2 0.1 0 94 2 0 .12 2 8 20 . 54 0 9 0 7 - Calcolo delle distanze tra sequenze proteiche (Kimura) d = − ln(1 − p − 0.2p) p ≤ 0.7 FILOGENESI MOLECOLARE Le relazioni evolutive tra gli organismi, o più in generale tra geni omologhi possono essere rappresentate attraverso “alberi filogenetici”. Un albero filogenetico è un grafo costituito da nodi e da rami, in cui ogni ramo mette in relazione solo due nodi. I nodi rappresentano le unità tassonomiche mentre i rami definiscono le relazioni tra queste in termini di ascendenza e discendenza. FILOGENESI MOLECOLARE Topologia Rooted Tree Unr ooted Tree A F node NR = ( 2n − 3)! 2 n− 2 (n − 2)! B branch C NU = (2n − 5)! 2n −3 (n − 3)! D E E root C OTU B D F A FILOGENESI MOLECOLARE Scelta della radice dell’albero CHIMP CHIMP HUMAN HUMAN GORILLA ra icd e GORILLA ORANG MACAQUE OWL MONKEY MACAQUE OWL MONKEY o uroup t g SPIDER MONKEY SPIDER MONKEY FILOGENESI MOLECOLARE Lunghezza dei rami - NEWICK format 0.0098 CHIMP 0.00014 0.0046 HUMAN 0.0091 0.0101 GORILLA 0.0140 0.0534 0.0187 ORANG 0.0480 MACAQUE #NEXUS 0.0328 0.0222 OWL MONKEY SPIDER MONKEY Begin trees; [Treefile saved Mercoledì, 6marzo 2002 20:59] [!>Neighbor-joining search settings: > sing U BioNJ method > ies T if ( encountered) will be broken systematically > istance D measure = general time-reversible > Tree ( is unrooted) ] tree nj =[&U] (((((CHIMP:0.00979,HUMAN:0.00460):0.00014,GORILLA:0.01011):0.00909,ORANG:0.01867 ):0.01396,MACAQUE:0.04797):0.05338,OWL_MONKEY:0.03275,SPIDER_MONKEY:0.02215); end; FILOGENESI MOLECOLARE Metodi per la costruzione degli alberi filogenetici I metodi comunemente utilizzati per la costruzione degli alberi filogenetici possono essere classificati sulla base del tipo di metodologia utilizzata o della natura dei dati analizzati. Si possono adottare due diverse metodologie: M1) metodi che applicano algoritmi di clustering o raggruppamento delle OTUs analizzate, generalmente basati su misure di distanze genetiche M2) metodi che utilizzano algoritmi che massimizzano una funzione obiettiva di qualità dell’albero (criterio di ottimalità). Per quanto riguarda i dati analizzati possono essere utilizzate o le sequenze omologhe multiallineate oppure semplicemente le distanze geniche calcolate tra tutte le possibili coppie di sequenze con i metodi precedentemente illustrati. FILOGENESI MOLECOLARE Metodi per la costruzione degli alberi filogenetici T ipo d Dati i T ipo d i emtodo Di s at nze Algori t m di i cl uster ing UPGMA Sequenze Nei ghbor-joi n ni g Algori t m di i ot t i mzzazi i one Mi n m i a Evol uzione Mas s m i a Pars imoni a Mas s m i a Veros imi g ilanza FILOGENESI MOLECOLARE UPGMA - Alberi “rooted” ultrametrici 0.007 CHIMP 0.007 HUMAN 0.002 0.009 0.009 0.022 0.018 0.018 0.040 GORILLA ORANG MACAQUE radice 0.027 OWL MONKEY 0.030 0.027 0.01 substitutions/site SPIDER MONKEY FILOGENESI MOLECOLARE UPGMA QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ eeeun decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. etica Divergenza genetica L’ OROLOGIO MOLECOLARE ● Tempo di Divergenza n oto ● ● ● ● ● ● ● V= K/2T T= K/2V ● ● ● Tempo di Di vergenza FILOGENESI MOLECOLARE Molecular Clock Stima dei tempi di Divergenza calibrazione T 1 T2 A B C 2dAB dAB d AB T2 = T1 = T1 = T1 d AC + dBC d AC dBC FILOGENESI MOLECOLARE Molecular Clock QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. (Nature 392:917-920, 2998) QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. Calibrazione B C A C A D F D B E F E FILOGENESI MOLECOLARE Neighbor-Joining Tra tutti i possibili “neighbors” scegliamo quelli che minimizzano la lunghezza complessiva dell’albero. La procedura viene iterata finchè non siano determinati tutti gli N-3 nodi interni dell’albero. C A D E B F FILOGENESI MOLECOLARE 0.0098 CHIMP 0.00014 0.0046 HUMAN 0.0091 0.0101 GORILLA 0.0140 0.0534 0.0187 ORANG 0.0480 0.0328 0.0222 OWL MONKEY SPIDER MONKEY MACAQUE Neighbor-Joining QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. FILOGENESI MOLECOLARE Massima Parsimonia I II 1G A3 III 1G A2 1G A2 sito 2 2 1 2 3 4 5 1 G G G G G A A A C G T T A C G T G G A A 2 3 4 6 T T T T A A 1C Sito Sequenz a A A 4 T3 3 A A A A 1C 4 G2 4 A A A A 1C 3 G2 sito 3 7 C C T T 8 C C C C 9 10 A C G C A C G C 2 G T G T 1G 4 A3 3 T T T T 1G 4 G2 4 T T T T 1G 3 G2 sito 5 2 G A G A 1C 4 T3 3 A A A A 1C 4 C2 4 A A A A 1C 3 C2 sito 7 2 T T C T 1A 4 A3 3 T T T T 1A 4 G2 4 T T T T 1A 3 G2 sito 9 2 G G G G 4 3 A A G G 4 4 A G A A 3 QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. FILOGENESI MOLECOLARE Maximum Lilelihood n Metodo estremamente accurato che oltre alla topologia e alle lunghezze dei rami dell’albero consente di tener conto della variabilità dei siti (stima del parametro alpha della distribuzione Gamma) e del numero sei siti invarianti. n … ma presenta notevoli limiti di natura computazionale (in alternativa si possono usare metodi approssimati come “Quartet Puzzling”). n Consente di stimare ipotesi filogenetiche alternative FILOGENESI MOLECOLARE Maximum Lilelihood Valutazione Ipotesi Filogenetiche Alternative QuickTime™ e un decompressore TIFF (LZW) sono necessari per visualizzare quest'immagine. H0 : no Clock H1 : Clock L0 L1 Likelihood Ratio Test (LRT): 2(L1 - L0 ) ≅ χ2 (k-2) FILOGENESI MOLECOLARE Valutazione della Affidabilità delle Ipotesi Filogenetiche Bootstrap 2 1 a c a a 2 g g g g 3 c t c t 4 c c a g 5 t t g t 6 a g g g 7 t t t c 8 a a a a 9 g g a g 10 a a a a 5 Ricampionamento con ripetizione CHIMP CHIMP HUMAN HUMAN GORILLA 5 g g g g t t g t 2 g g g g 7 t t t c 7 t t g t 1 a c a a 9 t t t c g g a g 9 g g a g 3 c t c t 2 6 g g g g 10 a a a a 1 a g g g 1 a c a a 5 a c a a 10 a a a a t t g t 3 c t c t 9 g g a g 6 a g g g GORILLA CHIMP ORANG ORANG HUMAN MACAQUE MACAQUE GORILLA OWL MONKEY OWL MONKEY ORANG SPIDER MONKEY SPIDER MONKEY CHIMP MACAQUE HUMAN OWL MONKEY GORILLA SPIDER MONKEY CHIMP ORANG HUMAN MACAQUE CHIMP GORILLA OWL MONKEY ORANG HUMAN SPIDER MONKEY MACAQUE GORILLA OWL MONKEY CHIMP ORANG MACAQUE SPIDER MONKEY HUMAN GORILLA OWL MONKEY ORANG Albero Consenso SPIDER MONKEY MACAQUE OWL MONKEY SPIDER MONKEY Jacknife : Ricampionamento senza ripetizione FILOGENESI MOLECOLARE Valutazione della Affidabilità delle Ipotesi Filogenetiche Bootstrap CHIMP 100 100 100 HUMAN GORILLA ORANG MACAQUE OWL MONKEY SPIDER MONKEY FILOGENESI MOLECOLARE Valutazione della omogeneità della velocità evolutiva Relative Rate Test radice dA ingroup A dB ingroup B outgroup ∆R AB=d A/d B=(d AB+d AO-d BO)/(d AB-d AO+d BO) Software per Analisi Filogenetiche Pac chetto/ P ogra r mm a Desc riz oi ne URL PH YLIP Pa c he c to c he c ompre nde numerosi programmi per ana ilsi volutive e he c onsentono c la costru zione di al beri fi ogen l eti ci me diant el’appl ca i zone i di metodi basa it sull amassima pa srimoni a sull , amatric ed ell edista nze ,sulla massima v erosimigl an i za. Consen et di ana ilz z rea vari tipi di dati ,DNA prote ni e ,fre quenz ege nic he, ecc . evolu ion.ge t net cs i washi . ngton edu/phyl . p. i html PA UP* Programma p er ana ilsi evolut ve i ,svilupp ato origi nariament eper ana ilsi di massima pa srimoni a(PAUP deri va da Phyl ogene itc An alysis Using Parsimony), c he n ell asu a ve srione più rec ent econse nte de t rmina e zioni filoge net ch i eat raverso t una seri edi metod i basa it su p arsimonia ,matric edell edista n eze massima ve or simig ilanz a Inc . ul d ea nch e va ire op zioni ch e nse c o ntono d ieff ettuare umerosi n t est stat sti i ci per cnfron o ar t e la signific ati vit àdi varie potesi i filog ene itc he. pa up.cs t.i sfu edu/ . Mar k o v bi ghost ar . ea.ba cn . .ri /BIG/Markov/ t Programma c h ce onsent eil ca l olo c de le ist d anz eg ene itc he, fornendoi a nch e nau stima de le lfl uttua zioni sta itsti che ,a tr averso i lmetodo rev ersibile (G TR, Gene ar l Time Rev ersibl e), effett ua un test de la sta zonarie i t dà ell ac omposiz oi n ei nb asi de le sequ enz e , e conse nte la stima di tempi di diverge nza . PA ML Pa c he c to di programmi per eff ettuare na a ilsi evol utive ,su sequ enz edi DNA e protei ne, basa t sul e me ot do de la lmassima v erosimigl an i za. abacus. gene.uc lac.uk/ . os f ware/p t aml.html MrBay e s Programma p er effe tu are an alisi filog ene itche si se que nze di DNA e prote ni e ttrave a sro l’appli c zion a edi un me ot do di infere nza Bay esia n . a morphbank. ebc uu.s . e/mrbayes / Tr ee-Pu z le z Programma p er effe tu are an alisi filog ene itche idsequ enz ed iDNA e prot eine a trav erso l’appli c zion a edi metod idi massima v erosimigl an i z a e ceffet h uano t un ad ecomposizi one a quarte ti de le sequen z en esame. i www.tr e -puzz e. l de/ Phylo Win Programma dot ato di interf acc i arafig c pa er l’appl i az c oi n edi vari me ot di di ana ilsi fi ogen l eti ca b asat isu parsimonia, matric ede le distan z e massima e verosimiglia nza . pb l.i univ- yon1 l fr . softwa / er /phyl owin.html MEG A Pa c he c to di programmi per ’app l ic l a ione z di vari metodi d ia nal si i fi ogen l eti c ba asat isu pa srimoni a ma , rti ce del el dist anz ee massima v erosimigl i nz a a. www.megas oftwa er .ne /t Pr otML Programma p er la etd ermina zone i di alb eri filog ene itc id amulti all ne i amenti amminoac di i ci me diant eil met odo d ell amassima verosimigli anz a www.ism.ac .p/so j tfware/ smli i b/sof othe t .re html#molphy .