Laboratorio di
Bioinformatica I
Filogenesi
Dott. Sergio Marin Vargas (2014 / 2015)
Evoluzione
Selezione Naturale
Selezione Artificiale
Variazione casuale
Risultato Variazioni Casuali
Mutazioni favorite dalla Selezione Naturale
Mutazioni non favorevoli
Filogenesi (Visualizzare l’evoluzione)
Filogenesi (Omologia)
Filogenesi (Parologhi ed Ortologhi)
Gene ancestrale
duplicazione genica
Ortologhi: geni omologhi
con la stessa funzione in
organismi diversi
Gene A
Gene B
Paraloghi: geni all’interno dello
stesso organismo derivanti da
duplicazione genica
speciazione
Gene A1
ortologhi
Gene A2
paraloghi
Gene B1
Specie 1
ortologhi
Gene B2
Specie 2
Filogenesi (Distanza genetica)
Metodo della massima parsimonia
L’albero migliore è quello con il minor numero di cambiamenti
(eventi evolutivi,mutazioni, ecc), quello cioè più parsimonioso.
Ci possono essere molte topologie che implicano lo stesso
numero di cambiamenti, ma sono tutte ugualmente valide.
Esercizio 1: Preparazione sequenze
Vogliamo ottenere sequenze aminoacidiche dell’emoglobina
beta da taxa appartenenti all’ordine dei Cetartiodactyla
(balena, maiale, ippopotamo, ecc).
Possiamo usare NCBI Protein, cercando con la ricerca
avanzata, con i seguenti paramentri:
Txid91561 [Organism]
citocromo b (identificabile con la sigla cytb) (cercarlo in tutti i campi)
Solo nel database RefSeq
Si ottengono oltre 200 sequenze, selezionarne le sequenze di
queste 11 specie:
“Ovis aries”, “Hippopotamus amphibius”, “Lama guanicoe”, “Sus scrofa”,
“Camelus ferus”, “Megaptera novaeangliae”, “Cervus elaphus”, “Antilope
cervicapra”, “Delphinus capensis”, “Bos taurus” e “Giraffa camelopardalis
angolensis”
Scaricarle in formato FASTA
Modificare il file FASTA in modo che nell’intestazione di
ciascuna sequenza ci sia solo il nome dell’organismo (servirà
per rendere l’albero filogenetico più leggibile)
Alberi Filogenetici con
Mobyle@Pasteur (http://mobyle.pasteur.fr/)
Alberi Filogenetici con
Mobyle@Pasteur (http://mobyle.pasteur.fr/)
Propone un workflow per la creazione di alberi
1
2
3
Esercizio 2: Alberi filogenetici
con Mobyle@Pasteur
Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità il
questo file si trova nella pagina del corso con il nome
filogenesi.fasta
Aprire il sito http://mobyle.pasteur.fr/ , poi:
Nella sezione alignment
multiple
muscle
Fare un allineamento multiplo delle sequenze con muscle (output in
formato clustal). Salvare l‘allineamento in formato clustalw.
Nella sezione phylogeny
distance
protdist
Utilizzando l’allineamento muscle calcolare la matrice delle distanze
con il tool protdist, notare la possibilità di impostare il modello della
distanza (Advanced Options
Distance model) comunque lasciare i
parametri di default. Salvare la matrice delle distanze.
Nella sezione phylogeny
distance
neighbor
Calcolare l’albero filogenetico con il programma neighbor a partire
dalla matrice di distanza calcolata precedentemente con questi due
metodi (Advanced Options
Distance method, in alto):
• Neighbor-joining
• UPGMA
Confrontare i due alberi filogenetici generati. Le coppie LamaCammello, Delfino-Balena, Pecora-Antilope sono vicine evolutivamente?
Alberi Filogenetici con Jalview
http://www.jalview.org/help/html/calculations/tree.html
Esercizio 3: Alberi filogenetici
con Jalview
Aprire
Jalview
(www.jalview.org),
poi
caricare
l’allineamento fatto con muscle dell’esercizio precedente.
Calcolare due alberi filogenetici tramite Jalview, con:
Neighbor-joining utilizzando la percentuale di identità.
Average distance utilizzando la percentuale di identità.
Confrontare i due alberi filogenetici generati tra di loro.
Confrontare questi alberi con quelli ottenuti nell’esercizio
precedente.
Le coppie Lama-Cammello, Delfino-Balena, PecoraAntilope sono sempre vicine evolutivamente?
Se cliccate su un qualsiasi punto dell’albero filogenetico
di Jalview appare una linea rossa a cosa serve ?
Alberi Filogenetici con EMBL-EBI
Esercizio 4: Alberi filogenetici
con EBI-EMBL
Utilizzare il file di sequenze FASTA dell’esercizio 1, per
comodità questo file si trova nella pagina del corso con il
nome filogenesi.fasta.
Aprire il programma di allineamento Muscle di EBI-EMBl
(http://www.ebi.ac.uk/Tools/msa/muscle/), poi caricare le
sequenze per allinearle.
Nel risultato dell’allineamento cliccare su “Phylogenetic
Tree” e controllare l’albero filogenetico generato nella
sezione “Phylogram”.
Quale metodo è stato utilizzato per il calcolo della
distanza genetica ?
Le coppie Lama-Cammello, Delfino-Balena, PecoraAntilope sono sempre vicine evolutivamente?
Alberi Filogenetici Bootstrap
Il bootstrap serve per testare la robustezza
di un albero (o parte di esso):
• La tecnica consiste nella randomizzazione.
• La confidenza si calcola ri-campionando i
dati disponibili.
• I caratteri (colonne in un allineamento di
sequenze) sono estratte con rimpiazzo per
generare molti (almeno 100) pseudo data
set.
• Ogni pseudo data set viene analizzato per
ricostruire una filogenesi (con un qualsiasi
metodo).
• L’albero che sintetizza i data set, per
esempio 100, viene costruito di solito con il
metodo del maggior consensus (majority
rule consensus ).
• La frequenza con cui i diversi gruppi si
ritrovano nell’albero di consenso così
costruito (le bootstrap proportions) sono
una misura del supporto statistico per quel
gruppo.
Alberi Filogenetici Bootstrap
con Mobyle@Pasteur
Esercizio 5: Alberi filogenetici
Bootstrap
Utilizzare il file di sequenze FASTA dell’esercizio 1, per comodità questo file
si trova nella pagina del corso con il nome filogenesi.fasta.
Allineare le sequenze con Clustal omega multialign (di Mobyle@Pasteur)
Utilizzando l’allineamento multiplo, nella sezione phylogeny
distance
protdist, calcolare la matrice delle distanze:
Nella sezione “Bootstrap options”
Perform a bootstrap before analysis
Yes
Resampling methods (J)?
Bootstrap
Random number seed (must be odd)
123 (utilizziamo 123 come seme)
How many replicates (R)?
20 (per ridurre il tempo, ma il minimo sarebbe 100)
Controllare la matrice delle distanze. Quante matrici ci sono ?
Con la matrice delle distanze multipla per il bootstrap, calcolare ora un
albero con il bootstrap, nella sezione phylogeny
distance
neighbor
(Verificare di avere nell’input 20 matrici delle distanze)
Usare il metodo Neighbor-joining
Nella sezione “Bootstrap options” impostare:
Analyze multiple data sets (M)
yes
How many data sets
20 (lo stesso numero usato per protdist)
Random number seed for multiple dataset (must be odd)
123
Compute a consensus tree
Yes
Le coppie Lama-Cammello, Delfino-Balena, Pecora-Antilope sono sempre
vicine evolutivamente?
Phylogeny.fr
http://www.phylogeny.fr/
Programmi
disponibili per
blast,
allineamento
multiplo e analisi
filogenetica
Phylogeny.fr
http://www.phylogeny.fr/
Un’alternativa a Mobyle@Pasteur, un sito simile che offre tool online,
più semplice ma meno ricco.
Tool per l’analisi
filogenetica
Phylogeny.fr
http://www.phylogeny.fr/
Dal menu per la Phylogeny analysis si accede a diverse modalità
La modalità più
dettagliata è
“à la carte”
http://mrbayes.sourceforge.net/
Diversi strumenti di
visualizzazione degli alberi.
TreeDyn è un ottimo
strumento di visualizzazione.
Esercizio 6: Alberi filogenetici
con Phylogeny.fr
Creare un workflow per alberi filogenetici con Phylogeny.fr,
utilizzando la modalità dettagliata “à la carte”, quindi impostare:
Multiple Alignment
T-Coffee
Alignment curation
Gblocks
Construction of phylogenetic tree
Visualisation of phylogenetic tree
TNT (Parsimony)
TreeDyn
Lanciare il workflow con le sequenze dell’esercizio 1.
Visualizzare l’albero con “Phylogram”, “Cladogram”, “Radial
(by Drawtree)”, “Radial (by TreeDyn)” e “Circular”.
Perche sembra che Pecora e Antilope non siano
evolutivamente così vicine come con gli altri alberi.
Rifare la stessa procedura ma adesso utilizzare come
Construction of phylogenetic tree “Maximum Likelihood”
(PhyML). Cambia qualcosa ?
Esercizio 7: Alberi filogenetici
con Phylogeny.fr (MrBayes)
Creare un workflow per alberi filogenetici con Phylogeny.fr,
utilizzando la modalità dettagliata “à la carte”, quindi impostare:
Multiple Alignment
Muscle
Alignment curation
Gblocks
Construction of phylogenetic tree
Visualisation of phylogenetic tree
MrBayes (Bayesian inference)
TreeDyn
Lanciare il workflow con le sequenze dell’esercizio 1 e le
opzioni:
MrBayes porre:
Number of generations = 1000
Discard first 100 tree sampled.
Com’è l’abero risultato?
Visualizzare l’albero filogenetico con “Radial (by Drawtree)”
Esercizio 7: Alberi filogenetici
con Phylogeny.fr (MrBayes)
Scarica

Filogenesi Filogenesi