Esercizio:
Ricerca di sequenze di citocromo c ossidasi (cytochrome c oxidase) umane
mediante ricerca di similarità in banche dati
Con BLASTP:
Selezionare la sequenza P13073 e ricercare in Blast le sequenze simili in
SwissProt.
In Blast possiamo inserire direttamente il codice P13073 o copiare nella box
la sequenza (anche in formato FASTA)
Con SRS:
Ricercare la sequenza P13073 in SRS e lanciare BlastP.
I risultati sono consultabili dalla pagina di Results dopo un po’ di tempo.
Ricerca di similarità di sequenze mediante l’applicazione di Blast
Usando ENSEMBL
Esercizio:
Caratterizzazione funzionale di un frammento genomico umano mediante
Ensembl
Andiamo al sito http://www.ensembl.org/Homo_sapiens/
e si seleziona Blast your sequence (in alto a destra)
Il risultato di Blast può essere visualizzato attraverso BlastView che riporta
sui cromosomi i segnali con livelli di score superiore al valore soglia
prefissato sulla base della scelta del valore E.
I vari range di score sono associati a colori diversi. Lo score più alto è
racchiuso in una box. Se clicchiamo sulla freccia associata al Blast hit si
ha l’informazione del codice del contiguo contenente la sequenza
genomica su cui è stato ritrovato lo score, lo score, la percentuale di
identità ed è possibile richiedere la visualizzazione di altre informazioni.
Lo score maggiore lo troviamo sul
cromosoma 17
Clicchiamo sulla freccia e scegliamo
Show Contig
La richiesta Show Contig consente la visualizzazione dell’intero cromosoma
in cui rientra il segnale in esame e l’indicazione mediante una box della zona
cromosomica su cui mappa il segnale.
Nella finestra Overview sono riportate informazioni più dettagliate sulla
regione genomica.
Sono indicati con colori diversi:
-Geni predetti da Ensembl ma già noti e di questi sono riportati anche gli
accession number
-Geni predetti da Ensembl e non conosciuti (novel)
-Geni annotati in EMBL e gli pseudogeni
Nella stessa finestra sono anche annotati e mappati i marcatori.
ALLINEAMENTO MULTIPLO DI SEQUENZE
Informazione biologica maggiore rispetto a quella riportata l’allineamento
di due sole sequenze: i residui più importanti dal punto di vista strutturale
o funzionale saranno estremamente conservati tra tutte le sequenze
dell’allineamento.
“Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe
sussurrano; molte sequenze allineate gridano”.
Per essere informativo un allineamento multiplo dovrebbe contenere una
distribuzione di sequenze sia strettamente sia lontanamente correlate:
Svantaggi:
•tutte strettamente correlate => ridondanza
•tutte lontanamente correlate => allineamento inaccurato => inutilità
ALLINEAMENTO MULTIPLO DI SEQUENZE
Parametri importanti per la ricerca di omologhi di proteine note:
Sensibilità = riconoscere tutte le correlazioni anche molto lontane
Selettività = minimizzare il numero di sequenze trovate che non siano
dei veri omologhi
Da un allineamento riusciamo a dedurre informazioni sui profili:
Un profilo esprime tutta l’informazione contenuta in un
multiallineamento: in generale, osservando gli amminoacidi
rappresentati, si attribuisce un punteggio a ciascun amminoacido per
ogni colonna dell’allineamento (con le matrici di sostituzione)
osservandone la conservazione. Analogamente, osservando la
frequenze dei gap, si attribuisce una penalità per il loro inserimento.
Programmi per l’allineamento multiplo globale:
CLUSTALW: http://www.ebi.ac.uk/clustalw/ o scaricare il programma eseguibile
KALIGN
Multalin
TCOFFEE
http://msa.cgb.ki.se/cgi-bin/msa.cgi
http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html
http://www.ch.embnet.org/software/TCoffee.html
Altri programmi per l’allineamento multiplo locale:
DIALIGN:
http://bibiserv.techfak.uni-bielefeld.de/dialign/
ITERALIGN:
http://giotto.stanford.edu/~luciano/iteralign.html
Programmi per la ricerca di motivi conservati:
Gibbs Sampler:
http://www.bioinfo.rpi.edu/applications/bayesian/gibbs/gibbs.9.pl?data_type=prot
ein&layout= (funziona solo su browser Mozilla)
MEME: http://bioweb.pasteur.fr/seqanal/motif/meme/meme.html
HMMER: http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html
Programmi per l’editing di multiallineamenti:
SeaView:
http://pbil.univ-lyon1.fr/software/seaview.html
GeneDoc:
http://www.psc.edu/biomed/genedoc/
Programmi per l’editing di multiallineamenti:
BoxShade:
http://www.ch.embnet.org/software/BOX_form.html
PrettyPlot:
http://bioweb.pasteur.fr/seqanal/interfaces/prettyplot.html
WebLogo:
http://www.bio.cam.ac.uk/cgi-bin/seqlogo/logo.cgi
Programmi per la trasformazione del formato di multiallineamenti:
ReadSeq:
http://iubio.bio.indiana.edu/soft/molbio/readseq/java
Webservice per formattare ed analizzare allineamenti multipli:
FASMA http://bioinformatica.isa.cnr.it/FASMA/
CLUSTAL W:
-il tool più comune utilizzato per l’allineamento multiplo di sequenza:
- potenziato per allineamenti di sequenze proteiche divergenti favorisce
l’apertura di gaps in regioni in cui è potenzialmente presente un loop
piuttosto che una struttura secondaria ordinata (in base a una penalità
residuo-specifica e a una penalità ridotta in regioni idrofiliche) favorisce
l’apertura di gaps nelle stesse posizioni.
HMMer: crea profili utilizzando gli HMM (catene di Markov) e li usa per la
ricerca contro una banca dati proteica
Simboli usati da CLUSTALW nell’allineamento
Kalign
DIALIGN
MEME
Formato Fasta
BOXSHADE
Possiamo scegliere l’output ed in che formato inserire le sequenze
WEBLOGO (http://weblogo.berkeley.edu/logo.cgi)
Allineamento (CLUSTALW)
Esempio output (formato pdf):
Dal sito Exspasy:
Alberi filogenetici
Il programma PHYLIP è uno dei programmi comunemente usato per costruire
alberi filogenetici.
Il pacchetto contiene una serie di programmi.
Tra questi selezioniamo:
Drawgram che è un Rooted tree program
Drawtree che è un Unrooted tree program
Alberi filogenetici
1) Alberi con radice o rooted
la radice rappresenta un ancestore comune
2) Alberi senza radice o unrooted
La radice è localizzata all’ interno di un ramo che congiunge le specie in esame
Albero con radice o rooted
UOMO
MUCCA
TOPO
Albero senza radice o unrooted
A
D
1
B
3
2
C
1-3: Nodi dell’albero
E
Alberi filogenetici
Gli Alberi con radice sono Alberi quantitativi
La lunghezza dei rami è direttamente proporzionale ai tempi di
divergenza fra le UT
Gli Alberi senza radice sono Alberi qualitativi
Descrivono semplicemente le relazioni evolutive fra le UT
Per eseguire drawgram
1. Cliccare sul programma eseguibile
2. Scrivere il nome del file.dnd che contiene la matrice derivante da
clustalw [Seq-IL10.dnd]
3. Font1
4. 0
5. Y
Esempio dell’output per drawgram
Per eseguire drawtree
1. Cliccare sul programma eseguibile
2. Scrivere il nome del file.dnd che contiene la matrice derivante da
clustalw [Seq-IL10.dnd]
3. Font1
4. 0
5. Y
Esempio dell’output per drawtree
Esercitazione su Allineamenti multipli ed alberi filogenetici
Ricerca di pattern