Esercizio: Ricerca di sequenze di citocromo c ossidasi (cytochrome c oxidase) umane mediante ricerca di similarità in banche dati Con BLASTP: Selezionare la sequenza P13073 e ricercare in Blast le sequenze simili in SwissProt. In Blast possiamo inserire direttamente il codice P13073 o copiare nella box la sequenza (anche in formato FASTA) Con SRS: Ricercare la sequenza P13073 in SRS e lanciare BlastP. I risultati sono consultabili dalla pagina di Results dopo un po’ di tempo. Ricerca di similarità di sequenze mediante l’applicazione di Blast Usando ENSEMBL Esercizio: Caratterizzazione funzionale di un frammento genomico umano mediante Ensembl Andiamo al sito http://www.ensembl.org/Homo_sapiens/ e si seleziona Blast your sequence (in alto a destra) Il risultato di Blast può essere visualizzato attraverso BlastView che riporta sui cromosomi i segnali con livelli di score superiore al valore soglia prefissato sulla base della scelta del valore E. I vari range di score sono associati a colori diversi. Lo score più alto è racchiuso in una box. Se clicchiamo sulla freccia associata al Blast hit si ha l’informazione del codice del contiguo contenente la sequenza genomica su cui è stato ritrovato lo score, lo score, la percentuale di identità ed è possibile richiedere la visualizzazione di altre informazioni. Lo score maggiore lo troviamo sul cromosoma 17 Clicchiamo sulla freccia e scegliamo Show Contig La richiesta Show Contig consente la visualizzazione dell’intero cromosoma in cui rientra il segnale in esame e l’indicazione mediante una box della zona cromosomica su cui mappa il segnale. Nella finestra Overview sono riportate informazioni più dettagliate sulla regione genomica. Sono indicati con colori diversi: -Geni predetti da Ensembl ma già noti e di questi sono riportati anche gli accession number -Geni predetti da Ensembl e non conosciuti (novel) -Geni annotati in EMBL e gli pseudogeni Nella stessa finestra sono anche annotati e mappati i marcatori. ALLINEAMENTO MULTIPLO DI SEQUENZE Informazione biologica maggiore rispetto a quella riportata l’allineamento di due sole sequenze: i residui più importanti dal punto di vista strutturale o funzionale saranno estremamente conservati tra tutte le sequenze dell’allineamento. “Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe sussurrano; molte sequenze allineate gridano”. Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze sia strettamente sia lontanamente correlate: Svantaggi: •tutte strettamente correlate => ridondanza •tutte lontanamente correlate => allineamento inaccurato => inutilità ALLINEAMENTO MULTIPLO DI SEQUENZE Parametri importanti per la ricerca di omologhi di proteine note: Sensibilità = riconoscere tutte le correlazioni anche molto lontane Selettività = minimizzare il numero di sequenze trovate che non siano dei veri omologhi Da un allineamento riusciamo a dedurre informazioni sui profili: Un profilo esprime tutta l’informazione contenuta in un multiallineamento: in generale, osservando gli amminoacidi rappresentati, si attribuisce un punteggio a ciascun amminoacido per ogni colonna dell’allineamento (con le matrici di sostituzione) osservandone la conservazione. Analogamente, osservando la frequenze dei gap, si attribuisce una penalità per il loro inserimento. Programmi per l’allineamento multiplo globale: CLUSTALW: http://www.ebi.ac.uk/clustalw/ o scaricare il programma eseguibile KALIGN Multalin TCOFFEE http://msa.cgb.ki.se/cgi-bin/msa.cgi http://bioinfo.genopole-toulouse.prd.fr/multalin/multalin.html http://www.ch.embnet.org/software/TCoffee.html Altri programmi per l’allineamento multiplo locale: DIALIGN: http://bibiserv.techfak.uni-bielefeld.de/dialign/ ITERALIGN: http://giotto.stanford.edu/~luciano/iteralign.html Programmi per la ricerca di motivi conservati: Gibbs Sampler: http://www.bioinfo.rpi.edu/applications/bayesian/gibbs/gibbs.9.pl?data_type=prot ein&layout= (funziona solo su browser Mozilla) MEME: http://bioweb.pasteur.fr/seqanal/motif/meme/meme.html HMMER: http://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html Programmi per l’editing di multiallineamenti: SeaView: http://pbil.univ-lyon1.fr/software/seaview.html GeneDoc: http://www.psc.edu/biomed/genedoc/ Programmi per l’editing di multiallineamenti: BoxShade: http://www.ch.embnet.org/software/BOX_form.html PrettyPlot: http://bioweb.pasteur.fr/seqanal/interfaces/prettyplot.html WebLogo: http://www.bio.cam.ac.uk/cgi-bin/seqlogo/logo.cgi Programmi per la trasformazione del formato di multiallineamenti: ReadSeq: http://iubio.bio.indiana.edu/soft/molbio/readseq/java Webservice per formattare ed analizzare allineamenti multipli: FASMA http://bioinformatica.isa.cnr.it/FASMA/ CLUSTAL W: -il tool più comune utilizzato per l’allineamento multiplo di sequenza: - potenziato per allineamenti di sequenze proteiche divergenti favorisce l’apertura di gaps in regioni in cui è potenzialmente presente un loop piuttosto che una struttura secondaria ordinata (in base a una penalità residuo-specifica e a una penalità ridotta in regioni idrofiliche) favorisce l’apertura di gaps nelle stesse posizioni. HMMer: crea profili utilizzando gli HMM (catene di Markov) e li usa per la ricerca contro una banca dati proteica Simboli usati da CLUSTALW nell’allineamento Kalign DIALIGN MEME Formato Fasta BOXSHADE Possiamo scegliere l’output ed in che formato inserire le sequenze WEBLOGO (http://weblogo.berkeley.edu/logo.cgi) Allineamento (CLUSTALW) Esempio output (formato pdf): Dal sito Exspasy: Alberi filogenetici Il programma PHYLIP è uno dei programmi comunemente usato per costruire alberi filogenetici. Il pacchetto contiene una serie di programmi. Tra questi selezioniamo: Drawgram che è un Rooted tree program Drawtree che è un Unrooted tree program Alberi filogenetici 1) Alberi con radice o rooted la radice rappresenta un ancestore comune 2) Alberi senza radice o unrooted La radice è localizzata all’ interno di un ramo che congiunge le specie in esame Albero con radice o rooted UOMO MUCCA TOPO Albero senza radice o unrooted A D 1 B 3 2 C 1-3: Nodi dell’albero E Alberi filogenetici Gli Alberi con radice sono Alberi quantitativi La lunghezza dei rami è direttamente proporzionale ai tempi di divergenza fra le UT Gli Alberi senza radice sono Alberi qualitativi Descrivono semplicemente le relazioni evolutive fra le UT Per eseguire drawgram 1. Cliccare sul programma eseguibile 2. Scrivere il nome del file.dnd che contiene la matrice derivante da clustalw [Seq-IL10.dnd] 3. Font1 4. 0 5. Y Esempio dell’output per drawgram Per eseguire drawtree 1. Cliccare sul programma eseguibile 2. Scrivere il nome del file.dnd che contiene la matrice derivante da clustalw [Seq-IL10.dnd] 3. Font1 4. 0 5. Y Esempio dell’output per drawtree Esercitazione su Allineamenti multipli ed alberi filogenetici Ricerca di pattern