Tipi di allineamenti Misura delle similarità di sequenza: La distanza di Hamming è definita tra due stringhe della stessa lunghezza ed è valutata calcolando il numero di posizioni con caratteri non corrispondenti agtc distanza di Hamming=2 cgta La distanza di Levenshtein è definita tra stringhe che non hanno necessariamente la stessa lunghezza ed è il numero di “operazioni di edit” richieste per cambiare una stringa in un’altra. Per operazioni di edit si intende una delezioni, un’inserzione o l’alterazione di un singolo carattere in entrambe le sequenze. ag-tcc cgctca distanza di Levenshtein=3 1° Esercizio: Valutare la distanza di Hamming tra DECLENSION e RECREATION 2° Esercizio: Valutare la distanza di Levenshtein tra BIOINFORMATICS e CONFORMATION SOLUZIONE: SOLUZIONE: DECLENSION BIOINFORMATICS RECREATION -CO-NFORMATION Differenza tra i termini similarità ed omologia Il termine omologia indica che due entità condividono una stessa origine filogenetica, da cui si sono evolute differenziandosi l’una dall’altra Il termine similarità ha un significato più generale che indica una somiglianza prescindendo dalle ragioni che l’hanno determinata. Questa similarità spesso è dovuta ad omologia ma può essere generata dal caso oppure da fenomeni di convergenza adattativa sia a livello morfologico sia a livello molecolare. Ad esempio l’ala di un uccello e quella di un pipistrello si sono evolute indipendentemente l’una dall’altra e pertanto non sono omologhe. Quindi l’omologia è una caratteristica qualitativa, che indica un’origine filogenetica comune. La similarità è una caratteristica quantitativa che sulla base di qualche criterio comparativo indica un livello di somiglianza. SIMILARITA’ DI SEQUENZE ED ALGORITMI DI ALLINEMANTO L’allineamento dovrebbe portare condivise dalle due sequenze. all’appaiamento delle regioni simili Vari sono i criteri che possono essere utilizzati per misurare la similarità tra due o più sequenze. Il problema è che i concetti di similarità ed allineamento sono intimamente associati: infatti non si possono allineare sequenze senza definire dei criteri di similarità ed allo stesso tempo per valutare quanto due sequenze siano simili è necessario allinearle. Comunque per allineare varie sequenze è necessario disporre anche di un metodo (che in informatica è definito algoritmo) che sulla base dei criteri di similarità sia in grado di produrre un allineamento. Quindi Per poter allineare delle sequenze abbiamo bisogno di due cose: Definizione di criteri di similarità Algoritmo Se definissimo come criterio di similarità quello di valutare il numero di lettere che si appaiano esattamente, si potrebbe implementare un semplice algoritmo che faccia virtualmente scorrere una sequenza sull’altra e che valuti ad ogni spostamento tutte le lettere abbinate per stabilire il numero di appaiamenti esatti. L’applicazione di questo algoritmo comporta che ad ogni avanzamento della sequenza si dovranno confrontare tutte le lettere appaiate tra le due sequenze. In questo modo potremo facilmente dimostrare che alla fine si dovranno effettuare un numero di confronti pari al prodotto delle lunghezze delle due sequenze che si vogliono allineare. Infatti ogni lettera della prima sequenza dovrà essere confrontata con ogni lettera dell’altra. Nel nostro caso specifico ci sono complessivamente 30 coppie di lettere appaiate, un numero pari al prodotto delle lunghezze delle due sequenze (5 e 6 amminoacidi). L’efficienza di un algoritmo dipenderà dal tempo impiegato per eseguire le varie operazioni. Questo tempo viene spesso indicato come proporzionale alla lunghezza O(nm) dove n e m sono le lunghezze delle due sequenze che stiamo andando a confrontare. La necessità di effettuare ricerche di similarità in banche dati di sequenze ha determinato una crescente esigenza di disporre di rapidi algoritmi di allineamento. Infatti le ricerche di similarità consistono nel ripetere automaticamente la procedura di allineamento di una data sequenza (definita query) con ognuna delle sequenze della banca dati. In questo modo sarà possibile individuare la sequenza che ha il massimo punteggio di allineamento. La crescita esponenziale delle banche dati ha portato allo sviluppo di programmi (FASTA e BLAST) che sono in grado di effettuare velocemente delle ricerche di similarità, grazie a soluzioni euristiche che sono basate su assunzioni non certe ma estremamente probabili. Allineamenti di sequenze con gap La complessità del problema di allineare sequenze di acidi nucleici e di proteine deriva dal fatto che deve essere considerata la possibilità che il migliore allineamento comporti l’inserimento di gap. Questa esigenza è necessaria dal momento che nel corso dell’evoluzione si possono avere processi di inserzione o delezione che comportano una diversa lunghezza di sequenze omologhe. ATGGACCGGATGGATGATGGACCGTTAGGAT Sostituzioni puntiformi ATGGACCGAATGGCTGACGGACCGTGAGGAT Delezioni -CGAA ATGGAC.TGGCTGACGGACCGTGAGGAT Inserzioni ATGGAC.TGGCTGACGGAACTCCGTGAGGAT Inversioni AGTCCA.TGGCTGACGGAACTCCGTGAGGAT Guardate questi due allineamenti: 10 25 Sono stati prodotti rispettivamente senza e con la possibilità di inserire gap. E’ evidente come inserendo un gap in ciascuna delle due sequenze si passa da 10 a 25 appaiamenti esatti. DOT MATRIX per individuare e localizzare similarità di sequenza anche in presenza di gap che graficamente appaiono come salti in diagonale Sequenza 1 Sequenza 2 Quindi l’allineamento che ne viene fuori sarà: RESPUBLICA RE-PUBLIC- Altro esempio: LAMIAP---RIMASEQ-------CREATA --MIA-ALTR--ASEQDAALLIN--EARE 10 RESIDUI ALLINEATI Programma per visualizzare dot matrix: DOTLET: http://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html Le Matrici di sostituzione sono usate quando è opportuno applicare dei criteri di dimilarità che non si limitano a verificare l’identità assoluta ma tengono conto del fatto che gli amminoacidi possano essere più o meno simili tra loro Matrici di sostituzione PAM BLOSUM MATRICI DI SOSTITUZIONE Le Matrici di sostituzione sono usate quando è opportuno applicare dei criteri di Similarità che non si limitano a verificare l’identità assoluta ma tengono conto del fatto che gli amminoacidi possano essere più o meno simili tra loro. Infatti RICERCA DI SIMILARITA’ E ALLINEAMENTO DI SEQUENZE BLAST e PSI-BLAST http://www.ncbi.nlm.nih.gov/blast/ FASTA http://fasta.bioch.virginia.edu/ oppure http://www.ebi.ac.uk/fasta33/ BCM Search Launcher http://searchlauncher.bcm.tmc.edu/multi-align/multi-align.html Pole Bio-Informatique Lyonnais – NPS@ http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_server. Alcune caratteristiche dei tools più usati: BLAST (Basic Local Alignment Search Tool), sviluppato dal National Center for Biotechnology Information, NCBI): - allineamento locale - estremamente veloce - parte cercando brevi frammenti della sequenza, che poi prova ad estendere - usa una matrice di sostituzione in entrambe le fasi del processo di allineamento (scansione del database e estensione della subsequenza): più preciso ha quattro opzioni fondamentali: BLASTP: confronta sequenze proteiche contro un database proteico BLASTN: confronta sequenze nuclotidiche contro un database nucleotidico TBLASTN: confronta una sequenza proteica contro un database nucleotidico, traducendo ciascuna sequenza del database nucleotidico nei suoi 6 frames di lettura BLASTX: confronta una sequenza nucleotidica contro un database proteico, dopo averla tradotta nei suoi 6 frames di lettura. PSI-BLAST (Position Specific Interated BLAST): modificazione di BLAST che combina elementi sia del metodo di allineamento a coppie che multiplo: usa una ricerca iterativa per cui le sequenze trovate ad ogni ciclo sono usate in allineamento multiplo per costruire un modello di punteggio (profilo, vedi più avanti) per il ciclo successivo. Ad ogni ciclo il profilo viene modulato sempre più finemente. Vantaggi: aumentata sensibilità trova anche omologhi remoti PHI-BLAST (Pattern Hit Initiated BLAST): combina PSI-BLAST con la capacità di identificare pattern regolari I vantaggi di FASTA (FAST-All) (Lipman & Pearson, 1985): 1. alta sensibilità per confronti veloci (prima identifica, poi ottimizza) 2. allineamento locale 3. la fase di estensione produce allineamenti “gapped” 4. usa una matrice di sostituzione solo per la fase di estensione della subsequenza BLAST 1. Suddivide la sequenza in “parole” (3 per le proteine e 11 per gli acidi nucleici 2. Confronta ogni parola con regioni di uguali dimensioni delle sequenze contenute nei database e calcola un valore si score 3. Se lo score è > di un valore soglia T al sotto del quale la similarità è considerata troppo bassa, il programma estende la regione allineata cercando regioni di alta similarità. In questo modo si ottiene un segmento di allineamento locale non ulteriormente estendibile, definito HSP (Highscoring Segment Pair). Il parametro S definisce una soglia di score al di sopra della quale un HSP viene ritenuto degno di attenzione. I valori di default usati da BLAST sono W=3, T=13, Matrice=BLOSUM 62 BLAST: BLASTP Seconda parte della pagina di BLAST: Numero atteso di HSP valutato su base statistica Dimensione delle parole Scelta della matrice di sostituzione Penalità assegnata ai gap Terza parte della pagina di BLAST: FASTA 1. Suddivide le sequenze in parole (2 per proteine, 6 per acidi nucleici) 2. Trova le parole nelle sequenze del database e calcola un indice in base alla posizione in cui ciascuna parola è trovata all’interno della sequenza query. 3. Calcola la similarità delle dieci regioni con maggiori parole identiche per ciascuna sequenza del database (init1) 4. Calcola la similarità delle dieci regioni con maggiori parole identiche includendo le penalizzazione per inserzioni o delezioni (initN) 5. Allinea le N sequenze con il migliore punteggio initN FASTA: http://www.ebi.ac.uk/fasta33/ Ktup: lunghezza delle parole Align: numero di allineamenti finali Open e residue: Penalità per i gap Vari database Sequenza in formato FASTA Differenze tra BLAST e FASTA: 1. Lunghezze delle “parole usate” 2. FASTA si limita ad un’indicizzazione diretta della parola invece BLAST seleziona da ogni parola diverse parole simili (indicate come W-mers). 3. BLAST utilizza una matrice di sostituzione sin dalle prime fasi dell’analisi 4. BLAST è ottimizzato per trovare segmenti di similarità locale privi di gap FASTA: http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=select&pgm=fap Cliccando su Protein-Protein FASTA In Program ci sono tutte le possibili opzioni SSEARCH Esempio pratico 1. Ricercare la sequenza di myoblobin bovine usando SRS 2. Ricercare in BLAST tutte le sequenze simili alla mioglobina bovina 3. Ricercare in BLAST tutte le strutture PDB simili alla mioglobina bovina Quante sequenze troviamo? Quante strutture PDB? 4. Ripetere la stessa ricerca con FASTA 5. Provare a modificare le matrici di sostituzioni e valutare le differenze. Allineamento di due sequenze: BLAST: bl2seq LALIGN: http://www.ch.embnet.org/software/LALIGN_form.html EMBOSS: http://www.ebi.ac.uk/emboss/align/ LALIGN: Dal sito Exspasy: ALLINEAMENTO MULTIPLO DI SEQUENZE Informazione biologica maggiore rispetto a quella riportata l’allineamento di due sole sequenze: i residui più importanti dal punto di vista strutturale o funzionale saranno estremamente conservati tra tutte le sequenze dell’allineamento. “Una sequenza amminoacidica fa la timida; un paio di sequenze omologhe sussurrano; molte sequenze allineate gridano”. Per essere informativo un allineamento multiplo dovrebbe contenere una distribuzione di sequenze sia strettamente sia lontanamente correlate: Svantaggi: •tutte strettamente correlate => ridondanza •tutte lontanamente correlate => allineamento inaccurato => inutilità ALLINEAMENTO MULTIPLO DI SEQUENZE Parametri importanti per la ricerca di omologhi di proteine note: Sensibilità = riconoscere tutte le correlazioni anche molto lontane Selettività = minimizzare il numero di sequenze trovate che non siano dei veri omologhi Da un allineamento riusciamo a dedurre informazioni sui profili: Un profilo esprime tutta l’informazione contenuta in un multiallineamento: in generale, osservando gli amminoacidi rappresentati, si attribuisce un punteggio a ciascun amminoacido per ogni colonna dell’allineamento (con le matrici di sostituzione) osservandone la conservazione. Analogamente, osservando la frequenze dei gap, si attribuisce una penalità per il loro inserimento. ALLINEAMENTO MULTIPLO DI SEQUENZE 1. http://www.ebi.ac.uk/clustalw/ 2. http://hmmer.wustl.edu/ CLUSTAL W: -il tool più comune utilizzato per l’allineamento multiplo di sequenza: - potenziato per allineamenti di sequenze proteiche divergenti favorisce l’apertura di gaps in regioni in cui è potenzialmente presente un loop piuttosto che una struttura secondaria ordinata (in base a una penalità residuo-specifica e a una penalità ridotta in regioni idrofiliche) favorisce l’apertura di gaps nelle stesse posizioni. HMMer: crea profili utilizzando gli HMM e li usa per la ricerca contro una banca dati proteica