INTRODUZIONE DATABASE DI SEQUENZE RICERCA TESTUALE Ricerca dei record i cui campi soddisfano determinati criteri (hanno certi valori) SIMILARITA’ Ricerca dei record che hanno le sequenze più “simili” ad una sequenza fornita come query RICERCA PER SIMILARITA’ La ricerca per similarità di una sequenza contro un database di sequenze richiede che sia possibile valutare la similarità della sequenza query contro ciascuna delle sequenza del database. Quindi il problema da risolvere è quello della ricerca delle similarità tra due sequenze DATABASE DI SEQUENZE SEQUENZA QUERY PERCHE’ CERCARE SEQUENZE SIMILI? Quando si ottiene (in qualche modo) una sequenza di DNA o Aminoacidi si è interessati a capire cos’è quella sequenza (è già nota?) e a scoprire la sua funzione. Potrebbe anche capitare che la sequenza stessa sia presente nei database e già annotata (descritta la sua funzione)... Nel caso invece non si trovasse nei database esattamente la stessa sequenza, si può ipotizzare la funzione della mia sequenza query cercando sequenze simili che invece siano già state annotate. (predizione, che dovrà poi essere confermata sperimentalmente) In base al grado di similarità trovato diventa possibile fare delle ipotesi più o meno probabili sulla funzione della sequenza query semplicemente “trasferendo” ad essa la funzione delle sequenze target simili ad essa identificate . INFERIRE UNA FUNZIONE Se le sequenze di due proteine (DNA) sono molto simili allora lo saranno anche le strutture e le funzioni SEQUENZA STRUTTURA FUNZIONE SIMILE SIMILE SIMILE Non vale il viceversa! (Funzioni e strutture simili non implicano sequenze simili: caso degli isoenzimi) Ci possono essere proteine con la stessa funzione, ma con struttura e soprattutto sequenza diversa. Es. mutazioni silenti, che interessano la terza base di un codone. L’aminoacido rimane lo stesso ma è cambiato il DNA! SIMILARITA’ E OMOLOGIA Spesso si fa confusione tra similarità ed omologia! La similarità è un aspetto quantitativo che indica un livello di somiglianza tra le sequenze. criterio comparativo: % identità % mutazioni conservative (similarità) L’omologia è un aspetto qualitativo che riguarda più propriamente la “funzione” delle sequenze ed indica un’origine filogenetica comune SIMILARITA’ vs OMOLOGIA OMOLOGIA>>>>>>proprieta’ delle sequenze legata alla loro derivazione dallo uno stesso antenato comune SIMILARITA’>>>>>“grado di somiglianza” tra 2 sequenze •La similarita’ osservata tra due sequenze PUO’ indicare che esse siano omologhe, cioe’ evolutivamente correlate •La similarita’ e’ una proprieta’ quantitativa, si puo’ misurare (CONTINUA) •L’omologia e’ una proprieta’ qualitativa (1 vs 0 o tutto vs nulla, DISCRETA) •La similarita’ tra sequenze si osserva, •l’omologia tra sequenze si puo’ ipotizzare in base alla similarita’ osservata. SIMILARITA’ E OMOLOGIA ORTOLOGIA E PARALOGIA OMOLOGIA ANTENATO COMUNE ORTOLOGIA PARALOGIA PROCESSO DI SPECIAZIONE DUPLICAZIONE GENICA OMOLOGIA E PARALOGIA SIMILARITA’ E OMOLOGIA •Proteine omologhe: proteine che si sono evolute da un comune ancestore, nell’evoluzione la similarità di sequenza è meno preservata rispetto alla struttura terziaria •Si possono avere proteine omologhe con un’identità di sequenza fino al 20% Come è possibile ciò? •La maggior parte delle mutazioni avviene sulla superficie della proteina mentre gli amminoacidi del core sono maggiormente conservati in modo da consentire il medesimo folding alle proteine. Identità e similarità ’ …alcuni termini Gli aminoacidi possono essere raggruppati in base alle loro caratteristiche fisico-chimiche (es.: PI, massa). Ogni aminoacido può essere definito simile ad un altro per le sue specifiche caratteristiche tra due proteine, l’identità riguarda la percentuale di residui identici mentre l’omologia prende in considerazione anche i residui simili. Due proteine aventi la stessa funzione ma derivanti da organismi differenti hanno in genere similarità maggiore rispetto all’identità e ciò è legato al fatto che alcune posizioni aminoacidiche sono occupate da aminoacidi diversi ma aventi caratteristiche simili glutammato: stessa carica) (i.e.: aspartato e SIMILARITA’ SIMILARITIES …IDENTITIES residui identici % IDENTITÀ = ---------------------- x 100 residui totali residui identici + residui simili % SIMILARITÀ= ----------------------------------------------- x 100 residui totali SIMILARITIES …IDENTITIES • Allo stesso modo e in misura maggiore, ma per ragioni legate alla degenerazione del codice genetico una sequenza di DNA può apparire molto diversa da una codificante per lo stesso prodotto proteico. • Occorre avvalersi quindi di strumento che ne verifichino la trascrizione e la traduzione (BLASTx…ne parleremo) EVOLUZIONE DEI GENOMI Vari sono i meccanismi responsabili della variabilità genetica che oggi possiamo osservare: Mutazioni Inserzioni Inversioni Delezioni puntiformi MUTAZIONI TRASVERSIONE Si riferisce alle sostituzioni di una purina (A,G) con una pirimidina (C,T) o viceversa. (A<<<<<<< >>>>>>> C) (A<<<<<<< >>>>>>> T) (G<<<<<<< >>>>>>> C) (G<<<<<<< >>>>>>> T) TRANSIZIONE Si riferisce alle sostituzioni di una purina (A,G) con un’altra purina o di una pirimidina (C,T) con un’altra pirimidina (A<<<<<<< >>>>>>> G) (C<<<<<<< >>>>>>> T) MUTAZIONI DELEZIONI INSERZIONI INDEL INVERSIONI