Metodi basati sulle similitudini per dedurre la funzione di un gene La conclusione del progetto ‘Genoma Umano’ ha identificato molti potenziali geni ma capire la funzione di ognuno di essi per via sperimentale è lungo e costoso. Una volta si diceva ‘un gene una carriera’ e questo indica quanto fosse ‘dispendiosa’ la caratterizzazione di un gene. Oggi sulla base delle conoscenze dei geni caratterizzati sperimentalmente e con l’aiuto dell’informatica, si vorrebbe dedurre la funzione di un gene a partire dalla sua sequenza. metodi Caratterizzazione dalla letteratura Similarità di sequenza Vicinanza e lontananza Similarità di struttura Riconoscimento di interazioni tra moduli peptidici Profili filogenetici Conservazione della posizione nel cromosoma Sequenze caratteristiche correlate Fusione genica Raggruppamento dei dati di microarray Imputazione per associazione Annotazione funzionale transitiva Il principio di questo metodo è: Conoscendo un gene (sequenza e funzione) posso ipotizzare che quelli con sequenza simile avranno funzione simile. Per ricercare le omologie si usano programmi di allineamento, questi possono operare in due modi: 1. cercando l’allineamento globale, cioè tra tutta la sequenza dei due geni 2. cercando il miglior allineamento locale atgacagttgctggaattcaaaacccgaactttcggaattgttaa ____atgtagcgagatccaagaaccgttctatcctttatgcagacgatttacagaactag atgacagttgctggaattcaaaacccgaactttcggaattgttaa _______________atgccgttcgaattgattcggaattgttagaacttctag Purtroppo non si sa qual è la minima soglia di similarità di sequenza per poter ipotizzare una similarità funzionale Un altro metodo cerca similitudini nella struttura tridimensionale delle proteine prodotte dai due geni oggetto di confronto La ricerca delle similitudini avviene secondo due criteri: 1. si confrontano le distanze intermolecolari tra gli amminoacidi della proteina 2. si considerano le due proteine come corpi rigidi e si cerca di sovrapporle prima globalmente poi localmente struttura 3D della proteina Sequenza del gene funzione della proteina An Example Structure Comparison Algorithm RMS è il parametro da minimizzare (root mean square) Al termine dell’allineamento abbiamo due o più parametri che descrivono la similarità strutturale delle proteine da punti di vista diversi. Noi dobbiamo attribuire un peso a ciascun parametro e decidere la soglia minima di similitudine oltre la quale ipotizzare una similarità funzionale. La struttura tridimensionale della proteina dei due geni deve essere nota (per via sperimentale e non predetta da programmi di protein folding). Le strutture predette hanno un grado di incertezza non trascurabile. Purtroppo a volte un’elevata omologia di struttura non implica un’omologia funzionale, es. la famiglia dei geni della serpina ha domini funzionali relativamente conservati ma funzioni biologiche molto diverse. Un tipo di approccio è quello di confrontare l’intero insieme di geni di un organismo con quello di altri organismi. Il principio è che geni con funzioni correlate (ad esempio per la stessa funzione metabolica) sono comparsi nel genoma di diverse specie nello stesso periodo. Questi gruppi di geni tenderanno a evolvere in maniera simile. Si cerca di correlare la presenza o l’assenza di geni omologhi tra specie: un’alta correlazione implica che i geni sono associati nella funzione. Es. ci si aspetta di trovare proteine flagellari in quei batteri che posseggono flagelli e non in altri organismi, Con questo metodo si è visto che almeno in alcuni casi, geni con funzioni simili si trovano in posizioni relativamente vicine Un altro approccio si rifà al funzionamento degli operoni nei procarioti, il principio è che geni di organismi diversi che si trovano nella stessa posizione del cromosoma, possano avere funzione simile. Questo metodo è valido solo per i procarioti e per gli archea. Il metodo della fusione genica si riconduce all’osservazione che certe proteine in una specie corrispondono a più proteine singole in un’altra specie. Si presume che queste proteine singole svolgano insieme la funzione della proteina di maggior lunghezza Il metodo del raggrupamento dei geni da dati di microarray raggruppa geni che sono co-espressi in diversi tessuti e condizioni, i geni di uno stesso gruppo potrebbero svolgere la stessa funzione. In generale questa supposizione è vera quanto più i gruppi sono composti da un minor numero di elementi. Il metodo dell’imputazione per associazione è simile al precedente metodo (microarray) ma utilizza i dati delle sequenze EST e non tiene conto del livello di espressione ma solo della presenza o meno di un trascritto Il metodo dell’annotazione funzionale transitiva tiene conto che geni con funzione simile potrebbero non avere lo stesso profilo di espressione, ad esempio perché vengono espressi con un certo ritardo uno dall’altro o non sono sensibili a perturbazioni molto piccole. Con questo metodo si possono individuare i geni la cui espressione non è direttamente correlata ma è correlata attraverso altri geni a b a b c c Il metodo delle sequenze caratteristiche correlate si basa sul fatto che se c’è un’interazione fisica tra una proteina conosciuta e una non conosciuta, quest’ultima potrebbe avere una funzione correlata alla prima. La predizione di queste interazioni viene fatta individuando sequenze caratteristiche delle sequenze proteiche, che compaiono nelle interazioni note. Si conoscono queste sequenze caratteristiche in numero limitato e si devono fare i conti con non pochi falsi positive e falsi negativi. Si legge per righe, ogni riga è l’interazione tra due proteine Il metodo della vicinanza e della lontananza si basa sull’estrazione della conoscenza contenuta in letteratura. Un programma estrae dalle banche dati tutti gli articoli che descrivono due geni. Mediante un confronto intelligente tra le parole degli articoli (tecniche di processamento del linguaggio e della semantica) si può determinare la vicinanza tra essi. Il principio è che se due geni hanno funzioni comuni allora gli articoli che descrivono queste funzioni useranno una semantica simile cioè saranno vicini dal punto di vista del linguaggio. L’approcio della caratterizzazione della letteratura è molto simile al precedente ma qui si considerano i singoli termini presenti negli articoli Questi metodi forniscono solo una potenziale relazione tra geni ma è comunque un punto di partenza che indica tra quali elementi iniziare a cercare una funzione comune i risultati sono dipendenti dal metodo e dalla bontà dei dati di partenza manca un metodo generale da considerare come riferimento per valutare gli altri approcci spesso si usano più metodi con gli stessi dati di partenza ma i risultati non coincidono, quindi possiamo essere di fronte a falsi positivi o a falsi negativi è positivo che in questi approcci si integrino i dati provenienti dalla genomica e dalla proteomica, due settori spesso complementari della bioinformatica in questo campo la ricerca è aperta