Reti biologiche e allineamento Giovanni Micale PhD student Department of Computer Science University of Pisa [email protected] Outline • Reti biologiche • Analisi comparativa di reti biologiche • Allineamento di reti: o Allineamento di reti PPI • GASOLINE o Allineamento di protein structure networks • PROPOSAL Reti biologiche Definizione di rete Una rete (o grafo) G=(V,E) è una struttura dati definita da: • V: insieme di nodi che rappresentano le entità di una rete; • E: insieme di archi che descrivono le relazioni tra le entità. Un arco è una coppia ordinata di nodi. A C A C B D B D Networks everywhere Reti biologiche • Descrivono processi biologici che avvengono nella cellula a diversi ‘livelli di risoluzione’; • Descrivono l’insieme delle interazioni fisiche o reazioni chimiche tra vari tipi di molecole (es. RNA, geni, proteine, metaboliti). • Esempi di reti biologiche: o o o o Reti di interazione proteina-proteina (PPI); Reti trascrizionali; Reti metaboliche; Mappe di contatto; Reti di interazione proteina-proteina (PPI) • Nodi: proteine; • Archi: contatti fisici che si stabiliscono tra le proteine come conseguenza di eventi biochimici o forze elettrostatiche; • Gli archi possono essere pesati con probabilità di interazione. Due tipi di interazioni • Signal transduction: una proteina interagisce con una o più proteine per trasmettere un segnale o uno stimolo esterno alla cellula (es. inizio trascrizione) o Interazioni a catena (solitamente mediante fosforilazione); o Interazioni tipicamente transitoria. • Complex assembly: un insieme di proteine si unisce a formare una struttura cellulare più grande (complesso) o Interazioni stabili tra tutte le proteine del complesso Identificare PPIs • Metodi sperimentali e computazionali; • Metodi per individuare interazioni fisiche: o Yeast 2-hybrid (Y2H) screening; o Mass spectrometry; • Metodi per individuare associazioni funzionali: o Correlazione di profili di espressione di mRNA; o Interazioni genetiche; o Metodi in silico (ad esempio gene fusion) Banche dati di PPIs • Biological General Repository for Interaction Datasets (BioGRID) • Human Protein Reference Database (HPRD) • Saccharomyces Genome Database (SGD) • Search Tool for the Retrieval of Interacting Genes/Proteins (STRING) • Molecular interaction database (IntAct) • Database of Interacting Proteins (DIP) • Molecular Interactions Database (MINT) • … Limitazioni su PPI data • Alto tasso di falsi positivi e negativi; • Incompletezza dei dati attuali su molte specie: o Yeast 50%, Human 10%; o Le PPI dei virus sono quelle più complete. • Scarso overlap tra i vari dataset: o Mancanza di uno standard; o Inconsistenza del mapping. • Mancanza di informazioni temporali e relative a condizioni sperimentali; • Relazione tra concentrazione di una proteina e il suo insieme di interattori? Reti trascrizionali • Nodi: geni; • Arco: un gene influenza la produzione di un altro gene, per mezzo della sua corrispondente proteina (fattore di trascrizione); • Due tipi di archi: stimolazione o repressione dell’espressione del gene. Reti trascrizionali • Le più complete sono relative a organismi modello semplici (lievito, verme, moscerino della frutta); • Alcune sorgenti di dati: o o o o o o Kyoto Encyclopedia of Genes and Genomes (KEGG); RegulonDB; Reactome; TRANSPATH; TRANSFACT; EcoCyc. Reti metaboliche • Usate per descrivere il metabolismo, cioè l’insieme delle reazioni biochimiche che permettono all’organismo, si crescere, riprodursi e rispondere all’ambiente esterno; • E’ formata da pathway metaboliche; • La pathway descrive l’insieme delle reazioni biochimiche necessarie per realizzare una funzione (ad es. apoptosi e glicolisi) Reti metaboliche • I nodi della rete sono metaboliti ed enzimi; • I metaboliti sono molecole e costituiscono prodotti intermedi e finali del metabolismo (es. glucosio, aminoacidi e polisaccaridi); • Gli enzimi sono proteine che catalizzano le reazioni chimiche; • Gli archi (diretti) corrispondono alle reazioni metaboliche, che convertono un metabolita in un altro, mediante l’intervento di uno o più enzimi. Reti metaboliche Reti metaboliche • Le reti metaboliche sono ottenute in parte sperimentalmente e in parte per omologia; • Dati disponibili per molti organismi; • Alcuni database: o o o o o o Kyoto Encyclopedia of Genes and Genomes (KEGG); GeneDB; BioCyc; EcoCyc; MetaCyc; ERGO. Mappe di contatto • Nodi: aminoacidi; • Un arco collega due amino acidi se sono sufficientemente vicini nella struttura tridimensionale della proteina (ad es. 10 Angstrom); Mappe di contatto • Mappano la struttura 3D della proteina in modelli 2D (grafi), più semplici da analizzare; • Invarianti a rotazioni e traslazioni; • Sotto certe condizioni, è possibile ricostruire le coordinate 3D di una proteina a partire dalla sua contact map; Altre reti biologiche • Reti neurali: connessioni sinaptiche tra neuroni; • Reti ecologiche: sistema prede – predatori; • Reti di correlazioni: descrivono le correlazioni tra le espressioni dei geni; o Diversamente dalle reti trascrizionali non sono il risultato diretto di esperimenti; • Reti di associazione ‘disease-gene’: lega malattie causate dallo stesso gene e geni che causano la stessa malattia; • Reti di associazione ‘drug-target’: lega drugs che targettano lo stesso gene (o proteina) e geni (o proteine) targettate dalla stessa drug. Analisi comparativa di reti biologiche Network vs sequence analysis • Per molti anni, la ricerca si è concentrata sull’analisi di singoli geni o proteine, per capirne la loro funzione; • Tuttavia alcuni processi sono complessi e coinvolgono molti geni o proteine; • L’analisi delle reti biologiche può spiegare meglio il funzionamento di questi processi Proprietà delle reti biologiche • Le reti biologiche (ed in particolare le reti PPI) sono costituite da piccoli gruppi di proteine altamente interconnessi (moduli); • I moduli sono collegati tra loro da un ristretto numero di proteine di grado elevato (hub), che corrispondono a proteine ‘centrali’; • I moduli coinvolgono tipicamente nodi che svolgono una funzione comune o sono coinvolti nello stesso processo (ad es. complessi). Esempio su D. Melanogaster PPI Analisi comparativa • Il problema di individuare moduli funzionali nelle reti biologiche è analogo al problema di individuare elementi funzionali in sequenze di genomi o proteine; • Assunzione biologica: la ‘conservazione’ di una sottorete di molecole nell’evoluzione di una specie implica una rilevanza funzionale; • Conservazione riguarda sia le molecole coinvolte che le loro interazioni Tecniche di network comparison • Network alignment: confrontare due o più reti biologiche dello stesso tipo ma di specie diverse, identificando regioni di similarità; o Individuare moduli funzionali conservati in specie diverse • Network integration: combinare due o più reti di diverso tipo ma della stessa specie e definite sullo stesso set di elementi; o Individuare moduli di proteine che interagiscono allo stesso modo mediante interazioni di tipo diverso; o Predire nuove interazioni. • Network querying: ricercare, all’interno di una rete, sottoreti simili ad una rete di interesse (query graph); o Identificare istanze duplicate o conservate di un modulo Esempio di network integration Esempio di network querying Allineamento di reti Allineamento di reti • Date N reti biologiche, individuare un insieme di N sottoreti di W nodi, una per ogni rete, in modo tale che la similarità tra le sottoreti sia massimizzata, in termini di similarità molecolare e topologica; • W può essere fissato oppure no. Allineamento locale vs globale • Allineamento locale: trovare sottoreti locali simili e ‘allineare’ le reti in corrispondenza di queste sottostrutture; • Allineamento globale: mappare tra loro i nodi delle varie reti, cercando di massimizzare il numero di archi conservati nelle varie reti. Allineamento di reti PPI Allineamento di reti PPI • Allineamento locale: Individuare moduli funzionali di proteine conservati in specie diverse: o Complessi (tipicamente sottoreti dense); o Pathway (tipicamente strutture ad albero o a catena). • Allineamento globale: misurare la similarità tra specie diverse a livello di reti PPI (analogo all’allineamento genomico): o Valutare la distanza evolutiva tra specie diverse • Può essere pairwise (due reti) o multiplo (più reti) Allineamento di reti PPI • Quali proteine, interazioni tra proteine e gruppi di interazione hanno funzioni equivalenti tra le specie? • A partire da queste similarità, è possibile predire la funzione alcune proteine e nuove interazioni? • Cosa ci suggeriscono queste relazioni sull’evoluzione delle proteine, di alcuni processi o dell’intera rete nei vari organismi? • E’ possibile migliorare la confidenza che abbiamo su una interazione, se quest’ultima risulta conservata tra specie diverse? Funzione di similarità tra proteine • Nell’allineamento di reti PPI, occorre definire una funzione di similarità molecolare tra le proteine; • Una scelta tipica è quella di considerare il BLAST E-value (o il Bit Score); • Le proteine che si corrispondono nell’allineamento sono considerate ortologhe; • Ortologhi: proteine che svolgono una funzione simile in specie diverse; • Ortologia e similarità sequenziale non sempre coincidono!; Paraloghi e omologhi • Una proteina può avere due o più ‘copie’ (più o meno divergenti) nella stessa specie (paraloghi); • La presenza di paraloghi è dovuta a processi di duplicazione e successiva modificazione subiti dalle proteine nel corso dell’evoluzione; • Le modifiche possono riguardare anche la rete PPI; • Paraloghi e ortologhi prendono anche il nome di omologhi. Duplication-divergence model Mapping tra proteine allineate • Nell’allineamento finale, il mapping prodotto può essere uno-a-uno oppure molti-a-molti; • Il mapping molti-a-molti è in grado di considerare paraloghi e ortologhi, ma può essere più difficile da interpretare. Panoramica su algoritmi di allineamento di reti PPI Un algoritmo di allineamento di reti PPI: GASOLINE GASOLINE GASOLINE: Greedy and Stochastic algorithm for Optimal Local alignment of Interaction NEtworks • Greedy: usa un approccio seed-extend per cercare sottografi conservati, partendo da allineamento di singoli nodi (seed dell’allineamento); • Stochastic: usa il Gibbs sampling, un metodo stocastico e probabilistico, per cercare un mapping ottimale tra i nodi. Preprocessing • Obbiettivo: ridurre lo spazio di ricerca per i potenziali seed; • Si ‘marcano’ le proteine che hanno ortologhi in tutte le reti allineate e grado superiore un valore di soglia σ; • Tutti i nodi ‘marcati’ nella rete Gi sono aggiunti ad un insieme Si; • Gli insiemi S1, S2, …, Sk sono utilizzati come input per GASOLINE e aggiornati ad ogni iterazione. Descrizione generale di GASOLINE Input: G: set of N PPI networks S1, S2, …, SN: set of nodes from networks G1, G2, …, GN marked as potential seeds Bootstrap phase: find an optimal alignment of seeds False All aligned seeds are orthologs Remove seeds from S1, S2, …, SN True Save the alignment found Iterative phase: iteratively remove and add nodes True Extension step: extend seeds until the degree ratio increases Removal step: remove the set of mapped nodes with minimum Goodness score S1, S2, …, SN are not empty False Output: set of local alignments of N subgraphs A running example Gibbs sampling • Sia la fase iniziale (bootstrap phase) che la fase iterativa (e in particolare ogni estensione) sono eseguite usando il Gibbs sampling • Il Gibbs sampling è un metodo di campionamento, che fa parte della classe dei metodi Markov Chain Monte Carlo (MCMC); • Il Gibbs sampling si basa sui concetti di catene di Markov e distribuzione stazionaria; Catena di Markov Def: a catena di Markov è una tripla (Q, P(π1),A): • Q è un insieme finite di k stati (o eventi); • πi for i=1, 2, …, è lo stato della catena all’istante di tempo i; • P(π1) è la distribuzione di probabilità iniziale degli stati (probabilità di trovarsi in uno stato all’istante iniziale); • A = [aij] è una matrice di probabilità di transizione da uno stato i ad uno stato j. Tipi di catene di Markov Def: una catena di Markov del primo ordine è una catena in cui la probabilità di trovarsi in uno stato al tempo i+1 dipende soltanto dallo stato della catena al tempo i: i ≥ 1, P(πi+1|π1, …, πi) = P(πi+1|πi) Def: una catena di Markov è finita se l’insieme dei suoi stati è finito. Def: una catena di Markov è irriducibile se tutti I suoi stati sono raggiungibili da qualsiasi stato della catena. Tipi di catene di Markov Def: il periodo di uno stato s della catena di Markov è il numero minimo di transizioni (con probabilità non nulla) che sono necessari per tornare a s partendo da s stesso. E3 E1 E3 E1 … E4 E2 E4 E2 … E1 Period(E1) = 2 Def: uno stato è aperiodico se ha periodo uguale a 1. Def: una catena di Markov è aperiodica se tutti i suoi stati sono aperiodici. Distribuzione stazionaria Def: Data una catena di Markov del primo ordine, finita, aperiodica e irriducibile con n stati, un vettore φ=(φ1, φ2, …, φn) è una distribuzione stazionaria se: φxA=φ • Data una catena di Markov con queste proprietà trovare la distribuzione stazionaria è semplice (risolvendo la precedente equazione); • Il problema inverso è computazionalmente difficile e si può risolvere tramite metodi di campionamento (Gibbs sampling, Hasting-Metropolis, etc…) Bootstrap phase – Gibbs sampling 1. Sia M una catena di Markov in cui gli stati sono combinazioni di k protein, una per ogni rete(prese dagli insiemi Si); 2. Scegli in maniera random una proteina da ogni rete e sia A questo allineamento iniziale; 3. Per i=1,2,…k • Estrai in maniera random una proteina Ai da A; • Sostituisci Ai con una proteina x della stessa rete, sulla base di una probabilità di transizione (ovvero cambia stato in M); • Aggiungi x ad A; 4. Restituisci A. Bootstrap phase – probabilità di trans. • Supponiamo di voler sostituire Ai con x nell’allineamento A; • Sia S(a,b) lo score di similarità tra le sequenze delle proteine a e b (es. BLAST Bit score); • Label similarity score di x: • Probabilità di transizione: Bootstrap phase – terminazione • Il Gibbs sampling viene iterato per un numero fissato di volte; • Al termine del Gibbs sampling, l’ultimo allineamento ottenuto viene restituito. Iterative phase – fase di estensione 1. Sia M una catena di Markov dove gli stati sono combinazioni di k proteine, una per ogni rete (prese dagli insiemi dei nodi adiacenti ai nodi già allineati); 2. Scegli in maniera random un nodo adiacente da ogni insieme e sia A questo allineamento iniziale; 3. Per i=1,2,…k • Estrai in maniera random una proteina Ai da A; • Sostituisci Ai con una proteina x della stessa rete, sulla base di una probabilità di transizione P (cambia stato in M); • Aggiungi x ad A; 4. Estendi ciascun seed con I nodi corrispondenti in A. 5. Ripeti finché il degree ratio dei sottografi allineati cresce. Iterative phase – Probabilità di trans. • Supponiamo di rimpiazzare Ai con x nell’allineamento A; • Label similarity score di x: • Per la similarità topologica, sia V(n) il vettore topologico, un array che memorizza i pesi degli archi che collegano un nodo n ai nodi della stessa rete già allineati. • La posizione dei pesi nel vettore segue l’ordine di inserimento dei nodi nell’allineamento di sottografi parziale. Vettore di topologia - esempio 3 0.3 n 2 0.7 1 V(n) = [0.7, 0, 0.3] Iterative phase – Probabilità di trans. • Similarità tra i vettori topologici di due proteine a e b: • Topology similarity score di x: • Score di similarità complessivo di x: • Probabilità di transizione di x: dove Adj(k) è l’insieme degli adiacenti al sottografo già allineato della k-esima rete. Iterative phase – terminazione • Il Gibbs sampling viene iterato per un numero fisso di volte; • Al termine del Gibbs sampling, l’ultimo allineamento prodotto viene restituito. Degree ratio • Sia S un sottografo allineato, G il grafo di cui fa parte, degInt(x) il numero di archi che collegano un nodo x in S con i nodi di S e deg(x) il grado di x in G; • Degree ratio di S: • Degree ratio dell’allineamento A: • Il processo di estensione viene eseguito finché il degree ratio di A cresce. Removal step • Elimina dall’allineamento corrente l’insieme di nodi allineati che dà il contributo minimo alla qualità dell’allineamento; • Rappresentiamo A come una matrice k x w, dove ogni colonna contiene proteine allineate nelle varie reti; • Eliminiamo la colonna con Goodness score minimo; • Goodness di una proteina A[i,j]: • Goodness di una colonna j di A: Score dell’allineamento finale • La qualità dell’allineamento viene valutata in termini di conservazione strutturale; • Numero di interazioni conservate in nodi x e y di diversi sottografi allineati: • Score di similarità strutturale tra due sottografi allineati P e Q: dove P[i] and Q[i] sono nodi allineati in P and Q. Score dell’allineamento finale • Score di similarità strutturale di un allineamento A: • Index of Structural Conservation (ISC) di A: • ISC(A) [0,1] Postprocessing • Obbiettivo: filtrare complessi che hanno un elevato grado di overlap; • Gli allineamenti vengono ordinati per dimensione e ISC score; • Sia S un sottografo dell’allineamento A e Perc(S) la percentuale di proteine in S osservate in precedenti allineamenti; • Perc(A) è il valore medio di Perc(S) sui vari sottografi allineati in A; • Se Perc(A) è al di sopra di una certa soglia l’allineamento viene scartato. Test – alcuni risultati Test – alcuni risultati Test – alcuni risultati Riferimenti bibliografici Una app per Cytoscape Una app per Cytoscape Una app per Cytoscape Una app per Cytoscape Una app per Cytoscape Una app per Cytoscape Allineamento di reti di strutture di proteine Perché confrontare strutture 3D • La funzione di una proteina è principalmente legata alla sua struttura 3D oltre che alle proteine con cui interagisce; • La struttura 3D di una proteina è generalmente più conservata della sua sequenza; • L’analisi comparativa a livello strutturale può fornire ancora più indizi sulla funzione di una proteina rispetto a quella fatta a livello di sequenze. Allineamento di protein structures • Confrontare due o più strutture 3D di proteine al fine di individuare delle similarità (locali o globali); • Similarità relative sia agli aminoacidi coinvolti che alle loro distanze dagli altri residui; • Obbiettivo: trovare una sovrapposizione ottimale delle strutture. Allineamento di protein structures Allineamento locale • Individuare potenziali siti di legame con altre molecole (proteine, RNA, ecc.) conservati in più proteine; • Applicazioni: o Predire interazioni tra proteine a livello molecolare (docking molecolare); o Drug design. • L’allineamento si può fare sia a livello 3D che 2D (contact maps); • Il mapping a 2D viene fatto per ridurre la complessità computazionale del problema. Funzione di similarità tra aminoacidi • Similarità tra le label dei nodi: matrici di sostituzione (PAM, BLOSUM); • BLOSUM: matrice di sostituzione, con score che indicano la frequenza di sostituzione di aminoacidi con altri, sulla base di allineamenti locali già computati; • BLOSUMx: matrice costruita usando sequenze con non più del 62% di similarità; • Per proteine distanti conviene usare BLOSUM33, per proteine simili si può usare anche BLOSUM80; Valutazione della qualità dell’allineamento • La qualità dell’allineamento è misurata sulla base della distanza media tra gli aminoacidi allineati; • Dati due set di k residui allineati C e D, si cerca prima la sovrapposizione ottimale di questi residui, quella che minimizza la loro distanza nello spazio (tramite rotazioni e traslazioni); • Quindi si calcola l’RMSD (Root Mean Square Deviation) a partire dalle coordinate x,y,z dei residui allineate dopo la trasformazione: Panoramica su algoritmi di allineamento strutturale di proteine • 3D structure comparison: o o o o o o o o DALI; VAST; SSAP; CE; MultiProt; TM-Align; MATT; DeepAlign. • 2D contact maps comparison: o o o o Apurva; (Di Lena et al.); MSVNS; GR-Align. • Local aligners (pairwise): o o ProBiS; SMAP. Un algoritmo di allineamento locale di strutture: PROPOSAL PROPOSAL PROPOSAL: PROtein comparison through Probabilistic Optimal Structure local ALignment • Greedy: use a seed-extend approach to look for conserved substructures, starting from the alignment of triplets of aminoacids; • Stochastic: use a Gibbs sampling strategy to find an optimal mapping between aminoacids. Descrizione di PROPOSAL Differenze tra GASOLINE e PROPOSAL • Gli allineamenti hanno dimensione fissata W; • Si parte da allineamenti di triplette di aminoacidi e non più da singoli nodi; • L’estensione iniziale è fatta sempre fino a W aminoacidi, poi si procede sempre per rimozione e aggiunta di singoli aminoacidi allineati (da W-1 a W e viceversa); • Cambiano le funzioni di scoring per Gibbs sampling; • Goodness sostituita con Badness score. Allineamento iniziale • L’allineamento iniziale avviene a partire da triplette di aminoacidi. • Le triplette candidate ad essere allineate sono tutte quelle in cui gli aminoacidi sono a distanza massima di 10 Angstrom tra loro. • Gli aminoacidi da allineare devono corrispondersi (ad es. C deve essere mecciato con C, D con D, ecc.) Probabilità di transizione nella fase iniziale • Siano S1, S2, …, SN le triplette di aminoacidi nell’alllineamento corrente; • Sia X la tripletta candidata a sostituire Si ad una certa iterazione del Gibbs sampling; • Distance similarity: • La probabilità di transizione è ottenuta normalizzando Sim(X) in [0,1]. Probabilità di transizione nella fase di estensione • Siano S1, S2, …, SN le sottostrutture già allineate; • Vogliamo estendere ogni sottostruttura già allineata con l’aggiunta di un nuovo aminoacido della stessa struttura tramite Gibbs sampling; • Gli aminoacidi candidati sono quelli che si trovano a distanza al più 10 Angstrom da almeno un residuo nella sottostruttura corrispondente; • Sia A l’allineamento corrente di aminoacidi nel Gibbs sampling e supponiamo di sostituire Ai con x; • La probabilità di transizione è calcolata considerando la similarità tra x e gli altri aminoacidi in A e le distanze tra x e gli altri aminoacidi in A; Probabilità di transizione nella fase di estensione • Similarità tra label: • Distance similarity: • La probabilità di transizione è il prodotto delle due similarità Badness score • Nella refinement phase si rimuove il set di aminoacidi allineati che dà il contributo ‘peggiore’ all’allineamento finale; • Badness score: • Si rimuove il set di aminoacidi allineati con più alto Badness score. Test – alcuni risultati Test – alcuni risultati Test – alcuni risultati Riferimenti bibliografici Considerazioni finali • Gli algoritmi descritti possono essere generalizzati ed estesi a qualsiasi tipo di rete e contesto; • Qualsiasi funzione di similarità tra i nodi delle reti può essere usata; • Possibili estensioni: o o o o Analisi di reti sociali; Reti dinamiche; Reti multidimensionali; … Questions?