Introduzione alle reti neurali Francesco Piva Istituto di Biologia e Genetica Università Politecnica delle Marche Caratteristiche delle sequenze codificanti Poiché il codice genetico è degenere, nelle sequenze codificanti dei geni si possono trovare due peculiarità: • la non equiprobabilità nell’uso dei codoni sinonimi definisce un ‘codon usage’ caratteristico delle specie • la correlazione tra basi in posizioni diverse definisce il ‘context-dependent codon bias’ Nella teoria dell’informazione, la non equiprobabilità nella comparsa dei simboli e la correlazione tra simboli di un codice definiscono la ridondanza di un linguaggio. Vantaggi e svantaggi della ridondanza: • tanto più un linguaggio è ridondante, tanto minore è la sua efficienza informativa. In altre parole: a parità di messaggio da trasmettere o memorizzare, dobbiamo utilizzare più simboli per il linguaggio più ridondante • maggiore è la ridondanza di un linguaggio, maggiore è la sua robustezza cioè la capacità di essere compreso anche a seguito di disturbi o mutazioni • la ridondanza permette la coesistenza di linguaggi a diversi strati: traduzione in proteina ma anche regolazione dell’efficienza di splicing. Es. motivi ESE (exon splicing enhancer) e ESS (exon splicing silencer). La nostra anslisi Tramite software da noi realizzato, abbiamo analizzato le correlazioni tra un codone e un nucleotide separati da una distanza compresa tra 1 e 90 basi, a c g 1 2 3 nelle sequenze codificanti di H.sapiens, C.elegans e M.musculus, per determinare in che modo la presenza di un certo codone influenzi le basi che seguono 90 Origine e trattamento dei dati I file contenenti le sequenze dei geni sono state prelevate da Genbank. Purtroppo una parte delle sequenze contenute nei file presentavano dei problemi: alcuni geni non iniziavano con ‘atg’, codoni di stop prematuri, sequenze troncate prima del codone di STOP, sequenze duplicate, geni ‘not experimental’. I file sono stati puliti e ordinati con dei programmi che abbiamo sviluppato ‘ad hoc’. t r i p l e t t a c h e p r e c e d e l e b a s i b aaa aac aag aat aca acc acg act aga agc agg agt ata atc atg att caa cac cag cat cca ccc ccg cct cga cgc cgg cgt cta ctc ctg ctt gaa gac gag gat gca gcc gcg gct gga ggc ggg ggt gta gtc gtg gtt tac tat tca tcc tcg tct tgc tgg tgt tta ttc ttg ttt a s i a v H. sapiens 1 2 3 4 5 6 7 8 9 10 11 g a a a a a a a a t c a c g a c a a/g a g a g g a g g a g a a a g a a a g a g a g a a a c/g g c g c g g g g c g c g g g a a a g/a a a a a g a a/c c g c/g g c g a a g a g g a g g a g a a g a g a g a g a a a a a a c g a c g a c g a g a g g a g a g a g a g a g a g a g a a g a a a/c c/g g a c/g g a c/g a a g g/c g a g g a g a a g a a g a c g a c/g g c c c c/g g g/c c g/c c c c/g g c c/g g/c c g g g g a a g a g a a c/g g c/g c/g c/g g g/c a g/c c g/c g g/c g g c g a g a g a g a g a g a a a t c g a c c g g a g/c g a c/g g g/c g c/g g a a a g a g a g/a a g/a a a c/g g a c/g g a c/g g a g a g g a g/c g a g/c g a g a g a g a g a g a g g a g a c/g g c/g g c/g g g/c c g/c g c g/c g g/c g g g a g a g g a g g g a c g c/g g c/g g g a c/g g g/c g c/g g g c g g g a a a t c g a c g a c g g a c/g g g/c g c/g g g g a g a g a a c/g g a c g a c g a g a a a g a g a g a a a c/g g c c g g c c g c g g g a a a a/c c g a c/g c g g/a a a g g c g a g a a g g a a g a g a a a a/c c g a c g a c g a a g a g a g a g a a a a l l e d e l l a C.elegans 12 1 2 3 4 5 6 7 8 9 10 g/a a g a g/a a a g c a a g a g a g g a a a/g a g a g g a t a t/a a t g a t t g t g a a g c a/g a c g a g a g a a t a a g a a g t/a g a t g a t g a a t g a g a a g c/g a a g a g a g g a a t a a g a a g a t/a g a t g a t/a g a t t g a a g a t c/g a a g a g a g a/g a g a g a g g t g a t g a t g a g a g a g c/g a/g a g a a g g/c a a a a g a g a a t a t a t c a/t g a t g a a g c/g g a g a a g c/g a a t a t g a g c a a a a t a a a g a/t t g a t g c/g a a g a a g g/c a a a a a t g a t g g a t g a t a/t t g t a g a t g a t g c/g a/g a c g a a/t g g/c a a a a a t g a g c/g t g a t g a t g g a t g a g a a g c/g g/a a g a g a g g/c a a g/a a g a g g a t g a t g a t g a t t g t g a t/a g c/g g/a a g a g a g g/c a a a t g a g g/c t/a g a t g a t g a/g a t g t g t g c/g g a g a g g c/g g t/a g a t g t g t t g a t g a g c a/g a c g a g a g c/g a a/t a a t g a g g t g a t g a t g c/g a a g a g a g g a t g a t g a t g a c t g t g a t c a a g a g c a a t a t g a g c a g a t g a t g c a a g a a t g c a a t g a t g a t g g a t g a t g a t g t a g a t a a t g c a a g a g a g a a a a t g a t g g t g a t g a t t r 11 a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a a 12 1 g a a t g t g a g t g t a/g a a t g g a g t g t/a g a a a a a a a a a a a a a a a a a a a a t a i g g a g t g a/t g c a g g t g a g t g/c a/t g a g t g t/a g a g t g t g a a/g t g t g a g t g a t g t g a g t g c/a g/a t g t g c/a g t g p 2 a a a a t l 3 c g c g a c a a a a a a a a a c c g c g e t t a M.musculus 4 5 6 7 a a a a c g a g g a a a g g a c g g/c g g a a g c g g g g a g g/a a g a c g g a g g a g a g g a c g g g a g/c g c/g c g a g/c c/g c g c g g a c g a g t g a g g a g t c g a g g a g a g t g/c g c/g g g a g c g a c c g a g t c g a g/c g g c g a a c g g 8 a a a a a c c c c g c a g/c a a c a g a a a c a a a a c a g a c c g/c g g g/c c/g g c a g a c a c/g g a a g a c g a g g a g g g/c g c/g g a g g c g g g g a g a c g c/g g a g a c a 9 c g/c a g/c c/g a c a c c/g a a a c a g a a g/c c/g a c c a c g/c a a a a c c g/c g a c a a a t a a g a a a/g a c g a a a c c g c a c c g a a 10 11 12 a a aaa a c aac g a g aag a aat a aca c acc g g/c acg a act a aga g c agc g a agg g a agt a a ata g a c atc g a atg g a att g a caa a c cac g a g cag a cat g cca g c ccc g g/c ccg g cct g a cga g g/c cgc g a c/g cgg g a cgt a cta c ctc g c/g ctg a ctt g a gaa g a c gac g a a gag g a gat g gca g c gcc g c/g gcg g gct g gga g c ggc g c ggg g ggt g a gta g c gtc g g/c gtg g a gtt a c tac a tat a tca c tcc g g/c tcg tct g c tgc a tgg tgt a tta c ttc g a ttg a ttt Tabella riassuntiva che riporta le principali correlazioni tra una tripletta e i nucleotidi a valle Uno sguardo di dettaglio 1 aaa aac aag aat aca acc acg act aga agc agg agt ata atc atg att g a a t a/g a g a g a a g g g/a a a/c a a g a g a a g a g a 2 3 4 a c g a g c/g g g g g c g c g 5 a a a a a a a g g g g g a a a a a a H. sapiens 6 7 8 9 10 a a a c g a c g g a g g g a a g a c g c g c g c g a a a g c/g g c g g g a g g g a g a a a c g a c g g a g g a g 11 12 a a c a g a a c aaa aac aag aat aca acc acg act aga agc agg agt ata atc atg att a a a a a a a a 1 g a a g g a g g a/g a a g g a g g c/g g c/g 2 a a a a t 3 c g c g a c a a a a a c c g M.musculus 5 6 7 a a a c g a g g a a a g g a c g g/c g g a a g c g g g g a g g/a a g a c g g a g g a g 4 a 8 a a a a a 9 C.elegans 1 2 3 4 5 6 7 8 9 10 g/a a g a g/a a a g a a g a g a g a a a/g a g a g g a t a t/a a t g a t t g t g a a g a/g a c g a g a g a a t a a g a a g t/a g a t g a t g a a t g a g a a g a a g a g a g a a t a a g a a g a t/a g a t g a t/a g a t t g a a g a t a a g a g a g a/g a g a g a g g t g a t g a t g 10 11 12 a a aaa c a c aac g g a g aag a aat a aca c c acc a g/c g g/c acg a a act a a aga c g c agc a g g a agg a g a agt a a a ata a c g a c atc a g a atg a g a att 11 a a a a a a a a a a a a a a a a 12 t t t t t t Idea Poiché lo schema delle correlazioni nelle posizioni 3n, è caratteristico di una specie, si è pensato di utilizzarlo per provare a riconoscere la specie a cui appartiene una certa sequenza genica. Sequenza genica ? ……………… H.sapiens C.elegans M.musculus Per la non linearità e l’elevato numero di variabili del problema si è scelto di affrontarlo utilizzando un algoritmo che implementa una rete neurale. Uno dei più grossi problemi del modello computazionale matematico introdotto da John von Neumann (Macchina di von Neumann) è la sua rigidità e l'impossibilità di rispondere a stimoli esterni (input) in maniera diversa da ciò che viene inizialmente immesso nell'elaboratore. In parole semplici, un computer, generalmente, può riconoscere e rispondere solo a stimoli che sono stati codificati precedentemente; anche le risposte, inoltre, sono sempre rigidamente decise a priori. Le Reti Neurali nascono dall’idea di poter riprodurre alcune delle funzioni e capacità del cervello umano L’area di applicazione dominante delle Reti Neurali (RN) è il riconoscimento di regolarità, o pattern recognition, e l’obiettivo fondamentale di tale caratteristica è la classificazione. (categorizzazione) Un esempio delle sue potenzialità è la possibilità di riconoscere volti, voci etc. Il neurone artificiale assoni n sinapsi x1 x2 w1 x3 w3 xn wn w2 i 1 dendriti b inputs weights y f ( wi xi b) corpo bias assone f non linear function Struttura di una rete neurale nodi uscite Similitudine tra una rete neurale biologica e una artificiale strato di neuroni di ingresso strato di neuroni nascosto o intermedio strato di neuroni di uscita Vantaggi dell’utilizzo delle reti neurali: Capacità di apprendere e costruire una conoscenza da esempi o dati di esperimenti Sistema da studiare uscita uscita ingresso . . . . . . . .. . . . uscita Capacità di riprodurre (o modellare) qualsiasi comportamento non lineare di un . sistema . . . . . . . . . . .. . ingresso Capacità di classificare dati apparentemente non raggruppabili Es: statistica multivariata . ingresso Altre caratteristiche Risposta continua ad esclusione di un numero finito di discontinuità ad input simili la rete risponde con output simili Tolleranza agli errori scostamenti non significativi dei valori di input vengono assorbiti dalla rete, diminuendo così il rumore statistico e risultando tolleranti agli errori o al decadimento del segnale Tolleranza ai guasti La presenza di molte unità di processamento parallele l'eventuale perdita di un unità ha, nel caso di architetture con molti neuroni, conseguenze non irreparabili Capacità di memorizzare Svantaggi dell’utilizzo delle reti neurali: Ai fini dell’apprendimento dobbiamo fornire alla rete neurale tanti più esempi quanto più fortemente non lineare è il sistema da modellare. Non sappiamo a priori quale sia la miglior topologia (numero di nodi, di strati, collegamenti fra nodi e tipo di funzioni che devono implementare i nodi di ciascun strato) da assegnare alla rete neurale affinchè modelli al meglio il nostro sistema. Una volta che la rete funziona, non sappiamo nulla del suo modello interno, in altre parole non fornisce spiegazioni sul funzionamento del sistema che stiamo studiando. La rete è per noi una scatola nera. Apprendimento Supervisionato input Rete neurale Modifica dei pesi output desiderato output Il problema dei minimi locali Con reti neurali a più strati e funzioni non lineari, l’apprendimento può arrivare ad un minimo locale e non garantire la convergenza Problemi di apprendimento Per avere un’idea della complessità di addestramento di una rete neurale All’aumentare della complessità della rete aumentano le possibilità di classificazione Esempi di applicazione • • • • • • • • Riconoscimento caratteri Riconoscimento immagini tele-rilevate Macchina da scrivere fonetica Eliminazione del rumore (sonar) Sistemi di controllo Previsioni di marketing Previsioni finanziarie Compressione di dati e immagini Evoluzione della capacità di classificare della rete neurale Implicazioni: • I geni di una stessa specie hanno delle caratteristiche in termini di sequenza che li accomuna e permette di riconoscerli • Si possono distinguere anche specie che hanno geni con forte omologia (uomo e topo) • Queste differenze sono legate ad una diversa selezione delle mutazioni nel corso dell’evoluzione? O a un diversa funzionalità (splicing, attivazione genica, interazioni con proteine di regolazione)? • E’ una possibile prova dell’esistenza di un linguaggio o codice ad un livello diverso da quello conosciuto? • Se non si spinge troppo l’apprendimento si ha una situazione in cui è possibile definire un nuovo modo per valutare la distanza di un gene fra specie diverse. Possibili utilizzi dell’algoritmo: Riconoscere le specie quando si estraggono geni da matrici biologiche complesse o sconosciute Migliorare i programmi di riconoscimento dei geni dal genoma Individuazione di specie estranee in organismi OGM Avere un sistema di riconoscimento delle specie che sia portatile, nel caso ci si trovi sul campo e non si abbia accesso alle banche dati su internet Avere nuove indicazioni per la comprensione del funzionamento e dell’evoluzione delle sequenze codificanti Definire meglio le incompatibilità fra genomi di specie diverse molto simili, le barriere tra le specie Sviluppi futuri: Provare a distinguere le sequenze introniche ed esoniche Provare a distinguere le sequenze codificanti e non Aumentare il numero delle specie che è possibile riconoscere Ringraziamenti: Prof Giovanni Principato Direttore dell’Istituto di Biologia e Genetica, Università Politecnica delle Marche, Ancona Dott Michela Raponi Istituto di Biologia e Genetica, Università Politecnica delle Marche e International Centre for Genetic Engineering and Biotechnology, AREA Science Park, Trieste Un esempio pratico: previsione dell’efficienza di splicing Affinchè lo splicing del pre-mRNA avvenga correttamente è necessario che gli introni e gli esoni siano definiti attraverso i siti di splicing in 5’ e in 3’. A seguito del processo di splicing, non tutti gli mRNA processati da pre-mRNA di ugual sequenza potrebbero contenere gli esoni definiti in precedenza e allora si definisce efficienza di splicing relativa ad un particolare esone, il rapporto tra la quantità di mRNA contenente l’esone e il pre-mRNA totale processato. Per modulare l’efficienza di ritenzione dell’esone intervengono proteine che si legano a sequenze esoniche promuovendone od ostacolandone l’inclusione. Di queste sequenze, le prime si dicono exon splicing enhancer (ESE), le altre si dicono exon splicing silencer (ESS). PARTE DELL'ESONE 12 DEL GENE CFTR AAAAATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAACATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGAAGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGACGCAGACCTGTATCTGCTCGACAGTCCGTTCGGGTAT AAAGACGCAGACTTATACTTATTAGACTCCCCCTTTGGATAC AAAGACGCAGACTTATACTTATTGGACTCACCGTTTGGTTAT AAAGACGCAGACTTGTATTTGTTGGACTCACCGTTCGGTTAT AAAGACGCAGATTTATACTTGTTGGATTCCCCCTTCGGCTAT AAAGACGCAGATTTATATTTGTTGGACTCCCCGTTTGGATAT AAAGACGCAGATTTGTATTTATTGGATTCTCCGTTTGGGTAT AAAGACGCCGACCTCTATCTACTCGATAGCCCCTTCGGCTAT AAAGACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAT AAAGACGCGGACCTGTACCTACTGGATAGCCCTTTCGGATAT AAAGACGCGGATTTGTATTTATTGGATTCACCTTTCGGCTAT AAAGACGCTGATTTGTACTTATTGGATTCACCGTTCGGATAT AAAGACGCTGATTTGTATTTATTAGACTCGCCATTCGGATAT AAAGACGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGAGGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATACTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATCCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATGCAGACCTCTACCTCCTAGATAGTCCATTTGGGTAT AAAGATGCAGATCTTTATCTCCTAGACAGCCCATTCGGATAT AAAGATGCAGATTTGTACTTGTTAGACTCGCCCTTTGGCTAT AAAGATGCCGACTTATATTTGTTGGATTCACCCTTCGGCTAT AAAGATGCCGATTTGTACTTATTGGATTCACCCTTCGGATAT AAAGATGCGGACCTTTACCTACTGGACAGTCCCTTTGGTTAT AAAGATGCGGACTTATATTTGTTGGACTCCCCCTTCGGATAT AAAGATGCGGACTTGTATTTATTGGATTCGCCATTTGGTTAT AAAGATGCGGATTTGTATTTGTTAGACTCACCGTTTGGCTAT AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTAGATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGAATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGCATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAAAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGAGAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAG AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAT AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATGC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATTC AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGGTAC EFFICIENZA 15% 15% 100% 85% 50% 100% 100% 60% 100% 90% 70% 100% 100% 100% 100% 90% 100% 95% 10% 45% 40% 70% 25% 100% 100% 100% 100% 90% 60% 5% 10% 10% 70% 10% 80% 5% 25% 100% 95% 10% AAAGATGCTGATTTGTATTTATTAGACTCTCCTTTTGGTTAC AAAGATGGTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGATGTTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGGTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAAGTTGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAATATGCTGATTTGTATTTATTAGACTCTCCTTTTGGATAC AAGAACGCCGACTTATATTTATTAGACTCCCCCTTTGGATAC AAGGACGCAGACCTGTATCTGCTGGACAGCCCGTTCGGGTAT AAGGACGCAGATCTTTATCTTCTCGACAGTCCCTTCGGATAT AAGGACGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC AAGGACGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC AAGGACGCAGATTTGTACTTATTAGATTCACCCTTCGGATAT AAGGACGCAGATTTGTACTTATTAGATTCGCCGTTCGGGTAT AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAC AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT AAGGACGCAGATTTGTATTTGTTAGACTCCCCATTCGGGTAT AAGGACGCCGACCTATACCTACTAGACAGTCCCTTCGGTTAT AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT AAGGACGCCGACTTATACTTGTTGGACTCGCCTTTTGGCTAT AAGGACGCCGACTTGTACTTATTGGATTCCCCATTTGGCTAT AAGGACGCCGACTTGTATTTGTTGGACTCTCCGTTCGGTTAT AAGGACGCCGATCTCTACCTTCTGGACAGTCCGTTTGGGTAT AAGGACGCCGATCTCTATCTACTGGATAGTCCGTTTGGTTAT AAGGACGCCGATTTATACTTGTTGGATTCCCCGTTCGGGTAT AAGGACGCGGACTTGTACTTATTGGACTCCCCCTTCGGTTAT AAGGACGCGGACTTGTATTTATTAGATTCGCCGTTCGGCTAT AAGGACGCGGATCTATACCTTCTCGACAGCCCATTCGGCTAT AAGGACGCTGACTTATACTTGTTAGATTCCCCTTTCGGTTAT AAGGACGCTGACTTGTATTTATTGGACTCCCCATTTGGGTAT AAGGACGCTGATCTCTACCTCCTCGACAGTCCATTTGGCTAT AAGGATGCAGACTTATATTTATTAGACTCCCCCTTTGGATAC AAGGATGCAGATTTATATTTATTAGACTCCCCCTTTGGATAC AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAC AAGGATGCAGATTTATATTTATTAGACTCCCCTTTTGGTTAT AAGGATGCCGACCTGTACCTGCTAGATAGCCCGTTCGGGTAT AAGGATGCCGATCTATATCTACTCGATAGCCCTTTCGGATAT AAGGATGCCGATCTCTACCTCCTTGACAGCCCTTTCGGTTAT AAGGATGCCGATTTATATTTATTAGACTCCCCCTTTGGATAC AAGGATGCGGACTTATACTTGTTGGATTCCCCCTTTGGCTAT AAGGATGCTGACCTCTACCTTCTGGACAGTCCATTCGGTTAT AAGGATGCTGATTTATATTTATTAGACTCTCCGTTCGGTTAT 10% 45% 10% 40% 50% 10% 100% 100% 100% 60% 0% 100% 90% 75% 25% 75% 90% 100% 100% 100% 100% 100% 75% 100% 100% 100% 75% 25% 100% 100% 60% 60% 0% 0% 100% 100% 90% 80% 100% 100% 75% Di seguito riportiamo le previsioni in formato grafico della distribuzione dei motivi ESE ottenuta con il programma ESEfinder (http://exon.cshl.edu/ESE/index.html). I primi tre grafici sono stati ottenuti con sequenze esoniche che sappiamo avere efficienza di splicing nulla o al massimo del 5%. SF2/ASF SC35 SRp40 SRp55 Questi grafici sono stati ottenuti inserendo sequenze esoniche che sappiamo avere efficienza del 100%. Si nota che in termini di densità di motivi ESE, non c’è una grande differenza tra i grafici delle sequenze a minima e a massima efficienza, di qui la limitata utilità dei programmi attualmente disponibili. ….G T A C G T T T A C G…. 0100 1000 0001 0010 0100 1000 1000 1000 0001 0010 0100 Efficienza 0..100% Campus di Padriciano SISSA Scuola Internazionale Superiore di Studi Avanzati Campus di Basovizza Osservatorio Astronomico di Trieste INAF the abdus salam international centre for theoretical physics Laboratorio di biologia marina Il castello di Miramare Istituto talassografico