Sequenziamento e annotazione dei genomi Perché sequenziare genomi interi ? • Sequenza completa di tutti i geni • Possibilità di determinare la struttura esoni-introni • Mappare i geni e le altre sequenze • Rivelare le regioni di controllo non codificanti • Identificare polimorfismi • Scoprire l’inatteso Dimensioni del genoma (Mb) Procarioti: Mycoplasma Genitalium Escherichia Coli Bacillus Megaterium 0,58 4,64 30 Eucarioti: Saccaromices cerevisiae Arabidopsis thaliana Drosophila Melanogaster Caenorabditis Elegans Homo Sapiens Salamandra 12 100 140 100 3000 90000 Schema approccio tradizionale DNA Genomico Subclonaggio in vettori BAC, P1 o PAC e assemblaggio di contigs con minimo di ridondanza Subclonaggio in vettori da sequenziamento Sequenziamento Schema whole genome shotgun DNA Genomico Frammenti casuali lunghi (5-20 kb) e corti (0.4-1.2 kb) derivanti da rottura meccanica del DNA clonati in vettori da sequenziamento Sequenziamento automatico bidirezionale Ricostruzione computerizzata della sequenza genomica Contigs: tratti di sequenza assemblati senza discontinuità. Scaffolds: serie di due o più contigs uniti da lunghi inserti le cui estremità sono in diversi contig ma di cui non si conosce la regione centrale. Contig Contig Scaffold Sequenziamento del genoma di Hemophilus Influenzae (1.8 Mb) • 20000 frammenti di 1,6-2 kb • 30000 saggi di sequenziamento • 11,6 Mb di sequenza totale • 30 ore per assemblare la sequenza su un calcolatore con 512 Mb di RAM Genomi sequenziati Microorganismi: 244 batteri 18 archeobatteri 42 eucarioti Pesci: Fugu Rubripes Danio Rerio Mammiferi: Piante: Arabidopsis Thaliana Oryza Sativa Invertebrati: Drosophila Melanogaster Anopheles Gambiae Caenorhabditis Elegans Caenorhabditis Briggsae Homo Sapiens Mus Musculus Rattus Norvegicus E una volta che il genoma è sequenziato? Annotazione • Posizione dei geni • Struttura esoni-introni • Inizio e termine della trascrizione • Posizione regioni di controllo • Eventuali splicing alternativi • Sequenza delle proteine codificate • Profili di espressione • Funzioni biologiche • Sequenze ripetute • Polimorfismi Sistemi di annotazione Metodi predittivi • Content-based: analizzano le proprietà globali delle sequenze in esame • Site-based: analizzano la presenza o assenza di specifiche sequenze segnale (pattern o consensus) Metodi comparativi • Confronto di sequenze di cDNA con genomiche • Confronto tra sequenze genomiche Metodi funzionali A cosa servono i metodi predittivi? Una notevole percentuale dei geni identificati nell’ambito dei progetti di sequenziamento genomico codificano per proteine precedentemente sconosciute. Da ciò deriva la necessità di metodi computazionali per predire la struttura dei nuovi geni, in modo da annotare rapidamente le sequenze genomiche ed avere una guida per la validazione sperimentale. Cosa bisogna predire? • Esoni interni (-exon---gt---intron-----ag--exon---) • Primo esone (sequenza 5’ UTR) • Ultimo esone (sequenza 3’ UTR) • Esoni unici • Siti di splicing alternativo • Promotori (TATA e CAAT boxes) • Segnali di poliadenilazione (AAUAAA) • ATG di inizio • STOP codon • Se la sequenza non è completa può essere necessario predire i singoli esoni. I metodi content-based usano le coding-statistics, e valutano: • Lunghezza degli esoni e degli introni • Codon usage • Frequenza di tutti i possibili esameri in una particolare cornice di lettura • Frequenza di particolari triplette in dipendenza dal contesto (adiacenti a donor e acceptor site) I metodi site-based usano signal sensors, valutando la presenza di: • Siti di legame per fattori trascrizionali • Consensus promotori • CpG islands • Splice donor e acceptor consensus • Branch site • Translation start consensus • Poly-A signals Impossibile utilizzare un unico metodo Siccome i singoli parametri hanno un valore predittivo molto basso, tutti i programmi di predizione utilizzano varie combinazioni degli approcci content- e site-based. Alcuni programmi integrano anche un approccio comparativo. La combinazione è fondamentale se si vuole arrivare alla predizione di una struttura genica completa. Strumenti algoritmici utilizzati per la costruzione del modello • Hidden Markov Models (HMM) • Neural networks • Linear discriminant functions • Quadratic discriminant functions • Dynamic programming • Combinazione dei vari strumenti Annotazione strutturale dei genomi Programmi utilizzati per la predizione genica in sequenze di DNA genomico Overview: http://linkage.rockefeller.edu/wli/gene/ Esempio: MZEF valuta nove variabili • Lunghezza dell’esone • Probabilitá per un nucleotide di essere una transizione esoneintrone (frequenza esameri in una sliding window di ± 54 nt). • Probabilitá per un nucleotide di essere una transizione introneesone. • Preferenza posizione-dipendente triplette 5’ss • Preferenza posizione-dipendente triplette 3’ss • Punteggio branch site nella window -54/-3 • Preferenza esameri forward versus reverse strand • Preferenza esameri esone vs introne • Preferenza esameri esone vs introne per uno specifico frame La determinazione della struttura genica è fondamentalmente un problema decisionale. Approccio comune: l’apprendimento Qualunque sia il modello matematico utilizzato per la predizione, sia le coding statistics che i modelli delle sequenze segnale vengono appresi da un training set, che condiziona pesantemente l’efficienza dei programmi nel riconoscimento di diverse sequenze. Per una valutazione dei diversi programmi bisogna considerare: • Sensibilitá e specificitá a livello nucleotidico • Sensibilitá e specificitá a livello esonico • Proporzione di esoni non predetti • Proporzione di esoni predetti erroneamente • Proporzione di predizioni parziali Rogic, S., Mackworth, A. K., and Ouellette, F. B. (2001). Evaluation of gene-finding programs on mammalian sequences. Genome Res 11, 817-32. Parametri che possono influire sulla bontá delle predizioni • Lunghezza esoni • Tipo di esoni • Contenuto di G+C Contenuto G+C • Categorie composizionali L1, L2, H1, H2, H3, progressivo aumento % G+C • L1+L2 60% del genoma umano, H1+H2 30%, H3 5%. • Densitá genica relativa: L1+L2 4%, H1+H2 20%, H3 76%. • Le zone L1-L2 codificano proteine piú grandi, e i geni hanno piú introni e piú lunghi. • La maggior parte dei porgrammi ha piú difficoltá a predire geni nelle zone A+T rich, per alcuni i parametri della ricerca possono essere regolati in base alla composizione. Lunghezza esoni • La lunghezza degli esoni interni segue una distribuzione approssimativamente gaussiana con picco tra 100 e 170 bp. •Gli esoni piú piccoli vengono mancati molto facilmente dai diversi programmi. •Gli esoni grandi vengono difficilmente mancati, ma spesso sono predetti in modo non accurato. Tipo di esoni • Interni (donor + acceptor site) • Esterni (solo donor o acceptor, sequenze UTR) • Unici (né donor né acceptor, sequenze UTR) Programmi: GRAIL GRAIL: http://compbio.ornl.gov/Grail-1.3/ • Basato su reti neurali che valutano il potenziale esonico di finestre di lunghezza fissa (100 bp). • La versione 2 valuta anche l’informazione contestuale, ed è adatta alle predizioni delle strutture geniche, oltre ai singoli esoni. XGRAIL. GRAIL EXP: http://grail.lsd.ornl.gov/grailexp/ • Basato su GRAIL, include anche database search per raffinare il modello. Programmi basati su HMM Genescan: http://genes.mit.edu/GENSCAN.html GenomeScan: http://genes.mit.edu/genomescan.html TwinScan: http://genes.cs.wustl.edu HMMgene: http://www.cbs.dtu.dk/services/HMMgene/ GeneMark.hmm: http://genemark.biology.gatech.edu/GeneMark/ GeneScan, GenomeScan, TwinScan Altri programmi MZEF: http://argon.cshl.org/genefinder • Quadratic discriminant analysis FGENES: http://genomic.sanger.ac.uk/gf/gf.shtml • Linear discriminant analysis + dynamic programming Genie: http://www.fruitfly..org/seq_tools/genie.html • Neural networks + HMM GeneMachine: http://genome.nhgri.nih.gov/genemachine/ • Combination of programs Il problema del primo esone e del promotore: First Exon Finder • Basato su funzioni discriminanti quadratiche • Suddivide i geni in due gruppi, quelli con promotore CpG related e non CpG related. • Costruzione di database di primi esoni suddivisi nei due gruppi, utilizzato per istruire il programma. FirstEF: http://rulai.cshl.org/tools/FirstEF/ Promoter inspector http://www.genomatix.de/software_services/software/products.html Sequenziamento genomico Sequenziamento delle sole regioni esoniche (Expressed Sequence Tags) cDNA-library plasmidica direzionale Picking singoli cloni 5’ Primer Preparazione DNA 3’ Sequenziamento automatico Deposito in banca dati (300-700 bp) Sequenziamento genomico mRNA (10 copie di cDNA nella library) Inserti AAAAAAAA EST Tratto non sequenziato del clone Cosa si può ottenere dalle sequenze EST? • Inizialmente servivano per identificare rapidamente i geni anche senza avere la sequenza genomica completa • Definizione della struttura genica • Identificazione di mRNA alternativi prodotti dallo stesso gene (unità trascrizionale) • Conferma della funzionalità del gene • Valutazione dei livelli di espressione in diversi tessuti Cosa ci ha insegnato l’analisi dei genomi? 1. Nei genomi degli organismi più complessi c’è un numero di geni inferiore alle aspettative. Il numero di geni (unità trascrizionali) non è proporzionale alla complessità degli organismi Lievito Drosophila Mammiferi = 6000 geni = 13000 geni = 22000 geni La complessità degli organismi non dipende dal numero dei geni, ma dalla loro regolazione Cosa ci ha insegnato l’analisi dei genomi? 2. Conservazione evolutiva delle proteine: il ‘core proteome’ Cosa ci ha insegnato l’analisi dei genomi? 3. Sviluppo di nuove strutture modulari durante l’evoluzione Cosa ci ha insegnato l’analisi dei genomi? 4. Circa la metà del genoma dei mammiferi è costituita da DNA ripetitivo derivante da eventi di trasposizione. Cosa ci ha insegnato l’analisi dei genomi? 5. Il genoma umano è caratterizzato da un elevato numero di duplicazioni segmentarie Cosa ci ha insegnato l’analisi dei genomi? 6. Identificazione di diversi milioni di polimorfismi, in particolare Single Nucleotide Polymorphisms (SNPs) Ricadute: Analisi basi genetiche delle malattie multifattoriali Farmacogenomica Tossicogenomica Comparazione di genomi a diverse distanze evolutive • • • • • I geni conservati tra procarioti ed eucarioti sono coinvolti principalmente nel metabolismo dell’RNA. I geni coinvolti nelle funzioni cellulari basali sono conservati tra lieviti e eucarioti superiori. La similitudine tra il proteoma degli invertebrati e quello dei mammiferi è uno strumento formidabile per l’annotazione funzionale. I pesci (in particolare il fugu) hanno proteomi molto simili a quelli dei mammiferi, ma molto meno ‘DNA spazzatura’. La comparazione tra genomi che hanno una distanza filogenetica comparabile a quella uomo-topo sono particolarmente utili per identificare sia le regioni codificanti che le regioni di controllo. A questa distanza bastano due specie per ottenere moltissime informazioni. Comparazione uomo-topo Mappa di sintenia Il 40 % dei due genomi può essere allineato Comparazione uomo-topo La comparazioone dei due genomi con algoritmi di allineamento relativamente semplici consente di identificare molto agevolmente la maggior parte delle regioni codificanti e di controllo. Hs ATTTACGACTTCCAAGTCATCTGAAGTGCATGATGTCAGTC | | ||| ||||| | || | | Mm ACGATCCTAGCCCATGTCATGTTCCCACCAGTTAGAGGATT Piccola sorpresa: la comparazione dei due genomi con algoritmi più sofisticati ha permesso di stabilire che il 5% del genoma umano è sottoposto a pressione selettiva. Si ricordi che l’informazione codificante rappresenta solo l’ 1,5% del genoma. A cosa corrisponde il restante 3,5% ? Comparazione genoma 4 lieviti Correzione del 15% dei geni precedentemente annotati (e considerati affidabili) Comparazione uomo-primati In questo caso le sequenze genomiche sono molto più simili, e quindi è più difficile discriminare tra cambiamenti casuali della sequenza e mutazioni con significato evolutivo. Se si vogliono identificare le regioni importanti del genoma confrontando specie così vicine non ne bastano due, ma è necessario averne di più ed utilizzare algoritmi di analisi più sofisticati (phylogenetic shadowing). Il vantaggio è che solo questa analisi può fornire informazioni sulle regioni di controllo che conferiscono ai primati le loro caratteristiche peculiari (impossibile comparando uomo-topo) Allineamento delle sequenze a coppie Hs ATCTACGACTTCCAAGTCATCTGTAGTCCA ||| ||| ||||| |||||||| || | 1 CTCTGCGACTTCCACGTCATCTGACGTGGA Hs ATCTACGACTTCCAAGTCATCTGTAGTCCA | ||| || |||||||||||||| | | | 2 AACTATGAATTCCAAGTCATCTGAAATGCT Hs ATCTACGACTTCCAAGTCATCTGTAGTCCA || ||| |||||||||||||||| || || 3 ATGTACCACTTCCAAGTCATCTGAAGAGCA Phylogenetic shadowing Hs 1 2 3 4 5 6 7 ATCTACGACTTCCAAGTCATCTGTAGTCCA CTCTGCGACTTCCACGTCATCTGACGTGGA AACTATGAATTCCAAGTCATCTGAAATGCT ATGTACCACTTCCAAGTCATCTGAAGAGCA TTCATCGCCTTCCAAGTCATCTGCAGTACA AGCTAAGACTTCCATGTCATCTGACGTGTA ATATACCAGTTCCAAGTCATCTGAATTGCG ATCCACGGCTTCCAAGTCATCTGAAGCGCA Phylogenetic shadowing Hs 1 2 3 4 5 6 7 ATCTACGACTTCCAAGTCATCTGTAGTCCA CTCTGCGACTTCCACGTCATCTGACGTGGA AACTATGAATTCCAAGTCATCTGAAATGCT ATGTACCACTTCCAAGTCATCTGAAGAGCA TTCATCGCCTTCCAAGTCATCTGCAGTACA AGCTAAGACTTCCATGTCATCTGACGTGTA ATATACCAGTTCCAAGTCATCTGAATTGCG ATCCACGGCTTCCAAGTCATCTGAAGCGCA Browsers genomici: il Golden path Browsers genomici: il Golden path Bibliografia 1. Adams, M. D., et al. The genome sequence of Drosophila melanogaster. Science 287, 2185-2195, 2000. 2. Boffelli, D., et al. Phylogenetic Shadowing of Primate Sequences to Find Functional Regions of the Human Genome. Science 299, 1391-1394, 2003. 3. Venter, J. C., et al. The sequence of the human genome. Science 291, 1304-1351, 2001. 4. Lander, E. S.,et al. Initial sequencing and analysis of the human genome. Nature 409, 860-921, 2001. 5. Waterston, R. H.,et al. Initial sequencing and comparative analysis of the mouse genome. Nature 420, 520-562, 2002.