Sequenziamento e annotazione
dei genomi
Perché sequenziare genomi interi ?
• Sequenza completa di tutti i geni
• Possibilità di determinare la struttura esoni-introni
• Mappare i geni e le altre sequenze
• Rivelare le regioni di controllo non codificanti
• Identificare polimorfismi
• Scoprire l’inatteso
Dimensioni del genoma (Mb)
Procarioti:
Mycoplasma Genitalium
Escherichia Coli
Bacillus Megaterium
0,58
4,64
30
Eucarioti:
Saccaromices cerevisiae
Arabidopsis thaliana
Drosophila Melanogaster
Caenorabditis Elegans
Homo Sapiens
Salamandra
12
100
140
100
3000
90000
Schema approccio tradizionale
DNA Genomico
Subclonaggio in vettori BAC, P1 o PAC e assemblaggio
di contigs con minimo di ridondanza
Subclonaggio in vettori da sequenziamento
Sequenziamento
Schema whole genome shotgun
DNA Genomico
Frammenti casuali lunghi (5-20 kb) e corti (0.4-1.2 kb) derivanti
da rottura meccanica del DNA clonati in vettori da
sequenziamento
Sequenziamento automatico bidirezionale
Ricostruzione computerizzata della sequenza genomica
Contigs: tratti di sequenza assemblati senza
discontinuità.
Scaffolds: serie di due o più contigs uniti da lunghi
inserti le cui estremità sono in diversi contig ma di cui
non si conosce la regione centrale.
Contig
Contig
Scaffold
Sequenziamento del genoma di
Hemophilus Influenzae (1.8 Mb)
• 20000 frammenti di 1,6-2 kb
• 30000 saggi di sequenziamento
• 11,6 Mb di sequenza totale
• 30 ore per assemblare la sequenza su
un calcolatore con 512 Mb di RAM
Genomi sequenziati
Microorganismi:
244 batteri
18 archeobatteri
42 eucarioti
Pesci:
Fugu Rubripes
Danio Rerio
Mammiferi:
Piante:
Arabidopsis Thaliana
Oryza Sativa
Invertebrati:
Drosophila Melanogaster
Anopheles Gambiae
Caenorhabditis Elegans
Caenorhabditis Briggsae
Homo Sapiens
Mus Musculus
Rattus Norvegicus
E una volta che il genoma è sequenziato?
Annotazione
• Posizione dei geni
• Struttura esoni-introni
• Inizio e termine della trascrizione
• Posizione regioni di controllo
• Eventuali splicing alternativi
• Sequenza delle proteine codificate
• Profili di espressione
• Funzioni biologiche
• Sequenze ripetute
• Polimorfismi
Sistemi di annotazione
Metodi predittivi
• Content-based: analizzano le proprietà globali
delle sequenze in esame
• Site-based: analizzano la presenza o assenza di
specifiche sequenze segnale (pattern o consensus)
Metodi comparativi
• Confronto di sequenze di cDNA con genomiche
• Confronto tra sequenze genomiche
Metodi funzionali
A cosa servono i metodi predittivi?
Una notevole percentuale dei geni identificati
nell’ambito dei progetti di sequenziamento
genomico codificano per proteine
precedentemente sconosciute.
Da ciò deriva la necessità di metodi
computazionali per predire la struttura dei
nuovi geni, in modo da annotare rapidamente le
sequenze genomiche ed avere una guida per la
validazione sperimentale.
Cosa bisogna predire?
• Esoni interni (-exon---gt---intron-----ag--exon---)
• Primo esone (sequenza 5’ UTR)
• Ultimo esone (sequenza 3’ UTR)
• Esoni unici
• Siti di splicing alternativo
• Promotori (TATA e CAAT boxes)
• Segnali di poliadenilazione (AAUAAA)
• ATG di inizio
• STOP codon
• Se la sequenza non è completa può essere
necessario predire i singoli esoni.
I metodi content-based usano le
coding-statistics, e valutano:
• Lunghezza degli esoni e degli introni
• Codon usage
• Frequenza di tutti i possibili esameri in una
particolare cornice di lettura
• Frequenza di particolari triplette in
dipendenza dal contesto (adiacenti a donor e
acceptor site)
I metodi site-based usano signal sensors,
valutando la presenza di:
• Siti di legame per fattori trascrizionali
• Consensus promotori
• CpG islands
• Splice donor e acceptor consensus
• Branch site
• Translation start consensus
• Poly-A signals
Impossibile utilizzare un unico metodo
Siccome i singoli parametri hanno un valore
predittivo molto basso, tutti i programmi di
predizione utilizzano varie combinazioni degli
approcci content- e site-based. Alcuni
programmi integrano anche un approccio
comparativo. La combinazione è fondamentale
se si vuole arrivare alla predizione di una
struttura genica completa.
Strumenti algoritmici utilizzati per
la costruzione del modello
• Hidden Markov Models (HMM)
• Neural networks
• Linear discriminant functions
• Quadratic discriminant functions
• Dynamic programming
• Combinazione dei vari strumenti
Annotazione strutturale dei genomi
Programmi utilizzati per la predizione genica
in sequenze di DNA genomico
Overview: http://linkage.rockefeller.edu/wli/gene/
Esempio: MZEF valuta nove variabili
• Lunghezza dell’esone
• Probabilitá per un nucleotide di essere una transizione esoneintrone (frequenza esameri in una sliding window di ± 54 nt).
• Probabilitá per un nucleotide di essere una transizione introneesone.
• Preferenza posizione-dipendente triplette 5’ss
• Preferenza posizione-dipendente triplette 3’ss
• Punteggio branch site nella window -54/-3
• Preferenza esameri forward versus reverse strand
• Preferenza esameri esone vs introne
• Preferenza esameri esone vs introne per uno specifico frame
La determinazione della struttura genica è
fondamentalmente un problema decisionale.
Approccio comune: l’apprendimento
Qualunque sia il modello matematico
utilizzato per la predizione, sia le coding
statistics che i modelli delle sequenze segnale
vengono appresi da un training set, che
condiziona pesantemente l’efficienza dei
programmi nel riconoscimento di diverse
sequenze.
Per una valutazione dei diversi
programmi bisogna considerare:
• Sensibilitá e specificitá a livello nucleotidico
• Sensibilitá e specificitá a livello esonico
• Proporzione di esoni non predetti
• Proporzione di esoni predetti erroneamente
• Proporzione di predizioni parziali
Rogic, S., Mackworth, A. K., and Ouellette, F. B. (2001).
Evaluation of gene-finding programs on mammalian sequences.
Genome Res 11, 817-32.
Parametri che possono influire sulla
bontá delle predizioni
• Lunghezza esoni
• Tipo di esoni
• Contenuto di G+C
Contenuto G+C
• Categorie composizionali L1, L2, H1, H2, H3,
progressivo aumento % G+C
• L1+L2 60% del genoma umano, H1+H2 30%,
H3 5%.
• Densitá genica relativa: L1+L2 4%, H1+H2
20%, H3 76%.
• Le zone L1-L2 codificano proteine piú grandi, e
i geni hanno piú introni e piú lunghi.
• La maggior parte dei porgrammi ha piú
difficoltá a predire geni nelle zone A+T rich, per
alcuni i parametri della ricerca possono essere
regolati in base alla composizione.
Lunghezza esoni
• La lunghezza degli esoni interni segue una
distribuzione approssimativamente gaussiana
con picco tra 100 e 170 bp.
•Gli esoni piú piccoli vengono mancati molto
facilmente dai diversi programmi.
•Gli esoni grandi vengono difficilmente mancati,
ma spesso sono predetti in modo non accurato.
Tipo di esoni
• Interni (donor + acceptor site)
• Esterni (solo donor o acceptor, sequenze UTR)
• Unici (né donor né acceptor, sequenze UTR)
Programmi: GRAIL
GRAIL: http://compbio.ornl.gov/Grail-1.3/
• Basato su reti neurali che valutano il potenziale
esonico di finestre di lunghezza fissa (100 bp).
• La versione 2 valuta anche l’informazione
contestuale, ed è adatta alle predizioni delle
strutture geniche, oltre ai singoli esoni. XGRAIL.
GRAIL EXP: http://grail.lsd.ornl.gov/grailexp/
• Basato su GRAIL, include anche database
search per raffinare il modello.
Programmi basati su HMM
Genescan: http://genes.mit.edu/GENSCAN.html
GenomeScan: http://genes.mit.edu/genomescan.html
TwinScan: http://genes.cs.wustl.edu
HMMgene: http://www.cbs.dtu.dk/services/HMMgene/
GeneMark.hmm: http://genemark.biology.gatech.edu/GeneMark/
GeneScan, GenomeScan, TwinScan
Altri programmi
MZEF: http://argon.cshl.org/genefinder
• Quadratic discriminant analysis
FGENES: http://genomic.sanger.ac.uk/gf/gf.shtml
• Linear discriminant analysis + dynamic programming
Genie: http://www.fruitfly..org/seq_tools/genie.html
• Neural networks + HMM
GeneMachine: http://genome.nhgri.nih.gov/genemachine/
• Combination of programs
Il problema del primo esone e del
promotore: First Exon Finder
• Basato su funzioni discriminanti quadratiche
• Suddivide i geni in due gruppi, quelli con
promotore CpG related e non CpG related.
• Costruzione di database di primi esoni suddivisi
nei due gruppi, utilizzato per istruire il
programma.
FirstEF: http://rulai.cshl.org/tools/FirstEF/
Promoter inspector
http://www.genomatix.de/software_services/software/products.html
Sequenziamento genomico
Sequenziamento delle sole regioni esoniche
(Expressed Sequence Tags)
cDNA-library
plasmidica direzionale
Picking singoli cloni
5’
Primer
Preparazione DNA
3’
Sequenziamento automatico
Deposito in banca dati (300-700 bp)
Sequenziamento genomico
mRNA (10 copie di cDNA nella library)
Inserti
AAAAAAAA
EST
Tratto non sequenziato del clone
Cosa si può ottenere dalle sequenze EST?
• Inizialmente servivano per identificare rapidamente i
geni anche senza avere la sequenza genomica completa
• Definizione della struttura genica
• Identificazione di mRNA alternativi prodotti dallo
stesso gene (unità trascrizionale)
• Conferma della funzionalità del gene
• Valutazione dei livelli di espressione in diversi tessuti
Cosa ci ha insegnato l’analisi dei genomi?
1. Nei genomi degli organismi più complessi c’è un
numero di geni inferiore alle aspettative.
Il numero di geni (unità trascrizionali) non è
proporzionale alla complessità degli organismi
Lievito
Drosophila
Mammiferi
= 6000 geni
= 13000 geni
= 22000 geni
La complessità degli organismi non dipende dal
numero dei geni, ma dalla loro regolazione
Cosa ci ha insegnato l’analisi dei genomi?
2. Conservazione evolutiva delle proteine: il ‘core
proteome’
Cosa ci ha insegnato l’analisi dei genomi?
3. Sviluppo di nuove strutture modulari durante
l’evoluzione
Cosa ci ha insegnato l’analisi dei genomi?
4. Circa la metà del genoma dei mammiferi è
costituita da DNA ripetitivo derivante da eventi di
trasposizione.
Cosa ci ha insegnato l’analisi dei genomi?
5. Il genoma umano è caratterizzato da un elevato
numero di duplicazioni segmentarie
Cosa ci ha insegnato l’analisi dei genomi?
6. Identificazione di diversi milioni di polimorfismi,
in particolare Single Nucleotide Polymorphisms
(SNPs)
Ricadute:
Analisi basi genetiche delle malattie multifattoriali
Farmacogenomica
Tossicogenomica
Comparazione di genomi a diverse distanze evolutive
•
•
•
•
•
I geni conservati tra procarioti ed eucarioti sono coinvolti
principalmente nel metabolismo dell’RNA.
I geni coinvolti nelle funzioni cellulari basali sono
conservati tra lieviti e eucarioti superiori.
La similitudine tra il proteoma degli invertebrati e quello
dei mammiferi è uno strumento formidabile per
l’annotazione funzionale.
I pesci (in particolare il fugu) hanno proteomi molto simili
a quelli dei mammiferi, ma molto meno ‘DNA spazzatura’.
La comparazione tra genomi che hanno una distanza
filogenetica comparabile a quella uomo-topo sono
particolarmente utili per identificare sia le regioni
codificanti che le regioni di controllo. A questa distanza
bastano due specie per ottenere moltissime informazioni.
Comparazione uomo-topo
Mappa di sintenia
Il 40 % dei due genomi può
essere allineato
Comparazione uomo-topo
La comparazioone dei due genomi con algoritmi di
allineamento relativamente semplici consente di identificare
molto agevolmente la maggior parte delle regioni codificanti
e di controllo.
Hs ATTTACGACTTCCAAGTCATCTGAAGTGCATGATGTCAGTC
|
|
||| ||||| |
||
|
|
Mm ACGATCCTAGCCCATGTCATGTTCCCACCAGTTAGAGGATT
Piccola sorpresa: la comparazione dei due genomi con
algoritmi più sofisticati ha permesso di stabilire che il 5% del
genoma umano è sottoposto a pressione selettiva. Si ricordi
che l’informazione codificante rappresenta solo l’ 1,5% del
genoma. A cosa corrisponde il restante 3,5% ?
Comparazione genoma 4 lieviti
Correzione del 15% dei geni precedentemente annotati (e
considerati affidabili)
Comparazione uomo-primati
In questo caso le sequenze genomiche sono molto più simili, e
quindi è più difficile discriminare tra cambiamenti casuali
della sequenza e mutazioni con significato evolutivo.
Se si vogliono identificare le regioni importanti del genoma
confrontando specie così vicine non ne bastano due, ma è
necessario averne di più ed utilizzare algoritmi di analisi più
sofisticati (phylogenetic shadowing). Il vantaggio è che solo
questa analisi può fornire informazioni sulle regioni di
controllo che conferiscono ai primati le loro caratteristiche
peculiari (impossibile comparando uomo-topo)
Allineamento delle sequenze a coppie
Hs ATCTACGACTTCCAAGTCATCTGTAGTCCA
||| ||| ||||| |||||||| || |
1 CTCTGCGACTTCCACGTCATCTGACGTGGA
Hs ATCTACGACTTCCAAGTCATCTGTAGTCCA
| ||| || |||||||||||||| | | |
2 AACTATGAATTCCAAGTCATCTGAAATGCT
Hs ATCTACGACTTCCAAGTCATCTGTAGTCCA
|| ||| |||||||||||||||| || ||
3 ATGTACCACTTCCAAGTCATCTGAAGAGCA
Phylogenetic shadowing
Hs
1
2
3
4
5
6
7
ATCTACGACTTCCAAGTCATCTGTAGTCCA
CTCTGCGACTTCCACGTCATCTGACGTGGA
AACTATGAATTCCAAGTCATCTGAAATGCT
ATGTACCACTTCCAAGTCATCTGAAGAGCA
TTCATCGCCTTCCAAGTCATCTGCAGTACA
AGCTAAGACTTCCATGTCATCTGACGTGTA
ATATACCAGTTCCAAGTCATCTGAATTGCG
ATCCACGGCTTCCAAGTCATCTGAAGCGCA
Phylogenetic shadowing
Hs
1
2
3
4
5
6
7
ATCTACGACTTCCAAGTCATCTGTAGTCCA
CTCTGCGACTTCCACGTCATCTGACGTGGA
AACTATGAATTCCAAGTCATCTGAAATGCT
ATGTACCACTTCCAAGTCATCTGAAGAGCA
TTCATCGCCTTCCAAGTCATCTGCAGTACA
AGCTAAGACTTCCATGTCATCTGACGTGTA
ATATACCAGTTCCAAGTCATCTGAATTGCG
ATCCACGGCTTCCAAGTCATCTGAAGCGCA
Browsers genomici: il Golden path
Browsers genomici: il Golden path
Bibliografia
1.
Adams, M. D., et al. The genome sequence of Drosophila
melanogaster. Science 287, 2185-2195, 2000.
2.
Boffelli, D., et al. Phylogenetic Shadowing of Primate
Sequences to Find Functional Regions of the Human Genome.
Science 299, 1391-1394, 2003.
3.
Venter, J. C., et al. The sequence of the human genome.
Science 291, 1304-1351, 2001.
4.
Lander, E. S.,et al. Initial sequencing and analysis of the
human genome. Nature 409, 860-921, 2001.
5.
Waterston, R. H.,et al. Initial sequencing and comparative
analysis of the mouse genome. Nature 420, 520-562, 2002.
Scarica

Genomi - sistemi informativi service desk