Bioinformatica
Corso di Laurea specialistica in Informatica
Il Genoma e i Geni
16/03/2011
Il Genoma
• Il genoma è l'insieme di tutte le informazioni
biologiche necessarie alla costruzione e al
mantenimento di un organismo vivente.
• Genomi a DNA
– Organismi unicellulari e pluricellulari
• Genomi a RNA
– Alcuni virus
Il Genoma nucleare
• Il genoma umano, similmente ai genomi di tutti gli
animali pluricellulari, è costituito da due componenti
distinte, il genoma nucleare e il genoma
mitocondriale.
• Genoma nucleare
– Contiene circa 3 miliardi di nucleotidi raggruppati in
molecole lineari (Cromosomi):
• 22 coppie di autosomi (coppie di cromosomi uguali)
• 1 coppia di cromosomi sessuali, X e Y
– XX nelle donne, XY negli uomini
• Le cellule sessuali, o gameti, sono aploidi,
contengono cioè solo una copia per cromosoma (23
cromosomi in tutto) a differenza delle cellule
somatiche che sono diploidi (46 cromosomi).
Il Genoma mitocondriale
• E' una molecola di DNA circolare di circa 16 mila
nucleotidi, presente in copie numerose nei
mitocondri, gli organelli che generano energia.
• Contiene informazioni per la sintesi di molecole di
rRNA e tRNA.
Il Progetto Genoma Umano
• Il Genoma è fatto di DNA, molecola costituita
da 4 diversi tipi di nucleotidi (A, C, G, T).
• Obiettivo del progetto: determinare la
sequenza nucleotidica dell'intero genoma
nucleare umano.
• Progetto pubblico, finanziato da governi e
organizzazioni di tutto il mondo.
• Progetto privato: Celera Genomics.
• Risultati pubblicati nel 2001.
– Sequenziato circa l'84% del genoma umano, ad
esclusione di alcune regioni telomeriche
(estremità dei cromosomi) e prossimali ai
centromeri (centro del cromosoma).
Il Genoma: ATCGGACTGACTAGCATACAG…
• Ciascun progetto genoma ha prodotto oltre 2
miliardi e mezzo di sequenze di coppie di basi.
• L'intera sequenza del genoma umano, scritta in
Times New Roman, dimensione 12, avrebbe una
lunghezza di 5000 km!
• Ogni essere umano ha una propria sequenza
genomica individuale, ad eccezione dei gemelli
omozigoti.
• Principali differenze tra i genomi di due individui
diversi:
– Polimorfismi (Posizioni nella sequenza contenenti nucleotidi
differenti)
– Microsatelliti (Sequenze ripetute di nucleotidi, differenti in
numero tra un individuo ed un altro)
La sequenza del Genoma
• La sequenza nucleotidica del genoma è
presente su ciascuno dei due filamenti
della doppia elica del DNA.
• I due filamenti sono antiparalleli, uno
in direzione 5'-3' e l'altro in direzione
3'-5':
5'-… AGATCGATACGAAAGTAC …-3'
||||||||||||||||||
3'-… TCTAGCTATGCTTTCATG …-5'
• Dato un filamento è possibile costruire
l'altro per complementarità: ciascun
filamento contiene la stessa
informazione!
Cosa c'è scritto nel Genoma?
• Il genoma contiene tutte le informazioni
necessarie al funzionamento di un intero
organismo.
• Ogni cellula contiene una copia del
Genoma.
• Alcune informazioni sono utilizzate allo
stesso modo da ogni tipo di cellula, altre
sono invece caratteristiche di determinati
tipi cellulari.
• Un neurone ed un leucocita (globulo
bianco) contengono lo stesso genoma e
quindi le stesse informazioni, ma non le
utilizzano tutte allo stesso modo.
Com'è organizzato il Genoma?
• Il Progetto Genoma di un organismo ci rivela
la sua sequenza nucleotidica: a quel punto
occorre riuscire ad interpretarla
correttamente!
• La sequenza di un Genoma è
apparentemente una successione casuale di
nucleotidi; in realtà sono distinguibili diversi
tipi di elementi, strutturati in maniera ben
precisa, ciascuno preposto ad una ben
determinata funzione.
Elementi tipici di un Genoma
•
•
•
•
Geni
Pseudogeni
Sequenze ripetute
Microsatelliti
I Geni
• Un gene è un segmento di genoma
contenente l'informazione per la sintesi di
una proteina.
Gene
Trascrizione/Traduzione
La sequenza
nucleotidica del gene
contiene la "ricetta" per
la sintesi della proteina.
Proteina
I Geni (2)
• L'espressione dei geni coinvolge un
intermediario chiamato RNA messaggero,
che copia la sequenza del gene e la porta
fino al citoplasma, dove la sequenza viene
tradotta affinché avvenga la sintesi della
proteina (nei ribosomi).
• Non tutti i geni però codificano proteine.
• Alcuni di essi infatti specificano vari tipi di
RNA non codificante, alcuni dei quali
verranno introdotti più avanti.
Gli Pseudogeni
• Gli pseudogeni sono copie non funzionali di
geni.
• Sono una sorta di relitti evolutivi.
• Gli pseudogeni convenzionali sono geni
inattivati in seguito ad una o più mutazioni
nella loro sequenza nucleotidica.
• Una volta che uno pseudogene è diventato
completamente non funzionale si degraderà
per accumulazione di ulteriori mutazioni e
potrebbe addirittura non essere più
riconosciuto come relitto genico.
Junk DNA
• Circa il 62% del genoma umano è costituito
da regioni intergeniche, parti del genoma che
si trovano tra i geni e la cui funzione è
sconosciuta.
• Queste sequenze venivano chiamate Junk
DNA (DNA spazzatura), perché non se ne
conosceva la funzione.
• Ricerche recenti tendono invece a rivalutare
tali sequenze, che si rivelano potenzialmente
coinvolte in numerosi processi: non è detto
che ciò di cui non capiamo ancora la funzione
sia poco importante!
Ripetizioni disperse e microsatelliti
• La grande maggioranza del DNA intergenico
è rappresentata da sequenze ripetute di
vario tipo.
• Il DNA ripetitivo può essere diviso in due
categorie:
– Ripetizioni intersperse
– DNA ripetuto in tandem
Ripetizioni intersperse
• Esistono 4 tipi di ripetizioni disperse nel
genoma:
–
–
–
–
SINE
LINE
Elementi LTR
Trasposoni a DNA
• Ciascun tipo di queste ripetizioni sembra
derivare da un elemento trasponibile, un
segmento mobile di DNA in grado di
spostarsi da una posizione ad un'altra del
genoma, lasciando una propria copia.
Microsatelliti
• I microsatelliti sono ripetizioni in tandem di
DNA.
• In un microsatellite l'unità ripetuta è
generalmente breve, fino a 13 bp (base pairs
– paia di basi).
• Non si sa se i microsatelliti hanno una
funzione.
• Derivano da un errore del processo di
replicazione del genoma durante la divisione
cellulare, quindi potrebbero rappresentare
semplicemente un prodotto inevitabile della
replicazione genomica.
Il Genoma Umano
I Genomi degli eucarioti
• Le strutture di base di tutti i genomi
eucariotici sono simili, ad eccezione della
dimensione.
–
–
–
–
–
Funghi: 12-25 Mb
Protozoi: 190 Mb
Invertebrati: 97-5000 Mb
Vertebrati: 400-3300 Mb
Piante: 125-120000 Mb
Grande genoma = Molti geni?
• La dimensione del genoma è correlata al numero di
geni che esso contiene?
Non è detto!
Saccharomyces cerevisiae (lievito)
Homo sapiens (uomo)
Genoma: 12 Mb
(0,004 volte la grandezza del genoma
umano)
Genoma: 3200 Mb
Geni: 5800
Geni: 25000
• Se dimensione e numero di geni fossero correlate, il
lievito dovrebbe contenere, in proporzione a quello
umano, solo 100 geni, mentre ne contiene 5800!
Il Paradosso del valore C
• Con valore C si intende la quantità di DNA per
genoma; non c’è un'ovvia correlazione fra la
complessità degli organismi e la quantità di DNA del
genoma.
• In realtà nei genomi degli organismi meno complessi
si risparmia spazio in quanto i geni sono più vicini
tra loro.
• Confrontando il genoma umano con quello del
lievito, emerge che l'organizzazione di quest'ultimo è
molto più economica di quella del genoma umano:
– I geni sono più compatti
– Le sequenze intergeniche sono più piccole
– Le ripetizioni disperse e le altre sequenze non codificanti
occupano molto meno spazio
• Il genoma del lievito è più "concentrato"!
I Genomi dei Procarioti
• I genomi dei procarioti sono molto differenti
da quelli degli eucarioti:
– Sono molto più piccoli
– Sono molto più compatti
– Sono contenuti in una singola molecola di DNA
circolare
– Alcuni geni possono essere localizzati su molecole
indipendenti di DNA più piccole, chiamate
plasmidi.
I Geni
• Il gene è l'unità ereditaria e funzionale degli
organismi viventi.
• La maggior parte dei geni codifica proteine, che sono
le macromolecole maggiormente coinvolte nei
processi biochimici e metabolici della cellula.
• Altri geni non codificano proteine, ma producono
RNA non codificante, che può giocare un ruolo
fondamentale nella sintesi delle proteine e
nell'espressione genica (La trascrizione del DNA in
RNA e la traduzione dell'RNA in proteina).
• Parte del contenuto dei geni non viene trascritto, ma
può coordinare la stessa espressione genica.
• Tra queste regioni figurano i promotori, i terminatori
e gli introni .
Tre classi di geni
• I geni non sono sequenze casuali ma hanno caratteristiche ben
precise.
• Buona parte dell'informazione contenuta in un gene viene "copiata" in
una molecola di RNA; il resto del gene è coinvolto comunque nel
processo di "copia" (trascrizione).
• Alcuni tipi di RNA vengono utilizzati per la sintesi delle proteine, altri
svolgono svariati tipi di funzioni.
• Esistono tre classi di geni, che differiscono in base al tipo di RNA che
viene prodotto con la loro espressione:
– Geni della I classe
• RNA ribosomiale (rRNA)
– Geni della II classe
• RNA messaggero (mRNA)
• Piccoli RNA nucleari (snRNA)
• Micro RNA (miRNA)
– Geni della III classe
•
•
•
•
RNA transfer (tRNA)
Piccoli RNA nucleolari (snoRNA)
Piccoli RNA citoplasmatici (scRNA)
Micro RNA (miRNA)
L'RNA messaggero
• Gli RNA Messaggeri (mRNA) sono gli unici tipi
di RNA codificante.
• Sono i trascritti dei geni che codificano
proteine.
• Trasportano l'informazione genica nel
citoplasma, dove tale informazione viene
impiegata per la sintesi delle proteine.
• Costituiscono solo il 4% circa degli RNA totali
della cellula ed hanno vita breve, in quanto
vengono degradati poco dopo la sintesi
proteica.
I principali RNA non codificanti
• RNA ribosomiali (rRNA)
– Sono i più abbondanti nelle cellule
– Sono parte integrante dei ribosomi, le particelle
dove ha luogo la sintesi proteica
• RNA transfer (tRNA)
– Sono piccole molecole coinvolte nella sintesi
proteica
– Trasportano gli aminoacidi ai ribosomi in modo
tale da permettere la loro unione nell'ordine
specificato dalla sequenza nucleotidica dell'mRNA
Altri tipi di RNA non codificante
• Piccoli RNA nucleari (snRNA)
– Sono coinvolti nella maturazione degli mRNA
• Piccoli RNA nucleolari (snoRNA)
– Svolgono un ruolo cruciale nella maturazione delle
molecole di rRNA
• Piccoli RNA citoplasmatici (scRNA)
– Gruppo eterogeneo che comprende molecole con
una varietà di funzioni diverse, alcune ancora
misteriose
• microRNA (miRNA)
– Sono piccole molecole che regolano l'espressione
genica a livello post-trascrizionale
Com'è fatto un gene?
ATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGATGGAGGAGGACATGTACGTGGACATTTTCCTGGACCCTTATACCTTCCAGGATGACTTTCCTCCAGCTACGTCTCAAC
TATTCAGCCCAGGAGCGCCTTTAGATGTGCACCCACTTAATCCATCCAATCCAGAGACTGTATTTCATTCACATCTTGGTGCAGTCAAAAAGGCACCCAGTGACTTTTCATCTGTGGATCTAAGCTTCTT
ACCAGATGAACTTACCCAAGAAAATAAAGACCGAACTGTCACTGGAAACAAAGTCACAAATGAGGAAAGCTTTAGGACTCAAGATTGGCAAAGTCAGTTGCAGTTGCCTGATGAACAAGGCAGTGGG
CTGAACTTGAATAGCAACAGTTCACCAGATACCCAGTCATGTCTGTGCTCTCATGATGCTGACTCCAACCAGCTCTCTTCAGAAACACCAAATTCCAATGCCTTACCTGTGGTATTGATATCATCCATGA
CACCAATGAACCCTGTTACAGAATGTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCTTTGAATGCCAAAAACACAGAATATA
ATCCAAAGAGGTTTGCTGCAGTCATAATGAGGATCCGAGAGCCAAGGACCACAGCTCTTATATTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGACGAGTCTCGGCTGGCAGCAAGA
AAGTATGCTCGCGTGGTGCAGAAGCTGGGGTTCCCCGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGCAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGC
AGTTCAGTAGTTATGAGCCTGAACTGTTCCCTGGCCTTATTTATAAGATGGTGAAACCGCAGGTTGTGCTGCTCATCTTTGCATCTGGAAAGGTTGTACTGACAGGTGCCAAAGAGCGTTCTGAGATCTA
CGAAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGGAGGACATATACCTGGACCTCTTCCTGGATCCTTATACCATCCAGGATGACTTTCCTCCAGCTATGTCTCAA
CTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGAGACTGTGTTTCATCCACATCTTGGTGGAGTCAAAAAGGCATCCACTGACTTTTCATCTGTGGATCTAAGCTTCTTACC
AGATGAACTTACCCAAGAAAATAGAGACCAAACTGTCACTGGAAACAAGCTGGCAAGTGAGGAAAGCTGTAGGACTCGAGATCGACAAAGTCAGTTGCAGTTGCCCGATGAACATGGCAGTGAGCTG
AACTTGAATAGCAACAGTTCACCAGATCCCCAGTCATGCCTGTGCTTTGATGATGCTCACTCCAACCAGCCCTCTCCAGAAACACCAAACTCCAATGCCTTACCTGTGGCATTGATAGCATCCATGATGC
CAATGAACCCTGTTCCAGGATTTTCTGGAATTGTGCCTCAATTACAGAATGTAGTTTCCACTGCAAATCTGGCCTGTAAATTGGATCTGAGAAAAATAGCCCTGAATGCCAAAAACACAGAATATAACC
CAAAGAGGTTTGCTGCAGTAATAATGAGGATCCGAGAGCCAAGGACAACAGCTCTCATCTTTAGCTCTGGGAAAGTGGTCTGTACAGGAGCCAAAAGTGAAGAGGAGTCTCGGCTGGCAGCGAGAAA
GTATGCTCGTGTGGTGCAGAAGCTCGGGTTCCCTGTCAGATTCTTCAATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAAATTTCCCATCAGGCTGGAGATTTTGGCACTAACCCATCGGCAG
TTCAGTAGTTATGAACCTGAACTTTTCCCCGGCCTTATTTATAAGATGGTAAAACCACAGGTTGTGTTGCTAATCTTTGCATCTGGAAAAGTTGTGTTAACAGGTGCCAAAGAGCGTTCTGAGATCTATG
AAGCATTTGAAAACATGTATCCTATTCTAGAAAGTTTTAAGAAAGTCTGAATGGAGCAGGAGGAGACCTACCTGGAGCTCTACCTGGACCAGTGCGCCGCTCAGGATGGCCTTGCCCCACCCAGGTCTC
CCCTGTTCAGCCCAGTTGTACCTTATGATATGTACATACTGAATGCATCCAATCCGGATACTGCATTTAATTCGAACCCTGAAGTCAAAGAAACATCTGGTGATTTCTCATCTGTGGATCTTAGCTTCCTA
CCAGATGAAGTTACCCAGGAAAATAAAGACCAGCCTGTCATTAGCAAACACGAAACTGAAGAAAATTCTGAAAGCCAAAGTCCACAAAGTAGGTTGCCATCACCCAGCGAACAGGACGTTGGGCTGG
GCTTAAACAGCAGCAGTTTGTCAAATTCCCATTCACAGCTGCACCCTGGTGATACTGACTCAGTCCAGCCCTCTCCTGAGAAACCAAACTCCGACTCCTTGTCTCTGGCATCCATAACTCCCATGACACC
AATGACCCCTATTTCAGAATGTTGTGGAATTGTACCTCAACTACAGAATATAGTTTCCACTGTAAACCTGGCCTGTAAGTTGGATCTGAAGAAAATAGCTTTGCATGCAAAAAATGCAGAATATAACCC
AAAGAGGTTTGCTGCTGTCATAATGAGGATCCGAGAGCCCAGGACAACAGCCCTTATATTTAGCTCTGGGAAGATGGTCTGCACGGGAGCCAAAAGTGAAGAGCAGTCTCGACTTGCAGCAAGAAAAT
ATGCTCGTGTGGTGCAGAAGCTTGGGTTCCCTGCCAGATTCCTCGATTTTAAAATTCAGAACATGGTTGGAAGCTGTGATGTGAGATTTCCCATCAGGCTGGAAGGTTTGGTGCTAACCCATCAGCAGTT
CAGTAGTTACGAGCCTGAACTGTTTCCTGGTCTTATTTATAGAATGGTAAAACCACGAATTGTGTTGCTTATCTTTGTATCTGGAAAAGTTGTGTTGACAGGTGCCAAAGAACGTTCTGAGATCTATGAA
GCATTTGAAAACATCTATCCTATTCTAAAAGGTTTTAAAAAAGCCTGAGAAGTCCCCTGGGTAACTTCCAGGCAGCTTCATTTCTGAAGAGTCCAAACTGCAGCATAGAGGACTTATGAAAAACTGTAA
AAAATTGGTTTTAAGTGTTCCATTAAACCCAAAGAAAACAGTCACACAACAAAGCCAGACACAGAAAATTAGGGTGACATGTTTCCTGTCATATGTGGAGCCTAGAGAACATAGAGATGATGTGAAAG
CAGAAGGAGCTATCAAGAAAAAGGAAAGCAGATGGGGCAGCAGATCCATGGGAATACTGGCAGAACTGTATAATGGAAGAATGTCGTATGCACATATGAACATGTCATAATGAAACCTAGTATTTTGT
ACAGTTAATATGGACTAGACAATAGCACAAAGAAATTAGAGATTAGTCTAGCTATATGAAGAGGCTACATCAAAGATCACTCCTTTTTGATGGACAAATTTAATTCCTTATAACTGTAGAGCTGAGATA
TTCACTTGCTTGTCAGACATTAAATGTATCCCACTCTTAGGGTCTAGAAGTTACCCAGACTTCTTGTACCATGGTCCCATCTATCTTCAAAGTCAGCAGTGACGACTCTGCCTTATGACAAGGTCATCTCC
TGCTTTCAAATCCCTCCCAAAGAGTGGCCAATTCCTCCTTGGCTGCTCAGTCAGTAAGGGCAGGCTTGGATCCTTTCCCTTTCCTAACAATGGACTTGGAATTTTAATTACATCTTCAAAACCCAAGAGC
ATTTGGTTTTTTTTAGATAACTGGGAGATACATTTGGAGATAGGGATTTGGGGAGCCACCGAAACATTCTACCTACCATAGGAAATAGTTATAAATCTATTTTACTGGCTGGAGAGATGGCCAAGCAGTT
AAGAATACTTTCTGCTTTTTCAAAGGATAGAAATTCTGTTCCTAGCACCCACACTGGGCTTCTTAGTGATTCCAACTCTACAGGACCTGATGCCTCCTTCTCTCTGGCTTCCTTAGATACCAGTTTGTACT
GGCACATGCATATGCACAGGAGAAGGCTCTCTCTCTCTCTCTCCCCCCCCCCCCTCTCTCTCTCTCACACACACACACAAGATGGTGAGATATAATTAATAAAATAAAGTAAAATTTGGATCTGTTTTAG
TCAGTTTGGGATGCCATAATAAAACACCACAAACTGGGCAGTTTAAACCACAGAAATTTCCTTCATAGTTCTGAAGGCTGGAGATCTAAGATCAAGGTCCCTGCAGATTTGGTCTCTCCTGTAGCAATC
CTCCATCTTTCCTTTTAGGTAGCTGCCTTAATGTTGCTCTTTTTACAGCTTTTTCTTTGTATTTCTATGAAAACATCAGACATATTGGATTGGGGCTTCTACACATGATCTTCATGGGATAAGCAATAACCA
TAGTTACTGATCTGTGAGGCTGGTTCTGAGTGTGCAGCTCAGTAGGCTGTCTCATTTACAGACACTATGACATTACATCACACATCACTATATAAATCCCAGATTTTTCAAAAGGATCCCCCTATTTTTAT
TGGAATGTCTGACTCTAGTGCAGGTTATCCAAGCTCCATTCTCAGGTTCGTTTTATCCACCAAGACTGAGCAGATGAGCTGGGCACAGAGACATGATGATGAATAATTTAAATTGTTCCTTTTAAACAGT
AGAATCAAGTAAGGAAGATTTAAAAATACATTTTGCAATCTCTTACATCAAAGTGTCTTCTTCTAGAACAGTTCAATACAGTTAAGCTAAGACATTTGAATTAAAGCGTTTAAGAAAGAAAAGCTTCTCT
GGATATTTGGTTTTACATTAACTTCTTGAGTTGTCTGAACCCTAACTGTGGAATTTGCACAGCTGTAGGCAAATTCTCTGTAATAGGTGAAAATCTACCTGGGGTGTGAAGGTGAAGAATAATTACAGAA
ATATCACATCTGAATAGATGAGGGGATTCAGCGGGCAAGGGTGCTTGCCACCAAGCCTGACACTCTGGGTTTGATCCTTGTGTTTCTTCCAGAGCTGGAAGGAGAGAACCTACTCCTGAAAATTGTCTT
CTGACCATAACATGAGCTCTGCACTGTGCATGTGTCCATGCACACATGCCAATGAAGATAAATCAATATTAGAAATATCACATCTAAGAATCTGGGTATGGTGATGCTCATGCATGTTGTAACCCCAGA
ACTTAGGAGCTGGAGGATATACAAGTTTGTGGCTAGCCTGGACTACATGAGAAGAGAAGGGGGAAGGGAAAGAGAAGGAAAAGAAGAAAAGAAAAGGAAAAGGATAAGGATAAAGGCAGAAGAGA
AAAGCATTCTTTTCTCACTTGCACAATGAGAAAACCTTATCATGCTACTCTACTGGAAGCACTAGTCTCGGCCCTCCTCTTCTTCTGGGTGCCACCAGCTGTGTCTTGCCTGGCTCATCAACTCCTTCTCT
GCTTCTCACCTGACTCCTCAGCTCATTCACAGCATCTGTGCAAGGCAGCAGAGCTGGTCCCGCCTCACTGCGTGCTCCCTGAGGCTGATAAAAGGTATCTGCTCCCACAGCCAGACTGGTACTAACAAA
GCTTCTTCCACTTGCCTGGACGCTGATTCCTTTGCTTGTCCTCAGCTCTACGATGACTTTCCTCCAGCTATGTCTCAACTGTTCAGCCCAGGAGTGCCTTTAGACATGCACTCACTTCCATCTAATCCAGG
Struttura dei Geni eucariotici codificanti
• I geni codificanti sono quelli che vengono
trascritti in mRNA.
• Contengono una parte realmente codificante,
che specifica la sequenza degli aminoacidi
che costituiranno la proteina, ed una parte
non codificante.
• A monte della sequenza che verrà trascritta
in mRNA vi sono le sequenze regolatrici.
• La sequenza trascritta è costituita da due tipi
di elementi, detti esoni ed introni.
• Solo gli esoni contengono informazioni per la
sintesi della proteina.
Struttura del gene
Sequenze regolatrici
• Le sequenze regolatrici sono situate a monte del sito
di inizio della trascrizione.
• Svolgono un ruolo fondamentale nell'espressione del
gene, permettendo l'avvio e la regolazione della
trascrizione.
• Le sequenze regolatrici prossimali, cioè vicine al sito
di inizio della trascrizione, sono dette Promotori.
• Elementi Promotori fondamentali sono il TATA box, il
CAAT box e il GC box.
• Altri elementi regolatori distali, cioè lontani dal sito
di inizio della trascrizione, sono gli enhancers e i
silencers (i primi amplificano, i secondi reprimono la
trascrizione).
Sequenza trascritta
• La sequenza che viene trascritta in mRNA,
contiene le informazioni necessarie per la
sintesi proteica (regione codificante tradotta)
ed altre sotto-sequenze non tradotte.
• La regione codificante è formata da elementi
chiamati Esoni, intervallati da elementi non
codificanti chiamati Introni.
• Normalmente gli introni sono più grandi degli
esoni.
Com'è fatta una sequenza codificante?
• I geni sono sequenze nucleotidiche, sequenze di
4 tipi diversi di caratteri: A, C, G e T.
• I geni che codificano proteine contengono
schemi di lettura aperti, ORF (Open Reading
Frames), costituiti da una serie di triplette di
nucleotidi dette codoni.
• L'informazione contenuta nel gene specifica la
sequenza della proteina che dovrà essere
sintetizzata, ovvero la successione degli
aminoacidi della proteina, mediante una
successione di codoni:
ATGGGACAGCAGGGATTTAATTAA
Ogni codone specifica uno ed un solo aminoacido.
Come sono fatte le ORF?
• Le ORF cominciano con un codone di inizio, normalmente ATG,
e finiscono con un codone di stop che può essere TAA, TAG o
TGA.
Il DNA è formato da due filamenti complementari che sono avvolti a formare
una doppia elica, conformazione a bassa energia che conferisce stabilità alla
molecola.
Le due estremità sono dette per convenzione 5’ e 3’. Le sequenze vengono lette sempre
nell’ordine 5’ -> 3’, su entrambi i filamenti.
Gli appaiamenti canonici (di Watson/Crick) sono:
A-T
G-C
5’- AGTAGAACGCCAAATCGAGCCTAGCATA – 3’
3’- TCATCTTGCGGTTTAGCTCGGATCGTAT – 5’
La sequenza di un gene si trova su uno dei due filamenti: solo uno dei due filamenti
contiene la sequenza da trascrivere.
Come sono fatte le ORF? (2)
• Ogni sequenza di DNA ha 6 possibili schemi di
lettura, tre in una direzione e tre nella direzione
opposta sul filamento complementare:
GGT-----------------------TGG------------------------ATG-------------------------5’- ATGGTAACGCCAAATCGAGCCTAGCATA – 3’
3’- TCATCTTGCGGTTTAGCTCGGATCGTAT – 5’
------------------------TAT
----------------------GTA
--------------------CGT
• Normalmente la ORF codificante è quella più lunga.
I codoni
• I codoni della ORF corretta specificano la
sequenza di aminoacidi della proteina
corrispondente.
• Il primo codone, che è di solito ATG, specifica
sia l'inizio della traduzione che un particolare
aminoacido, la Metionina (M).
• I tre codoni di stop invece indicano solo la
fine della traduzione e non codificano nessun
aminoacido.
5’- GTATGAACGCCAAATCGAGCTAGCATA – 3’
3’- CATACTTGCGGTTTAGCTCGATCGTAT – 5’
Non tutti gli esoni codificano
• Gli esoni sono normalmente codificanti, ad eccezione
di quelli alle estremità 5' e 3' del gene.
• Tali esoni prendono il nome di UTR (UnTranslated
Region).
Introni
Esoni
• In questo caso il 5' UTR è costituito da tutto il 1°
esone e da parte del 2° esone (regione arancione).
• La regione codificante è indicata in blu, inizia nel 2°
esone e termina nell'ultimo esone.
• Il 3' UTR è costituito da parte dell'ultimo esone
(regione gialla).
Struttura dei geni procariotici
• La struttura dei geni procariotici è più semplice.
• Spesso, nei genomi procariotici, diversi geni vengono controllati
da un'unica regione regolatrice: un tale insieme di geni viene
definito operone (Es. operone formato dai geni A, B, C, D, E).
• I geni dell'operone codificano determinate proteine.
• Il promotore, a monte dei geni, è necessario all'inizio della
trascrizione.
• L'operatore, nella sequenza regolatrice, regola l'espressione dei
geni.
Scarica

2-Genoma_e_geni_2011