Biologia Molecolare
Caratterizzazione di un gene clonato
Il sequenziamento
Sequenziare significa determinare la successione dei
monomeri che costituiscono un polimero biologico
•PROTEINE (sequenza di Aminoacidi)
•DNA (sequenza di nucleotidi)
•DNA Genomico
•cDNA
Principi del sequenziamento del DNA
Molte tecniche di biologia molecolare si basano sulla possibilità
di replicare molecole di DNA in vitro:
-Molecola stampo
-Nucleotidi trifosfato
-DNA polimerasi
-Primers
-Appropriato buffer di reazione
La replicazione del DNA
I Nucleotidi utilizzati durante
questa sintesi non sono
nucleotidi normali (cioè
nucleosidi-fosfato) ma sono
nucleosidi trifosfato.
Questi legami fosfato sono
legami ad alta energia, la
loro rottura e la liberazione
del pirofosfato fornisce
energia più che sufficiente
per la generazione del nuovo
legame covalente tra un
nucleotide e un altro
Metodo di Sanger
Metodo di Sanger
Sequenziamento automatico
• Stesso principio del metodo di Sanger
• Il primer o i ddNTP sono marcati con un
marcatore fuorescente
• Lettura tramite laser della molecola appena
questa esce dal gel
• Utilizzo di una sola corsia
– Se si marca il primer?
– Se si marcano i ddNTP
• Gel di poliacrillamide o capillare
• Dato di sequenza acquisito automaticamente
e trasferito al computer
Interpretazione automatica del dato
elettroferogramma
Allungare la sequenza
• Con i metodi automatici è possibile ottenere
sequenze oltre il migliaio di basi
• Con l’allungamento della sequenza
diminuisce la risoluzione e l’intensità del
segnale
• Aumento probabilità che una struttura
secondaria termini la sintesi
• L’affidabilità diminuisce allontanandosi dal
primer
Walking
Sequenziamento shotgun
• Per sequenziare un frammento lungo la
migliore stratgia è quella di dividerlo in
framenti più piccoli.
• Il DNA può essere frammentato e clonato in
una librerie M13 o in plasmidi.
• La libreria deve contenere frammenti
parzialmente sovrapposti
• Dalla libreria si prelevano cloni a caso e si
sequenziano
Sequenziamento shotgun
Diminuzione della produttività
• Una accurata determinazione del 90% della
sequenza può essere ottenuta molto
rapidamente
• Per ottenere un ulteriore 9% sarà necessario
un tempo paragonabile a quello utilizzato per
ottenere il 90%
• Una quantità simile di lavoro sarà necessaria
per ottenere un ulteriore 0,9%
Il flusso dell’informazione genica
Il dogma centrale della biologia
•L’informazione genica è contenuta nel DNA
•Questa informazione è perpetuata nelle generazioni future tramite il processo
semiconservativo chiamato duplicazione del DNA
•L’espressione della informazione genica è invece un processo che passa attraverso
un intermediario transitorio: l’RNA messaggero. Questa molecola è sintetizzata sulla
base di uno STAMPO sul DNA e l’informazione in esso contenuta serve per dirigere
la sintesi di proteine.
•L’informazione passa (quasi) sempre dal DNA all’RNA e da questo alle proteine.
Mantenimento dell’informazione
DNA
Trasferimento dell’informazione
Trascrizione
Retrotrascrizione
RNA
Traduzione
Informazione contenuta nella
Informazione contenuta nella
Effettuata da alcuni virus sequenza
a RNA
sequenza
e nella quantità
chiamati retrovirus
Ruolo funzionale
Proteina
Informazione contenuta nella
struttura e nella quantità
IL DNA: natura ed informazione
Contenuto informativo del DNA
La struttura del DNA è costante. Il DNA è sempre una doppia elica
INDIPENDENTEMENTE dalla sequenza di nucleotidi che lo compone.
L’ossatura di zucchero e fosfato è costante.
La parte variabile, e quindi più informativa, è rappresentata dalla sequenza di BASI
AZOTATE.
Per questo motivo, in bioinformatica, l’informazione contenuta nel DNA è rappresentata da
una stringa composta da un alternanza 4 caratteri che rappresentano le basi azotate del DNA.
GCGGCGGCGGGCGGGTACTGGCTTCTGGGGCCAGGGGCCAGGGGCGGTGGGCGCCGGGACCGCGG
AGCTGAGGAGCGGGGCCCGGCCAGGGCTGGAGACTTTGCGCCCGGGGGCACCGGGGCTGCGCGCGG
TCGCACACATCCACCGGCGCGGCTTCCCTCGGCGGCCCGGGCTCCGCTCATCCTGCGGCGGGCGGCG
CCGCTCAGGGGCGGGAAGAGGAGGCGGTAGACGCGACCACAGAAGATGTCGGGCCAAACGCTCACGG
ATCGGATCGCCGCCGCTCAGTACAGCGTTACAGGCTCTGCTGTAGCAAGAGCGGTCTGCAAAGCCACTA
CTCATGAAGTAATGGGCCCCAAGAAAAAGCACCTGGACTATTTGATCCAGGCTACCAACGAGACCAATGT
TAATATTCCTCAGATGGCCGACACTCTCTTTGAGCGGGCAACAAACAGTAGCTGGGTGGTTGTGTTTAAG
GCTTTAGTGACAACACATCATCTCATGGTGCATGGAAATGAGAGATTTATTCAATATTTGGCTTCTAGAAATA
CACTATTCAATCTCAGCAATTTTTTGGACAAAAGTGGATCCCATGGTTATGATATGTCTACCTTCATAA
I Geni
• Il gene è l'unità ereditaria e funzionale degli
organismi viventi.
• La maggior parte dei geni codifica proteine, che sono
le macromolecole maggiormente coinvolte nei
processi biochimici e metabolici della cellula.
• Altri geni non codificano proteine, ma producono
RNA non codificante, che può giocare un ruolo
fondamentale nella sintesi delle proteine e
nell'espressione genica (La trascrizione del DNA in
RNA e la traduzione dell'RNA in proteina).
• Parte del contenuto dei geni non viene trascritto, ma
può coordinare la stessa espressione genica.
• Tra queste regioni figurano i promotori, i terminatori
e gli introni .
Struttura del gene
Non tutti gli esoni codificano
• Gli esoni sono normalmente codificanti, ad eccezione
di quelli alle estremità 5' e 3' del gene.
• Tali esoni prendono il nome di UTR (UnTranslated
Region).
Introni
Esoni
• In questo caso il 5' UTR è costituito da tutto il 1°
esone e da parte del 2° esone (regione arancione).
• La regione codificante è indicata in blu, inizia nel 2°
esone e termina nell'ultimo esone.
• Il 3' UTR è costituito da parte dell'ultimo esone
(regione gialla).
I Geni
• Il gene è l’unità ereditaria e funzionale degli
organismi viventi; ad esso sono associate
molteplici informazioni:
Analisi
Filogenetica
Struttura
Sequenze omologhe
in altri genomi
Sequenza
Gene
Proteina
(Funzione)
Localizzazione
genomica
Le sequenze biologiche
• Le
sequenze
nucleotidiche
vengono
rappresentate mediante stringhe su un
alfabeto di 4 caratteri (A, C, G, T), nelle
quali ciascun carattere rappresenta un
singolo nucleotide.
• Analogamente le sequenze proteiche (o
aminoacidiche) vengono rappresentate
mediante stringhe su un alfabeto di 20
caratteri, ciascuno dei quali rappresenta
un singolo aminoacido.
Lo Standard IUB/IUPAC
Acidi Nucleici
A
Adenina
R
G o A (Purine)
B
GTC
C
Citosina
Y
T o C (Pirimidine)
D
GAT
G
Guanina
K
GoT
H
ACT
T
Timina
M
AoC
V
GCA
U
Uracile
W
AoT
N
A C G T (Any)
-
Gap
Aminoacidi
A
Alanina
B
Acido Aspartico o Asparagina
C
Cisteina
D
Acido Aspartico
E
Acido Glutammico
F
Fenilalanina
G
Glicina
H
Istidina
I
Isoleucina
K
Lisina
L
Leucina
M
Metionina
N
Asparagina
P
Prolina
Q
Glutammina
R
Arginina
S
Serina
T
Treonina
U
Selenocisteina
V
Valina
W
Triptofano
Y
Tirosina
Z
Acido Glutammico o Glutammina
X
Qualsiasi (Any)
*
Stop traduzione
-
Gap
NCBI
• NCBI (National
Center for Biotechnology
Information) è l’istituto americano che ospita
GenBank, una delle tre banche dati primarie di
sequenze
nucleotidiche
(http://www.ncbi.nlm.nih.gov).
• Oltre a GenBank in NCBI sono disponibili
numerosi altri Database tra cui:
– GenPept: Database di sequenze proteiche
– Gene: Database di geni
– Pubmed: Database di letteratura biomedica (Abstract,
articoli e citazioni)
• NCBI offre anche svariati strumenti per l’analisi di
dati biologici tra cui BLAST, un tool che permette
di effettuare ricerche per similarità nei database
di sequenze.
Entrez
• I vari database di NCBI sono accessibili mediante
un unico motore di ricerca che prende il nome di
Entrez:
http://www.ncbi.nlm.nih.gov/Entrez/index.html
Esempio di ricerca: BAX (1)
• Ricerchiamo i dati relativi al gene BAX utilizzando Entrez:
• Otterremo i risultati suddivisi per categoria:
Esempio: BAX (2)
• Nella pagina dei risultati relativi alle
nucleotidiche clicchiamo sul link alla
cercata:
sequenze
sequenza
• A questo punto otterremo la pagina coi risultati
(formato GenBank), che andiamo a vedere nel
dettaglio nella prossima slide.
Esempio: BAX (3)
LunghezzaTipo
delladi
sequenza sequenza
Accession
Organismo
Number
Riferimenti
bibliografici
Esempio: BAX (4)
Link alla
regione
codificante
Estremi della
CDS
Link alla
proteina
corrispondente
Esempio: BAX (5)
• Cliccando su “CDS” otteniamo la regione codificante
della sequenza:
Il formato FASTA
• E’ possibile scegliere il formato di visualizzazione della
sequenza; scegliamo il formato più utilizzato, il FASTA.
• E’ anche possibile inviare la sequenza nel formato prescelto
direttamente su file (Send to -> File).
Esempio: BAX (6)
• A questo punto andiamo a visualizzare la proteina codificata cliccando
sul link relativo; si aprirà una pagina simile a quella vista per la
sequenza nucleotidica (formato GenPept):
Esempio: BAX (7)
• Facciamo adesso un passo indietro tornando alla
schermata di Entrez. Clicchiamo su Gene:
Esempio: BAX (8)
• Verrà visualizzata una pagina con informazioni dettagliate sul
gene:
Accession Number
della entry di Gene
Informazioni
Nome
del gene
varie
sul gene,
e specie di
tassonomia,
appartenenza
tipo,
breve
descrizione
Esempio: BAX (9)
• Scorrendo la pagina si trovano le informazioni
strutturali:
Accession number della
sequenza del gene
Accession
numbers dei
rispettivi geni
(GenBank)
Struttura delle
Accession
number
isoforme
del gene (in
delle rispettive
blu la regione non
proteinetradotta,
(GenPept)
in rosso la
regione codificante)
Esempio: BAX (10)
• Informazioni sulla localizzazione genomica
Coordinate
Cromosoma Geni
BAX e suo
limitrofiposizionali
e relativo orientamento
orientamento
Esempio: BAX (11)
•
In fondo alla pagina troviamo ulteriori inf. :
Pathways:
Fenotipo
(modo
cascate
in
di cui
reazioni
si
Informazioni
generali
sulla
Omologhi
del
gene
in
altre
Sequenze
correlate
Varianti
del
gene
all’interno
manifesta
delle
la
quali è della
funzione
e
suifunzione
processi
specie
coinvolta
proteina interessati.
codificata)
la proteina codificata
biologici
La Gene Table
• E’ possibile scegliere dalla tendina in alto a sinistra, di
visualizzare la Gene Table:
• La Gene Table mostra i confini di esoni ed introni del gene:
Scarica

Lezione 7 aprile 2010 Dr. S. Forte