Definizione di genoteca (o library)
di DNA
Collezione completa di frammenti di
DNA, inseriti singolarmente in un
vettore di clonaggio.
Possono essere di DNA genomico
o di cDNA.
Materiale di partenza: libraries genomiche
Materiale di partenza: cDNA libraries
Oligo-dT priming
RT
First DNA strand
3’
TTTTTTTT 5’
5’
AAAAAAAA 3’
mRNA
Random priming
First DNA strand
RT
RT
5’
5’
AAAAAAAA 3’
5’
mRNA
Materiale di partenza: cDNA libraries
Sintesi del secondo filamento
3’
5’
First DNA strand
TTTTTTTT 5’
AAAAAAAA 3’
mRNA
RNAsi H + DNA polimerasi I
TTTTTTTT 5’
AAAAAAAA 3’
3’
5’
5’
5’
pH alcalino
TTTTTTTT 5’
AAAAAAAA 3’
3’
5’
3’
5’
3’ 5’
3’
5’
DNA polimerasi + ligasi
First DNA strand
TTTTTTTT 5’
AAAAAAAA 3’
Second DNA strand
Materiale di partenza: cDNA libraries
Sintesi del secondo filamento
3’
First DNA strand
5’
TTTTTTTT 5’
AAAAAAAA 3’
mRNA
RNAsi + DNA polimerasi
Loop
Second DNA strand
AAAAAAAA 3’
TTTTTTTT 5’
Nucleasi S1 + DNA polimerasi
Second DNA strand
5’
3’
AAAAAAAA 3’
TTTTTTTT 5’
First DNA strand
La sintesi del cDNA produce, a partire da molecole di messaggero
uguali, molecole di DNA di diversa lunghezza.
Sovrarappresentazione del 3’ se la sintesi è innescata da oligo-dT
cDNA-1 (full-lenght)
3’
5’
TTTTTTTT 5’
AAAAAAAA 3’
mRNA
cDNA-2
3’
5’
3’
cDNA-3
5’
3’
5’
cDNA-4
TTTTTTTT 5’
AAAAAAAA 3’
TTTTTTTT 5’
AAAAAAAA 3’
TTTTTTTT 5’
AAAAAAAA 3’
Vettori plasmidici
Vettori fagici
Vettori fagici
Left
Ligasi
Concatameri
Right
Vettori fagici
Vettori fagici
Il cDNA può essere clonato direzionalmente
EcoRI
TTTTTTTTGAATTC 5’
AAAAAAAA 3’
3’
5’
mRNA
dCTP + transferasi terminale
TTTTTTTTGAATTC 5’
AAAAAAAA 3’
3’CCCCCC
5’
RNAsi o pH alcalino
TTTTTTTTGAATTC 5’
3’CCCCCC
5’AAGCTTGGGGGG 3’
Hind III
3’TTCGAACCCCCC
5’AAGCTTGGGGGG
Hind III
DNA polimerasi
TTTTTTTTGAATTC 5’
AAAAAAAACTTAAG 5’
EcoRI
Ospiti
Batteri
Virus
(Batteriofagi)
Colonie
Placche di lisi
Screening di una genoteca, ossia
come trovare un ago in un pagliaio
Screening di una genoteca, ossia
come trovare un ago in un pagliaio
Screening di una genoteca, ossia
come trovare un ago in un pagliaio
Problemi tipici e strategie
1. Identificare tutta la sequenza di un gene (o di un
mRNA) a partire da un frammento parziale iniziale
Sonda 3
Sonda 1 Sonda 2
Sonda 4
Gene
A
B
C
E
D
F
G
Questa metodica prende il nome di chromosome walking
Problemi tipici e strategie
2. Data la sequenza di un gene di una determinata
specie, trovare il gene omologo in specie differenti
(zoo-blot).
3. Data la sequenza di un gene di una determinata
specie, trovare altri geni della stessa specie
caratterizzati da sequenze simili.
In entrambe i casi l’ibridizzazione va fatta a bassa
stringenza.
Problemi tipici e strategie
4. Data la sequenza di un peptide di una certa
proteina, trovare il cDNA corrispondente. La sonda
in questo caso è un oligonucleotide degenerato
M
I
N
F
P
Y
G
T
T
T
T T C T C
5’ ATGATCAA TT CC TA GG 3’
C C A C A
A
G
G
Concetto di rappresentatività
Affinchè sia utile, una library deve essere completa, ossia
rappresentativa di tutti gli elementi di partenza, siano essi
sequenze genomiche o molecole di mRNA.
Per quelle genomiche il numero di cloni da cui devono essere
composte per avere la rappresentatività voluta è espresso dalla
seguente relazione:
ln(1 -P)
N=
ln(1 - f)
P è la probabilità voluta
f è la frazione del genoma contenuta mediamente in un clone
N è il numero di cloni costituenti la library
Concetto di rappresentatività
Ad esempio, per raggiungere una probabilità del 99% di avere
una determinata sequenza in una library genomica umana
(3x109 bp) composta da inserti di dimensione media 20000 bp
bisogna avere il seguente numero di cloni:
ln(1 – 0,99)
N=
= 690000
ln [1 – (2x104 / 3x109)]
Problema: come faccio a identificare tutta la
sequenza di un determinato RNA messaggero?
mRNA
AAAAAAAA 3’
5’
Cloni di cDNA presenti nella library
Sonda
In questo caso per identificare la sequenza completa sarebbe
sufficiente la strategia del ‘chromosome walking’
Problema: come faccio a identificare tutta la
sequenza di un determinato RNA messaggero?
mRNA
AAAAAAAA 3’
5’
Cloni di cDNA presenti nella library
Sonda
In questo caso per identificare la sequenza completa il
‘chromosome walking’ non sarebbe sufficiente.
RACE
mRNA
?
Sequenza
nota
?
5’
AAAAAAAA 3’
cDNA
5’
3’
3’
5’
5’
X
*
3’
5’
5’
3’
*
Adattatori
X
5’
Ligasi
*
5’
X
*
*= 3’ bloccato
X
5’
5’ RACE
5’ mRNA
*
5’
3’ mRNA
X
*
X
3’
3’
X
5’
5’
GSP
*
X
X
3’
5’
X
X
*
5’
*
5’
5’
X
GSP
Amplificazione esponenziale
Clonaggio e sequenziamento
5’
3’ RACE
5’ mRNA
*
5’
3’ mRNA
X
*
5’
*
5’
X
X
GSP
5’
*
3’
X
3’
5’
X
Amplificazione esponenziale
Clonaggio e sequenziamento
5’
Esempio di clonaggio di un gene
Clonaggio del gene a seguito di isolamento della proteina:
Identificazione del gene dell’emofilia A (fattore VIII)
Gene: 150000 basi
mRNA: 7000 basi
Proteina: 2351 a.a.
Purificazione del fattore VIII di maiale con
tecniche biochimiche tradizionali
Microsequenza
AGGFLMKMFGGHTSREDFCH
AHHTFIAAVEQLWDYGMATT
FGKRMLKFSSCHTRDEGGAK
Sequenze possibili
N
C
C
CAU UAU
His
Tyr Phe
CAC UAU
5’
C
UUU
UUC
A
C
A
G
C
AUU GCU
Ile
A
C
G
GCU
Ala Ala
AUC GCA
GCG
A
C
G
A
GUU GAG
A
CAG
A
C
C G
UUU
C
UGG GAU
C
UAU
A
C
G
GGU
C
AUG
Val Glu Gln Leu Trp Asp Tyr Gly Met
GUC GAA
CAG
CUG
UGG GAU
mRNA-maiale
Sequenza effettiva
UAC
GGU
AUG
3’
Ibridazione di cDNA library di fegato di maiale con un
oligonucleotide degenerato
5’
C
C
CAU UAU
His
C
UUU
Tyr Phe
A
C
A
G
C
AUU GCU
Ile
TGGGATTATGGTATG
TGGGACTATGGTATG
TGGGATTACGGTATG
TGGGACTACGGTATG
A
C
G
GCU
Ala Ala
A
C
G
A
GUU GAG
A
CAG
A
C
C G
UUU
C
UGG GAU
C
UAU
A
C
G
GGU
3’
AUG
Val Glu Gln Leu Trp Asp Tyr Gly Met
TGGGATTATGGGATG
TGGGACTATGGGATG
TGGGATTACGGGATG
TGGGACTACGGGATG
TGGGATTATGGCATG
TGGGACTATGGCATG
TGGGATTACGGCATG
TGGGACTACGGCATG
TGGGATTATGGAATG
TGGGACTATGGAATG
TGGGATTACGGAATG
TGGGACTACGGAATG
--------CACTATTTCATCGCAGCGGTCGAACAGCTGTGGGATTACGGTATG------------------GTGATAAAGTAGCGTCGCCAGCTTGTCGACACCCTAATGCCATAC-------------
Ibridazione di cDNA library di fegato di maiale con un
oligonucleotide degenerato
TGGGATTATGGTATG
TGGGACTATGGTATG
TGGGATTACGGTATG
TGGGACTACGGTATG
TGGGATTATGGGATG
TGGGACTATGGGATG
TGGGATTACGGGATG
TGGGACTACGGGATG
TGGGATTATGGCATG
TGGGACTATGGCATG
TGGGATTACGGCATG
TGGGACTACGGCATG
TGGGATTATGGAATG
TGGGACTATGGAATG
TGGGATTACGGAATG
TGGGACTACGGAATG
--------CACTATTTCATCGCAGCGGTCGAACAGCTGTGGGATTACGGTATG-----------
--------GTGATAAAGTAGCGTCGCCAGCTTGTCGACACCCTAATGCCATAC-------------
Ibridazione di cDNA library di fegato di maiale con un
oligonucleotide degenerato
TGGGATTATGGTATG
TGGGACTATGGTATG
TGGGACTACGGTATG
TGGGATTATGGGATG
TGGGACTATGGGATG
TGGGATTACGGGATG
TGGGACTACGGGATG
TGGGATTATGGCATG
TGGGACTATGGCATG
TGGGATTACGGCATG
TGGGACTACGGCATG
TGGGATTATGGAATG
TGGGACTATGGAATG
TGGGATTACGGAATG
TGGGACTACGGAATG
--------CACTATTTCATCGCAGCGGTCGAACAGCTGTGGGATTACGGTATG-----------
TGGGATTACGGTATG
--------GTGATAAAGTAGCGTCGCCAGCTTGTCGACACCCTAATGCCATAC-------------
Clone di cDNA di maiale
gagtgcagccaacccgccctgatgaagatgaagcacgtgagcagctttgtccagaagtat
E
C
S
Q
P
A
L
M
K
M
K
H
V
S
S
F
V
Q
K
Y
tccgacaccatagccgagttgcgggagctgcagccgtcggcgagagacttcgaagttcga
S
D
T
I
A
E
L
R
E
L
Q
P
S
A
R
D
F
E
V
R
agccttgtgggctgtggtcacttcgctgaacactatttcatcgcagcggtcgaacagctg
S
L
V
G
C
G
H
F
A
E
H
Y
F
I
A
A
V
E
Q
L
tgggattacggtatgaaaatcatgaagaagaaggctttgctggcccaggaacaggtttca
W
D
Y
G
M
K
I
M
K
K
K
A
L
L
A
Q
E
Q
V
S
tttttcgaggaggagaggaacatattatctcggagcacgagtccttggatcccccagtta
F
F
E
E
E
R
N
I
L
S
R
S
T
S
P
W
I
P
Q
L
Per trovare il gene umano, library genomica o di cDNA?
Sonda
Human: 269
atgacacctcaacccagtggtccaaaaacatgaaacatttgaccccgagcaccctcacac 328
||||||| ||||||||||||||||||||||||||
Pig:
||||| ||| | | ||||||||||
4022 atgacacttcaacccagtggtccaaaaacatgaactatttggcccagggaaccctcacac 4081
Human: 329
agatagactacaatgagaaggagaaaggggccattactcagtctcccttatcagattg 386
||||||| || |||||||| || ||| |||||||||||||||| ||| ||||||||||
Pig: 4082 agatagagtataatgagaaagaaaaaagggccattactcagtcccccctatcagattg 4139
Screening di una cDNA library umana con la sonda
di maiale (ibridizzazione a bassa stringenza)
mRNA
a
b
c
f
d
e
cDNA consensus
umano
Screening di library genomiche umane con sonde di cDNA umano
mRNA
f
c
Library genomica fago l
Library genomica BAC
Sequenziamento genomico
Perché sequenziare genomi interi ?
• Sequenza completa di tutti i geni
• Possibilità di determinare la struttura esoni-introni
• Mappare i geni e le altre sequenze
• Rivelare le regioni di controllo non codificanti
• Identificare polimorfismi
• Scoprire l’inatteso
Approcci sistematici alla identificazione dei geni
Sequenziamento delle sole regioni esoniche
(Expressed Sequence Tags)
cDNA-library
plasmidica direzionale
Picking singoli cloni
5’
Primer
Preparazione DNA
3’
Sequenziamento automatico
Deposito in banca dati (300-700 bp)
Sequenze EST
mRNA (10 copie di cDNA nella library)
Inserti
AAAAAAAA
EST
Tratto non sequenziato del clone
Craig Venter
Francis Collins
Sequenziamento genomico
Schema approccio tradizionale
DNA Genomico
Subclonaggio in vettori BAC, P1 o PAC e assemblaggio
di contigs con minimo di ridondanza
Subclonaggio in vettori da sequenziamento
Sequenziamento
Sequenziamento genomico
Schema whole genome shotgun
DNA Genomico
Frammenti casuali lunghi (5-20 kb) e corti (0.4-1.2 kb) derivanti
da rottura meccanica del DNA clonati in vettori da
sequenziamento
Sequenziamento automatico bidirezionale
Ricostruzione computerizzata della sequenza genomica
Contigs: tratti di sequenza assemblati senza
discontinuità.
Scaffolds: serie di due o più contigs uniti da lunghi
inserti le cui estremità sono in diversi contig ma di cui
non si conosce la regione centrale.
Contig
Contig
Scaffold
Sequenziamento del genoma di
Hemophilus Influenzae (1.8 Mb)
• 20000 frammenti di 1,6-2 kb
• 30000 saggi di sequenziamento
• 11,6 Mb di sequenza totale
• 30 ore per assemblare la sequenza su
un calcolatore con 512 Mb di RAM
Per dimostrare che era possibile sequenziare un
genoma complesso con il metodo ‘shotgun’, e
che avrebbe potuto sequenziare il genoma
umano in 2 anni, nel 1998 Venter ha
sequenziato il genoma di Drosophila in soli 6
mesi, in collaborazione con il consorzio
pubblico di Drosophila
Inizialmente si stimava che la sequenza sarebbe
stata completa nel 2005, poi nel 2003.
La combinazione dell’approccio del consorzio
pubblico con quello di Venter hanno portato alla
pubblicazione di due sequenze (più o meno
indipendenti) nel 2000
E dopo il sequenziamento?
>tgcagccaacccgccctgatgaagatgaagcacgtgagcagctttgtccagaagtattccgaca
ccatagccgagttgcgggagctgcagccgtcggcgagagacttcgaagttcgaagccttgtgggc
tgtggtcacttcgctgaacactatttcatcgcagcggtcgaacagctgtgggattacggtatgaa
aatcatgaagaagaaggctttgctggcccaggaacaggtttcatttttcgaggaggagaggaaca
tattatctcggagcacgagtccttggatcccccagttatccgacaccatagccgagttgcgggag
ctgcagccgtcggcgagagacttcgaagttcgaagccttgtgggctgtggtcacttcgctgaaca
ctatttcatcgcagcggtcgaacagctgtgggattacggtatgaaaatcatgaagaagaaggctt
tgctggcccaggaacaggtttcatttttcgaggaggagaggaacatattatctcggagcacgagt
ccttggatcccccagttagagtgcagccaacccgccctgatgaagatgaagcacgtgagcagctt
tgtccagaagtattccgacaccatagccgagttgcgggagctgcagccgtcggcgagagacttcg
aagttcgaagccttgtgggctgtggtcacttcgctgaacactatttcatcgcagcggtcgaacag
ctgtgggattacggtatgaaaatcatgaagaagaaggctttgctggcccaggaacaggtttcaag
ccttgtgggctgtggtcacttcgctgaacactatttcatcgcagcggtcgaacagctgtgggatt
acggtatgaaaatcatgaagaagaaggctttgctggcccaggaacaggtttcagagtgcagccaa
cccgccctgatgaagatgaagcacgtgagcagctttgtccagaagtattttttcgaggaggagag
gaacatattatctcggagcacgagtccttggatcccccagttagagtgcagccaacccgccctga
tgaagatgaagcacgtgagcagctttgtccagaagtattccgacaccatagccgagttgcgggag
ctgcagccgtcggcgagagacttcgaagttcgaagccttgtgggctgtggtcacttcgctgaaca
ctatttcatcgcagcggtcgaacagctgtgggattacggtatgaaaatcatgaagaagaaggctt
tgctggcccaggaacaggtttcatccgacaccatagccgagttgcgggagctgcagccgtcggcg
agagacttcgaagttcgaagccttgtgggctgtggtcacttcgctgaacactatttcatcgcagc
ggtcgaacagctgtttttcgaggaggagaggaacatattatctcggagcacgagtccttggacg>
Il problema dell’annotazione del genoma
Scarica

o di un mRNA