Banche Dati:
NCBI e BLAST
Progettazione primer per PCR mediante
software on line: Primer3
Sorgenti di informazione
• Le banche dati di interesse biologico
• Le banche dati di sequenze nucleotidiche e proteiche
Applicazioni
• L’analisi delle sequenze
• I software per l’analisi delle sequenze e il disegno di primer
Che cos’è una banca dati biologica
Una banca dati biologica (biological database)
è un insieme organizzato di molti dati in formato
elettronico associati a software specifici disegnati
per permettere l’aggiornamento, l’interrogazione
e il recupero dei dati immagazzinati nel sistema.
Caratteristiche:
- semplicità di accesso alle informazioni
- metodo per estrarre solo le informazioni
che rispondono ad un particolare quesito
biologico
Che cos’è la Bioinformatica
La Bioinformatica può essere definita come una
disciplina scientifica che fa uso delle tecnologie
informatiche per organizzare, analizzare e rendere
disponibili informazioni biologiche al fine di chiarire
i problemi della biologia.
Unisce le competenze nei campi dell’informatica,
delle tecnologie dell’informazione e della biologia.
Obiettivo
E’ quello di permettere la scoperta di
nuovi “meccanismi” biologici e di creare
una visione globale e distinta dei processi
biologici stessi.
Le banche dati di interesse biologico
Elenco aggiornato di banche dati
Molecular Biology Database Collection 2005
http://nar.oupjournals.org
The BioToolKit
http://www.biosupplynet.com/cfdocs/btk/btk.cfm
Classificazione delle banche dati
Major Public Sequence Repositories
Comparative Genomics
Gene Expression
Gene Identification and Structure
Genetic and Physical Maps
Genomic Databases
Intermolecular Interactions
Metabolic Pathways and Cellular Regulation
Mutation Databases
Pathology
Protein Databases
Protein Sequence Motifs
Proteome Resources
Retrieval Systems and Database Structure
RNA Sequences
Structure
Transgenics
Varied Biomedical Content
DNA sequence databases
EMBL Nucleotide Sequence Database
(European Molecular Biology Laboratory)
http://www.ebi.ac.uk/embl/index.html
GenBank
http://www.ncbi.nlm.nih.gov/
DNA Data Bank of Japan
(DDBJ)
http://www.ddbj.nig.ac.jp
Una sequenza nucleotidica
. . . ACGGTGCCAGTGCATTGGACCACATGCGA . . .
Una sequenza aminoacidica
. . . TACYRSLIPPAADDNCAILQEVWMFHHT . . .
Nucleotide base codes (IUPAC)
Code Base
Description
---------------------------------------------------------G
Guanine
A
Adenine
T
Thymine in DNA (Uracil in RNA)
C
Cytosine
R
Purine (A or G)
Y
Pyrimidine (C or T or U)
M
Amino (A or C)
K
Ketone (G or T)
S
Strong interaction (C or G)
W
Weak interaction (A or T)
H
Not-G (A or C or T) H follows G in the alphabet
B
Not-A (C or G or T) B follows A
V
Not-T (not-U) (A or C or G) V follows U
D
Not-C (A or G or T) D follows C
N
Any (A or C or G or T)
Authority
Reference
Nomenclature Committee of the International Union of Biochemistry
Cornish-Bowden, A. Nucleic Acids Res. 13, 3021-3030 (1985)
Amino acid abbreviations and codes
Abbreviation Code
Description
----------------------------------------Ala
A
Alanine
Arg
R
Arginine
Asn
N
Asparagine
Asp
D
Aspartic acid (Aspartate)
Cys
C
Cysteine
Gln
Q
Glutamine
Glu
E
Glutamic acid (Glutamate)
Gly
G
Glycine
His
H
Histidine
Ile
I
Isoleucine
Leu
L
Leucine
Lys
K
Lysine
Met
M
Methionine
Phe
F
Phenylalanine
Pro
P
Proline
Ser
S
Serine
Authority
IUPAC-IUB Joint Commission on
Thr
T
Threonine
Biochemical Nomenclature.
Reference
IUPAC-IUB Joint Commission on
Trp
W
Tryptophan
Biochemical Nomenclature.
Tyr
Y
Tyrosine
Nomenclature and Symbolism
for Amino Acids and Peptides.
Val
V
Valine
Eur. J. Biochem. 138: 9-37 (1984).
EMBL Divisions
Division
----------------ESTs
Bacteriophage
Fungi
Genome survey
High Throughput cDNA
High Throughput Genome
Human
Invertebrates
Mus musculus
Organelles
Other Mammals
Other Vertebrates
Plants
Prokaryotes
Rodents
STSs
Synthetic
Unclassified
Viruses
Code
---EST
PHG
FUN
GSS
HTC
HTG
HUM
INV
MUS
ORG
MAM
VRT
PLN
PRO
ROD
STS
SYN
UNC
VRL
20 March 2002
GenBank
•
Incorpora, organizza e distribuisce tutte le sequenze nucleotidiche disponibili
pubblicamente.
•
Localizzata e mantenuta presso il National Center for Biotechnology
Information (NCBI), una divisione della National Library of Medicine (NLM), con
sede presso il campus dell’National Institutes of Health (NIH) a Bethesda,
Mariland, USA.
•
Collabora con EMBL e DDBJ con cui scambia dati giornalmente.
•
Ricercatori, Genome Project Groups, US Office of Patents and Trademarks
(USPTO) forniscono dati di sequenza.
•
Immissione dei dati (submission): BankIt (web-based submission system) e
procedure automatiche (large scale genome sequencing centers, fa2htgs).
•
Accesso: gratuito via FTP, e-mail e WWW.
•
Database release: bimestrale.
La sequenza in formato FASTA
>embl:SSC315558 AJ315558 Sus scrofa partial ctsb gene for cathepsin B, exons 6-7, allele 1
aaagaagggcctggtgtccgggggcctctatgactcgcatgtgggtaagtggccgggtgg
gttttataagcaggaagtgacactggtcattttcccctacaaagtggaggtgaagggttg
tgggcgggaaggctgggctacacggtgcagcagcccggctacggcagaattagcagcacc
aggaggaggcgtcagcgccacagacttgaggggaacttgccccttagctgggcccaattc
ttctctctggcctggagggacctctgaggggcttgctgccgacactccccctttctccgg
gccccccaggttgcaggccc
Formati di sequenze
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
IG/Stanford
GenBank/GB
NBRF-PIR
EMBL/SWISS
GCG
DNAStrider
Fitch
Pearson/Fasta
Zuker
Olsen
Phylip3.2
Phylip
Plain/Raw (ASCII)
PIR-CODATA
GCG MSF
ASN.1
PAUP/NEXUS
Pretty
La sequenza AJ315558 in formato GenBank
LOCUS
DEFINITION
ACCESSION
VERSION
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
PUBMED
REFERENCE
AUTHORS
TITLE
JOURNAL
COMMENT
SSC315558
320 bp
DNA
linear
MAM 03-JUN-2002
Sus scrofa partial ctsb gene for cathepsin B, exons 6-7, allele 1.
AJ315558
AJ315558.1 GI:16555750
cathepsin B; ctsb gene.
pig.
Sus scrofa
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Cetartiodactyla; Suina; Suidae; Sus.
1
Russo,V., Fontanesi,L., Davoli,R., Nanni Costa,L., Cagnazzo,M.,
Buttazzoni,L., Virgili,R. and Yerle,M.
Investigation of candidate genes for meat quality in dry-cured ham
production: the porcine cathepsin B (CTSB) and cystatin B (CSTB)
genes
Anim. Genet. 33 (2), 123-131 (2002)
12047225
2 (bases 1 to 320)
Fontanesi,L.
Direct Submission
Submitted (30-MAY-2001) Fontanesi L., DIPROVAL, Sez Allevamenti
Zootecnici, University of Bologna, Via F.lli Rosselli 107, Reggio
Emilia, 42100, ITALY
PCR primer used to amplify the sequence Forward
5'-CTGGAGCCTGGAACTTCTGGAC-3' Reverse 5'-GCTCACAGGGAGGGATGGAGTA-3.
Continua
FEATURES
source
gene
CDS
exon
intron
exon
Location/Qualifiers
1..320
/organism="Sus scrofa"
/db_xref="taxon:9823"
/chromosome="14"
1..320
/gene="ctsb"
join(<1..44,309..>320)
/gene="ctsb"
/note="allele 1"
/codon_start=2
/product="cathepsin B"
/protein_id="CAC85528.1"
/db_xref="GI:16555751"
/db_xref="SPTREMBL:Q95J72"
/translation="KKGLVSGGLYDSHVGLQA"
<1..44
/gene="ctsb"
/number=6
45..308
/gene="ctsb"
/number=6
309..>320
/gene="ctsb"
/number=7
59 a
87 c
110 g
64 t
BASE COUNT
ORIGIN
1 aaagaagggc
61 gttttataag
121 tgggcgggaa
181 aggaggaggc
241 ttctctctgg
301 gccccccagg
//
ctggtgtccg
caggaagtga
ggctgggcta
gtcagcgcca
cctggaggga
ttgcaggccc
ggggcctcta
cactggtcat
cacggtgcag
cagacttgag
cctctgaggg
tgactcgcat
tttcccctac
cagcccggct
gggaacttgc
gcttgctgcc
gtgggtaagt
aaagtggagg
acggcagaat
cccttagctg
gacactcccc
ggccgggtgg
tgaagggttg
tagcagcacc
ggcccaattc
ctttctccgg
Protein Databases
SWISS-PROT Database
http://www.expasy.ch/sprot/sprot-top.html
Protein Information Resource
http://pir.georgetown.edu/pirwww/
http://www.rcsb.org/pdb/
ENTRY
S20421 #type complete iProClass View of S20421
TITLE
stefin B – bovine
ORGANISM
#formal_name Bos primigenius taurus #common_name cattle
#cross-references taxon:9913
DATE
22-Nov-1993 #sequence_revision 05-May-1995 #text_change
16-Jul-1999
ACCESSIONS
S20421; S23958
REFERENCE
S20421
#authors
Krizaj, I.; Turk, B.; Turk, V.
#journal
FEBS Lett. (1992) 298:237-239
#title
The complete primary structure of bovine stefin B.
#cross-references MUID:92183874; PMID:1544453
#accession S20421
##molecule_type protein
##residues 1-98
##label KRI
REFERENCE S23958
#authors
Turk, B.; Krizaj, I.; Turk, V.
#journal
Biol. Chem. Hoppe-Seyler (1992) 373:441-446
#title
Isolation and characterization of bovine stefin B.
#cross-references MUID:92384949; PMID:1515072
#contents annotation
CLASSIFICATION SF001638
#superfamily cystatin; cystatin homology
KEYWORDS
acetylated amino end; cysteine proteinase inhibitor
FEATURE
2-98
#domain cystatin homology #label CYS\
1
#modified_site acetylated amino end (Met) #status
experimental
SUMMARY
#length 98 #molecular_weight 11140
SEQUENCE
1
31
61
91
M
E
E
R
M
N
D
H
C
K
D
D
G
K
F
E
5
G
F
V
L
T
P
H
T
S
V
I
Y
10
15
20
25
30
A T Q P A T A E T Q A I A D K V K S Q L E E K
F K A L E F K S Q L V A G K N Y F I K V Q V D
R V F E S L P H E N K P V A L T S Y Q T N K G
F
Analisi delle sequenze
Sequence similarity searching tools
BLAST
FASTA
Genomic sequence analysis tools
Exon prediction programs
RepeatMasker
Restriction analysis tools
Webcutter
NEBcutter
Rebase
Introduzione:
Similarity analysis
•
Una sequenza di per se non è informativa: deve essere analizzata
utilizzando metodi comparativi contro banche dati per poter avanzare
ipotesi sulla funzione, classe, ecc…
•
Identity: la misura in cui 2 sequenze (nucleotidiche o aminoacidiche) sono
uguali.
Similarity: la misura in cui 2 sequenze (nucleotidiche o aminoacidiche)
hanno qualcosa in comune. Si esprime in percentuale di identità di
sequenza (percent sequence identity).
Homology: Similarity attribuita alla discendenza da un “antenato” comune
(si deduce dalla misura di similarità della struttura, della funzione, della
sequenza).
•
•
•
L’approccio generale dell’analisi prevede l’utilizzo di una serie di algoritmi
per confrontare una sequenza (query sequence) con tutte le sequenze
presenti in una particolare banca dati.
Continua
•
Ad ogni confronto viene assegnato un punteggio (score) che riflette il
grado di similarità (degree of similarity) fra la query sequence e le
sequenze confrontate.
•
La similarity viene misurata e mostrata graficamente per mezzo di
allineamenti tra due sequenze (la query sequence e una della banca dati).
•
Gli allineamenti possono essere globali (global) o locali (local).
•
Un allineamento globale è un allineamento ottimale (optimal alignment)
che include tutti i caratteri di ciascuna sequenza. Un allineamento locale è
un allineamento ottimale che include solo la regione o le regioni più simili.
•
Optimal alignment: un allineamento di due sequenze con lo score più alto
possibile.
•
Per discriminare fra match reali o artefatti viene utilizzata la probabilità
(probability) che il match avvenga per caso.
Altschul, S.F., Gish, W., Miller, W.,
Myers, E.W. & Lipman, D.J. (1990)
"Basic local alignment search tool.“
J. Mol. Biol. 215: 403-410.
Basic Local Alignment Search Tools
•
I programmi BLAST sono costituiti da una serie di algoritmi di confronto fra
sequenze e sono utilizzati per identificare optimal local alignments tra una query
sequence ed una banca dati di sequenze.
•
BLAST mantiene sia una buona velocità di analisi che una buona sensibilità
(caratteristiche importanti con la crescita esponenziale delle banche dati).
•
BLAST frammenta la query sequence e le sequenze nella banca dati in
frammenti (“Words”) cercando inizialmente match fra i frammenti. La ricerca
iniziale è effettuata per Word di lunghezza “W” che danno uno score di almeno
“T” quando confrontate con la query sequence usando una particolare matrice di
sostituzione (substitution matrix). Questi match vengono estesi da entrambe le
direzioni nel tentativo di generare un allineamento con uno score che supera la
soglia “S”. Il parametro “T” regola la velocità e la sensibilità della ricerca.
Continua
•
La qualità di ciascun allineamento è rappresentata da uno score e gli score sono
ordinati dal più alto al più basso (ranked)
•
Matrici di punteggio (scoring matrices) sono usate per calcolare di un
allineamento base per base (DNA) o aminoacido per aminoacido (proteine). Una
matrice unitaria (unitary matrix) è utilizzata per il DNA perché ciascuna
posizione può assumere uno score di +1 se crea un match oppure uno score di
0 se non produce un match.
Continua
•
•
•
•
Gaps: posizioni in cui una lettera è appaiata ad uno spazio vuoto sono
indicate come gaps. I punteggi per i gap sono negativi.
La significatività di ciascun allineamento è calcolata come P value (la
probabilità di un allineamento di avere uno score come quello in esame
o migliore) oppure come E value (Expectation value: il numero di
differenti allineamenti con score equivalenti o migliori di “S” che ci si
può aspettare di osservare in una ricerca in una banca dati per caso).
Più bassi sono più significativi sono gli score.
Ogni allineamento, tuttavia deve essere valutato criticamente prima di
essere accettato. Ad esempio, allineamenti originati da una serie di
sequenze ripetute possono ottenere alti score ma non riflettere
similarità fra le due sequenze.
Filtri che mascherano low complexity regions possono essere utilizzati
per alleviare questi problemi.
Es.: SEG program
BLAST Programs
BLAST 2.0 (Gapped BLAST)
http://www.ncbi.nlm.nih.gov/BLAST/
blastn: confronta una sequenza nucleotidica contro una banca dati di sequenze
nucleotidiche.
bastp: confronta una sequenza aminoacidica contro una banca dati di
sequenze proteiche.
blastx: confronta una sequenza nucleotidica (che viene tradotta in tutti i reading
frames) contro una banca dati di sequenze proteiche.
tblastn: confronta una sequenza proteica contro una banca dati di sequenze
nucleotidiche dinamicamente tradotte in tutti i reading frames.
tblastx: confronta i 6 reading frames di una sequenza nucleotidica contro
i 6 reading frames delle sequenze nucleotidiche presenti in una banca
dati.
Nucleotide Sequence Databases
nr All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2
HTGS sequences). No longer "non-redundant".
month All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30
days.
Drosophila genome Drosophila genome provided by Celera and Berkeley Drosophila
Genome Project (BDGP).
dbest Database of GenBank+EMBL+DDBJ sequences from EST Divisions
dbsts Database of GenBank+EMBL+DDBJ sequences from STS Divisions
htgs Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3
HTG sequences are in nr)
gss Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences,
and Alu PCR sequences.
yeast Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences
E. coli Escherichia coli genomic nucleotide sequences
pdb Sequences derived from the 3-dimensional structure from Brookhaven Protein Data
Bank
kabat [kabatnuc] Kabat's database of sequences of immunological interest
vector Vector subset of GenBank(R), NCBI, in ftp://ncbi.nlm.nih.gov/blast/db/
mito Database of mitochondrial sequences
alu Select Alu repeats from REPBASE, suitable for masking Alu repeats from query
sequences. It is available by anonymous FTP from ncbi.nlm.nih.gov (under the /pub/jmc/alu
directory). See "Alu alert" by Claverie and Makalowski, Nature vol. 371, page 752 (1994).
epd Eukaryotic Promotor Database found on the web at http://www.genome.ad.jp/dbgetbin/www_bfind?epd
BLASTN 2.2.3 [Apr-24-2002]
Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng
Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402. RID: 1023836296-020607-513
Query= gi|2076711|emb|X91845.1|SSMYHCS Sus scrofa mRNA for skeletal myosin heavy chain (pAZMY4)
(798 letters)
Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS
sequences) 1,301,425 sequences; 5,790,534,584 total letters
If you have any problems or questions with the results of this search
please refer to the BLAST FAQs
Taxonomy reports
Distribution of 182 Blast Hits on the Query Sequence
Score
E
Sequences producing significant alignments: (bits) Value
gi|2076711|emb|X91845.1|SSMYHCS Sus scrofa mRNA for skeleta...
gi|5360747|dbj|AB025261.1|AB025261 Sus scrofa mRNA for myos...
gi|13651807|ref|XM_017815.1| Homo sapiens myosin, heavy pol...
gi|11024711|ref|NM_017533.1| Homo sapiens myosin, heavy pol...
gi|5814402|gb|AF111783.2|AF111783 Homo sapiens myosin heavy...
gi|13560270|dbj|AB059399.1|AB059399 Bos taurus MyHC-2x mRNA...
gi|14771688|ref|XM_052590.1| Homo sapiens myosin, heavy pol...
gi|5360749|dbj|AB025262.1|AB025262 Sus scrofa mRNA for myos...
gi|7669505|ref|NM_005963.2| Homo sapiens myosin, heavy poly...
gi|4808814|gb|AF111785.1|AF111785 Homo sapiens myosin heavy...
gi|34839|emb|X03740.1|HSMYH1R Human skeletal mRNA for myosi...
gi|940232|gb|U32574.1|OCU32574 Oryctolagus cuniculus myosin...
gi|1622|emb|X05958.1|OCMHCR Rabbit mRNA for fast skeletal m...
gi|20809778|gb|BC029240.1| Mus musculus, clone IMAGE:398793...
gi|544938|gb|S68736.1|S68736 Rattus sp. myosin heavy chain ...
gi|20881592|ref|XM_126119.1| Mus musculus myosin, heavy pol...
gi|9581820|emb|AJ278733.1|MMU278733 Mus musculus partial mR...
gi|9886713|emb|AJ293626.1|MMU293626 Mus musculus partial mR...
gi|5360745|dbj|AB025260.1|AB025260 Sus scrofa mRNA for myos...
gi|20883345|ref|XM_137643.1| Mus musculus similar to Myosin...
gi|13560268|dbj|AB059398.1|AB059398 Bos taurus MyHC-2a mRNA...
gi|688127|gb|S73840.1|S73840 Homo sapiens type IIA myosin h...
gi|14771674|ref|XM_012618.3| Homo sapiens myosin, heavy pol...
gi|8923939|ref|NM_017534.1| Homo sapiens myosin, heavy poly...
gi|4808812|gb|AF111784.1|AF111784 Homo sapiens myosin heavy...
gi|5802177|gb|AF157005.1|AF157005 Rattus norvegicus type 2X...
gi|406108|gb|L24897.1|RATMYH Rattus norvegicus myosin heavy...
gi|510179|emb|Z34887.1|OCHEAMYO2 O.cuniculus (OCCDNA32) mRN...
gi|20881584|ref|XM_126201.1| Mus musculus similar to Myosin...
gi|14250230|gb|BC008538.1|BC008538 Mus musculus, Similar to...
gi|294591|gb|L13606.1|RATMYHM Rattus norvegicus skeletal mu...
gi|205566|gb|K02111.1|RATMYHC Rat embryonic myosin heavy ch...
gi|20558375|ref|XM_008442.4| Homo sapiens myosin, heavy pol...
gi|29465|emb|X51592.1|HSBMHCF Human MHC mRNA for fetal-myos...
gi|4505300|ref|NM_002472.1| Homo sapiens myosin, heavy poly...
gi|189033|gb|M36769.1|HUMMYOHP Homo sapiens perinatal myosi...
gi|558668|emb|Z38133.1|HSMYOSIN H.sapiens mRNA for myosin . .
gi|212403|gb|M74087.1|CHKMYOSIND Gallus gallus fast myosin ...
gi|212375|gb|J02714.1|CHKMYHE Chicken embryonic myosin heav...
. . . . .
1511 0.0
1409 0.0
955 0.0
955 0.0
955 0.0
930 0.0
914 0.0
906 0.0
898 0.0
898 0.0
874 0.0
872 0.0
850 0.0
823 0.0
811 0.0
801 0.0
801 0.0
795 0.0
795 0.0
751 0.0
728 0.0
704 0.0
696 0.0
696 0.0
696 0.0
668 0.0
668 0.0
555 e-155
541 e-151
541 e-151
533 e-149
527 e-147
519 e-144
519 e-144
511 e-142
511 e-142
511 e-142
484 e-134
484 e-134
>gi|13651807|ref|XM_017815.1|
skeletal muscle (MYH4),
mRNA
Length = 6015
Homo sapiens myosin, heavy polypeptide 4,
Score = 955 bits (482), Expect = 0.0
Identities = 656/713 (92%), Gaps = 2/713 (0%)
Strand = Plus / Plus
Query: 1
caccagcctgatcaacaccaagaagaagctggagacagacatctcccaaatccagggaga 60
||||||||||||||||||||||||||||||||| |||||||| |||||||||||||||||
Sbjct: 5282 caccagcctgatcaacaccaagaagaagctggaaacagacatttcccaaatccagggaga 5341
Query: 61
gatggaggacattgtccaggaagctcgcaacgcagaagagaaggccaagaaggccatcac 120
|||||||||||| ||||||||||| ||||| ||||| |||||||||||||||||||||||
Sbjct: 5342 gatggaggacatcgtccaggaagcccgcaatgcagaggagaaggccaagaaggccatcac 5401
Query: 121
tgatgcagccatgatggccgaggagctgaagaaggagcaggacaccagcgcccacctgga 180
|||||| ||||||||||| ||||||||||||||||| |||||||||||||||||||||||
Sbjct: 5402 tgatgctgccatgatggctgaggagctgaagaaggaacaggacaccagcgcccacctgga 5461
Query: 181
gcggatgaagaagaatatggaacagacggtaaaggacctgcagcaccgcctggacgaggc 240
||||||||||||||| ||||| ||||| || ||||| ||||||| ||| ||||| |||||
Sbjct: 5462 gcggatgaagaagaacatggagcagaccgtgaaggatctgcagctccgtctggatgaggc 5521
Query: 241
agaacagttggccctgaagggcgggaagaagcagatccagaagctggaggccagggtgag 300
|| ||| |||| |||||||| |||||||||||||||||||| |||||||||||||||||
Sbjct: 5522 tgagcagctggcgctgaagggtgggaagaagcagatccagaaactggaggccagggtgag 5581
Query: 301
ggagcttgaaaatgaggttgaaaatgaacagaagcgcaatgttgaggctgtcaagggtct 360
|||||||||| |||||| |||| ||||||||||| ||||||||||||||||||||||||
Sbjct: 5582 agagcttgaaagtgaggtggaaagtgaacagaagcacaatgttgaggctgtcaagggtct 5641
Query: 361
tcggaaacatgagagaagagtgaaggaactcacttaccagactgaggaggaccgaaagaa 420
||| |||||||||||||||||||||||||||||||||||||||||||||||||| |||||
Sbjct: 5642 tcgcaaacatgagagaagagtgaaggaactcacttaccagactgaggaggaccgcaagaa 5701
Query: 421
tgttctcaggctgcaggacttggtggacaaactacaatccaaagttaaagcttacaagag 480
| ||||||||||||||||||||||||||||| | ||| ||||||| ||||||||||||||
Sbjct: 5702 tattctcaggctgcaggacttggtggacaaattgcaaaccaaagtcaaagcttacaagag 5761
Query: 481
acaagcggaagaggcggaggaacaatccaacgtcaacctctccaagttccgcaagctcca 540
|||||| |||||||| |||||||||||||| |||||||| |||||||||||||||||||
Sbjct: 5762 acaagctgaagaggctgaggaacaatccaatgtcaaccttgccaagttccgcaagctcca 5821
Collegarsi al sito
http://www.ncbi.nlm.nih.gov/entrez/
• Cliccate: Search Nucleotide for:
digitate APOSTART
• Scegliete la versione genomica del
gene
• Visualizzatela in formato FASTA
WWW Restriction analysis tools
http://rebase.neb.com/rebase/rebase.html
NEBcutter v. 1.0
http://tools.neb.com/NEBcutter/index.php3
Webcutter 2.0
http://www.firstmarket.com/cutter/cut2.html
Restriction Maps
http://arbl.cvmbs.colostate.edu/molkit/mapper/index.html
Progettazione primers per PCR
PCR Primer design
I primers devono essere ottimizzati per:
•
•
•
•
Specificità
Temperatura di fusione
Strutture secondarie e formazione di dimeri
Stabilità dell’appaiamento con la sequenza target
Software Primer3
http://www-genome.wi.mit.edu/cgi-bin/primer/primer3_www.cgi
Ci sono molti altri software per progettare primers, sia gratis che non
Come è strutturato Primer3?
Essenzialmente in 2 parti :
La prima permette di agire sulla SEQUENZA da amplificare, indicando
DOVE vanno disegnati i nostri primers
Nella seconda abbiamo la possibilità di indicare le CARATTERISTICHE che
devono avere i primers
I campi da riempire
nella pagina di input
di Primer3
Campo “Sequence Id”
Immettere il vostro nome + APOSTART
Es: Stefano-APOSTART
Ma si può anche usare il formato FASTA
Campo
“Targets”
atggtagat
tttctctttt
ttggttatgg
gtctatgatg
cccgtgaaat
gaattgatca
gcagttttaa
atcagcgcga
ctgagggtaa atttctagtt tttctccttc attttcttgg ttaggaccct
tatttttttg agctttgatc tttctttaaa ctgatctatt ttttaattga
tgtaaatatt acatagcttt aactgataat ctgattactt tatttcgtgt
atgatgatag ttacagaacc gacgactcgt ccgtcctgta gaaaccccaa
caaaaaactc[gacggcctgt gggcattcag] tctggatcgc gaaaactgtg
gcgttggtgg gaaagcgcgt tacaagaaag ccgggcaatt gctgtgccag
cgatcagttc gccgatgcagatattcgtaa ttatgcgggc aacgtctggt
agtctttata ccgaaaggtt gggcaggccagcgtatcgtg ctgcgtttcg
……………
I target sono le parti della sequenza che devono essere presenti nell’amplificato
(amplicone). Per definirli si utilizzano le parentesi [ ] o si immettono nell’apposita
casella i valori di start e length
Campi “Excluded Regions” O “Included Region”
atggtagat ctgagggtaa
tttctctttt tatttttttg
ttggttatgg tgtaaatatt
gtctatgatg atgatgatag
cccgtgaaat}caaaaaactc
gaattgatca gcgttggtgg
gcagttttaa cgatcagttc
atcagcgcga agtctttata
atttctagtt{tttctccttc
agctttgatc tttctttaaa
acatagcttt aactgataat
ttacagaacc gacgactcgt
gacggcctgt gggcattcag
gaaagcgcgt tacaagaaag
gccgatgcag atattcgtaa
ccgaaaggtt gggcaggcca
attttcttgg
ctgatctatt
ctgattactt
ccgtcctgta
tctggatcgc
ccgggcaatt
ttatgcgggc
gcgtatcgtg
ttaggaccct
ttttaattga
tatttcgtgt
gaaaccccaa
gaaaactgtg
gctgtgccag
aacgtctggt
ctgcgtttcg
……………
Si possono definire le regioni che non interessano o che invece interessano per la
progettazione del primer con i valori start e length, cioè la prima base e il
numero di basi della regione
Si possono usare anche i simboli < > per Excluded Regions.
Campo “Product size” e “Product size Range”
Seconda parte – Le caratteristiche dei primers
Campo “ Number To Return”
Si può scegliere quante coppie di primer si desidera che il programma ci fornisca
Campo
“ Max 3’ Stability”
Più alto è il valore più il primer è stabile all’estremità 3’
Non si desidera una eccessiva stabilità:
APPAIAMENTO CORRETTO
5’ TACTGGTACTAATGCCCCC 3’
|||||||||||||||||||
3’ ATGACCATGATTACGGGGGAGCTACCTATCATGGTATAGGTA 5’
APPAIAMENTO NON CORRETTO, ma funzionante
5’ TACTGGTACTAATGCCCCC 3’
|||||||||
3’ CCGGGGATCCTTACGGGGGGACCTATGCAA 5’
Campo ”Max Mispriming” e “Pair Max Mispriming”
E’ un parametro che stabilisce la massima similarità di uno o di entrambi i
primerspermessa con sequenze contenute nelle Mispriming Libraries, che
contengono sequenze ripetute di vari organismi
Campo “ Primer size”
Campi “Primer Tm” e “Max Tm Difference
La temperatura di annealing dipende dalla percentuale di G+C e dalla lunghezza del
primer. Siccome non vogliamo una % G+C troppo alta la Tm richiesta per un primer
deve tener conto della lunghezza desiderata (se la richiediamo)
Campo “Primer GC%”
E’ ottimale una frequenza di G+C (e A+T) del 50%
Campi “Max (Self) Complementarity” e “Max 3’ (Self) Complementarity”
5' ATGCCCTAGCTTCCGGATG 3'
||| |||||
3' AAGTCCTACATTTAGCCTAGT 5‘
5' ATGCGCTTATA
|||||
A
3’ TACGCCTTAGA
Evitare la formazione di
dimeri …
… e di strutture secondarie !!!
Campo “Max #N’s”
Il numero massimo di “N” che consentiamo nei primer – Nel caso si disegnino
primer su sequenze di bassa qualità, con tenenti basi “incerte” (N)
Campo “Max poly-X”
Il numero massimo di ripetizioni mononucleotidiche (es. AAAAAA) –
rendono il primer troppo stabile (G/C) o troppo instabile (A/T)
Campo “GC Clamp”
Il numero di G o C richiesto all’estremità 3’ – Non più di una !
Quando è tutto deciso, click su “pick primers”
Output di Primer 3
Primer3 Output
WARNING: Numbers in input sequence were deleted.
PRIMER PICKING RESULTS FOR Stefano
No mispriming library specified
Using 1-based sequence positions
OLIGO
start len
LEFT PRIMER 1207
RIGHT PRIMER 1607
20
20
tm
59.98
59.99
gc%
any
55.00
50.00
4.00
2.00
3'
seq
2.00 cccttacgctgaagagatgc
0.00 ggcacagcacatcaaagaga
SEQUENCE SIZE: 2053
INCLUDED REGION SIZE: 2053
PRODUCT SIZE: 401, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 1.00
1201
1261
1321
1381
1441
1501
1561
……………………………
gcattacccttacgctgaagagatgctcgactgggcagatgaacatggcatcgtggtgat
>>>>>>>>>>>>>>>>>>>>
tgatgaaactgctgctgtcggctttcagctgtctttaggcattggtttcgaagcgggcaa
caagccgaaagaactgtacagcgaagaggcagtcaacggggaaactcagcaagcgcactt
acaggcgattaaagagctgatagcgcgtgacaaaaaccacccaagcgtggtgatgtggag
tattgccaacgaaccggatacccgtccgcaaggtgcacgggaatatttcgcgccactggc
ggaagcaacgcgtaaactcgacccgacgcgtccgatcacctgcgtcaatgtaatgttctg
cgacgctcacaccgataccatcagcgatctctttgatgtgctgtgcctgaaccgttatta
<<<<<<<<<<<<<<<<<<<<
……………………………
Output di Primer 3
Esercizio
Cercare nella banca dati NCBI sequenze di Poa pratensis. Selezionare tra di esse il
gene SERK isolato da Albertini E, e Marconi G.
Eseguire un BLAST sulla sequenza e disegnare dei primer specifici per la
individuazione di tale gene (utilizzando quindi parti peculiari della sequenza.)
• Il prodotto di amplificazione deve essere compreso tra 150 e 300 pb
• La temperatura di fusione dei primers deve essere superiore a 60°C
Sequenza codificante del gene NptII dal plasmide pCAMBIA-2301
9001
9061
9121
9181
9241
9301
9361
9421
9481
9541
9601
9661
9721
gatgcgctgc
gccgccaagc
cacacccagc
cggcaagcag
gagcctggcg
atcgacaaga
gtcgaatggg
ggatactttc
caatagcagc
gcccgtcgtg
ggacaggtcg
ggcatcagag
agcggccgga
gaatcgggag
tcttcagcaa
cggccacagt
gcatcgccat
aacagttcgg
ccggcttcca
caggtagccg
tcggcaggag
cagtcccttc
gccagccacg
gtcttgacaa
cagccgattg
gaacctgcgt
tca
cggcgatacc
tatcacgggt
cgatgaatcc
gtgtcacgac
ctggcgcgag
tccgagtacg
gatcaagcgt
caaggtgaga
ccgcttcagt
atagccgcgc
aaagaaccgg
tctgttgtgc
gcaatccatc
gaagaactcg
gtaaagcacg
agccaacgct
agaaaagcgg
gagatcctcg
cccctgatgc
tgctcgctcg
atgcagccgc
tgacaggaga
gacaacgtcg
tgcctcgtcc
gcgcccctgc
ccagtcatag
ttgttcaatc
tcaagaaggc
aggaagcggt
atgtcctgat
ccattttcca
ccgtcgggca
tcttcgtcca
atgcgatgtt
cgcattgcat
tcctgccccg
agcacagctg
tggagttcat
gctgacagcc
ccgaatagcc
cccat
gatagaaggc
cagcccattc
agcggtccgc
ccatgatatt
tgcgcgcctt
gatcatcctg
tcgcttggtg
cagccatgat
gcacttcgcc
cgcaaggaac
tcagggcacc
ggaacacggc
tctccaccca
Scarica

Banche Dati: NCBI e BLAST Progettazione primer per PCR