Banche Dati: NCBI e BLAST Progettazione primer per PCR mediante software on line: Primer3 Sorgenti di informazione • Le banche dati di interesse biologico • Le banche dati di sequenze nucleotidiche e proteiche Applicazioni • L’analisi delle sequenze • I software per l’analisi delle sequenze e il disegno di primer Che cos’è una banca dati biologica Una banca dati biologica (biological database) è un insieme organizzato di molti dati in formato elettronico associati a software specifici disegnati per permettere l’aggiornamento, l’interrogazione e il recupero dei dati immagazzinati nel sistema. Caratteristiche: - semplicità di accesso alle informazioni - metodo per estrarre solo le informazioni che rispondono ad un particolare quesito biologico Che cos’è la Bioinformatica La Bioinformatica può essere definita come una disciplina scientifica che fa uso delle tecnologie informatiche per organizzare, analizzare e rendere disponibili informazioni biologiche al fine di chiarire i problemi della biologia. Unisce le competenze nei campi dell’informatica, delle tecnologie dell’informazione e della biologia. Obiettivo E’ quello di permettere la scoperta di nuovi “meccanismi” biologici e di creare una visione globale e distinta dei processi biologici stessi. Le banche dati di interesse biologico Elenco aggiornato di banche dati Molecular Biology Database Collection 2005 http://nar.oupjournals.org The BioToolKit http://www.biosupplynet.com/cfdocs/btk/btk.cfm Classificazione delle banche dati Major Public Sequence Repositories Comparative Genomics Gene Expression Gene Identification and Structure Genetic and Physical Maps Genomic Databases Intermolecular Interactions Metabolic Pathways and Cellular Regulation Mutation Databases Pathology Protein Databases Protein Sequence Motifs Proteome Resources Retrieval Systems and Database Structure RNA Sequences Structure Transgenics Varied Biomedical Content DNA sequence databases EMBL Nucleotide Sequence Database (European Molecular Biology Laboratory) http://www.ebi.ac.uk/embl/index.html GenBank http://www.ncbi.nlm.nih.gov/ DNA Data Bank of Japan (DDBJ) http://www.ddbj.nig.ac.jp Una sequenza nucleotidica . . . ACGGTGCCAGTGCATTGGACCACATGCGA . . . Una sequenza aminoacidica . . . TACYRSLIPPAADDNCAILQEVWMFHHT . . . Nucleotide base codes (IUPAC) Code Base Description ---------------------------------------------------------G Guanine A Adenine T Thymine in DNA (Uracil in RNA) C Cytosine R Purine (A or G) Y Pyrimidine (C or T or U) M Amino (A or C) K Ketone (G or T) S Strong interaction (C or G) W Weak interaction (A or T) H Not-G (A or C or T) H follows G in the alphabet B Not-A (C or G or T) B follows A V Not-T (not-U) (A or C or G) V follows U D Not-C (A or G or T) D follows C N Any (A or C or G or T) Authority Reference Nomenclature Committee of the International Union of Biochemistry Cornish-Bowden, A. Nucleic Acids Res. 13, 3021-3030 (1985) Amino acid abbreviations and codes Abbreviation Code Description ----------------------------------------Ala A Alanine Arg R Arginine Asn N Asparagine Asp D Aspartic acid (Aspartate) Cys C Cysteine Gln Q Glutamine Glu E Glutamic acid (Glutamate) Gly G Glycine His H Histidine Ile I Isoleucine Leu L Leucine Lys K Lysine Met M Methionine Phe F Phenylalanine Pro P Proline Ser S Serine Authority IUPAC-IUB Joint Commission on Thr T Threonine Biochemical Nomenclature. Reference IUPAC-IUB Joint Commission on Trp W Tryptophan Biochemical Nomenclature. Tyr Y Tyrosine Nomenclature and Symbolism for Amino Acids and Peptides. Val V Valine Eur. J. Biochem. 138: 9-37 (1984). EMBL Divisions Division ----------------ESTs Bacteriophage Fungi Genome survey High Throughput cDNA High Throughput Genome Human Invertebrates Mus musculus Organelles Other Mammals Other Vertebrates Plants Prokaryotes Rodents STSs Synthetic Unclassified Viruses Code ---EST PHG FUN GSS HTC HTG HUM INV MUS ORG MAM VRT PLN PRO ROD STS SYN UNC VRL 20 March 2002 GenBank • Incorpora, organizza e distribuisce tutte le sequenze nucleotidiche disponibili pubblicamente. • Localizzata e mantenuta presso il National Center for Biotechnology Information (NCBI), una divisione della National Library of Medicine (NLM), con sede presso il campus dell’National Institutes of Health (NIH) a Bethesda, Mariland, USA. • Collabora con EMBL e DDBJ con cui scambia dati giornalmente. • Ricercatori, Genome Project Groups, US Office of Patents and Trademarks (USPTO) forniscono dati di sequenza. • Immissione dei dati (submission): BankIt (web-based submission system) e procedure automatiche (large scale genome sequencing centers, fa2htgs). • Accesso: gratuito via FTP, e-mail e WWW. • Database release: bimestrale. La sequenza in formato FASTA >embl:SSC315558 AJ315558 Sus scrofa partial ctsb gene for cathepsin B, exons 6-7, allele 1 aaagaagggcctggtgtccgggggcctctatgactcgcatgtgggtaagtggccgggtgg gttttataagcaggaagtgacactggtcattttcccctacaaagtggaggtgaagggttg tgggcgggaaggctgggctacacggtgcagcagcccggctacggcagaattagcagcacc aggaggaggcgtcagcgccacagacttgaggggaacttgccccttagctgggcccaattc ttctctctggcctggagggacctctgaggggcttgctgccgacactccccctttctccgg gccccccaggttgcaggccc Formati di sequenze 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. IG/Stanford GenBank/GB NBRF-PIR EMBL/SWISS GCG DNAStrider Fitch Pearson/Fasta Zuker Olsen Phylip3.2 Phylip Plain/Raw (ASCII) PIR-CODATA GCG MSF ASN.1 PAUP/NEXUS Pretty La sequenza AJ315558 in formato GenBank LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL PUBMED REFERENCE AUTHORS TITLE JOURNAL COMMENT SSC315558 320 bp DNA linear MAM 03-JUN-2002 Sus scrofa partial ctsb gene for cathepsin B, exons 6-7, allele 1. AJ315558 AJ315558.1 GI:16555750 cathepsin B; ctsb gene. pig. Sus scrofa Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Cetartiodactyla; Suina; Suidae; Sus. 1 Russo,V., Fontanesi,L., Davoli,R., Nanni Costa,L., Cagnazzo,M., Buttazzoni,L., Virgili,R. and Yerle,M. Investigation of candidate genes for meat quality in dry-cured ham production: the porcine cathepsin B (CTSB) and cystatin B (CSTB) genes Anim. Genet. 33 (2), 123-131 (2002) 12047225 2 (bases 1 to 320) Fontanesi,L. Direct Submission Submitted (30-MAY-2001) Fontanesi L., DIPROVAL, Sez Allevamenti Zootecnici, University of Bologna, Via F.lli Rosselli 107, Reggio Emilia, 42100, ITALY PCR primer used to amplify the sequence Forward 5'-CTGGAGCCTGGAACTTCTGGAC-3' Reverse 5'-GCTCACAGGGAGGGATGGAGTA-3. Continua FEATURES source gene CDS exon intron exon Location/Qualifiers 1..320 /organism="Sus scrofa" /db_xref="taxon:9823" /chromosome="14" 1..320 /gene="ctsb" join(<1..44,309..>320) /gene="ctsb" /note="allele 1" /codon_start=2 /product="cathepsin B" /protein_id="CAC85528.1" /db_xref="GI:16555751" /db_xref="SPTREMBL:Q95J72" /translation="KKGLVSGGLYDSHVGLQA" <1..44 /gene="ctsb" /number=6 45..308 /gene="ctsb" /number=6 309..>320 /gene="ctsb" /number=7 59 a 87 c 110 g 64 t BASE COUNT ORIGIN 1 aaagaagggc 61 gttttataag 121 tgggcgggaa 181 aggaggaggc 241 ttctctctgg 301 gccccccagg // ctggtgtccg caggaagtga ggctgggcta gtcagcgcca cctggaggga ttgcaggccc ggggcctcta cactggtcat cacggtgcag cagacttgag cctctgaggg tgactcgcat tttcccctac cagcccggct gggaacttgc gcttgctgcc gtgggtaagt aaagtggagg acggcagaat cccttagctg gacactcccc ggccgggtgg tgaagggttg tagcagcacc ggcccaattc ctttctccgg Protein Databases SWISS-PROT Database http://www.expasy.ch/sprot/sprot-top.html Protein Information Resource http://pir.georgetown.edu/pirwww/ http://www.rcsb.org/pdb/ ENTRY S20421 #type complete iProClass View of S20421 TITLE stefin B – bovine ORGANISM #formal_name Bos primigenius taurus #common_name cattle #cross-references taxon:9913 DATE 22-Nov-1993 #sequence_revision 05-May-1995 #text_change 16-Jul-1999 ACCESSIONS S20421; S23958 REFERENCE S20421 #authors Krizaj, I.; Turk, B.; Turk, V. #journal FEBS Lett. (1992) 298:237-239 #title The complete primary structure of bovine stefin B. #cross-references MUID:92183874; PMID:1544453 #accession S20421 ##molecule_type protein ##residues 1-98 ##label KRI REFERENCE S23958 #authors Turk, B.; Krizaj, I.; Turk, V. #journal Biol. Chem. Hoppe-Seyler (1992) 373:441-446 #title Isolation and characterization of bovine stefin B. #cross-references MUID:92384949; PMID:1515072 #contents annotation CLASSIFICATION SF001638 #superfamily cystatin; cystatin homology KEYWORDS acetylated amino end; cysteine proteinase inhibitor FEATURE 2-98 #domain cystatin homology #label CYS\ 1 #modified_site acetylated amino end (Met) #status experimental SUMMARY #length 98 #molecular_weight 11140 SEQUENCE 1 31 61 91 M E E R M N D H C K D D G K F E 5 G F V L T P H T S V I Y 10 15 20 25 30 A T Q P A T A E T Q A I A D K V K S Q L E E K F K A L E F K S Q L V A G K N Y F I K V Q V D R V F E S L P H E N K P V A L T S Y Q T N K G F Analisi delle sequenze Sequence similarity searching tools BLAST FASTA Genomic sequence analysis tools Exon prediction programs RepeatMasker Restriction analysis tools Webcutter NEBcutter Rebase Introduzione: Similarity analysis • Una sequenza di per se non è informativa: deve essere analizzata utilizzando metodi comparativi contro banche dati per poter avanzare ipotesi sulla funzione, classe, ecc… • Identity: la misura in cui 2 sequenze (nucleotidiche o aminoacidiche) sono uguali. Similarity: la misura in cui 2 sequenze (nucleotidiche o aminoacidiche) hanno qualcosa in comune. Si esprime in percentuale di identità di sequenza (percent sequence identity). Homology: Similarity attribuita alla discendenza da un “antenato” comune (si deduce dalla misura di similarità della struttura, della funzione, della sequenza). • • • L’approccio generale dell’analisi prevede l’utilizzo di una serie di algoritmi per confrontare una sequenza (query sequence) con tutte le sequenze presenti in una particolare banca dati. Continua • Ad ogni confronto viene assegnato un punteggio (score) che riflette il grado di similarità (degree of similarity) fra la query sequence e le sequenze confrontate. • La similarity viene misurata e mostrata graficamente per mezzo di allineamenti tra due sequenze (la query sequence e una della banca dati). • Gli allineamenti possono essere globali (global) o locali (local). • Un allineamento globale è un allineamento ottimale (optimal alignment) che include tutti i caratteri di ciascuna sequenza. Un allineamento locale è un allineamento ottimale che include solo la regione o le regioni più simili. • Optimal alignment: un allineamento di due sequenze con lo score più alto possibile. • Per discriminare fra match reali o artefatti viene utilizzata la probabilità (probability) che il match avvenga per caso. Altschul, S.F., Gish, W., Miller, W., Myers, E.W. & Lipman, D.J. (1990) "Basic local alignment search tool.“ J. Mol. Biol. 215: 403-410. Basic Local Alignment Search Tools • I programmi BLAST sono costituiti da una serie di algoritmi di confronto fra sequenze e sono utilizzati per identificare optimal local alignments tra una query sequence ed una banca dati di sequenze. • BLAST mantiene sia una buona velocità di analisi che una buona sensibilità (caratteristiche importanti con la crescita esponenziale delle banche dati). • BLAST frammenta la query sequence e le sequenze nella banca dati in frammenti (“Words”) cercando inizialmente match fra i frammenti. La ricerca iniziale è effettuata per Word di lunghezza “W” che danno uno score di almeno “T” quando confrontate con la query sequence usando una particolare matrice di sostituzione (substitution matrix). Questi match vengono estesi da entrambe le direzioni nel tentativo di generare un allineamento con uno score che supera la soglia “S”. Il parametro “T” regola la velocità e la sensibilità della ricerca. Continua • La qualità di ciascun allineamento è rappresentata da uno score e gli score sono ordinati dal più alto al più basso (ranked) • Matrici di punteggio (scoring matrices) sono usate per calcolare di un allineamento base per base (DNA) o aminoacido per aminoacido (proteine). Una matrice unitaria (unitary matrix) è utilizzata per il DNA perché ciascuna posizione può assumere uno score di +1 se crea un match oppure uno score di 0 se non produce un match. Continua • • • • Gaps: posizioni in cui una lettera è appaiata ad uno spazio vuoto sono indicate come gaps. I punteggi per i gap sono negativi. La significatività di ciascun allineamento è calcolata come P value (la probabilità di un allineamento di avere uno score come quello in esame o migliore) oppure come E value (Expectation value: il numero di differenti allineamenti con score equivalenti o migliori di “S” che ci si può aspettare di osservare in una ricerca in una banca dati per caso). Più bassi sono più significativi sono gli score. Ogni allineamento, tuttavia deve essere valutato criticamente prima di essere accettato. Ad esempio, allineamenti originati da una serie di sequenze ripetute possono ottenere alti score ma non riflettere similarità fra le due sequenze. Filtri che mascherano low complexity regions possono essere utilizzati per alleviare questi problemi. Es.: SEG program BLAST Programs BLAST 2.0 (Gapped BLAST) http://www.ncbi.nlm.nih.gov/BLAST/ blastn: confronta una sequenza nucleotidica contro una banca dati di sequenze nucleotidiche. bastp: confronta una sequenza aminoacidica contro una banca dati di sequenze proteiche. blastx: confronta una sequenza nucleotidica (che viene tradotta in tutti i reading frames) contro una banca dati di sequenze proteiche. tblastn: confronta una sequenza proteica contro una banca dati di sequenze nucleotidiche dinamicamente tradotte in tutti i reading frames. tblastx: confronta i 6 reading frames di una sequenza nucleotidica contro i 6 reading frames delle sequenze nucleotidiche presenti in una banca dati. Nucleotide Sequence Databases nr All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences). No longer "non-redundant". month All new or revised GenBank+EMBL+DDBJ+PDB sequences released in the last 30 days. Drosophila genome Drosophila genome provided by Celera and Berkeley Drosophila Genome Project (BDGP). dbest Database of GenBank+EMBL+DDBJ sequences from EST Divisions dbsts Database of GenBank+EMBL+DDBJ sequences from STS Divisions htgs Unfinished High Throughput Genomic Sequences: phases 0, 1 and 2 (finished, phase 3 HTG sequences are in nr) gss Genome Survey Sequence, includes single-pass genomic data, exon-trapped sequences, and Alu PCR sequences. yeast Yeast (Saccharomyces cerevisiae) genomic nucleotide sequences E. coli Escherichia coli genomic nucleotide sequences pdb Sequences derived from the 3-dimensional structure from Brookhaven Protein Data Bank kabat [kabatnuc] Kabat's database of sequences of immunological interest vector Vector subset of GenBank(R), NCBI, in ftp://ncbi.nlm.nih.gov/blast/db/ mito Database of mitochondrial sequences alu Select Alu repeats from REPBASE, suitable for masking Alu repeats from query sequences. It is available by anonymous FTP from ncbi.nlm.nih.gov (under the /pub/jmc/alu directory). See "Alu alert" by Claverie and Makalowski, Nature vol. 371, page 752 (1994). epd Eukaryotic Promotor Database found on the web at http://www.genome.ad.jp/dbgetbin/www_bfind?epd BLASTN 2.2.3 [Apr-24-2002] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schäffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. RID: 1023836296-020607-513 Query= gi|2076711|emb|X91845.1|SSMYHCS Sus scrofa mRNA for skeletal myosin heavy chain (pAZMY4) (798 letters) Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS, GSS, or phase 0, 1 or 2 HTGS sequences) 1,301,425 sequences; 5,790,534,584 total letters If you have any problems or questions with the results of this search please refer to the BLAST FAQs Taxonomy reports Distribution of 182 Blast Hits on the Query Sequence Score E Sequences producing significant alignments: (bits) Value gi|2076711|emb|X91845.1|SSMYHCS Sus scrofa mRNA for skeleta... gi|5360747|dbj|AB025261.1|AB025261 Sus scrofa mRNA for myos... gi|13651807|ref|XM_017815.1| Homo sapiens myosin, heavy pol... gi|11024711|ref|NM_017533.1| Homo sapiens myosin, heavy pol... gi|5814402|gb|AF111783.2|AF111783 Homo sapiens myosin heavy... gi|13560270|dbj|AB059399.1|AB059399 Bos taurus MyHC-2x mRNA... gi|14771688|ref|XM_052590.1| Homo sapiens myosin, heavy pol... gi|5360749|dbj|AB025262.1|AB025262 Sus scrofa mRNA for myos... gi|7669505|ref|NM_005963.2| Homo sapiens myosin, heavy poly... gi|4808814|gb|AF111785.1|AF111785 Homo sapiens myosin heavy... gi|34839|emb|X03740.1|HSMYH1R Human skeletal mRNA for myosi... gi|940232|gb|U32574.1|OCU32574 Oryctolagus cuniculus myosin... gi|1622|emb|X05958.1|OCMHCR Rabbit mRNA for fast skeletal m... gi|20809778|gb|BC029240.1| Mus musculus, clone IMAGE:398793... gi|544938|gb|S68736.1|S68736 Rattus sp. myosin heavy chain ... gi|20881592|ref|XM_126119.1| Mus musculus myosin, heavy pol... gi|9581820|emb|AJ278733.1|MMU278733 Mus musculus partial mR... gi|9886713|emb|AJ293626.1|MMU293626 Mus musculus partial mR... gi|5360745|dbj|AB025260.1|AB025260 Sus scrofa mRNA for myos... gi|20883345|ref|XM_137643.1| Mus musculus similar to Myosin... gi|13560268|dbj|AB059398.1|AB059398 Bos taurus MyHC-2a mRNA... gi|688127|gb|S73840.1|S73840 Homo sapiens type IIA myosin h... gi|14771674|ref|XM_012618.3| Homo sapiens myosin, heavy pol... gi|8923939|ref|NM_017534.1| Homo sapiens myosin, heavy poly... gi|4808812|gb|AF111784.1|AF111784 Homo sapiens myosin heavy... gi|5802177|gb|AF157005.1|AF157005 Rattus norvegicus type 2X... gi|406108|gb|L24897.1|RATMYH Rattus norvegicus myosin heavy... gi|510179|emb|Z34887.1|OCHEAMYO2 O.cuniculus (OCCDNA32) mRN... gi|20881584|ref|XM_126201.1| Mus musculus similar to Myosin... gi|14250230|gb|BC008538.1|BC008538 Mus musculus, Similar to... gi|294591|gb|L13606.1|RATMYHM Rattus norvegicus skeletal mu... gi|205566|gb|K02111.1|RATMYHC Rat embryonic myosin heavy ch... gi|20558375|ref|XM_008442.4| Homo sapiens myosin, heavy pol... gi|29465|emb|X51592.1|HSBMHCF Human MHC mRNA for fetal-myos... gi|4505300|ref|NM_002472.1| Homo sapiens myosin, heavy poly... gi|189033|gb|M36769.1|HUMMYOHP Homo sapiens perinatal myosi... gi|558668|emb|Z38133.1|HSMYOSIN H.sapiens mRNA for myosin . . gi|212403|gb|M74087.1|CHKMYOSIND Gallus gallus fast myosin ... gi|212375|gb|J02714.1|CHKMYHE Chicken embryonic myosin heav... . . . . . 1511 0.0 1409 0.0 955 0.0 955 0.0 955 0.0 930 0.0 914 0.0 906 0.0 898 0.0 898 0.0 874 0.0 872 0.0 850 0.0 823 0.0 811 0.0 801 0.0 801 0.0 795 0.0 795 0.0 751 0.0 728 0.0 704 0.0 696 0.0 696 0.0 696 0.0 668 0.0 668 0.0 555 e-155 541 e-151 541 e-151 533 e-149 527 e-147 519 e-144 519 e-144 511 e-142 511 e-142 511 e-142 484 e-134 484 e-134 >gi|13651807|ref|XM_017815.1| skeletal muscle (MYH4), mRNA Length = 6015 Homo sapiens myosin, heavy polypeptide 4, Score = 955 bits (482), Expect = 0.0 Identities = 656/713 (92%), Gaps = 2/713 (0%) Strand = Plus / Plus Query: 1 caccagcctgatcaacaccaagaagaagctggagacagacatctcccaaatccagggaga 60 ||||||||||||||||||||||||||||||||| |||||||| ||||||||||||||||| Sbjct: 5282 caccagcctgatcaacaccaagaagaagctggaaacagacatttcccaaatccagggaga 5341 Query: 61 gatggaggacattgtccaggaagctcgcaacgcagaagagaaggccaagaaggccatcac 120 |||||||||||| ||||||||||| ||||| ||||| ||||||||||||||||||||||| Sbjct: 5342 gatggaggacatcgtccaggaagcccgcaatgcagaggagaaggccaagaaggccatcac 5401 Query: 121 tgatgcagccatgatggccgaggagctgaagaaggagcaggacaccagcgcccacctgga 180 |||||| ||||||||||| ||||||||||||||||| ||||||||||||||||||||||| Sbjct: 5402 tgatgctgccatgatggctgaggagctgaagaaggaacaggacaccagcgcccacctgga 5461 Query: 181 gcggatgaagaagaatatggaacagacggtaaaggacctgcagcaccgcctggacgaggc 240 ||||||||||||||| ||||| ||||| || ||||| ||||||| ||| ||||| ||||| Sbjct: 5462 gcggatgaagaagaacatggagcagaccgtgaaggatctgcagctccgtctggatgaggc 5521 Query: 241 agaacagttggccctgaagggcgggaagaagcagatccagaagctggaggccagggtgag 300 || ||| |||| |||||||| |||||||||||||||||||| ||||||||||||||||| Sbjct: 5522 tgagcagctggcgctgaagggtgggaagaagcagatccagaaactggaggccagggtgag 5581 Query: 301 ggagcttgaaaatgaggttgaaaatgaacagaagcgcaatgttgaggctgtcaagggtct 360 |||||||||| |||||| |||| ||||||||||| |||||||||||||||||||||||| Sbjct: 5582 agagcttgaaagtgaggtggaaagtgaacagaagcacaatgttgaggctgtcaagggtct 5641 Query: 361 tcggaaacatgagagaagagtgaaggaactcacttaccagactgaggaggaccgaaagaa 420 ||| |||||||||||||||||||||||||||||||||||||||||||||||||| ||||| Sbjct: 5642 tcgcaaacatgagagaagagtgaaggaactcacttaccagactgaggaggaccgcaagaa 5701 Query: 421 tgttctcaggctgcaggacttggtggacaaactacaatccaaagttaaagcttacaagag 480 | ||||||||||||||||||||||||||||| | ||| ||||||| |||||||||||||| Sbjct: 5702 tattctcaggctgcaggacttggtggacaaattgcaaaccaaagtcaaagcttacaagag 5761 Query: 481 acaagcggaagaggcggaggaacaatccaacgtcaacctctccaagttccgcaagctcca 540 |||||| |||||||| |||||||||||||| |||||||| ||||||||||||||||||| Sbjct: 5762 acaagctgaagaggctgaggaacaatccaatgtcaaccttgccaagttccgcaagctcca 5821 Collegarsi al sito http://www.ncbi.nlm.nih.gov/entrez/ • Cliccate: Search Nucleotide for: digitate APOSTART • Scegliete la versione genomica del gene • Visualizzatela in formato FASTA WWW Restriction analysis tools http://rebase.neb.com/rebase/rebase.html NEBcutter v. 1.0 http://tools.neb.com/NEBcutter/index.php3 Webcutter 2.0 http://www.firstmarket.com/cutter/cut2.html Restriction Maps http://arbl.cvmbs.colostate.edu/molkit/mapper/index.html Progettazione primers per PCR PCR Primer design I primers devono essere ottimizzati per: • • • • Specificità Temperatura di fusione Strutture secondarie e formazione di dimeri Stabilità dell’appaiamento con la sequenza target Software Primer3 http://www-genome.wi.mit.edu/cgi-bin/primer/primer3_www.cgi Ci sono molti altri software per progettare primers, sia gratis che non Come è strutturato Primer3? Essenzialmente in 2 parti : La prima permette di agire sulla SEQUENZA da amplificare, indicando DOVE vanno disegnati i nostri primers Nella seconda abbiamo la possibilità di indicare le CARATTERISTICHE che devono avere i primers I campi da riempire nella pagina di input di Primer3 Campo “Sequence Id” Immettere il vostro nome + APOSTART Es: Stefano-APOSTART Ma si può anche usare il formato FASTA Campo “Targets” atggtagat tttctctttt ttggttatgg gtctatgatg cccgtgaaat gaattgatca gcagttttaa atcagcgcga ctgagggtaa atttctagtt tttctccttc attttcttgg ttaggaccct tatttttttg agctttgatc tttctttaaa ctgatctatt ttttaattga tgtaaatatt acatagcttt aactgataat ctgattactt tatttcgtgt atgatgatag ttacagaacc gacgactcgt ccgtcctgta gaaaccccaa caaaaaactc[gacggcctgt gggcattcag] tctggatcgc gaaaactgtg gcgttggtgg gaaagcgcgt tacaagaaag ccgggcaatt gctgtgccag cgatcagttc gccgatgcagatattcgtaa ttatgcgggc aacgtctggt agtctttata ccgaaaggtt gggcaggccagcgtatcgtg ctgcgtttcg …………… I target sono le parti della sequenza che devono essere presenti nell’amplificato (amplicone). Per definirli si utilizzano le parentesi [ ] o si immettono nell’apposita casella i valori di start e length Campi “Excluded Regions” O “Included Region” atggtagat ctgagggtaa tttctctttt tatttttttg ttggttatgg tgtaaatatt gtctatgatg atgatgatag cccgtgaaat}caaaaaactc gaattgatca gcgttggtgg gcagttttaa cgatcagttc atcagcgcga agtctttata atttctagtt{tttctccttc agctttgatc tttctttaaa acatagcttt aactgataat ttacagaacc gacgactcgt gacggcctgt gggcattcag gaaagcgcgt tacaagaaag gccgatgcag atattcgtaa ccgaaaggtt gggcaggcca attttcttgg ctgatctatt ctgattactt ccgtcctgta tctggatcgc ccgggcaatt ttatgcgggc gcgtatcgtg ttaggaccct ttttaattga tatttcgtgt gaaaccccaa gaaaactgtg gctgtgccag aacgtctggt ctgcgtttcg …………… Si possono definire le regioni che non interessano o che invece interessano per la progettazione del primer con i valori start e length, cioè la prima base e il numero di basi della regione Si possono usare anche i simboli < > per Excluded Regions. Campo “Product size” e “Product size Range” Seconda parte – Le caratteristiche dei primers Campo “ Number To Return” Si può scegliere quante coppie di primer si desidera che il programma ci fornisca Campo “ Max 3’ Stability” Più alto è il valore più il primer è stabile all’estremità 3’ Non si desidera una eccessiva stabilità: APPAIAMENTO CORRETTO 5’ TACTGGTACTAATGCCCCC 3’ ||||||||||||||||||| 3’ ATGACCATGATTACGGGGGAGCTACCTATCATGGTATAGGTA 5’ APPAIAMENTO NON CORRETTO, ma funzionante 5’ TACTGGTACTAATGCCCCC 3’ ||||||||| 3’ CCGGGGATCCTTACGGGGGGACCTATGCAA 5’ Campo ”Max Mispriming” e “Pair Max Mispriming” E’ un parametro che stabilisce la massima similarità di uno o di entrambi i primerspermessa con sequenze contenute nelle Mispriming Libraries, che contengono sequenze ripetute di vari organismi Campo “ Primer size” Campi “Primer Tm” e “Max Tm Difference La temperatura di annealing dipende dalla percentuale di G+C e dalla lunghezza del primer. Siccome non vogliamo una % G+C troppo alta la Tm richiesta per un primer deve tener conto della lunghezza desiderata (se la richiediamo) Campo “Primer GC%” E’ ottimale una frequenza di G+C (e A+T) del 50% Campi “Max (Self) Complementarity” e “Max 3’ (Self) Complementarity” 5' ATGCCCTAGCTTCCGGATG 3' ||| ||||| 3' AAGTCCTACATTTAGCCTAGT 5‘ 5' ATGCGCTTATA ||||| A 3’ TACGCCTTAGA Evitare la formazione di dimeri … … e di strutture secondarie !!! Campo “Max #N’s” Il numero massimo di “N” che consentiamo nei primer – Nel caso si disegnino primer su sequenze di bassa qualità, con tenenti basi “incerte” (N) Campo “Max poly-X” Il numero massimo di ripetizioni mononucleotidiche (es. AAAAAA) – rendono il primer troppo stabile (G/C) o troppo instabile (A/T) Campo “GC Clamp” Il numero di G o C richiesto all’estremità 3’ – Non più di una ! Quando è tutto deciso, click su “pick primers” Output di Primer 3 Primer3 Output WARNING: Numbers in input sequence were deleted. PRIMER PICKING RESULTS FOR Stefano No mispriming library specified Using 1-based sequence positions OLIGO start len LEFT PRIMER 1207 RIGHT PRIMER 1607 20 20 tm 59.98 59.99 gc% any 55.00 50.00 4.00 2.00 3' seq 2.00 cccttacgctgaagagatgc 0.00 ggcacagcacatcaaagaga SEQUENCE SIZE: 2053 INCLUDED REGION SIZE: 2053 PRODUCT SIZE: 401, PAIR ANY COMPL: 4.00, PAIR 3' COMPL: 1.00 1201 1261 1321 1381 1441 1501 1561 …………………………… gcattacccttacgctgaagagatgctcgactgggcagatgaacatggcatcgtggtgat >>>>>>>>>>>>>>>>>>>> tgatgaaactgctgctgtcggctttcagctgtctttaggcattggtttcgaagcgggcaa caagccgaaagaactgtacagcgaagaggcagtcaacggggaaactcagcaagcgcactt acaggcgattaaagagctgatagcgcgtgacaaaaaccacccaagcgtggtgatgtggag tattgccaacgaaccggatacccgtccgcaaggtgcacgggaatatttcgcgccactggc ggaagcaacgcgtaaactcgacccgacgcgtccgatcacctgcgtcaatgtaatgttctg cgacgctcacaccgataccatcagcgatctctttgatgtgctgtgcctgaaccgttatta <<<<<<<<<<<<<<<<<<<< …………………………… Output di Primer 3 Esercizio Cercare nella banca dati NCBI sequenze di Poa pratensis. Selezionare tra di esse il gene SERK isolato da Albertini E, e Marconi G. Eseguire un BLAST sulla sequenza e disegnare dei primer specifici per la individuazione di tale gene (utilizzando quindi parti peculiari della sequenza.) • Il prodotto di amplificazione deve essere compreso tra 150 e 300 pb • La temperatura di fusione dei primers deve essere superiore a 60°C Sequenza codificante del gene NptII dal plasmide pCAMBIA-2301 9001 9061 9121 9181 9241 9301 9361 9421 9481 9541 9601 9661 9721 gatgcgctgc gccgccaagc cacacccagc cggcaagcag gagcctggcg atcgacaaga gtcgaatggg ggatactttc caatagcagc gcccgtcgtg ggacaggtcg ggcatcagag agcggccgga gaatcgggag tcttcagcaa cggccacagt gcatcgccat aacagttcgg ccggcttcca caggtagccg tcggcaggag cagtcccttc gccagccacg gtcttgacaa cagccgattg gaacctgcgt tca cggcgatacc tatcacgggt cgatgaatcc gtgtcacgac ctggcgcgag tccgagtacg gatcaagcgt caaggtgaga ccgcttcagt atagccgcgc aaagaaccgg tctgttgtgc gcaatccatc gaagaactcg gtaaagcacg agccaacgct agaaaagcgg gagatcctcg cccctgatgc tgctcgctcg atgcagccgc tgacaggaga gacaacgtcg tgcctcgtcc gcgcccctgc ccagtcatag ttgttcaatc tcaagaaggc aggaagcggt atgtcctgat ccattttcca ccgtcgggca tcttcgtcca atgcgatgtt cgcattgcat tcctgccccg agcacagctg tggagttcat gctgacagcc ccgaatagcc cccat gatagaaggc cagcccattc agcggtccgc ccatgatatt tgcgcgcctt gatcatcctg tcgcttggtg cagccatgat gcacttcgcc cgcaaggaac tcagggcacc ggaacacggc tctccaccca