A.A. 2014-2015 CORSO BIOINFORMATICA 2 LM in BIOLOGIA EVOLUZIONISTICA Scuola di Scienze, Università di Padova Docenti: Dr. Giorgio Valle Dr. Stefania Bortoluzzi DEFINIZIONI DI BIOINFORMATICA • The application of computer technology to organize and analyze biological data. • Analysis of proteins, genes, and genomes using computer algorithms. • NIH: “research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, analyze, or visualize such data” BIOINFORMATICA Medical Informatics Evolutionary Biology Computational Biology Bioinformatics Pharmacogenomics Genomics Proteomics BIOINFORMATICA The study and application of computing methods for classical biology BIOINFORMATICA Analysis and comparison of the entire genome of a single species or of multiple species BIOINFORMATICA Study of how the genome is expressed in proteins, and of how these proteins function and interact BIOINFORMATICA The application of genomic methods to identify drug targets, for example, searching entire genomes for potential drug receptors BIOINFORMATICA Study of the evolutionary processes that produced the diversity of life, the descent of species, and the origin of new species. BIOINFORMATICA The study and application of computing methods to improve communication, understanding, and management of medical data BIOINFORMATICA: AMBITI PRINCIPALI ? • Sviluppo e implementazione di software per conservare, diffondere e elaborare diversi tipi di informazione • Sviluppo di nuovi algoritmi e metodi statistici per integrare dati diversi, ricercare e studiare diversi tipi di relazioni e interazioni in grandi dataset • Analisi e interpretazione di dati di varia natura, quali biosequenze, strutture, interazioni. BIOINFORMATICA: SCOPI? • Aumentare la comprensione della biologia a livello funzionale • Modellizzare il funzionamento delle cellule e degli organismi • Fornire informazioni utili a migliorare la qualità della vita (malattie, tumori) • Database (design, handling, ...) •• Mappaggio Analisi di dati di d’espressione geni e • genomi Predizione di funzioni geniche di strutture •• Predizione Identificazione di fattori di rischio per malattie target •• Identificazione Studio delle retidiregolative e metaboliche •• Drug … design • Terapia genica BIOINFORMATICA: QUALI DATI? • • • • • • • Sequence data Structural information Expression data Molecular interaction data Mutation data Phenotypic data Imaging data BIOINFORMATICA 3 PROSPETTIVE ALBERO DELLA VITA CELLULA ORGANISMO I : CELLULA I : CELLULA CENTRAL DOGMA OF MOLECULAR BIOLOGY DNA Trascrizion e Genoma Proteina RNA Traduzion e Trascrittoma Proteoma CENTRAL DOGMA OF BIOINFORMATICS AND GENOMICS I : CELLULA I : CELLULA Il ruolo della bioinfomatica • Questi miliardi di sequenze presentano sfide e opportunità, • per studiare moltissimi problemi biologici diversi, quali: • Stati cellulari in relazione a ciclo cellulare, differenziamento, malattia ecc. • Regolazione dei processi, • … II : ORGANISMO Tempo Sviluppo Spazio e stato Regione del corpo, fisiologia, patologia, farmacologia II : ORGANISMO Il ruolo della bioinfomatica • Studia il genoma, e particolarmente l’insieme di geni espressi in trascritti RNA e in prodotti proteici. • Gli strumenti bioinformatici posso esser usati per descrivere cambiamenti qualitativi e qunatitativi degli elementi considerati: durante lo sviluppo, in relazione alle diverse zone del corpo, e in una serie molto vasta di stati fisiologici o patologici. III : ALBERO DELLA VITA Darwin (1837) “The green and budding twigs may represent existing species; and those produced during former years may represent the long succession of extinct species.” Haeckel (1866) «in biologia niente ha senso se non alla luce dell’evoluzione» (Dobzhansky, 1973) III : ALBERO DELLA VITA • Gli esseri viventi oggi esistenti si sono evoluti a partire da altri esseri viventi ancestrali e sono legati da relazioni di tipo evolutivo • Lo studio del patrimonio genetico (genoma) delle specie permette di ricostruirne la storia passata e le relazioni con altre specie alberi filogenetici TREE OF LIFE WITH ENDOSYMBIOSIS III : ALBERO DELLA VITA Il ruolo della bioinfomatica • Storicamente l’evoluzione molecolare è stato il primo ambito che ha richiesto al nascita della bioinformatica • Studiare i processi evolutivi (da macro- a micro-evoluzione) • Ricostruire la storia passata • Comprendere le pressioni evolutive in relazione alle informazioni funzionali e viceversa DATABASES AND DATA RETRIEVAL Biosequences and Gene-related info Alfabeto molecolare GLI ACIDI NUCLEICI E LE PROTEINE SONO POLIMERI LINEARI BIOSEQUENZE • DNA e RNA sono polimeri lineari di nucleotidi, specializzati nel deposito, nella trasmissione e nell’utilizzazione dell’informazione genetica • Gli acidi nucleici possono assumere specifiche forme nello spazio 3D, come le proteine, e svolgere attivita’ diverse (ad es. catalisi) IL DOGMA CENTRALE DELLA BIOLOGIA Molti altri RNA non coding THE BIG DATA ERA • La biologia molecolare è nell'era dei "big data” • Le metodologie sperimentali hightroughput permettono di studiare moltissimi processi su scala genomica • La grande disponibilità di dati sperimentali e conoscenza richiedono approcci quantitativi basati sull'informatica e la statistica per lo studio dei fenomeni biologici. DEEP SEQUENCING Evoluzione delle tecnologie di sequenziamento 1° generation: Standard Sanger 2° generation: Next Generation Sequencing (NGS) 3° generation: Ion Torrent, Nanopore Roche/454 Illumina/Solexa ABI/Solid Since: ‘70s Read length: 1000 bp Throughput: 300kb/run 2004 35-1000 bp 700-50 Mb/day LifeTechnologies’ Oxford Nanopore IonTorrent 2011 100 bp 12Gb/day TRASCRIPTO ME GENOME DE-NOVO AMPLICON EXOME RE SEQUENCI NG WHOLE GENOME Aspetti positivi • • • Grande mole di dati prodotti; Identificazione cause malattie sconosciute o poco conosciute; Applicazione delle conoscenze acquisite (farmacogenomica). LONG CODING NO CODING SHORT miRNA OTHER Limiti •Necessità di server capienti; •Costruzione di strutture bioinformatiche complesse; •Necessità di database integrati; •Diverse domande biologiche. RNA-seq for Reverse Engineering of the genome state Cells/Biosamples Library preparation Sequencing Computational analysis for reverse engineering Genoma • < 3% del genoma umano codifica proteine • Evidenze recenti ottenute con genomic-tiling array e sequenziamento del trascrittoma hanno mostrato che >70% del genoma è trascritto in maniera pervasiva in • RNA codificante ( mRNA) • Moltissimi prodotti trascrizionali sono RNA, piccoli e lunghi, con scarsissimo potenziale codificante La maggior parte del DNA eucariotico trascritto è non codificante • La production phase di ENCODE ha mostrato che >80% del genoma è biologicamente attivo e funzionale (ruolo regolativo per la maggior parte delle sequenze) Il trascrittoma non-codificante • RNA non codificanti noti da molto tempo: rRNA e tRNA nella traduzione snRNA e snoRNA nel processamento degli mRNA Le molecole di RNA possono contemporaneamente contenere informazione di sequenza e possedere plasticità strutturale ribozimi • Ipotesi del “mondo ad RNA” Gli RNA possono sia interagire con DNA ed altri RNA per appaiamento delle basi complementari, sia fornire siti di legame per proteine DNA Transcription RNA Processing mRNA Translation PROTEINS • <3% of the genome is important since transcribed/coding • abundant “junk DNA” ncRNA DNA • >70% transcribed in “dark matter” Transcription Transcription Alternative TSSs Processing RNA transcripts/precursors Splicing Nuclear export Processing Polyadenylation Silencing Editing Editing Turn-over Turn-over Trans-splicing Sequestration Sequestration mRNA Translation PROTEINS • Diverse functional roles for ncRNAs uncovered ncRNA miRNAs snRNAs piRNAs siRNAs lncRNAs snoRNAs circRNAs tRFs ? Primary Databases: Databases consisting of data derived experimentally such as nucleotide sequences and three dimensional structures are known as primary databases. Secondary Databases: Those data that are derived from the analysis, treatment or integration of primary data such as secondary structures, hydrophobicity plots, and domain are stored in secondary databases. DATABASE PRIMARI DATABASE DI SEQUENZE NUCLEOTIDICHE Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un codice che lo identifica univocamente (ACCESSION NUMBER). Banche dati primarie di sequenze nucleotidiche EMBL nucleotide database, ora gestita dall’EBI (1980) EMBL = European Molecular Biology Laboratory (Heidelberg) EBI = European Bioinformatics Institute (Hinxton, UK) GenBank = banca dell NIH gestita dal NCBI (1982) NIH = National Institutes of Health (Stuttura USA) NCBI = National Center for Biotechnology Information, Bethesda, Maryland DDBJ = banca DNA giapponese (1986) DDBJ = DNA DataBase of Japan SCAMBIO DI DATI Nel 1988, i gruppi responsabili dei 3 database si sono organizzati nell’International Collaboration of DNA Sequence Databases per utilizzare un formato comune e scambiarsi giornalmente le sequenze. DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank SUBMISSION DIRETTA La gran parte delle sequenze finisce in uno dei tre database perché l’autore (il laboratorio dove tale sequenza è stata ottenuta) la invia direttamente. La sequenza viene quindi inserita e il record corrispondente resta di proprietà solo di quel database, l’unico con il diritto di modificarlo. Il database che riceve la sequenza la invia poi agli altri due. ANNOTAZIONE Ci sono poi anche degli “annotatori” che prendono le sequenze dalle riviste scientifiche e le trasferiscono nel database. Problema della ridondanza GENBANK AND WGS STATISTICS GenBank Bases 680338 1, Dec 1982 … 199, Dec 2013 156230531562 Release 199 of Dec 2013 WGS Sequences 606 Bases Sequences 169331407 556764321498 133818570 DATABASE PRIMARI DATABASE DI SEQUENZE PROTEICHE SWISS-PROT Database di sequenze proteiche annotate, “scarsamente” ridondanti e cross-referenced Contiene TrEMBL, supplemento a SWISS-PROT costituito dalle sequenze annotate al computer, come traduzione di tutte le sequenze codificanti presenti all’EMBL TrEMBL contiene due sezioni: SP-TrEMBL, sequenze da incorporare in SWISSPROT, con AC. REM-TrEMBL, remaining (immunoglobuline, proteine sintetiche, ...), senza AC. TrEMBLnew, generato ogni settimana. LOCUS DEFINITION ACCESSION VERSION DBLINK DBSOURCE KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL PUBMED REFERENCE AUTHORS TITLE JOURNAL COMMENT AIL58882 140 aa linear BCT 29-AUG-2014 crystallin [Staphylococcus aureus]. AIL58882 AIL58882.1 GI:675303284 BioProject: PRJNA240091 accession CP007499.1 . Staphylococcus aureus Staphylococcus aureus Bacteria; Firmicutes; Bacilli; Bacillales; Staphylococcus. 1 (residues 1 to 140) Benson,M.A., Ohneck,E.A., Ryan,C., Alonzo,F. III, Smith,H., Narechania,A., Kolokotronis,S.O., Satola,S.W., Uhlemann,A.C., FEATURES Sebra,R., Deikus,G., Shopsin,B., Planet,P.J. and Torres,V.J.source Evolution of hypervirulence by a MRSA clone through acquisition of a transposable element Mol. Microbiol. 93 (4), 664-681 (2014) 24962815 Protein 2 (residues 1 to 140) Planet,P.J., Narechania,A., Shopsin,B. and Torres,V. Region Direct Submission Submitted (18-MAR-2014) Pediatrics, Columbia University, 650 West 168th St, New York, NY 10032, USA Annotation was added by the NCBI Prokaryotic Genome Annotation Pipeline (released 2013). Information about the Pipeline can be found here: http://www.ncbi.nlm.nih.gov/genome/annotation_prok/ Region ##Genome-Annotation-Data-START## Annotation Provider :: NCBI Annotation Date :: 03/20/2014 14:06:33 Annotation Pipeline :: NCBI Prokaryotic Genome Annotation Pipeline Annotation Method :: Best-placed reference protein set; GeneMarkS+ Annotation Software revision :: 2.4 (rev. 429283) Features Annotated :: Gene; CDS; rRNA; tRNA; ncRNA; repeat_region Genes :: 2,836 CDS :: 2,729 Pseudo Genes :: 29 rRNAs :: 19 ( 5S, 16S, 23S ) tRNAs :: 59 ncRNA :: 0 Frameshifted Genes :: 23 ##Genome-Annotation-Data-END## CDS FEATURES … Location/Qualifiers 1..140 /organism="Staphylococcus aureus" /strain="2395 USA500" /db_xref="taxon:1280" 1..140 /product="crystallin" 1..137 /region_name="IbpA" /note="Molecular chaperone (small heat shock protein) [Posttranslational modification, protein turnover, chaperones]; COG0071" /db_xref="CDD:223149" 36..124 /region_name="alpha-crystallin-Hsps_p23-like" /note="alpha-crystallin domain (ACD) found in alpha-crystallin-type small heat shock proteins, and a similar domain found in p23 (a cochaperone for Hsp90) and in other p23-like proteins; cl00175" /db_xref="CDD:260235" 1..140 /locus_tag="CH51_12820" /coded_by="CP007499.1:2592248..2592670" /inference="EXISTENCE: similar to AA sequence:RefSeq:WP_001010521.1" /note="Derived by automated computational analysis using gene prediction method: Protein Homology." /transl_table=11 ORIGIN 1 mnfnqfenqn ffngnpsdtf kdlgkqvfny fstpsfvtni yetdelyyle aelagvnked 61 isidfnnntl tiqatrsaky kseqlilder nfeslmrqfd feavdkqhit asfengllti 121 tlpkikpsne ttsstsipis // DATABASE PRIMARI PDB • Database di strutture 3-D di proteine e acidi nucleici • Dati ottenuti sperimentalmente e sottomessi direttamente dai ricercatori • Fondato nel 1971 PDB files • The most common format for storage and exchange of atomic coordinates for biological molecules is PDB file format • PDB file format is a text (ASCII) format, with an extensive header that can be read and interpreted either by programs or by people • Next slide: PDB file format nome composto organismo autore referenze risoluzione sequenza residuo 1 residuo 2 HEADER TRANSCRIPTION REGULATION 25-AUG-94 1RPO COMPND ROP (COLE1 REPRESSOR OF PRIMER) MUTANT WITH ALA INSERTED ON COMPND 2 EITHER SIDE OF ASP 31 (INS (A-D31-A)) SOURCE (ESCHERICHIA COLI) AUTHOR M.VLASSI,M.KOKKINIDIS REVDAT 2 15-MAY-95 1RPOA 1 REMARK REVDAT 1 14-FEB-95 1RPO 0 JRNL AUTH M.VLASSI,C.STEIF,P.WEBER,D.TSERNOGLOU,K.WILSON, JRNL AUTH 2 H.J.HINZ,M.KOKKINIDIS JRNL TITL RESTORED HEPTAD PATTERN CONTINUITY DOES NOT JRNL TITL 2 ALTER THE FOLDING OF A 4-ALPHA-HELICAL BUNDLE JRNL REF NAT.STRUCT.BIOL. V. 1 706 1994 JRNL REFN ASTM NSBIEW US ISSN 1072-8368 2024 REMARK 1 REMARK 1 REFERENCE 1 REMARK 1 AUTH M.KOKKINIDIS,M.VLASSI,Y.PAPANIKOLAOU,D.KOTSIFAKI, REMARK 1 AUTH 2 A.KINGSWELL,D.TSERNOGLOU,H.J.HINZ REMARK 1 TITL CORRELATION BETWEEN PROTEIN STABILITY AND CRYSTAL REMARK 1 TITL 2 PROPERTIES OF DESIGNED ROP VARIANTS REMARK 1 REF PROTEINS.STRUCT.,FUNCT., V. 16 214 1993 REMARK 1 REF 2 GENET. REMARK 1 REFN ASTM PSFGEY US ISSN 0887-3585 0867 REMARK 2 REMARK 2 RESOLUTION. 1.4 ANGSTROMS. REMARK REMARK 999 SEQUENCE NUMBER IS ALSO THAT FROM PDB ENTRY SEQRES 1 65 MET THR LYS GLN GLU LYS THR ALA LEU ASN MET ALA ARG SEQRES 2 65 PHE ILE ARG SER GLN THR LEU THR LEU LEU GLU LYS LEU SEQRES 3 65 ASN GLU LEU ALA ASP ALA ALA ASP GLU GLN ALA ASP ILE SEQRES 4 65 CYS GLU SER LEU HIS ASP HIS ALA ASP GLU LEU TYR ARG SEQRES 5 65 SER CYS LEU ALA ARG PHE GLY ASP ASP GLY GLU ASN LEU 1RPO 2 1RPO 3 1RPO 4 1RPO 5 1RPO 6 1RPOA 1 1RPO 7 1RPO 8 1RPO 9 1RPO 10 1RPO 11 1RPO 12 1RPO 13 1RPO 14 1RPO 15 1RPO 16 1RPO 17 1RPO 18 1RPO 19 1RPOA 2 1RPOA 3 1RPO 22 1RPO 29 1RPO 30 1RPO 94 1RPO 95 1RPO 96 1RPO 97 1RPO 98 1RPO 99 1RPO 100 ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO num.atomo tipo atomo tipo residuo num. residuo 1 2 3 4 5 6 7 7 8 9 10 11 N CA C O CB CG SD SD CE N CA C MET MET MET MET MET MET MET MET MET THR THR THR 1 1 1 1 1 1 1 1 1 2 2 2 1.132 2.398 3.091 2.642 3.281 3.718 4.491 4.491 3.039 4.142 4.851 5.719 x 3.053 3.546 2.466 1.298 3.936 2.760 3.371 3.371 3.650 2.833 1.806 1.011 y 2.801 2.283 1.442 1.451 3.463 4.291 5.797 5.797 6.762 0.689 -0.025 0.950 z 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 25.53 27.85 21.34 19.29 23.96 27.52 26.29 26.29 25.19 13.20 12.76 14.35 115 116 117 118 119 120 121 121 122 123 124 125 PDB file example HEADER COMPND SOURCE AUTHOR REVDAT REVDAT JRNL JRNL JRNL JRNL JRNL JRNL REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK SYNTHETIC PROTEIN MODEL 02-JUL-90 1AL1 ALPHA - 1 (AMPHIPHILIC ALPHA HELIX) SYNTHETIC C.P.HILL,D.H.ANDERSON,L.WESSON,W.F.DE*GRADO,D.EISENBERG 2 15-JAN-95 1AL1A 1 HET 1 15-OCT-91 1AL1 0 AUTH C.P.HILL,D.H.ANDERSON,L.WESSON,W.F.DE*GRADO, AUTH 2 D.EISENBERG TITL CRYSTAL STRUCTURE OF ALPHA=1=: IMPLICATIONS FOR TITL 2 PROTEIN DESIGN REF SCIENCE V. 249 543 1990 REFN ASTM SCIEAS US ISSN 0036-8075 038 1 1 REFERENCE 1 1 AUTH D.EISENBERG,W.WILCOX,S.M.ESHITA,P.M.PRYCIAK,S.P.HO 1 TITL THE DESIGN, SYNTHESIS, AND CRYSTALLIZATION OF AN 1 TITL 2 ALPHA-*HELICAL PEPTIDE 1 REF PROTEINS.STRUCT.,FUNCT., V. 1 16 1986 1 REF 2 GENET. 1 REFN ASTM PSFGEY US ISSN 0887-3585 867 2 2 RESOLUTION. 2.7 ANGSTROMS. 3 3 REFINEMENT. BY THE RESTRAINED LEAST SQUARES PROCEDURE OF J. 3 KONNERT AND W. HENDRICKSON (PROGRAM *PROLSQ*). THE R 3 VALUE IS 0.255 FOR ALL DATA. THE R VALUE IS 0.211 FOR ALL 3 REFLECTIONS IN THE RESOLUTION RANGE 10.0 TO 2.7 ANGSTROMS 3 WITH FOBS .GT. 2*SIGMA(FOBS). THE RMS DEVIATION FROM 3 IDEALITY OF THE BOND LENGTHS IS 0.013 ANGSTROMS. THE RMS 3 DEVIATION FROM IDEALITY OF THE BOND ANGLE DISTANCES IS 1AL1 1AL1 1AL1 1AL1 1AL1A 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 1AL1 2 3 4 5 1 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 PDB file example SEQRES 1 13 ACE GLU LEU LEU LYS LYS LEU LEU GLU GLU LEU LYS GLY 1AL1 39 HET SO4 13 5 SULFATE ION 1AL1A 5 FORMUL 2 SO4 O4 S1 1AL1 41 HELIX 1 HL1 ACE 0 LEU 10 1 1AL1 42 CRYST1 62.350 62.350 62.350 90.00 90.00 90.00 I 41 3 2 48 1AL1 43 ORIGX1 1.000000 0.000000 0.000000 0.00000 1AL1 44 ORIGX2 0.000000 1.000000 0.000000 0.00000 1AL1 45 ORIGX3 0.000000 0.000000 1.000000 0.00000 1AL1 46 SCALE1 0.016038 0.000000 0.000000 0.00000 1AL1 47 SCALE2 0.000000 0.016038 0.000000 0.00000 1AL1 48 SCALE3 0.000000 0.000000 0.016038 0.00000 1AL1 49 ATOM 1 C ACE 0 31.227 38.585 11.521 1.00 25.00 1AL1 50 ATOM 2 O ACE 0 30.433 37.878 10.859 1.00 25.00 1AL1 51 ATOM 3 CH3 ACE 0 30.894 39.978 11.951 1.00 25.00 1AL1 52 ATOM 4 N GLU 1 32.153 37.943 12.252 1.00 25.00 1AL1 53 ATOM 5 CA GLU 1 32.594 36.639 11.811 1.00 25.00 1AL1 54 ATOM 6 C GLU 1 32.002 35.428 12.514 1.00 25.00 1AL1 55 ATOM 7 O GLU 1 32.521 34.279 12.454 1.00 25.00 1AL1 56 ATOM 8 CB GLU 1 34.093 36.609 11.812 1.00 25.00 1AL1 57 … ATOM 102 OXT GLY 12 20.888 27.022 1.650 1.00 25.00 1AL1 144 TER 103 GLY 12 1AL1 145 HETATM 104 S SO4 13 31.477 38.950 15.821 0.50 25.00 1AL1 146 HETATM 105 O1 SO4 13 31.243 38.502 17.238 0.50 25.00 1AL1 147 HETATM 106 O2 SO4 13 30.616 40.133 15.527 0.50 25.00 1AL1 148 HETATM 107 O3 SO4 13 31.158 37.816 14.905 0.50 25.00 1AL1 149 HETATM 108 O4 SO4 13 32.916 39.343 15.640 0.50 25.00 1AL1 150 CONECT 104 105 106 107 108 1AL1 151 CONECT 105 104 1AL1 152 CONECT 106 104 1AL1 153 CONECT 107 104 1AL1 154 CONECT 108 104 1AL1 155 MASTER 29 0 1 1 0 0 0 6 100 1 5 1 1AL1A 6 END 1AL1 157 Subunits view Interactive view DATABASE SECONDARI DATABASE SECONDARI UniProt (Universal Protein Resource) Il piu’ grande catalogo di informazioni sulle proteine. Contiene informazioni sulla sequenza e sulla funzione di proteine ed e’ ottenuto dall’insieme delle informazioni contenute in SwissProt, TrEMBL e PIR. UniProt http://www.uniprot.org/uniprot/ UniProt Knowledgebase, due parti: •Records annotati manualmente, informazioni dalla letteratura (UniProtKB/Swiss-Prot) •Records risultato di analisi computazionali, in attesa di annotazione completa (UniProtKB/TrEMBL). NCBI GENE Interfaccia unificata per cercare informazioni su sequenze e loci genetici. Presenta informazioni sulla nomenclatura ufficiale, accession numbers, fenotipi, MIM numbers, UniGene clusters, omologia, posizioni di mappa e link a numerosi altri siti web. NCBI GENE NCBI GENE NCBI GENE RefSeq - Reference Sequence collection of genomic DNA, transcripts, and proteins. Distinguishing Features: • • • • • • non-redundancy explicitly linked nucleotide and protein sequences updates to reflect current knowledge of sequence data and biology data validation and format consistency accessions with '_' character ongoing curation by NCBI staff and collaborators, with reviewed records indicated DATABASE SECONDARI NCBI - Information retrieval system • E' stato sviluppato all’NCBI (National Center for Biotechnology Information, USA) per permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche. • Sfrutta il concetto di “neighbouring”: possibilita' di collegare tra loro oggetti diversi di database differenti, indipendentemente dal fatto che essi siano direttamente “crossreferenced”. • Tipicamente, permette l'accesso a database di sequenze nucleotidiche, di sequenze proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici (PubMed). PubMed Bookshelf Pfam • Proteins contain conserved regions • Based on the conserved regions, proteins are classified into families • Domains can be considered as building blocks of proteins. • Some domains can be found in many proteins with different functions, while others are only found in proteins with a certain function. • The presence of a particular domain can be indicative of the function of the protein. Pfam • The Pfam database is a large collection of protein domain families. • Each family is represented by multiple sequence alignments and hidden Markov models (HMMs). • HMM -> modelli probabilistici che descrivono evoluzione e conservazione di famiglie proteiche • Provides links to external databases like PDB, SCOP, CATH etc. Pfam-A and Pfam-B • Pfam-A entries are derived from the underlying sequence database (Pfamseq, built from the most recent release of UniProtKB) curated seed alignment containing a small set of representative members of the family, profile hidden Markov models (profile HMMs) built from the seed alignment, and an automatically generated full alignment. Pfam-A and Pfam-B • Pfam-B families are un-annotated and of lower quality as they are generated automatically from the non-redundant clusters of the latest ADDA (Automatic Domain Decomposition Algorithm) database release. Although of lower quality, Pfam-B families can be useful for identifying functionally conserved regions when no Pfam-A entries are found. Pfam classification • Family: A collection of related protein regions • Domain: A structural unit • Repeat: A short unit which is unstable in isolation but forms a stable structure when multiple copies are present • Motifs: A short unit found outside globular domains • Related Pfam entries are grouped together into clans; the relationship may be defined by similarity of sequence, structure or profileHMM. Pfam HMM logo Seed alignment CATH Protein Structure Classification Database at UCL • Classification of proteins based on domain structures • Each protein chopped into individual domains and assigned into homologous superfamilies. • Hierarchial domain classification of PDB entries. CATH hierarchy • Class – derived from secondary structure content is assigned automatically • Architecture – describes gross orientation of secondary structures, independent of connectivity (based on known structures) • Topology – clusters structures according to their topological connections and numbers of secondary structures • Homologous superfamily – this level groups together protein domains which are thought to share a common ancestor and can therefore be described as homologous Class, C-level mainly-alpha, mainly-beta and alphabeta (including alternating alpha/beta structures and alpha+beta structures) plus a fourth class with low secondary structure content. Architecture, A-level Overall shape; ignores the connectivity between the secondary structures. Assigned manually using literature for well-known architectures (e.g the betapropellor or alpha four helix bundle) as reference. Topology (Fold family), T-level Structures are grouped into fold families at this level depending on both the overall shape and connectivity of the secondary structures. This is done using the structure comparison algorithm SSAP. CATH – dominio maggiore serina idrossimetiltransferasi umana SCOP Structural Classification of Proteins • Description of structural and evolutionary relationships between all the proteins with known structures • Uses the PDB entries • Search using keywords or PDB identifiers Hierarchy in SCOP • While the four major levels of CATH are class, architecture, topology and homologous superfamily SCOP uses: • Class (all α, all β, α/β, α + β) • Fold • Superfamily • Family • Species • SCOP database is mainly based on expert knowledge, while CATH grounds more on automation What about Genomic databases? Saranno trattati nella parte del corso riguardante la Genomica