A.A. 2014-2015
CORSO
BIOINFORMATICA 2
LM in BIOLOGIA EVOLUZIONISTICA
Scuola di Scienze, Università di Padova
Docenti: Dr. Giorgio Valle
Dr. Stefania Bortoluzzi
DEFINIZIONI DI
BIOINFORMATICA
• The
application
of
computer
technology to organize and analyze
biological data.
• Analysis of proteins, genes, and
genomes using computer algorithms.
• NIH: “research, development, or application
of computational tools and approaches for
expanding the use of biological, medical,
behavioral or health data, including those to
acquire, store, analyze, or visualize such data”
BIOINFORMATICA
Medical Informatics
Evolutionary
Biology
Computational
Biology
Bioinformatics
Pharmacogenomics
Genomics
Proteomics
BIOINFORMATICA
The study and
application of
computing methods
for classical biology
BIOINFORMATICA
Analysis and comparison
of the entire genome of a
single species or of
multiple species
BIOINFORMATICA
Study of how the genome is expressed in proteins,
and of how these proteins function and interact
BIOINFORMATICA
The application of genomic
methods to identify drug targets, for
example, searching entire genomes
for potential drug receptors
BIOINFORMATICA
Study of the evolutionary
processes that produced the
diversity of life, the descent of
species, and the origin of new
species.
BIOINFORMATICA
The study and application of computing methods to improve
communication, understanding, and management of medical data
BIOINFORMATICA:
AMBITI PRINCIPALI ?
• Sviluppo e implementazione di software per
conservare, diffondere e elaborare diversi
tipi di informazione
• Sviluppo di nuovi algoritmi e metodi statistici
per integrare dati diversi, ricercare e studiare
diversi tipi di relazioni e interazioni in grandi
dataset
• Analisi e interpretazione di dati di varia
natura,
quali
biosequenze,
strutture,
interazioni.
BIOINFORMATICA: SCOPI?
• Aumentare la comprensione della biologia a livello
funzionale
• Modellizzare il funzionamento delle cellule e degli organismi
• Fornire informazioni utili a migliorare la qualità della vita
(malattie, tumori)
• Database (design, handling, ...)
•• Mappaggio
Analisi di dati
di d’espressione
geni e
• genomi
Predizione di funzioni geniche
di strutture
•• Predizione
Identificazione
di fattori di rischio per malattie
target
•• Identificazione
Studio delle retidiregolative
e metaboliche
•• Drug
… design
• Terapia genica
BIOINFORMATICA: QUALI DATI?
•
•
•
•
•
•
•
Sequence data
Structural information
Expression data
Molecular interaction data
Mutation data
Phenotypic data
Imaging data
BIOINFORMATICA
3 PROSPETTIVE
ALBERO
DELLA
VITA
CELLULA
ORGANISMO
I : CELLULA
I : CELLULA
CENTRAL DOGMA OF MOLECULAR BIOLOGY
DNA
Trascrizion
e
Genoma
Proteina
RNA
Traduzion
e
Trascrittoma
Proteoma
CENTRAL DOGMA OF BIOINFORMATICS AND GENOMICS
I : CELLULA
I : CELLULA
Il ruolo della bioinfomatica
• Questi miliardi di sequenze presentano
sfide e opportunità,
• per studiare moltissimi problemi biologici
diversi, quali:
• Stati cellulari in relazione a ciclo cellulare,
differenziamento, malattia ecc.
• Regolazione dei processi,
• …
II : ORGANISMO
Tempo
Sviluppo
Spazio e stato
Regione del corpo, fisiologia,
patologia, farmacologia
II : ORGANISMO
Il ruolo della bioinfomatica
• Studia il genoma, e particolarmente l’insieme di
geni espressi in trascritti RNA e in prodotti
proteici.
• Gli strumenti bioinformatici posso esser usati per
descrivere cambiamenti qualitativi e qunatitativi
degli elementi considerati:
durante lo sviluppo,
in relazione alle diverse zone del corpo,
e in una serie molto vasta di stati fisiologici o
patologici.
III : ALBERO DELLA VITA
Darwin (1837)
“The green and budding twigs may represent
existing species; and those produced during
former years may represent the long succession
of extinct species.”
Haeckel (1866)
«in biologia niente ha senso se non alla luce dell’evoluzione»
(Dobzhansky, 1973)
III : ALBERO DELLA VITA
• Gli esseri viventi oggi esistenti si sono evoluti a partire da altri
esseri viventi ancestrali e sono legati da relazioni di tipo evolutivo
• Lo studio del patrimonio genetico (genoma) delle specie
permette di ricostruirne la storia passata e le relazioni con altre
specie
 alberi filogenetici
TREE OF LIFE WITH ENDOSYMBIOSIS
III : ALBERO DELLA VITA
Il ruolo della bioinfomatica
• Storicamente l’evoluzione molecolare è
stato il primo ambito che ha richiesto al
nascita della bioinformatica
• Studiare i processi evolutivi (da macro- a
micro-evoluzione)
• Ricostruire la storia passata
• Comprendere le pressioni evolutive in
relazione alle informazioni funzionali e
viceversa
DATABASES AND DATA RETRIEVAL
Biosequences and Gene-related info
Alfabeto molecolare
GLI ACIDI NUCLEICI E LE PROTEINE SONO
POLIMERI LINEARI  BIOSEQUENZE
• DNA e RNA sono polimeri lineari di nucleotidi, specializzati nel
deposito, nella trasmissione e nell’utilizzazione
dell’informazione genetica
• Gli acidi nucleici possono assumere specifiche forme nello
spazio 3D, come le proteine, e svolgere attivita’ diverse (ad es.
catalisi)
IL DOGMA CENTRALE DELLA BIOLOGIA
Molti altri RNA non coding
THE BIG DATA ERA
• La biologia molecolare è nell'era dei "big
data”
• Le metodologie sperimentali hightroughput permettono di studiare
moltissimi processi su scala genomica
• La grande disponibilità di dati
sperimentali e conoscenza richiedono
approcci quantitativi basati
sull'informatica e la statistica per lo
studio dei fenomeni biologici.
DEEP SEQUENCING
Evoluzione delle tecnologie
di sequenziamento
1°
generation:
Standard
Sanger
2°
generation:
Next
Generation
Sequencing
(NGS)
3°
generation:
Ion Torrent,
Nanopore
Roche/454
Illumina/Solexa
ABI/Solid
Since:
‘70s
Read length: 1000 bp
Throughput: 300kb/run
2004
35-1000 bp
700-50 Mb/day
LifeTechnologies’ Oxford
Nanopore
IonTorrent
2011
100 bp
12Gb/day
TRASCRIPTO
ME
GENOME
DE-NOVO
AMPLICON
EXOME
RE
SEQUENCI
NG
WHOLE
GENOME
Aspetti positivi
•
•
•
Grande mole di dati prodotti;
Identificazione
cause
malattie
sconosciute o poco conosciute;
Applicazione
delle
conoscenze
acquisite (farmacogenomica).
LONG
CODING
NO
CODING
SHORT
miRNA
OTHER
Limiti
•Necessità di server capienti;
•Costruzione di strutture bioinformatiche
complesse;
•Necessità di database integrati;
•Diverse domande biologiche.
RNA-seq for Reverse Engineering of the genome state
Cells/Biosamples
Library preparation
Sequencing
Computational analysis
for reverse engineering
Genoma
• < 3% del genoma umano codifica proteine
• Evidenze recenti ottenute con genomic-tiling array e
sequenziamento del trascrittoma hanno mostrato che >70%
del genoma è trascritto in maniera pervasiva in
• RNA codificante ( mRNA)
• Moltissimi prodotti trascrizionali sono RNA, piccoli e
lunghi, con scarsissimo potenziale codificante
 La maggior parte del DNA eucariotico trascritto è non
codificante
• La production phase di ENCODE ha mostrato che >80%
del genoma è biologicamente attivo e funzionale (ruolo
regolativo per la maggior parte delle sequenze)
Il trascrittoma non-codificante
• RNA non codificanti noti da
molto tempo:

rRNA e tRNA nella traduzione
snRNA e snoRNA nel
processamento degli mRNA
 Le molecole di RNA
possono
contemporaneamente
contenere informazione di
sequenza e possedere
plasticità strutturale


ribozimi
• Ipotesi del “mondo ad RNA”
 Gli RNA possono sia
interagire con DNA ed altri
RNA per appaiamento delle
basi complementari, sia
fornire siti di legame per
proteine
DNA
Transcription
RNA
Processing
mRNA
Translation
PROTEINS
• <3% of the genome is
important since
transcribed/coding
• abundant “junk DNA”
ncRNA
DNA
• >70% transcribed in “dark matter”
Transcription
Transcription
Alternative TSSs
Processing
RNA transcripts/precursors
Splicing
Nuclear export
Processing
Polyadenylation
Silencing
Editing
Editing
Turn-over
Turn-over
Trans-splicing
Sequestration
Sequestration
mRNA
Translation
PROTEINS
• Diverse functional roles for ncRNAs
uncovered
ncRNA
miRNAs
snRNAs
piRNAs
siRNAs
lncRNAs
snoRNAs circRNAs
tRFs
?
Primary Databases:
Databases
consisting
of
data
derived
experimentally such as nucleotide sequences and
three dimensional structures are known as primary
databases.
Secondary Databases:
Those data that are derived from the analysis,
treatment or integration of primary data such as
secondary structures, hydrophobicity plots, and
domain are stored in secondary databases.
DATABASE PRIMARI
DATABASE DI SEQUENZE NUCLEOTIDICHE
Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o RNA
con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha un
codice che lo identifica univocamente (ACCESSION NUMBER).
Banche dati primarie di sequenze nucleotidiche
EMBL nucleotide database, ora gestita dall’EBI (1980)
EMBL = European Molecular Biology Laboratory (Heidelberg)
EBI = European Bioinformatics Institute (Hinxton, UK)
GenBank = banca dell NIH gestita dal NCBI (1982)
NIH = National Institutes of Health (Stuttura USA)
NCBI = National Center for Biotechnology Information, Bethesda, Maryland
DDBJ = banca DNA giapponese (1986)
DDBJ = DNA DataBase of Japan
SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database si sono
organizzati nell’International Collaboration of DNA Sequence Databases per
utilizzare un formato comune e scambiarsi giornalmente le sequenze.
DATABASE DI SEQUENZE NUCLEOTIDICHE – GenBank
SUBMISSION DIRETTA  La gran parte delle sequenze finisce in
uno dei tre database perché l’autore (il laboratorio dove tale
sequenza è stata ottenuta) la invia direttamente. La sequenza
viene quindi inserita e il record corrispondente resta di proprietà
solo di quel database, l’unico con il diritto di modificarlo. Il
database che riceve la sequenza la invia poi agli altri due.
ANNOTAZIONE  Ci sono poi anche degli “annotatori” che
prendono le sequenze dalle riviste scientifiche e le trasferiscono
nel database.
 Problema della ridondanza
GENBANK AND WGS STATISTICS
GenBank
Bases
680338
1, Dec 1982
…
199, Dec 2013 156230531562
Release 199 of Dec 2013
WGS
Sequences
606
Bases
Sequences
169331407
556764321498
133818570
DATABASE PRIMARI
DATABASE DI SEQUENZE PROTEICHE
SWISS-PROT
Database di sequenze proteiche annotate, “scarsamente”
ridondanti e cross-referenced
Contiene TrEMBL, supplemento a SWISS-PROT costituito
dalle sequenze annotate al computer, come traduzione di
tutte le sequenze codificanti presenti all’EMBL
TrEMBL contiene due sezioni:
SP-TrEMBL, sequenze da incorporare in SWISSPROT, con
AC.
REM-TrEMBL, remaining (immunoglobuline, proteine
sintetiche, ...), senza AC.
TrEMBLnew, generato ogni settimana.
LOCUS
DEFINITION
ACCESSION
VERSION
DBLINK
DBSOURCE
KEYWORDS
SOURCE
ORGANISM
REFERENCE
AUTHORS
TITLE
JOURNAL
PUBMED
REFERENCE
AUTHORS
TITLE
JOURNAL
COMMENT
AIL58882
140 aa
linear
BCT 29-AUG-2014
crystallin [Staphylococcus aureus].
AIL58882
AIL58882.1 GI:675303284
BioProject: PRJNA240091
accession CP007499.1
.
Staphylococcus aureus
Staphylococcus aureus
Bacteria; Firmicutes; Bacilli; Bacillales; Staphylococcus.
1 (residues 1 to 140)
Benson,M.A., Ohneck,E.A., Ryan,C., Alonzo,F. III, Smith,H.,
Narechania,A., Kolokotronis,S.O., Satola,S.W., Uhlemann,A.C.,
FEATURES
Sebra,R., Deikus,G., Shopsin,B., Planet,P.J. and Torres,V.J.source
Evolution of hypervirulence by a MRSA clone through acquisition of
a transposable element
Mol. Microbiol. 93 (4), 664-681 (2014)
24962815
Protein
2 (residues 1 to 140)
Planet,P.J., Narechania,A., Shopsin,B. and Torres,V.
Region
Direct Submission
Submitted (18-MAR-2014) Pediatrics, Columbia University, 650 West
168th St, New York, NY 10032, USA
Annotation was added by the NCBI Prokaryotic Genome Annotation
Pipeline (released 2013). Information about the Pipeline can be
found here: http://www.ncbi.nlm.nih.gov/genome/annotation_prok/
Region
##Genome-Annotation-Data-START##
Annotation Provider
:: NCBI
Annotation Date
:: 03/20/2014 14:06:33
Annotation Pipeline
:: NCBI Prokaryotic Genome Annotation
Pipeline
Annotation Method
:: Best-placed reference protein set;
GeneMarkS+
Annotation Software revision :: 2.4 (rev. 429283)
Features Annotated
:: Gene; CDS; rRNA; tRNA; ncRNA;
repeat_region
Genes
:: 2,836
CDS
:: 2,729
Pseudo Genes
:: 29
rRNAs
:: 19 ( 5S, 16S, 23S )
tRNAs
:: 59
ncRNA
:: 0
Frameshifted Genes
:: 23
##Genome-Annotation-Data-END##
CDS
FEATURES
…
Location/Qualifiers
1..140
/organism="Staphylococcus aureus"
/strain="2395 USA500"
/db_xref="taxon:1280"
1..140
/product="crystallin"
1..137
/region_name="IbpA"
/note="Molecular chaperone (small heat shock protein)
[Posttranslational modification, protein turnover,
chaperones]; COG0071"
/db_xref="CDD:223149"
36..124
/region_name="alpha-crystallin-Hsps_p23-like"
/note="alpha-crystallin domain (ACD) found in
alpha-crystallin-type small heat shock proteins, and a
similar domain found in p23 (a cochaperone for Hsp90) and
in other p23-like proteins; cl00175"
/db_xref="CDD:260235"
1..140
/locus_tag="CH51_12820"
/coded_by="CP007499.1:2592248..2592670"
/inference="EXISTENCE: similar to AA
sequence:RefSeq:WP_001010521.1"
/note="Derived by automated computational analysis using
gene prediction method: Protein Homology."
/transl_table=11
ORIGIN
1 mnfnqfenqn ffngnpsdtf kdlgkqvfny fstpsfvtni yetdelyyle aelagvnked
61 isidfnnntl tiqatrsaky kseqlilder nfeslmrqfd feavdkqhit asfengllti
121 tlpkikpsne ttsstsipis
//
DATABASE PRIMARI
PDB
• Database di strutture 3-D di proteine e acidi nucleici
• Dati ottenuti sperimentalmente e sottomessi
direttamente dai ricercatori
• Fondato nel 1971
PDB files
• The most common format for storage and
exchange of atomic coordinates for
biological molecules is PDB file format
• PDB file format is a text (ASCII) format,
with an extensive header that can be read
and interpreted either by programs or by
people
• Next slide: PDB file format
nome
composto
organismo
autore
referenze
risoluzione
sequenza
residuo 1
residuo 2
HEADER
TRANSCRIPTION REGULATION
25-AUG-94
1RPO
COMPND
ROP (COLE1 REPRESSOR OF PRIMER) MUTANT WITH ALA INSERTED ON
COMPND
2 EITHER SIDE OF ASP 31 (INS (A-D31-A))
SOURCE
(ESCHERICHIA COLI)
AUTHOR
M.VLASSI,M.KOKKINIDIS
REVDAT
2
15-MAY-95 1RPOA
1
REMARK
REVDAT
1
14-FEB-95 1RPO
0
JRNL
AUTH
M.VLASSI,C.STEIF,P.WEBER,D.TSERNOGLOU,K.WILSON,
JRNL
AUTH 2 H.J.HINZ,M.KOKKINIDIS
JRNL
TITL
RESTORED HEPTAD PATTERN CONTINUITY DOES NOT
JRNL
TITL 2 ALTER THE FOLDING OF A 4-ALPHA-HELICAL BUNDLE
JRNL
REF
NAT.STRUCT.BIOL.
V.
1
706 1994
JRNL
REFN
ASTM NSBIEW US ISSN 1072-8368
2024
REMARK
1
REMARK
1 REFERENCE 1
REMARK
1 AUTH
M.KOKKINIDIS,M.VLASSI,Y.PAPANIKOLAOU,D.KOTSIFAKI,
REMARK
1 AUTH 2 A.KINGSWELL,D.TSERNOGLOU,H.J.HINZ
REMARK
1 TITL
CORRELATION BETWEEN PROTEIN STABILITY AND CRYSTAL
REMARK
1 TITL 2 PROPERTIES OF DESIGNED ROP VARIANTS
REMARK
1 REF
PROTEINS.STRUCT.,FUNCT.,
V. 16
214 1993
REMARK
1 REF 2 GENET.
REMARK
1 REFN
ASTM PSFGEY US ISSN 0887-3585
0867
REMARK
2
REMARK
2 RESOLUTION. 1.4 ANGSTROMS.
REMARK
REMARK 999 SEQUENCE NUMBER IS ALSO THAT FROM PDB ENTRY
SEQRES
1
65 MET THR LYS GLN GLU LYS THR ALA LEU ASN MET ALA ARG
SEQRES
2
65 PHE ILE ARG SER GLN THR LEU THR LEU LEU GLU LYS LEU
SEQRES
3
65 ASN GLU LEU ALA ASP ALA ALA ASP GLU GLN ALA ASP ILE
SEQRES
4
65 CYS GLU SER LEU HIS ASP HIS ALA ASP GLU LEU TYR ARG
SEQRES
5
65 SER CYS LEU ALA ARG PHE GLY ASP ASP GLY GLU ASN LEU
1RPO
2
1RPO
3
1RPO
4
1RPO
5
1RPO
6
1RPOA 1
1RPO
7
1RPO
8
1RPO
9
1RPO 10
1RPO 11
1RPO 12
1RPO 13
1RPO 14
1RPO 15
1RPO 16
1RPO 17
1RPO 18
1RPO 19
1RPOA 2
1RPOA 3
1RPO 22
1RPO 29
1RPO 30
1RPO 94
1RPO 95
1RPO 96
1RPO 97
1RPO 98
1RPO 99
1RPO 100
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
num.atomo
tipo atomo
tipo residuo
num. residuo
1
2
3
4
5
6
7
7
8
9
10
11
N
CA
C
O
CB
CG
SD
SD
CE
N
CA
C
MET
MET
MET
MET
MET
MET
MET
MET
MET
THR
THR
THR
1
1
1
1
1
1
1
1
1
2
2
2
1.132
2.398
3.091
2.642
3.281
3.718
4.491
4.491
3.039
4.142
4.851
5.719
x
3.053
3.546
2.466
1.298
3.936
2.760
3.371
3.371
3.650
2.833
1.806
1.011
y
2.801
2.283
1.442
1.451
3.463
4.291
5.797
5.797
6.762
0.689
-0.025
0.950
z
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
25.53
27.85
21.34
19.29
23.96
27.52
26.29
26.29
25.19
13.20
12.76
14.35
115
116
117
118
119
120
121
121
122
123
124
125
PDB file example
HEADER
COMPND
SOURCE
AUTHOR
REVDAT
REVDAT
JRNL
JRNL
JRNL
JRNL
JRNL
JRNL
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
SYNTHETIC PROTEIN MODEL
02-JUL-90
1AL1
ALPHA - 1 (AMPHIPHILIC ALPHA HELIX)
SYNTHETIC
C.P.HILL,D.H.ANDERSON,L.WESSON,W.F.DE*GRADO,D.EISENBERG
2
15-JAN-95 1AL1A
1
HET
1
15-OCT-91 1AL1
0
AUTH
C.P.HILL,D.H.ANDERSON,L.WESSON,W.F.DE*GRADO,
AUTH 2 D.EISENBERG
TITL
CRYSTAL STRUCTURE OF ALPHA=1=: IMPLICATIONS FOR
TITL 2 PROTEIN DESIGN
REF
SCIENCE
V. 249
543 1990
REFN
ASTM SCIEAS US ISSN 0036-8075
038
1
1 REFERENCE 1
1 AUTH
D.EISENBERG,W.WILCOX,S.M.ESHITA,P.M.PRYCIAK,S.P.HO
1 TITL
THE DESIGN, SYNTHESIS, AND CRYSTALLIZATION OF AN
1 TITL 2 ALPHA-*HELICAL PEPTIDE
1 REF
PROTEINS.STRUCT.,FUNCT.,
V.
1
16 1986
1 REF 2 GENET.
1 REFN
ASTM PSFGEY US ISSN 0887-3585
867
2
2 RESOLUTION. 2.7 ANGSTROMS.
3
3 REFINEMENT. BY THE RESTRAINED LEAST SQUARES PROCEDURE OF J.
3 KONNERT AND W. HENDRICKSON (PROGRAM *PROLSQ*). THE R
3 VALUE IS 0.255 FOR ALL DATA. THE R VALUE IS 0.211 FOR ALL
3 REFLECTIONS IN THE RESOLUTION RANGE 10.0 TO 2.7 ANGSTROMS
3 WITH FOBS .GT. 2*SIGMA(FOBS). THE RMS DEVIATION FROM
3 IDEALITY OF THE BOND LENGTHS IS 0.013 ANGSTROMS. THE RMS
3 DEVIATION FROM IDEALITY OF THE BOND ANGLE DISTANCES IS
1AL1
1AL1
1AL1
1AL1
1AL1A
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
1AL1
2
3
4
5
1
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
PDB file example
SEQRES
1
13 ACE GLU LEU LEU LYS LYS LEU LEU GLU GLU LEU LYS GLY 1AL1 39
HET
SO4
13
5
SULFATE ION
1AL1A 5
FORMUL
2 SO4
O4 S1
1AL1 41
HELIX
1 HL1 ACE
0 LEU
10 1
1AL1 42
CRYST1
62.350
62.350
62.350 90.00 90.00 90.00 I 41 3 2
48 1AL1 43
ORIGX1
1.000000 0.000000 0.000000
0.00000
1AL1 44
ORIGX2
0.000000 1.000000 0.000000
0.00000
1AL1 45
ORIGX3
0.000000 0.000000 1.000000
0.00000
1AL1 46
SCALE1
0.016038 0.000000 0.000000
0.00000
1AL1 47
SCALE2
0.000000 0.016038 0.000000
0.00000
1AL1 48
SCALE3
0.000000 0.000000 0.016038
0.00000
1AL1 49
ATOM
1 C
ACE
0
31.227 38.585 11.521 1.00 25.00
1AL1 50
ATOM
2 O
ACE
0
30.433 37.878 10.859 1.00 25.00
1AL1 51
ATOM
3 CH3 ACE
0
30.894 39.978 11.951 1.00 25.00
1AL1 52
ATOM
4 N
GLU
1
32.153 37.943 12.252 1.00 25.00
1AL1 53
ATOM
5 CA GLU
1
32.594 36.639 11.811 1.00 25.00
1AL1 54
ATOM
6 C
GLU
1
32.002 35.428 12.514 1.00 25.00
1AL1 55
ATOM
7 O
GLU
1
32.521 34.279 12.454 1.00 25.00
1AL1 56
ATOM
8 CB GLU
1
34.093 36.609 11.812 1.00 25.00
1AL1 57
…
ATOM
102 OXT GLY
12
20.888 27.022
1.650 1.00 25.00
1AL1 144
TER
103
GLY
12
1AL1 145
HETATM 104 S
SO4
13
31.477 38.950 15.821 0.50 25.00
1AL1 146
HETATM 105 O1 SO4
13
31.243 38.502 17.238 0.50 25.00
1AL1 147
HETATM 106 O2 SO4
13
30.616 40.133 15.527 0.50 25.00
1AL1 148
HETATM 107 O3 SO4
13
31.158 37.816 14.905 0.50 25.00
1AL1 149
HETATM 108 O4 SO4
13
32.916 39.343 15.640 0.50 25.00
1AL1 150
CONECT 104 105 106 107 108
1AL1 151
CONECT 105 104
1AL1 152
CONECT 106 104
1AL1 153
CONECT 107 104
1AL1 154
CONECT 108 104
1AL1 155
MASTER
29
0
1
1
0
0
0
6 100
1
5
1 1AL1A 6
END
1AL1 157
Subunits view
Interactive view
DATABASE SECONDARI
DATABASE SECONDARI
UniProt (Universal Protein Resource)
Il piu’ grande catalogo di informazioni sulle proteine. Contiene
informazioni sulla sequenza e sulla funzione di proteine ed e’
ottenuto dall’insieme delle informazioni contenute in SwissProt, TrEMBL e PIR.
UniProt
http://www.uniprot.org/uniprot/
UniProt Knowledgebase, due parti:
•Records annotati manualmente, informazioni dalla letteratura
(UniProtKB/Swiss-Prot)
•Records risultato
di analisi
computazionali,
in attesa di
annotazione
completa
(UniProtKB/TrEMBL).
NCBI GENE
Interfaccia unificata per cercare informazioni su
sequenze e loci genetici. Presenta informazioni sulla
nomenclatura ufficiale, accession numbers, fenotipi,
MIM numbers, UniGene clusters, omologia, posizioni
di mappa e link a numerosi altri siti web.
NCBI GENE
NCBI GENE
NCBI GENE
RefSeq - Reference Sequence
collection of genomic DNA,
transcripts, and proteins.
Distinguishing Features:
•
•
•
•
•
•
non-redundancy
explicitly linked nucleotide and
protein sequences
updates to reflect current
knowledge of sequence data
and biology
data validation and format
consistency
accessions with '_' character
ongoing curation by NCBI staff
and collaborators, with
reviewed records indicated
DATABASE SECONDARI
NCBI - Information retrieval system
• E' stato sviluppato all’NCBI (National Center for Biotechnology Information, USA) per
permettere l'accesso a dati di biologia molecolare e citazioni bibliografiche.
• Sfrutta il concetto di “neighbouring”: possibilita' di collegare tra loro oggetti diversi di
database differenti, indipendentemente dal fatto che essi siano direttamente “crossreferenced”.
• Tipicamente, permette l'accesso a database di sequenze nucleotidiche, di sequenze
proteiche, di mappaggio di cromosomi e di genomi, di struttura 3D e bibliografici
(PubMed).
PubMed
Bookshelf
Pfam
• Proteins contain conserved regions
• Based on the conserved regions, proteins are
classified into families
• Domains can be considered as building blocks
of proteins.
• Some domains can be found in many proteins
with different functions, while others are only
found in proteins with a certain function.
• The presence of a particular domain can be
indicative of the function of the protein.
Pfam
• The Pfam database is a large collection of
protein domain families.
• Each family is represented by multiple
sequence alignments and hidden Markov
models (HMMs).
• HMM -> modelli probabilistici che descrivono
evoluzione e conservazione di famiglie
proteiche
• Provides links to external databases like
PDB, SCOP, CATH etc.
Pfam-A and Pfam-B
• Pfam-A entries are derived from the
underlying sequence database (Pfamseq,
built from the most recent release of
UniProtKB)  curated seed alignment
containing a small set of representative
members of the family, profile hidden
Markov models (profile HMMs) built from
the seed alignment, and an automatically
generated full alignment.
Pfam-A and Pfam-B
• Pfam-B families are un-annotated and of
lower quality as they are generated
automatically from the non-redundant
clusters of the latest ADDA (Automatic
Domain Decomposition Algorithm)
database release. Although of lower
quality, Pfam-B families can be useful for
identifying functionally conserved regions
when no Pfam-A entries are found.
Pfam classification
• Family: A collection of related protein regions
• Domain: A structural unit
• Repeat: A short unit which is unstable in
isolation but forms a stable structure when
multiple copies are present
• Motifs: A short unit found outside globular
domains
• Related Pfam entries are grouped together
into clans; the relationship may be defined by
similarity of sequence, structure or profileHMM.
Pfam
HMM logo
Seed alignment
CATH
Protein Structure Classification
Database at UCL
• Classification of proteins based on domain
structures
• Each protein chopped into individual
domains and assigned into homologous
superfamilies.
• Hierarchial domain classification of PDB
entries.
CATH hierarchy
• Class – derived from secondary structure content is
assigned automatically
• Architecture – describes gross orientation of
secondary structures, independent of connectivity
(based on known structures)
• Topology – clusters structures according to
their topological connections and numbers of
secondary structures
• Homologous superfamily – this level
groups together protein domains which are
thought to share a common ancestor and can
therefore be described as homologous
Class, C-level
mainly-alpha, mainly-beta and alphabeta (including alternating alpha/beta
structures and alpha+beta structures)
plus a fourth class with low secondary
structure content.
Architecture, A-level
Overall shape; ignores the connectivity
between the secondary structures.
Assigned manually using literature for
well-known architectures (e.g the betapropellor or alpha four helix bundle) as
reference.
Topology (Fold family), T-level
Structures are grouped into fold families
at this level depending on both the
overall shape and connectivity of the
secondary structures. This is done
using
the
structure
comparison
algorithm SSAP.
CATH – dominio maggiore serina
idrossimetiltransferasi umana
SCOP
Structural Classification of Proteins
• Description of structural and evolutionary
relationships between all the proteins with
known structures
• Uses the PDB entries
• Search using keywords or PDB identifiers
Hierarchy in SCOP
• While the four major levels of CATH are class,
architecture, topology and homologous superfamily
SCOP uses:
• Class (all α, all β, α/β, α + β)
• Fold
• Superfamily
• Family
• Species
• SCOP database is mainly based on
expert knowledge, while CATH grounds
more on automation
What about Genomic
databases?
Saranno trattati nella parte
del corso riguardante la
Genomica
Scarica

Bioinfo2_BE_1 - Computational Genomics Laboratory