Come nasce la Bioinformatica?
Progetti di sequenziazione
del genoma
Sforzi sperimentali per
determinare la struttura
e le funzioni di molecole
biologiche
Masse di dati senza precedenti
DB di biologia
molecolare
(geni e proteine)
interpretazione
Tecniche, strumenti, algoritmi
per
analizzare, confrontare, classificare
Dove si situa la Bioinformatica?
Bioinformatica
Biologia
Medicina
Informatica
Biotecnologie
Società
Scopi della Bioinformatica
• Analisi di sequenze biologiche
– Ricerca di sequenze omologhe
– Identificare i geni, localizzare regioni di codifica
– Trovare “motivi”, siti di legame del DNA
• Biologia molecolare computazionale (simulazione)
– Sequenza  Struttura  Funzione  Evoluzione
– Geni  Conoscenza biologica (pathway metabolici, reti genetiche)
• Progettazione e gestione di DB di biologia molecolare
– DB di acidi nucleici e di proteine
– Immagazzinamento e recupero efficiente di informazioni
• Relazioni evolutive (filogenetica)
– Trovare le proteine comuni a tutte le forme di vita
– Costruire classificazioni e alberi filogenetici di specie e delle
popolazioni umane
Bioinformatica
Dati e Banche dati
Le domande fondamentali
Cerca
Paragona
Predici
Cerca
Ґ
Ґ
Ґ
Ґ
Ґ
Il gene della mia proteina Џ conosciuto?
Su quale cromosoma Џ localizzato?
Quali motivi di sequenza sono presenti nella mia proteina?
Le mutazioni che causano questa malattia sono conosciute?
A quale classe o famiglia appartiene la mia proteina? Cosa si sa su questa
famiglia?
Paragona
Ґ Son conosciute proteine simili a quella che io ho clonato?
Ґ Come posso allineare in maniera ottimale le sequenze dei membri di questa
famiglia?
Ґ Quanto sono simili queste due sequenze?
Predici
Ґ
Ґ
Ґ
Ґ
Ґ
Posso predire quali sono i residui presenti nel sito attivo di questo enzima?
PercheХ questi pazienti sono malati?
Posso costruire un modello 3D della mia proteina?
Come posso migliorare la termostabilitaХ di questa proteina?
Come posso predire i geni localizzati su questo genoma?
Sono simili queste sequenze?
veracinnenkmeninclnnemeteneni
veracinnenkmeninclnnemeteneni
nareidsdrafmeterafstan
nareidsdrafmeterafstandichefs
dichefs
laglinksvlgeniaafwendenidschi
laglinksvlgeniaafwendenidschi
nrechtsenlinksnaardemiddellin
nrechtsenlinksnaardemiddellin
eenhalthdenmetertssenrimtegre
eenhalthdenmetertssenrimtegre
talleendecmmandantveracinnenk
talleendecmmandantveracinnenk
meninclnnemeteneninareidsdraf
meninclnnemeteneninareidsdraf
meterafstandmarshefslaglinksv
meterafstandmarshefslaglinksv
lgenaafwendendschinrechtsenli
lgenaafwendendschinrechtsenli
nksenpdeelinhalthdenmetertsse
nksenpdeelinhalthdenmetertsse
nrimtevanafderechtervlegelmet
nrimtevanafderechtervlegelmet
enenvrwaartsinareidsdrafricht
enenvrwaartsinareidsdrafricht
inggpnylengteafstandchefslagr
inggpnylengteafstandchefslagr
echtsvlgenkhgerkenlinmetenenv
echtsvlgenkhgerkenlinmetenenv
rwaartsinareidsdrafpnylengtea
rwaartsinareidsdrafpnylengtea
fstandrichtinggmarshefslagrec
fstandrichtinggmarshefslagrec
htsvlgengerkenlinhfdderclnnei
htsvlgengerkenlinhfdderclnnei
dichefslaglinksvlgeniaafwende
dichefslaglinksvlgeniaafwende
nidschinrechtsenlinksnaardemi
nidschinrechtsenlinksnaardemi
ddellineenhalthdenmetertssenr
ddellineenhalthdenmetertssenr
imtegretalleendecmmandantvera
imtegretalleendecmmandantvera
cinnenkmeninclnnemeteneninare
cinnenkmeninclnnemeteneninare
idsdrafmeterafstandmarshefsla
idsdrafmeterafstandmarshefsla
glinksvlgenaafwendendschinrec
glinksvlgenaafwendendschinrec
htsenlinksenpdeelinhalthdenme
htsenlinksenpdeelinhalthdenme
tertssenrimtevanafderechtervl
tertssenrimtevanafderechtervl
egelmetenenvrwaartsinareidsdr
egelmetenenvrwaartsinareidsdr
africhtinggpnylengteafstandch
africhtinggpnylengteafstandch
efslagrechtsvlgenkhgerkenlinm
efslagrechtsvlgenkhgerkenlinm
etenenvrwaartsinareidsdrafpny
etenenvrwaartsinareidsdrafpny
lengteafstandrichtinggmarshef
lengteafstandrichtinggmarshef
slagrechtsvlgengerkenlinhfdde
slagrechtsvlgengerkenlinhfdde
rclnneicafwendenenplincameten
rclnneicafwendenenplincameten
envlteshalveaanrechtsiahefsla
envlteshalveaanrechtsiahefsla
©CMBI 2000 J Leunissen
Sono simili queste strutture?
©CMBI 2000 J Leunissen
Applicazioni della
Bioinformatica
• Sequenziazione e analisi del Genoma
• Analisi sperimentali con migliaia di geni simultaneamente
• DNA chips per
– analisi dell’espressione genica
– analisi comparative tra speci e sottospeci
• “Proteomica”, cioè trovare il proteoma di un organismo
• Farmaceutica e industria biotecnologica
• Applicazioni legali e forensi
• Applicazioni all’agricoltura (OGM & Co.)
• Medicina
• …
Dati e Databases
Ґ Immissione dei dati nei DATABASE
Ґ Programmi per cercare nei DATABASE
Ґ Conoscenza dellХ utilizzo di questi programmi
Databases Biologici
Il loro numero
-Il DBCATalog al momento elenca piuХ di500 databases
La loro grandezza
- Cresce in modo esponenziale
- Nel database EMBL database entrano 6.3 nuove sequenze di proteine o
acidi nucleici per ogni secondo!
•
©CMBI 2001 J Leunissen
Databases Primari e Secondari
Databases Primari
- Sequenze o strutture biomolecolari con annesse annotazioni
(organismo, funzione, mutazioni collegate a malattie,
patterns struttura/funzione, bibliografia, etc.)
- DATI SPERIMENTALI REALI !!
Databases Secondari
- INFORMAZIONI DERIVATE !!
- Fruitto dellХ analisi di sequenza nei databases primari.
- Spesso in forma di patterns, blocchi, profili etc. che rappresentano
le caratteristiche piuХ conservate di allineamenti multipli.
Databases Primari
Informazioni di sequenza
Ґ DNA: EMBL, Genbank, DDBJ
Ґ Protein: SwissProt, TREMBL, PIR
Informazioni genomiche
Ґ GDB, MGD, ACeDB
Informazioni di struttura 3D
Ґ PDB, NDB, CCDB/CSD
Databases secondari
Informazioni correlate alla sequenza
ProSite, Enzyme , REBase
Informazioni correlate al genoma
OMIM, TransFac
Informazioni correlate alla struttura
DSSP, HSSP, FSSP, PDBFinder
Informazioni correlate a pathways
KEGG, Pathways
Esempio Prosite
Formato delle informazioni
I Dati devono essere immessi in formati riconoscibili ai programmi
che li utilizzano.
Ogni database puoХ avere il proprio formato, ma alcuni elementi
sono essenziali per tutti i databases:
1. Unico identificatore o codice di accesso
2. Nome del depositante
3. Riferimenti bibliografici
4. Data del deposito
5. I dati veri e propri
QualitaХ dei dati
SwissProt
Ґ I Dati sono immessi solamente da esperti di annotazioni
Ґ Collegamenti ipertestuali a data(bases) collegati
EMBL
Ґ Processo automatico senza intervento umano
Ґ Collegamenti ipertestuali a data(bases) collegati
PDB
Ґ Tutti possono sottomettere dati
Ґ I dati sono accettati nel modo in cui sono inviati
il database SwissProt
Ґ Database di sequenze di proteine
Ґ Prodotto dalla collaborazione di Amos Bairoch (University of Geneva) e la EMBL
Data Library
Ґ Dati provenienti da:
- traduzioni di sequenza di DNA (dal DatabaseEMBL)
- adattati dalla collezione PIR
- estratti dalla letteratura
- direttamente sottomessi dai ricercatori
Ґ 86593 sequenze (31x106 lettere) (Luglio 2001)
~15000 nuove sequenze ogni anno
Swissnew database: 53184 (20 x106 letters)
Ґ Ca. 200 esperti di Annotazioni sparsi nel mondo
Ґ Organizzazione per parole chiave
SwissProt records (1)
ID identification line
ID ENTRY_NAME DATA_CLASS; MOLECULE_TYPE; SEQUENCE_LENGTH.
ID CRAM_CRAAB STANDARD;
PRT;
46 AA.
Format for the ENTRY_NAME:
NAME_SPECIES (  10 characters)
For number of organisms (16) recognizable names:
HUMAN, MOUSE, CHICK, BOVIN, YEAST, ECOLIЙ.
N.B. Il riconoscimento ID puoХ cambiare,p.e. i recettori della serotonina hanno avuto
di recente una nuova nomenclatura
SwissProt records (2)
AC accession number
AC
P01542;
AC eХ unico:
Il nome, la sequenza, o altro puoХ cambiare,ma AC resta lo stesso
DT deposition date
DT
DT
DT
21-JUL-1986 ( Rel. 01, Created)
30-MAY-2000 ( Rel. 39, Last sequence update)
30-MAY-2000 ( Rel. 39, Last annotation update)
SwissProt records (3)
DE description
DE
DE
CRAMBIN.
6-phosphofructo-2-kinase 1 (EC 2.7.1.105)
(Phosphofructokinase 2 I)
1) Informazioni descrittive generali
2) Informazioni in formato libero
GN gene name
GN
THI2.
OS & OC & OG
OS
OC
OC
OC
Crambe abyssinica (Abyssinian crambe).
Eukaryota; Viridiplantae; Embryophyta; Tracheophyta; Spermatophyta;
Magnoliophyta; eudicotyledons; Rosidae; eurosids II; Brassicales;
Brassicaceae; Crambe.
Organism Species; Organism Classification; Organelle
SwissProt records (4)
RN References
RN
RP
RX
RA
RT
RL
[1]
SEQUENCE.
MEDLINE; 82046542.
Teeter M.M., Mazer J.A., L'Italien J.J.;
"Primary structure of the hydrophobic plant protein
Biochemistry 20:5437-5443(1981).
crambin.";
CC Commenti o note
CC
CC
CC
CC
CC
-!- FUNCTION: THE FUNCTION OF THIS HYDROPHOBIC PLANT SEED PROTEIN
IS NOT KNOWN.
-!- MISCELLANEOUS: TWO ISOFORMS EXISTS, A MAJOR FORM PL (SHOWN HERE)
AND A MINOR FORM SI.
-!- SIMILARITY: BELONGS TO THE PLANT THIONIN FAMILY.
SwissProt records (5)
DR Database Cross Reference
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
DR
PIR; A01805; KECX.
PDB; 1CRN; 16-APR-87.
PDB; 1CBN; 31-JAN-94.
PDB; 1CCM; 31-OCT-93.
PDB; 1CCN; 31-JAN-94.
PDB; 1CNR; 31-AUG-94.
PDB; 1AB1; 12-AUG-97.
INTERPRO; IPR001010; -.
PFAM; PF00321; plant_thionins; 1.
PRINTS; PR00287; THIONIN.
PROSITE; PS00271; THIONIN; 1.
KW Keyword
Non standardizzate (sotto la resonsabilitaХ del depositante)
KW
Thionin; 3D-structure.
SwissProt records (6)
FT Feature table data
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
DISULFID
DISULFID
DISULFID
VARIANT
VARIANT
STRAND
HELIX
TURN
HELIX
TURN
STRAND
TURN
3
4
16
22
25
2
7
17
23
31
33
42
40
32
26
22
25
3
16
19
30
31
34
43
P -> S (IN ISOFORM SI).
L -> I (IN ISOFORM SI).
Feature table cntnd.
Altre caratteristiche: modifiche post-translationali, siti di legame, siti attivi per gli
enzimi, strutture secondarie locali o altre caratteristiche riportate nelle references
citate. Gli eventuali conflitti nei dati di sequenza riportanti nelle varie references
sono anche inclusi.
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
CONFLICT 33 33 MISSING (IN REF. 2).
MUTAGEN 123 123 G->R,L,M: DNA BINDING LOST.
MOD_RES 11 11 PHOSPHORYLATION (BY PKC).
LIPID 1 1 MYRISTATE.
CARBOHYD 103 103 GLUCOSYLGALACTOSE.
METAL 87 87 COPPER (POTENTIAL).
BINDING 14 14 HEME (COVALENT).
PROPEP 27 28 ACTIVATION PEPTIDE.
DOMAIN 22 788 EXTRACELLULAR (POTENTIAL).
ACT_SITE 193 193 ACCEPTS A PROTON DURING CATALYSIS.
SwissProt records (7)
SQ sequence header - Intestazione della sequenza
SQ
SEQUENCE
46 AA;
4736 MW;
919E68AF159EF722 CRC64;
Sequence data- Dati di sequenza
TTCCPSIVAR SNFNVCRLPG TPEALCATYT GCIIIPGATC PGDYAN
//
Termination line- Linea di termine
EMBL database
Nucleotide database
EMBL: 3,951,820 entries, EMNEW : 323703
EMEST: 8,092,600, EMNEW EST: 619777
(July 2001)
I records EMBL seguono fondamentalmente lo stesso schema di
SwissProt.
Protein Data Bank (PDB)
Banca dati di strutture macromolecolari (coordinate 3-D)
Obbligo del deposito dei dati di struttura in PDB prima della pubblicazione
su qualunque rivista scientifica
~16000 strutture catalogate (Ottobre 2001) ( ~2000 strutture ТunicheУ )
Il file PDB eХ organizzato aТkeywordУ
1) Direttamente leggibile e comprensibile se letto come file di testo
2) Ogni linea parte con una Keyword (3-6 lettere)
3) Oltre a essere leggibile come file di testo, il file puoХ essere direttamente
utilizzato da programmi di grafica molecolare, indipendentemente dalla
piattaforma utilizzata
Nato circa 25 anni fa
http://www.rcsb.org/pdb & http://msd.ebi.ac.uk
PDB records (1)
Filename= accession number= PDB Code
1) Il nome del file eХ di 4 caratteri (spesso un numero e 3 lettere, p.e. 1CRN)
2) Attenzione: 0HYK significa che il file HYK non contiene coordinate spaziali, ma
solo informazioni strutturalu
HEADER- Intestazione
descrive la molecola e la data di deposito
HEADER
PLANT SEED PROTEIN
30-APR-81
1CRN
1CRND
1
1CRN
4
1CRN
5
COMPND
nome della molecola
COMPND
CRAMBIN
SOURCE
organismo di provenienza
SOURCE
ABYSSINIAN CABBAGE (CRAMBE ABYSSINICA) SEED
PDB records (2)
AUTHOR
AUTHOR
W.A.HENDRICKSON,M.M.TEETER
1CRN
6
1CRND
1CRNC
1CRNB
1CRNB
2
1
1
2
Revision date
REVDAT
REVDAT
REVDAT
REVDAT
REVDAT
5
4
3
2
1
16-APR-87
04-MAR-85
30-SEP-83
03-DEC-81
28-JUL-81
1CRND
1CRNC
1CRNB
1CRNA
1CRN
1
1
1
1
0
HEADER
REMARK
REVDAT
SHEET
REMARK - Informazioni varie
Ci sono molti e differenti records e subrecords di informazioni varie non
standardizzati, ma identificati dalla keyword REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
REMARK
1 REFERENCE 3
1 AUTH
M.M.TEETER,W.A.HENDRICKSON
1 TITL
HIGHLY ORDERED CRYSTALS OF THE PLANT SEED PROTEIN
1 TITL 2 CRAMBIN
1 REF
J.MOL.BIOL.
V. 127 219 1979
1 REFN
ASTM JMOBAK UK ISSN 0022-2836
070
2
2 RESOLUTION. 1.5 ANGSTROMS.
1CRNC
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
10
16
17
18
19
20
21
22
PDB records (3)
SEQRES
Sequenza della proteina;
Attenzione: Non sempre sono presenti nei record successivi le coordinate 3D di
tutti gli amminoacidi di SEQRES !!
SEQRES
SEQRES
SEQRES
SEQRES
1
2
3
4
46
46
46
46
THR
ASN
ALA
CYS
THR
VAL
THR
PRO
CYS
CYS
TYR
GLY
CYS
ARG
THR
ASP
PRO
LEU
GLY
TYR
SER
PRO
CYS
ALA
ILE VAL ALA ARG SER ASN PHE
GLY THR PRO GLU ALA ILE CYS
ILE ILE ILE PRO GLY ALA THR
ASN
1CRN
1CRN
1CRN
1CRN
51
52
53
54
HET & FORMUL - EteroAtomi
HET
HET
HET
HET
FORMUL
FORMUL
FORMUL
NAD
SUL
NAD
SUL
3
4
5
A
A
B
B
NAD
SUL
HOH
1
2
1
2
44
NAD CO-ENZYME
5
SULFATE
44
NAD CO-ENZYME
5
SULFATE
2(C21 H28 N7 O14 P2)
2(O4 S1)
*471(H2 O1)
4MDH 219
4MDH 220
4MDH 221
4MDH 222
4MDH 223
4MDH 224
4MDH 225
PDB records (4)
HELIX/SHEET/TURN
Elementi di struttura secondaria (non sempre presenti)
HELIX
SHEET
TURN
1
2
1
H1 ILE
S1 2 CYS
T1 PRO
7 PRO
32 ILE
41 TYR
19 1 3/10 CONFORMATION RES 17,19
35 -1
44
1CRN
1CRN
1CRN
55
58
59
40
32
1CRN
1CRN
60
61
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
63
64
65
66
67
68
69
SSBOND
Localizzazione dei ponti disolfuro
SSBOND
SSBOND
1 CYS
2 CYS
3
4
CYS
CYS
CRYST1, ORIGX1, ORIGX2, ORIGX3, SCALE1, SCALE2, SCALE3
parametri cristallografici
CRYST1
ORIGX1
ORIGX2
ORIGX3
SCALE1
SCALE2
SCALE3
40.960
18.650
22.520 90.00
1.000000 0.000000 0.000000
0.000000 1.000000 0.000000
0.000000 0.000000 1.000000
.024414 0.000000 -.000328
0.000000
.053619 0.000000
0.000000 0.000000
.044409
90.77
90.00 P 21
0.00000
0.00000
0.00000
0.00000
0.00000
0.00000
2
PDB records (5)
ATOM
una linea per ogni atomo con il suo nome e le relative coordinate x,y,z
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
1
2
3
4
5
6
7
8
9
10
11
N
CA
C
O
CB
OG1
CG2
N
CA
C
O
THR
THR
THR
THR
THR
THR
THR
THR
THR
THR
THR
1
1
1
1
1
1
1
2
2
2
2
17.047
16.967
15.685
15.268
18.170
19.334
18.150
15.115
13.856
14.164
14.993
14.099
12.784
12.755
13.825
12.703
12.829
11.546
11.555
11.469
10.785
9.862
3.625
4.338
5.133
5.594
5.337
4.463
6.304
5.265
6.066
7.379
7.443
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
13.79
10.80
9.19
9.85
13.02
15.06
14.23
7.81
8.31
5.80
6.94
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
1CRN
70
71
72
73
74
75
76
77
78
79
80
4.849 15.886 1.00 11.00
3.298 15.015 1.00 10.32
4.973 10.746 1.00 7.86
1CRN
1CRN
1CRN
1CRN
394
395
396
397
Il record TER termina la catena amminoacidica
ATOM
ATOM
ATOM
TER
325
326
327
328
OD1 ASN
ND2 ASN
OXT ASN
ASN
46
46
46
46
11.982
13.407
12.703
PDB records (6)
HETATM
coordinate atomiche per atomi in gruppi "non-standard" (metalli, cofattori,
ioni, Й) e per molelecole di acqua
HETATM 5158 AP
HETATM 5159 AO1
HETATM 5160 AO2
NAD B
NAD B
NAD B
1
1
1
42.641
43.440
41.161
30.361
31.570
30.484
41.284
40.868
41.376
1.00 26.73
1.00 20.69
1.00 33.73
4MDH5495
4MDH5496
4MDH5497
HETATM 5207
HETATM 5208
HETATM 5209
HOH
HOH
HOH
0
1
2
15.379
58.861
24.384
1.907
0.984
1.184
3.295
17.024
74.398
1.00 58.12
1.00 37.58
1.00 35.92
4MDH5544
4MDH5545
4MDH5546
O
O
O
CONECT
record di connessione (non obbligatorio)
indica quali atomi sono connessi (principalmente HETATM )
Scarica

Le Banche Dati