Come nasce la Bioinformatica? Progetti di sequenziazione del genoma Sforzi sperimentali per determinare la struttura e le funzioni di molecole biologiche Masse di dati senza precedenti DB di biologia molecolare (geni e proteine) interpretazione Tecniche, strumenti, algoritmi per analizzare, confrontare, classificare Dove si situa la Bioinformatica? Bioinformatica Biologia Medicina Informatica Biotecnologie Società Scopi della Bioinformatica • Analisi di sequenze biologiche – Ricerca di sequenze omologhe – Identificare i geni, localizzare regioni di codifica – Trovare “motivi”, siti di legame del DNA • Biologia molecolare computazionale (simulazione) – Sequenza Struttura Funzione Evoluzione – Geni Conoscenza biologica (pathway metabolici, reti genetiche) • Progettazione e gestione di DB di biologia molecolare – DB di acidi nucleici e di proteine – Immagazzinamento e recupero efficiente di informazioni • Relazioni evolutive (filogenetica) – Trovare le proteine comuni a tutte le forme di vita – Costruire classificazioni e alberi filogenetici di specie e delle popolazioni umane Bioinformatica Dati e Banche dati Le domande fondamentali Cerca Paragona Predici Cerca Ґ Ґ Ґ Ґ Ґ Il gene della mia proteina Џ conosciuto? Su quale cromosoma Џ localizzato? Quali motivi di sequenza sono presenti nella mia proteina? Le mutazioni che causano questa malattia sono conosciute? A quale classe o famiglia appartiene la mia proteina? Cosa si sa su questa famiglia? Paragona Ґ Son conosciute proteine simili a quella che io ho clonato? Ґ Come posso allineare in maniera ottimale le sequenze dei membri di questa famiglia? Ґ Quanto sono simili queste due sequenze? Predici Ґ Ґ Ґ Ґ Ґ Posso predire quali sono i residui presenti nel sito attivo di questo enzima? PercheХ questi pazienti sono malati? Posso costruire un modello 3D della mia proteina? Come posso migliorare la termostabilitaХ di questa proteina? Come posso predire i geni localizzati su questo genoma? Sono simili queste sequenze? veracinnenkmeninclnnemeteneni veracinnenkmeninclnnemeteneni nareidsdrafmeterafstan nareidsdrafmeterafstandichefs dichefs laglinksvlgeniaafwendenidschi laglinksvlgeniaafwendenidschi nrechtsenlinksnaardemiddellin nrechtsenlinksnaardemiddellin eenhalthdenmetertssenrimtegre eenhalthdenmetertssenrimtegre talleendecmmandantveracinnenk talleendecmmandantveracinnenk meninclnnemeteneninareidsdraf meninclnnemeteneninareidsdraf meterafstandmarshefslaglinksv meterafstandmarshefslaglinksv lgenaafwendendschinrechtsenli lgenaafwendendschinrechtsenli nksenpdeelinhalthdenmetertsse nksenpdeelinhalthdenmetertsse nrimtevanafderechtervlegelmet nrimtevanafderechtervlegelmet enenvrwaartsinareidsdrafricht enenvrwaartsinareidsdrafricht inggpnylengteafstandchefslagr inggpnylengteafstandchefslagr echtsvlgenkhgerkenlinmetenenv echtsvlgenkhgerkenlinmetenenv rwaartsinareidsdrafpnylengtea rwaartsinareidsdrafpnylengtea fstandrichtinggmarshefslagrec fstandrichtinggmarshefslagrec htsvlgengerkenlinhfdderclnnei htsvlgengerkenlinhfdderclnnei dichefslaglinksvlgeniaafwende dichefslaglinksvlgeniaafwende nidschinrechtsenlinksnaardemi nidschinrechtsenlinksnaardemi ddellineenhalthdenmetertssenr ddellineenhalthdenmetertssenr imtegretalleendecmmandantvera imtegretalleendecmmandantvera cinnenkmeninclnnemeteneninare cinnenkmeninclnnemeteneninare idsdrafmeterafstandmarshefsla idsdrafmeterafstandmarshefsla glinksvlgenaafwendendschinrec glinksvlgenaafwendendschinrec htsenlinksenpdeelinhalthdenme htsenlinksenpdeelinhalthdenme tertssenrimtevanafderechtervl tertssenrimtevanafderechtervl egelmetenenvrwaartsinareidsdr egelmetenenvrwaartsinareidsdr africhtinggpnylengteafstandch africhtinggpnylengteafstandch efslagrechtsvlgenkhgerkenlinm efslagrechtsvlgenkhgerkenlinm etenenvrwaartsinareidsdrafpny etenenvrwaartsinareidsdrafpny lengteafstandrichtinggmarshef lengteafstandrichtinggmarshef slagrechtsvlgengerkenlinhfdde slagrechtsvlgengerkenlinhfdde rclnneicafwendenenplincameten rclnneicafwendenenplincameten envlteshalveaanrechtsiahefsla envlteshalveaanrechtsiahefsla ©CMBI 2000 J Leunissen Sono simili queste strutture? ©CMBI 2000 J Leunissen Applicazioni della Bioinformatica • Sequenziazione e analisi del Genoma • Analisi sperimentali con migliaia di geni simultaneamente • DNA chips per – analisi dell’espressione genica – analisi comparative tra speci e sottospeci • “Proteomica”, cioè trovare il proteoma di un organismo • Farmaceutica e industria biotecnologica • Applicazioni legali e forensi • Applicazioni all’agricoltura (OGM & Co.) • Medicina • … Dati e Databases Ґ Immissione dei dati nei DATABASE Ґ Programmi per cercare nei DATABASE Ґ Conoscenza dellХ utilizzo di questi programmi Databases Biologici Il loro numero -Il DBCATalog al momento elenca piuХ di500 databases La loro grandezza - Cresce in modo esponenziale - Nel database EMBL database entrano 6.3 nuove sequenze di proteine o acidi nucleici per ogni secondo! • ©CMBI 2001 J Leunissen Databases Primari e Secondari Databases Primari - Sequenze o strutture biomolecolari con annesse annotazioni (organismo, funzione, mutazioni collegate a malattie, patterns struttura/funzione, bibliografia, etc.) - DATI SPERIMENTALI REALI !! Databases Secondari - INFORMAZIONI DERIVATE !! - Fruitto dellХ analisi di sequenza nei databases primari. - Spesso in forma di patterns, blocchi, profili etc. che rappresentano le caratteristiche piuХ conservate di allineamenti multipli. Databases Primari Informazioni di sequenza Ґ DNA: EMBL, Genbank, DDBJ Ґ Protein: SwissProt, TREMBL, PIR Informazioni genomiche Ґ GDB, MGD, ACeDB Informazioni di struttura 3D Ґ PDB, NDB, CCDB/CSD Databases secondari Informazioni correlate alla sequenza ProSite, Enzyme , REBase Informazioni correlate al genoma OMIM, TransFac Informazioni correlate alla struttura DSSP, HSSP, FSSP, PDBFinder Informazioni correlate a pathways KEGG, Pathways Esempio Prosite Formato delle informazioni I Dati devono essere immessi in formati riconoscibili ai programmi che li utilizzano. Ogni database puoХ avere il proprio formato, ma alcuni elementi sono essenziali per tutti i databases: 1. Unico identificatore o codice di accesso 2. Nome del depositante 3. Riferimenti bibliografici 4. Data del deposito 5. I dati veri e propri QualitaХ dei dati SwissProt Ґ I Dati sono immessi solamente da esperti di annotazioni Ґ Collegamenti ipertestuali a data(bases) collegati EMBL Ґ Processo automatico senza intervento umano Ґ Collegamenti ipertestuali a data(bases) collegati PDB Ґ Tutti possono sottomettere dati Ґ I dati sono accettati nel modo in cui sono inviati il database SwissProt Ґ Database di sequenze di proteine Ґ Prodotto dalla collaborazione di Amos Bairoch (University of Geneva) e la EMBL Data Library Ґ Dati provenienti da: - traduzioni di sequenza di DNA (dal DatabaseEMBL) - adattati dalla collezione PIR - estratti dalla letteratura - direttamente sottomessi dai ricercatori Ґ 86593 sequenze (31x106 lettere) (Luglio 2001) ~15000 nuove sequenze ogni anno Swissnew database: 53184 (20 x106 letters) Ґ Ca. 200 esperti di Annotazioni sparsi nel mondo Ґ Organizzazione per parole chiave SwissProt records (1) ID identification line ID ENTRY_NAME DATA_CLASS; MOLECULE_TYPE; SEQUENCE_LENGTH. ID CRAM_CRAAB STANDARD; PRT; 46 AA. Format for the ENTRY_NAME: NAME_SPECIES ( 10 characters) For number of organisms (16) recognizable names: HUMAN, MOUSE, CHICK, BOVIN, YEAST, ECOLIЙ. N.B. Il riconoscimento ID puoХ cambiare,p.e. i recettori della serotonina hanno avuto di recente una nuova nomenclatura SwissProt records (2) AC accession number AC P01542; AC eХ unico: Il nome, la sequenza, o altro puoХ cambiare,ma AC resta lo stesso DT deposition date DT DT DT 21-JUL-1986 ( Rel. 01, Created) 30-MAY-2000 ( Rel. 39, Last sequence update) 30-MAY-2000 ( Rel. 39, Last annotation update) SwissProt records (3) DE description DE DE CRAMBIN. 6-phosphofructo-2-kinase 1 (EC 2.7.1.105) (Phosphofructokinase 2 I) 1) Informazioni descrittive generali 2) Informazioni in formato libero GN gene name GN THI2. OS & OC & OG OS OC OC OC Crambe abyssinica (Abyssinian crambe). Eukaryota; Viridiplantae; Embryophyta; Tracheophyta; Spermatophyta; Magnoliophyta; eudicotyledons; Rosidae; eurosids II; Brassicales; Brassicaceae; Crambe. Organism Species; Organism Classification; Organelle SwissProt records (4) RN References RN RP RX RA RT RL [1] SEQUENCE. MEDLINE; 82046542. Teeter M.M., Mazer J.A., L'Italien J.J.; "Primary structure of the hydrophobic plant protein Biochemistry 20:5437-5443(1981). crambin."; CC Commenti o note CC CC CC CC CC -!- FUNCTION: THE FUNCTION OF THIS HYDROPHOBIC PLANT SEED PROTEIN IS NOT KNOWN. -!- MISCELLANEOUS: TWO ISOFORMS EXISTS, A MAJOR FORM PL (SHOWN HERE) AND A MINOR FORM SI. -!- SIMILARITY: BELONGS TO THE PLANT THIONIN FAMILY. SwissProt records (5) DR Database Cross Reference DR DR DR DR DR DR DR DR DR DR DR PIR; A01805; KECX. PDB; 1CRN; 16-APR-87. PDB; 1CBN; 31-JAN-94. PDB; 1CCM; 31-OCT-93. PDB; 1CCN; 31-JAN-94. PDB; 1CNR; 31-AUG-94. PDB; 1AB1; 12-AUG-97. INTERPRO; IPR001010; -. PFAM; PF00321; plant_thionins; 1. PRINTS; PR00287; THIONIN. PROSITE; PS00271; THIONIN; 1. KW Keyword Non standardizzate (sotto la resonsabilitaХ del depositante) KW Thionin; 3D-structure. SwissProt records (6) FT Feature table data FT FT FT FT FT FT FT FT FT FT FT FT DISULFID DISULFID DISULFID VARIANT VARIANT STRAND HELIX TURN HELIX TURN STRAND TURN 3 4 16 22 25 2 7 17 23 31 33 42 40 32 26 22 25 3 16 19 30 31 34 43 P -> S (IN ISOFORM SI). L -> I (IN ISOFORM SI). Feature table cntnd. Altre caratteristiche: modifiche post-translationali, siti di legame, siti attivi per gli enzimi, strutture secondarie locali o altre caratteristiche riportate nelle references citate. Gli eventuali conflitti nei dati di sequenza riportanti nelle varie references sono anche inclusi. FT FT FT FT FT FT FT FT FT FT CONFLICT 33 33 MISSING (IN REF. 2). MUTAGEN 123 123 G->R,L,M: DNA BINDING LOST. MOD_RES 11 11 PHOSPHORYLATION (BY PKC). LIPID 1 1 MYRISTATE. CARBOHYD 103 103 GLUCOSYLGALACTOSE. METAL 87 87 COPPER (POTENTIAL). BINDING 14 14 HEME (COVALENT). PROPEP 27 28 ACTIVATION PEPTIDE. DOMAIN 22 788 EXTRACELLULAR (POTENTIAL). ACT_SITE 193 193 ACCEPTS A PROTON DURING CATALYSIS. SwissProt records (7) SQ sequence header - Intestazione della sequenza SQ SEQUENCE 46 AA; 4736 MW; 919E68AF159EF722 CRC64; Sequence data- Dati di sequenza TTCCPSIVAR SNFNVCRLPG TPEALCATYT GCIIIPGATC PGDYAN // Termination line- Linea di termine EMBL database Nucleotide database EMBL: 3,951,820 entries, EMNEW : 323703 EMEST: 8,092,600, EMNEW EST: 619777 (July 2001) I records EMBL seguono fondamentalmente lo stesso schema di SwissProt. Protein Data Bank (PDB) Banca dati di strutture macromolecolari (coordinate 3-D) Obbligo del deposito dei dati di struttura in PDB prima della pubblicazione su qualunque rivista scientifica ~16000 strutture catalogate (Ottobre 2001) ( ~2000 strutture ТunicheУ ) Il file PDB eХ organizzato aТkeywordУ 1) Direttamente leggibile e comprensibile se letto come file di testo 2) Ogni linea parte con una Keyword (3-6 lettere) 3) Oltre a essere leggibile come file di testo, il file puoХ essere direttamente utilizzato da programmi di grafica molecolare, indipendentemente dalla piattaforma utilizzata Nato circa 25 anni fa http://www.rcsb.org/pdb & http://msd.ebi.ac.uk PDB records (1) Filename= accession number= PDB Code 1) Il nome del file eХ di 4 caratteri (spesso un numero e 3 lettere, p.e. 1CRN) 2) Attenzione: 0HYK significa che il file HYK non contiene coordinate spaziali, ma solo informazioni strutturalu HEADER- Intestazione descrive la molecola e la data di deposito HEADER PLANT SEED PROTEIN 30-APR-81 1CRN 1CRND 1 1CRN 4 1CRN 5 COMPND nome della molecola COMPND CRAMBIN SOURCE organismo di provenienza SOURCE ABYSSINIAN CABBAGE (CRAMBE ABYSSINICA) SEED PDB records (2) AUTHOR AUTHOR W.A.HENDRICKSON,M.M.TEETER 1CRN 6 1CRND 1CRNC 1CRNB 1CRNB 2 1 1 2 Revision date REVDAT REVDAT REVDAT REVDAT REVDAT 5 4 3 2 1 16-APR-87 04-MAR-85 30-SEP-83 03-DEC-81 28-JUL-81 1CRND 1CRNC 1CRNB 1CRNA 1CRN 1 1 1 1 0 HEADER REMARK REVDAT SHEET REMARK - Informazioni varie Ci sono molti e differenti records e subrecords di informazioni varie non standardizzati, ma identificati dalla keyword REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK REMARK 1 REFERENCE 3 1 AUTH M.M.TEETER,W.A.HENDRICKSON 1 TITL HIGHLY ORDERED CRYSTALS OF THE PLANT SEED PROTEIN 1 TITL 2 CRAMBIN 1 REF J.MOL.BIOL. V. 127 219 1979 1 REFN ASTM JMOBAK UK ISSN 0022-2836 070 2 2 RESOLUTION. 1.5 ANGSTROMS. 1CRNC 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 10 16 17 18 19 20 21 22 PDB records (3) SEQRES Sequenza della proteina; Attenzione: Non sempre sono presenti nei record successivi le coordinate 3D di tutti gli amminoacidi di SEQRES !! SEQRES SEQRES SEQRES SEQRES 1 2 3 4 46 46 46 46 THR ASN ALA CYS THR VAL THR PRO CYS CYS TYR GLY CYS ARG THR ASP PRO LEU GLY TYR SER PRO CYS ALA ILE VAL ALA ARG SER ASN PHE GLY THR PRO GLU ALA ILE CYS ILE ILE ILE PRO GLY ALA THR ASN 1CRN 1CRN 1CRN 1CRN 51 52 53 54 HET & FORMUL - EteroAtomi HET HET HET HET FORMUL FORMUL FORMUL NAD SUL NAD SUL 3 4 5 A A B B NAD SUL HOH 1 2 1 2 44 NAD CO-ENZYME 5 SULFATE 44 NAD CO-ENZYME 5 SULFATE 2(C21 H28 N7 O14 P2) 2(O4 S1) *471(H2 O1) 4MDH 219 4MDH 220 4MDH 221 4MDH 222 4MDH 223 4MDH 224 4MDH 225 PDB records (4) HELIX/SHEET/TURN Elementi di struttura secondaria (non sempre presenti) HELIX SHEET TURN 1 2 1 H1 ILE S1 2 CYS T1 PRO 7 PRO 32 ILE 41 TYR 19 1 3/10 CONFORMATION RES 17,19 35 -1 44 1CRN 1CRN 1CRN 55 58 59 40 32 1CRN 1CRN 60 61 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 63 64 65 66 67 68 69 SSBOND Localizzazione dei ponti disolfuro SSBOND SSBOND 1 CYS 2 CYS 3 4 CYS CYS CRYST1, ORIGX1, ORIGX2, ORIGX3, SCALE1, SCALE2, SCALE3 parametri cristallografici CRYST1 ORIGX1 ORIGX2 ORIGX3 SCALE1 SCALE2 SCALE3 40.960 18.650 22.520 90.00 1.000000 0.000000 0.000000 0.000000 1.000000 0.000000 0.000000 0.000000 1.000000 .024414 0.000000 -.000328 0.000000 .053619 0.000000 0.000000 0.000000 .044409 90.77 90.00 P 21 0.00000 0.00000 0.00000 0.00000 0.00000 0.00000 2 PDB records (5) ATOM una linea per ogni atomo con il suo nome e le relative coordinate x,y,z ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1 2 3 4 5 6 7 8 9 10 11 N CA C O CB OG1 CG2 N CA C O THR THR THR THR THR THR THR THR THR THR THR 1 1 1 1 1 1 1 2 2 2 2 17.047 16.967 15.685 15.268 18.170 19.334 18.150 15.115 13.856 14.164 14.993 14.099 12.784 12.755 13.825 12.703 12.829 11.546 11.555 11.469 10.785 9.862 3.625 4.338 5.133 5.594 5.337 4.463 6.304 5.265 6.066 7.379 7.443 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 13.79 10.80 9.19 9.85 13.02 15.06 14.23 7.81 8.31 5.80 6.94 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 1CRN 70 71 72 73 74 75 76 77 78 79 80 4.849 15.886 1.00 11.00 3.298 15.015 1.00 10.32 4.973 10.746 1.00 7.86 1CRN 1CRN 1CRN 1CRN 394 395 396 397 Il record TER termina la catena amminoacidica ATOM ATOM ATOM TER 325 326 327 328 OD1 ASN ND2 ASN OXT ASN ASN 46 46 46 46 11.982 13.407 12.703 PDB records (6) HETATM coordinate atomiche per atomi in gruppi "non-standard" (metalli, cofattori, ioni, Й) e per molelecole di acqua HETATM 5158 AP HETATM 5159 AO1 HETATM 5160 AO2 NAD B NAD B NAD B 1 1 1 42.641 43.440 41.161 30.361 31.570 30.484 41.284 40.868 41.376 1.00 26.73 1.00 20.69 1.00 33.73 4MDH5495 4MDH5496 4MDH5497 HETATM 5207 HETATM 5208 HETATM 5209 HOH HOH HOH 0 1 2 15.379 58.861 24.384 1.907 0.984 1.184 3.295 17.024 74.398 1.00 58.12 1.00 37.58 1.00 35.92 4MDH5544 4MDH5545 4MDH5546 O O O CONECT record di connessione (non obbligatorio) indica quali atomi sono connessi (principalmente HETATM )