BASI DI DATI BIOLOGICHE - 3 Principali Basi di Dati Biologiche Alcune delle principali Basi di Dati Biologiche: Di sequenze: NCBI. Di proteine: Protein Data Bank. Di annotazioni: Ensembl. Di analisi: microarray. Protein Data Bank (PDB) Archivio globale di dati strutturali relativi a macromolecole biologiche. Istituita nel 1971. Dal 1980 esplosione del numero di strutture grazie ai progressi nell’ambito delle tecniche utilizzate (principalmente NMR). Dai primi anni 90 deposito ed accesso ai dati via www. PDB – Il deposito dei dati (1) Il deposito dei dati avviene attraverso ADIT (AutoDep Input Tool); i dati devono rispettare un dizionario (mmCIF) di 1700 termini. Appena ricevuti, i dati entrano a far parte del “core database”. Successivamente, vengono controllati attraverso un certo insieme di interazioni con i submitter. PDB – Il deposito dei dati (2) Vengono registrate: le coordinate della struttura; informazioni generali sulla struttura (pubblicazioni, organismi, ...); informazioni specifiche (dati della NMR, processo di acquisizione del dato, ...). Interazione con PDB PDB – La base di dati (1) Le basi di ati che costituiscono PDB sono: Il “core relational database” (Sybase), che contiene i dati sperimentali primari e i dati relativi alle coordinate. I dati finali (curati) presenti come file di testo (ASCII). La “base di dati” POM (Property Object Model), che comprende oggetti indicizzati che descrivono proprietà native (coordinate atomiche) o derivate (strutture secondarie calcolate). PDB – La base di dati (2) Il “Biological Macromolecule Crystallization Database” (Sybase), che contiene informazioni ricavate dalla letteratura. La base di dati LDAP usata per indicizzare i campi testuali del PDB in formato strutturato. PDB – La base di dati (3) PDB - Un esempio http://www.rcsb.org/pdb/ Cercare cyclin. Scaricare il risultato. Ensembl - Caratteristiche generali Scopo del progetto Ensembl è mettere assieme il mosaico dei segmenti di DNA creati dal sequenziamento del genoma umano. Utilizza sequenze ricavate dalle basi di dati pubbliche per alimentare una pipeline di analisi. Determina in maniera semi-automatica geni e caratteristiche rilevanti delle sequenze Presenta i risultati attraverso il www. Ensembl - L’architettura Ensembl - Contenuto Geni Noti da altri esperimenti; Predetti da Ensembl. Altre caratteristiche: SNPs; Repeats; Homologies. Ensembl - Identificatori In progetti di questo tipo è essenziale definire un vocabolario di nomi comuni affinché un dato elemento possa essere identificato univocamente (i.e., nomi dei geni). E’, inoltre, di fondamentale importanza disporre di identificatori stabili per le sequenze (pur riconoscendo la necessità della gestione delle versioni). Gli identificatori specifici di Ensembl sono del tipo: ENSG0000XXXX , ENST00000XXXX, ... Ensembl – La base di dati (1) Le singole basi di dati vengono costruite in più passi Creazione dello schema; Caricamento dei dati di sequenza (DNA, clone, ...); Costruzione di geni; Analisi dei geni. Ensembl – La base di dati (2) Viene utilizzato MySQL. Le basi di dati possono essere scaricate dal sito di Ensembl. Ogni organismo ha più basi di dati: Core; Desease; ... Il Core mantiene le informazioni d'interesse. Ensembl -Le tabelle della base di dati Dividiamo le tabelle in 3 gruppi: tabelle fondamentali; caratteristiche ed analisi; ID mapping. Le tabelle fondamentali - 1 assembly: Descrive come i contig si uniscono per creare la sequenza del cromosoma. Mantiene un mapping tra le locazioni sul cromosoma e locazioni sui contig. assembly_exception: Fornisce informazioni aggiuntive su una data sezione della precedente tabella. attrib_type: Mantiene gli attributi riconducibili ad una sequenza. Tabelle fondamentali - 2 dna: Contiene le sequenze di DNA; è in rapporto 1:1 con i Contig. exon: Mantiene informazioni sugli esoni, è associato ai trascritti mediante una chiave esterna. exon_stable_id: Identificatori stabili. exon_transcript: Mantiene la relazione tra trascritti ed esoni. Tabelle fondamentali - 3 gene: Permette di creare una relazione tra geni e trascritti. prediction_exon, prediction transcript: Informazione su esoni e trascritti predetti. seq_region: Informazioni sulle regioni delle sequenze; fa riferimento al DNA e al sistema di coordinate. seq_region_attrib: Informazioni sugli attributi di una data regione; mantiene riferimenti a attib_type. Tabelle fondamentali - 4 supporting_feature: giustifica il processo di predizione con collegamenti ad allineamenti della sequenza con DNA o proteine. transcripts: Informazioni sui trascritti. translation: Descrive quale parte degli esoni viene usate nella traduzione. Caratteristiche ed Analisi - 1 analysis: Descrive programmi e basi di dati utilizzati per creare una feature su un dato pezzo di una sequenza. dna_align_feature: Descrive un allineamento rispetto ad una sequenza ottenuto attraverso un BLAST. map: Registra nomi di mappe per le quali sono disponibili informazioni sui marker. marker: Le informazioni sul Marker. Caratteristiche ed Analisi - 2 marker_feature: Descrive le posizioni dei marker. marker_map_location: Mette in Relazione i marker e la mappa. misc_attrib: Lega attributi a feature. misc_feature: Mette in relazione l'attributo e la sequenza. misc_set: Definisce insiemi di feature. Caratteristiche ed Analisi - 3 prediction_transcript: Trascritti predetti (genscan, SNAP). protein_align_feature: Come per gli allineamenti di DNA. protein_feature: Descrive le caratteristiche delle traduzioni ID mapping gene_archive: Mantiene l'elenco dei geni modificati o cancellati tra una release e l'altra. mapping_session: Mappa gli stable ID tra le varie basi di dati. peptide_archive: Contiene i peptidi per traduzioni cancellate o modificate. stable_id_event: Stabilisce cosa sia accaduto ad uno stable ID (cancellazioni, creazioni, relazioni tra stable ID). Altre Basi di Dati Biologiche TRANSFOG: una base di dati “limite”, in cui tutto è basato sul programma di ricerca dei fattori trascrizionali. BASE: una base di dati per la gestione di analisi di MicroArray (una descrizione completa dell'esperimento dall'estrazione all'immagine). Quanti e quali sono i DB biologici? http://www3.oup.co.uk/nar/database/ per la lista in ordine alfabetico: http://www3.oup.co.uk/nar/database/a/