Master FSE 2005 - c3 - 006/732
Modulo di Bioinformatica
24 ore
Docenti:
Dr. Stefania Bortoluzzi, Dr Alessandro Coppe
Dipartimento di Biologia
Universita' di Padova
viale G. Colombo 3, 35131, Padova
Tel. 0039 049 8276214
Email: [email protected]
Bioinformatica - OBIETTIVI
• Utilizzare Database per recuperare
informazioni biomediche
• Utilizzare specifici programmi per analizzare le
informazioni disponibili nei database, per
avvantaggiarsi nel disegno e nella
programmazione dell’attivita’ sperimentale
• Utilizzare metodologie e programmi per
analizzare dataset complessi per descrivere e
comprendere i fenomeni biologici
I LEZIONE
• Database primari e Database
secondari
• Database di sequenze nucleotidiche e
proteiche
– GenBank
– SWISSPROT
• ENTREZ
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Struttura e organizzazione di database
 I database sono insiemi di dati memorizzati su un computer con diversi
livelli di astrazione al di sopra di essi.
 Ogni livello di astrazione consente di organizzare i dati contenuti e
accedervi piu' facilmente, separando la richiesta dal meccanismo di
recupero di specifici dati.
 Database diversi organizzano i dati in modi differenti
 database relazionali (RDBMS, Relational Database Management
Systems) es. Oracle
 metodologia orientata agli oggetti (OODBMS)
 Tutti i sistemi di database impiegano delle interfacce (API, Application
Programming Interface) per accedere ai dati ed eventualmente
modificarli. La manipolazione dei dati avviene attraverso un linguaggio di
interrogazione che permette essenzialmente quattro operazioni
principali: acquisizione, memorizzazione, aggiornamento ed
eliminazione di dati.
INTRODUZIONE ALL’UTILIZZO DI DATABASE
Database flat-file
 Il tipo piu' semplice di database e' il database flat-file,
formato da files di testo ASCII in formato standard che il
programa esamina per cercare informazioni.
 Il formato e' di solito costituito da un insieme di campi,
contenenti ciascuno una specifica categoria di
informazioni, delimitati attraverso caratteri speciali o con
lunghezza fissa assegnata.
 Il pregio principale dei database flat-file e' la semplicita'
di gestione, controbilanciata pero' dalla loro incapacita'
di gestire accesso concorrente e dalla mancanza di
indicizzazione dei dati, che non consente interrogazioni
sequenziali.
DATABASE FLAT-FILE ENTRY
AC
NA
IN
GR
TM
CA
OR
RE
TT13627
The ultimate chocolate cake
cacao, uova, farina, burro
180 °C
40 minuti
500
Vienna
Dolci Austriaci, Ed.Frankfurter
DATABASE PRIMARI E DATABASE SECONDARI
ORGANIZZANO RISPETTIVAMENTE DATI
ORIGINALI E CONOSCENZA GENERATA A
PARTIRE DA ANALISI DI DATI O INTEGRAZIONE
DI DATI DIVERSI
LEVELS OF PROTEIN SEQUENCE AND
STRUCTURAL ORGANISATION
PRIMARY
sequence
primary
database
SECONDARY
motif
secondary
database
TERTIARY
domain module
secondary
database
DATABASE PRIMARI
DATABASE DI SEQUENZE NUCLEOTIDICHE
Collezioni di singoli record, ognuno dei quali contiene un tratto di DNA o
RNA con delle annotazioni. Ogni record viene anche chiamato ENTRY, e ha
un codice che lo identifica univocamente (ACCESSION NUMBER).
Le tre principali banche dati primarie di sequenze nucleotidiche sono:
EMBL nucleotide database, ora gestita dall’EBI (1980)
 EMBL = European Molecular Biology Laboratory (Heidelberg)
 EBI = European Bioinformatics Institute (Hinxton, UK)
GenBank = banca dell NIH gestita dal NCBI (1982)
 NIH = National Institutes of Health (Stuttura USA)
 NCBI = National Center for Biotechnology Information, Bethesda, Maryland
DDBJ = banca DNA giapponese (1986)
 DDBJ = DNA DataBase of Japan
SCAMBIO DI DATI  Nel 1988, i gruppi responsabili dei 3 database (EMBL,
DDBJ e GB) si sono organizzati nell’International Collaboration of DNA
Sequence Databases per utilizzare un formato comune e scambiarsi
giornalmente le sequenze.
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank
SUBMISSION DIRETTA  La gran parte delle sequenze
finisce in uno dei tre database perché l’autore (il laboratorio
dove tale sequenza é stata ottenuta) la invia direttamente.
La sequenza viene quindi inserita e il record corrispondente
resta di proprietà solo di quel database, l’unico con il diritto
di modificarlo. Il database che riceve la sequenza la invia poi
agli altri due. Circa il 98% delle sequenze in un database
sono presenti anche negli altri due.
ANNOTAZIONE  Ci sono poi anche degli “annotatori” che
prendono le sequenze dalle riviste scientifiche e le
trasferiscono nel database.
Problema della ridondanza.
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank: update in Nucleic Acids Res. 2004
GenBank is a comprehensive database that contains publicly available
DNA sequences for more than 140 000 named organisms, obtained
primarily through submissions from individual laboratories and batch
submissions from large-scale sequencing projects.
Most submissions are made using the BankIt (web) or Sequin program
and accession numbers are assigned by GenBank staff upon receipt.
Daily data exchange with the EMBL Data Library in the UK and the DNA
Data Bank of Japan helps ensure worldwide coverage. GenBank is
accessible through NCBI’s retrieval system, Entrez, which integrates
data from the major DNA and protein sequence databases along with
taxonomy, genome mapping, protein structure and domain
information, and the biomedical journal literature via PubMed.
BLAST provides sequence similarity searches of GenBank and other
sequence databases. Complete bimonthly releases and daily updates
of the GenBank database are available by FTP.
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank contiene diverse sezioni (gruppi tassonomici e strategie di
sequenziamento)
dbEST  database pubblico di "Expressed Sequence Tags" (sequenze
espresse contrassegnate), contiene tutte le sequenze ottenute dal
sequenziamento parziale o totale di cloni di cDNA, molto utili per:
• Identificare nuovi geni
• Studiare la struttura esoni/introni di geni
• Studiare l’espressione genica
dbEST release 032505 Summary by Organism - March 25, 2005
Number of public entries:
26,447,540
Homo sapiens (human)
6,053,997
Mus musculus + domesticus (mouse)
4,334,005
Xenopus tropicalis
887,961
Drosophila melanogaster (fruit fly)
383,407
DATABASE DI SEQUENZE NUCLEOTIDICHE
GenBank contiene diverse sezioni (gruppi tassonomici e strategie di
sequenziamento)
•GSSs - genome survey sequences; short, single pass read
genomic sequences, exon trapped sequences,
cosmid/BAC/YAC ends, others.
•HTGs - high throughput genome sequences from large scale
genome sequencing centers; unfinished (phase 0, 1, 2) and
finished (phase 3) sequences. (Note that contigs assembled
from draft and finished human HTG sequences are accessible
from the Map Viewer, described below.)
•STSs - sequence tagged sites; short sequences that are
operationally unique in the genome, used to generate mapping
reagents.
•WGS - whole genome shotgun sequences.
Come e’ fatta un’entry di GenBank ?
http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html
DATABASE PRIMARI
DATABASE DI SEQUENZE PROTEICHE
SWISS-PROT
Database di sequenze proteiche annotate, “scarsamente”
ridondanti e cross-referenced
Contiene TrEMBL, supplemento a SWISS-PROT costituito
dalle sequenze annotate al computer, come traduzione di
tutte le sequenze codificanti presenti all’EMBL
TrEMBL contiene due sezioni:
SP-TrEMBL, sequenze da incorporare in SWISSPROT, con
AC.
REM-TrEMBL, remaining (immunoglobuline, proteine
sintetiche, ...), senza AC.
TrEMBLnew, generato ogni settimana.
UniProt (Universal Protein Resource)
Il piu’ grande catalogo di informazioni sulle proteine.
Contiene informazioni sulla sequenza e sulla funzione di
proteine ed e’ ottenuto dall’insieme delle informazioni
contenute in Swiss-Prot, TrEMBL e PIR.
UniProt ha 3 componenti:
• UniProt Knowledgebase (UniProt) ther central access point
for extensive curated protein information, including function,
classification, and cross-reference.
• UniProt Non-redundant Reference (UniRef) databases
combine closely related sequences into a single record to
speed searches.
• UniProt Archive (UniParc) is a comprehensive repository,
reflecting the history of all protein sequences.
UniProt (Universal Protein Resource)
The UniProt Knowledgebase consists of two parts, a section
containing fully manually-annotated records resulting from
information extracted from literature and curator-evaluated
computational analyses, and a section with computationallyanalysed records awaiting full manual annotation. For the sake
of continuity and name recognition, the two sections are
referred to as "UniProtKB/Swiss-Prot" and
"UniProtKB/TrEMBL", respectively.
http://www.expasy.uniprot.org/index.shtml
http://www.expasy.uniprot.org/search/tools.shtml
ENTREZ
• E' stato sviluppato all’NCBI (National Center for
Biotechnology Information, USA) per permettere l'accesso a
dati di biologia molecolare e citazioni bibliografiche.
• Sfrutta il concetto di "neighbouring“: possibilita' di collegare
tra loro oggetti diversi di database differenti,
indipendentemente dal fatto che essi siano direttamente
"cross-referenced".
• Tipicamente, ENTREZ permette l'accesso a database di
sequenze nucleotidiche, di sequenze proteiche, di
mappaggio di cromosomi e di genomi, di struttura 3D e
bibliografici (PubMed).
DATABASE COMPOSITI E INFORMATION RETRIEVAL
ENTREZ
Permette di accedere a diversi tipi di database:
Nucleotide  Dati di sequenza da GenBank, EMBL, and DDBJ
Protein  Traduzione delle sequenze codificanti in GenBank,
EMBL and DDBJ e sequenze di proteine sottomesse a PIR,
SWISSPROT, PRF, Protein Data Bank (PDB) (sequenze da
strutture risolte)
Genome  Sequenze di genomi completi di molti organismi;
cromosomi completi; mappe di contigui; mappe
genetiche/fisiche integrate
Structure  Struttura 3D di proteine ovvero dati sperimentali di
cristallografia e NMR (Cn3D program)
PopSet  Sequenze allineate, risultato di studi di genetica di
popolazione, filogenesi e mutazione. Sia proteine che
nucleotidi
...
Esempi di ricerca in:
• Pubmed
• Bookshelf
• Nucleotide
• Protein
• Genomes
• SNP
• CDD
•…
Scarica

Lezione 1