Bioinformatica e “Informazione”
 La
parola “Bioinformatica”
ha a che vedere con in concetto di
INFORMAZIONE
Informazione: è un concetto ampio e multi-significato
INFORMAZIONE
(liberamente tratto da wikipedia)

Informazione riguarda una qualunque notizia/racconto/dato

L'informazione è ciò che, ad un osservatore (o un recettore)
posto in una situazione in cui si hanno almeno due occorrenze
possibili, puo fare superare un'incertezza e risolvere
un'alternativa (dall'ignoto al noto, dall'incerto al certo).

la parola deriva dal sostantivo latino informatione(m); cfr.il
verbo informare, nel significato di "dare forma alla mente",
"disciplinare", "istruire", "insegnare"

Riguarda il contesto in cui i dati sono raccolti, la loro codifica in
forma intelligibile ed in definitiva il significato attribuito a tali
dati.
INFORMAZIONE

L’informazione è collegata a due concetti:

DATO: un “osservabile” presentato alla conoscenza

STRUTTURA: l’organizzazione ordinata del dato che
lo rende intellegibile
INFORMAZIONE e DATABASE

Un database (base di dati o anche banca dati)
• è un insieme di dati ELEMENTARI, OMOGENEI, ORDINATI e
FRUIBILI (la strutturazione del dato ne permette la comprensione)

Un database quindi è una collezione di dati attraverso la
fruizione dei quali posso elaborare un’informazione
Esempio:
la rubrica telefonica è una base di dati “elementari, omogenei, ordinati e fruibili”
INFORMAZIONE e DATABASE
Un esempio per capire
FINESTRA
(informazione)
Base dati (raw)
Base dati organizzata
BIONFORMATICA e BANCHE DATI

La bioinformatica nasce dall’esigenza di catalogare dati
(BIOLOGICI!) e dare loro un significato

Il primo database bioinformatico è degli anni ’60.
Margaret Dayhoff e colleghi raccolsero tutte le
informazioni relative alle sequenze degli aminoacidi e
pubblicò tali dati nel:
 Atlas
of Protein Sequences and
Structure (1965).
BIONFORMATICA e BANCHE DATI



I dati allora noti (65 proteine!!) potevano essere contenuti in
un semplice dischetto e rappresentavano il lavoro di un anno
di un piccolo gruppo di ricercatori.
Oggi la stessa quantità di informazioni viene prodotta un’ora
circa.
Nel 1982 con l’avvento delle tecnologia della PCR per il DNA
inizia il progetto sul genoma umano e il gruppo del
Laboratorio Europeo di Biologia Molecolare (EMBL) inizia a
creare un database trascrivendo le informazioni contenute
nelle riviste.


Inizialmente gli inglesi stipulano un contratto di collaborazione
con un gruppo americano (Los Alamos National Laboratory) da
questa collaborazione nasce GenBanK.
GENBANK nasce come database di sequenze, nucleotidi e
proteine della NIH (National Institutes of Health) di Bethesda
nel Maryland.
BIONFORMATICA e BANCHE DATI
Tutti
i
record
nelle
GENBANK
sono
generati
dall’immissione diretta delle sequenze da parte dei relativi
autori.
Questa
banca dati di biologia molecolare è mantenuta dal
National Center for Biotechnology Information (NCBI) al NIH.
BIONFORMATICA e BANCHE DATI
Oggi è in stretta collaborazione con
DDBJ:
un centro giapponese (DNA Data base of Japan,
DDBJ, Mishana)
EMBL (Laboratorio Europeo di Biologia Molecolare, Hinxton UK)
mantenuto dall’European Bioinformatic Institute (EBI)
Ognuno
di
questi
centri
rappresenta
immissione dei dati relativi alle sequenze.
un
punto
di
NCBI 2005
BANCHE DATI esistenti
Le banche dati possono essere classificate in
molte categorie (elenco non esaustivo):
• Banche Dati di bio-sequenze (es.: Genebank)
• Banche Dati genomiche (es.: TIGR, GeneBank)
• Banche dati di espressone genica (TIGR)
• Banche dati di proteomica (Expasy)
•Banche dati metabolomica (KEGG, Kyoto)
•Banche dati di mutanti (SIGnAL, Salk Institute)
BANCHE DATI primarie e secondarie
Attualmente la GenBank viene considerata una
banca DNA centrica, e rappresenta il punto di
riferimento nell'ambito della biologia molecolare.
Occorre distinguere tra
•DB Primari (detti anche ARCHIVAL)
•DB secondari (CURATED)
BANCHE DATI
DB PRIMARI
I data base primari rappresentano i risultati emersi dalla
sperimentazione in laboratorio, sono quindi i risultati di un
sequenziamento ottenuto a livello di DNA.
Ogni annotazione del DNA e definita come CDS (coding
sequence).
La sequenza di aminoacidi viene ricavata in quanto
difficilmente si attua un sequenziamento a livello
aminoacidico.
Si deve comunque prestare molta attenzione nell’uso e
nell’interpretazione dei risultati ottenuti da queste
sequenze.
BANCHE DATI
DB SECONDARI
I data base secondari sono costruiti a partire da dati grezzi
presenti in database primari
Sono costrutiti grazie all’analisi e alla interpretazione dei
dati.
REF SEQ (NCBI)
Prosite (db di famiglie di proteine e di domini)
 Pfam (db di domini funzionali)
Problemi per la gestione di banche dati di acidi nucleici

Genbank


Annotated nucleic acids sequences database (dall’autore)
Problemi:




Errori di sequenza
mantenere le annotazioni e aggiornarle
Sovrapposizioni delle sequenze (redundancy)
Polimorfismo e varianti
RIMEDIO
DB SECONDARI : REF SEQ
•250.000 species vs 4000 species
•Provisional: not curated
•Reviewed: curate da staff di refSeq
NOTA
NON
ESISTONO
SOLO
Database per sequenze di
DNA
Banche dati di proteine

Swissprot


Annotated protein sequences database
Problemi:

Derivano per lo più da traduzioni
Banche dati di strutture

Protein Data Bank

3D protein structures database
Banche dati derivate (secondarie)

PROSITE


ProDom


Domini proteici
FSSP, SCOP, CATH


Pattern funzionali
Famiglie strutturali
OMIM

Geni e malattie geniche associate
UN PO DI
NUMERI…
NCBI 1982-2011
124 gigabasi
Oggi (20/2/11)
140
dic 2010
120
feb 2011
2009
100
Giga bp
2005
80
60
40
20
2001
1982
0
1983
1987
1992
1997
1
As of 15 February 2011, GenBank 182.0 has 132,015,054 loci, 124,277,818,310
bases, 132 milioni loci, 124 gigabasi
NCBI: il sistema “ENTREZ”
NCBI: tools! (molto piu che solo GenBank)
NCBI: tools! (molto piu che solo GenBank)
NCBI tools: TAXBROWSER
NCBI: tools! (molto piu che solo GenBank)
BANCHE DATI DI
SEQUENZE
PROTEICHE
BANCHE DATI DI SEQUENZE PROTEICHE: Expasy
BANCHE DATI DI SEQUENZE PROTEICHE: Expasy
BANCHE DATI DI SEQUENZE PROTEICHE: Expasy
Scarica

Database - sistemi informativi service desk