Bioinformatica
Banche dati biologiche
Dr. Giuseppe Pigola – [email protected]
Banche dati biologiche

Le banche dati sono dei contenitori costruiti per
immagazzinare grandi quantità di dati biologici in modo
efficiente e razionale;

Le banche dati biologiche raccolgono informazioni e dati
derivati da:



Letteratura;
Analisi di laboratorio (in vitro e in vivo);
Analisi bioinformatiche (in silico).
Ogni banca dati è caratterizzata da un elemento biologico
centrale che costituisce l’oggetto intorno al quale viene
costruita la ENTRY principale della banca dati;

2
Bioinformatica
Banche dati biologichie

La maggior parte delle banche dati sono fruibili in formato
Flat-file: Ogni entry è memorizzata in un file di testo
generalmente strutturato, contenente le informazioni;

Con il crescere dei dati si è reso necessario adottare DBMS;

Uso del web per accedere a informazioni tra loro correlate
(cross-referencing) attraverso link ipertestuali;

Banche dati in formato XML;
3
Bioinformatica
Banche dati biologichie
Ridondanze e Errori:






Errori durante l’estrazione delle sequenze;
Algoritmi per la previsione di strutture imperfetti;
Inserimento erroneo di duplicati nei DB;
Diversi nomi per la stessa sequenza;
Non vi è un’unica struttura per un gene (splicing alternativi). Lo
stesso gene può essere rappresentato da numerose sequenze nei
vari DB;
NCBI accetta tutte le sequenze ma le eleva al rango di
REFSEQ (sequenza di riferimento) e assegna un refseqID solo
dopo numerosi controlli anche manuali;

4
Bioinformatica
Banche dati primarie

Sono banche dati di sequenze di acidi nucleici (DNA, RNA):
 EMBL datalibrary (EMBL – European Molecular Biology
Laboratory - 1980);
 GenBank (NCBI – National Center for Biotechnology
Information - 1982);
 DDBJ (DNA Database of Japan - 1986).

Esiste un accordo tra le tre banche per cui l’inserimento di
dati in una, comporta l’automatico inserimento nelle altre;

EMBL adotta un formato diverso dalle altre due;
5
Bioinformatica
NCBI -
http://www.ncbi.nlm.nih.gov/
NCBI – National Center for Biotechnology Information.
Gestisce un gran numero di DB tra i quali:
• Gene
Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura
genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link
alle sequenze ed alla relative pubblicazioni scientifiche.
• Nucleotide
Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse
codificanti o meno.
• Protein
Ha la stessa struttura di Nucleotide ma è relativo alle sequenze aminoacidiche.
• Pubmed
E’ il database delle pubblicazioni scientifiche di carattere biologico e biomedico.
Per ogni articolo è disponibile l’abstract. Pubmed Central contiene articoli
completi scaricabili gratuitamente.
• Taxonomy
Contiene la classificazione dei vari organismi;
6
Bioinformatica
NCBI -
http://www.ncbi.nlm.nih.gov/
Esempio di entry in GenBank
• LOCUS: Entry name;
• ACCESSION: Accession Number;
• SOURCE: Organismo;
• REFERENCE;
7
Bioinformatica
NCBI -
http://www.ncbi.nlm.nih.gov/
Esempio di entry in GenBank
• FEATURES;
• ORIGIN;
8
Bioinformatica
EMBL -
http://srs.ebi.ac.uk
EMBL – European Molecular Biology Laboratory
Anche EMBL permette di accedere a numerosi DB.
•EMBL DataLibrary
Contiene dati inerenti Geni e Sequenze Nucleotidiche;
•UniProt
Contiene dati proteici (gestito da un consorzio di cui fa parte EMBL);
• NCBI
Si appoggia anche a NCBI per ricercare informazioni relative a
pubblicazioni (PUBMED) o malattie genetiche (OMIM);
9
Bioinformatica
EMBL -
http://srs.ebi.ac.uk
Esempio di entry in EMBL
• ID Entry name;
• AC Accession Number;
• OS Source Organism;
• OC Tassonomia;
• KW Parole Chiave;
• RA Autori;
• RT Titolo;
• DR Cross Reference;
10
Bioinformatica
EMBL -
http://srs.ebi.ac.uk
Esempio di entry in EMBL
• FT Features;
• SQ Sequenza;
11
Bioinformatica
DDBJ -
http://www.ddbj.nig.ac.jp/
DDBJ – DNA Data bank of Japan
Si tratta in pratica di una copia di NCBI;
Mette a disposizione tool per ricercare e analizzare dati molto simili a quelli che
vedremo per Entrez;
Il formato adottato da DDBJ per i flat-file è identico a quello di NCBI;
12
Bioinformatica
Interrogazione di banche dati

I sistemi più utilizzati per interrogare le banche dati sono:

Entrez (Sviluppato da NCBI): Permette di accedere a numerose banche
dati (anche contemporaneamente) attraverso una interfaccia web.
 Permette di effettuare ricerche testuali sui DB utilizzando diverse
sintassi per i vari DB.

SRS - Sequence Retrieval System (Sviluppato da EBI – European
Bioinformatics Institute);

Anche DDBJ offre un metodo di ricerca e analisi dei dati via WEB (ma in
pratica si tratta delle stesse cose che vedremo per Entrez e SRS);
13
Bioinformatica
Entrez -
14
http://www.ncbi.nlm.nih.gov/Entrez
Bioinformatica
Entrez -
http://www.ncbi.nlm.nih.gov/Entrez
Ricerca in tutti i database
Risorse principali:
• Nucleotide;
• Protein;
•Genome;
• Gene;
• Taxonomy;
• Pubmed;
15
Bioinformatica
Entrez
Cerchiamo informazioni
relativamente al gene
umano TP53
Clicchiamo in
corrispondenza di Gene
16
Bioinformatica
Entrez
Opzioni di filtraggio;
Ricerca di informazioni
correlate;
Dettagli;
Etc;
La prima voce è quello che cerchiamo
17
Bioinformatica
Entrez
Simbolo Ufficiale, Nome del Gene, Tipo di gene, Classificazione, breve Sommario
18
Bioinformatica
Entrez
Taxonomy Browser: Classificazione dell’organismo
19
Bioinformatica
Entrez
Classificazione dell’organismo
Gerarchia di classificazione
20
Bioinformatica
Entrez
Database contenente la informazioni sulla sequenza (in questo caso HGNC= HUGO Gene Nomenclature Committee)
21
Bioinformatica
Entrez
Nome e simbolo del gene, ID, Posizione nei Cromosomi, Sinonimi
22
Bioinformatica
Entrez
Geni omologhi in altre specie;
Sequenze correlate;
Rreferenze (Pubmed);
23
Bioinformatica
Entrez
L’entry per TP53 sul DB
GenBank (mRNA)
Locus:Nome identificativo;
Accession Number: ID;
Keywords: parole chiavi che identificano la
funzione biologica;
Source Organism: Classificazione;
Reference: informazioni bibliografiche;
24
Bioinformatica
Entrez
Features: Carateristiche della
sequenza; Eventuali introni ed
esoni, promotori, enanchers,
etc…
Link alla Coding Sequence
Viene indicato anche il punto di
inizio e di fine.
25
Bioinformatica
Entrez
Sequenza dell’mRNA relativo
al gene.
26
Bioinformatica
Entrez
Salvare l’entry come file
oppure in clipboard o
collections (NCBI
memorizza
temporaneamente le
informazioni);
Modalità di visualizzazione
27
Bioinformatica
Entrez
Alcuni formati standard delle sequenze. (A) FASTA, (B) GCG
28
Bioinformatica
Entrez
29
Bioinformatica
Entrez
30
Bioinformatica
Entrez
Contesto genomico: Regione genomica di
appartenenza e geni limitrofi.
Le frecce indicano il filamento (destra:
senso, sinistra: antisenso).
Sequenza genomica di riferimento con
relativi link al FASTA o entry GenBank
Ogni riga rappresenta una variante di
splicing (le varianti differiscono nel
numero e nelle dimensioni degli esoni,
indicati da rettangolini, gli introni sono
rappresentati dalle linee sottili).
A sinistra nomi delle sequenze di mRNA
A destra lnomi delle sequenze di
proteine
SNP e relative citazioni
SNP di interesse clinico
31
Bioinformatica
Entrez
Fenotipi patologici
correlati al gene
(malattie);
Sono forniti dei link a
delle informazioni
aggiuntive;
32
Bioinformatica
Entrez
Interazioni con proteine
coinvolte nell’HIV.
Interazioni note con altre
proteine. Link a sequenze
e pubblicazioni relative.
33
Bioinformatica
Entrez
Pathways in cui il gene è coinvolto
34
Bioinformatica
Entrez
Pathway: Apoptosis (KEGG)
in cui TP53 è coinvolto
35
Bioinformatica
Entrez
36
Bioinformatica
Entrez
• Markers correlati;
• Variazioni del gene o malattie
associate in varie popolazioni;
• Omologie (Ortologhi in altre specie);
• Pathways in cui il gene è coinvolto;
• Annotazioni ontologiche (Processi,
funzioni e localizzazione cellulare);
Informazioni relative alla proteina
(solo per geni codificanti proteine);
37
Bioinformatica
Entrez
Qui troviamo I link alle sequenze
nucleotidiche e proteiche relative al gene.
Diversi link per ogni variante di splicing.
38
Bioinformatica
Entrez
Sequenze correlate (ad es precalcolate
con BLAST) con link ai DB Nucleotide,
Protein;
Link addizionali a sorgenti esterne;
39
Bioinformatica
Entrez
Salvare l’entry come file
oppure in clipboard o
collections (NCBI
memorizza
temporaneamente le
informazioni);
Modalità di visualizzazione;
40
Bioinformatica
Entrez
Una Tabella con le informazioni sulla struttura del gene;
Una tabelle per ogni variante di splicing;
41
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Contiene le sequenze nucleotidiche di tutte le specie
caratterizzate, siano esse codificanti o meno.
42
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Simbolo o nome di un gene o proteina : Ad es. BAX;

Ricerca per Accession Number ad es. CAA79696, NP_778203,
263191547, BC043443, NM_002020 etc);

Ricerca per autore: Ad es. Smith JR (Cognome seguito dalle iniziali senza
punti);

Ricercare una frase esatta: Ad es. "contactin associated protein";

Usare gli operatori booleani: AND, OR, NOT (ad es. contactin AND
neurofascin);
43
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare gli operatori booleani: AND, OR, NOT insieme alle parentesi
g1p3 AND (response element OR promoter)

Di default viene applicato l’operatore AND:
Tp53 mouse

44
Usare Wild Cards “*” oppure “?”
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Nucleotide

Data di pubblicazione;

Data di Modifica;

Db sorgente: EMBL,Genbank,
DDBJ, etc;

Tipo di molecola: DNA,RNA,
mRNA, cRNA;

Localizzazione della sequenza:
mitocondrio, nucleo, etc;

Escludere lavori incompleti;

Escludere brevetti;
45\
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare i Limits: Field tags;
Selezionando ad esempio Organism possiamo
usare nella ricerca il nome dell’organismo (ad
es. “human, mouse, green plant, bacteria,
drosophila similis”
Una volta fatta la ricerca possiamo filtrare ancora
i dati utilizzando il menu sulla destra della
pagina dei risultati;
Una volta scelti i pripri criteri di ricerca i
limits restano attivi per tutta la
sessione
46
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore
47
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Possono essere usati anche direttamente nel campo di
ricerca racchiusi tra [ ]
[accession] Accession number;
[all field];
[author];
[ecrno] EC/RN Number (enzyme commission number);
[Gene Name]
[Issue] [title] [journal] etc…Parametri pubblicazione;
[Publication date] Data di Pubblicazione e eventuale
Modifica;
Lunghezza della sequenza;
Ricerca avanzata
48
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Esempi:
Frogs AND 2010/06[Publication Date]
110:500[Sequence Length]
2009/3/1:2009/9/30[Publication Date]
NC_0000*[Accession] AND Human[Organism]
49
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore
Metodi di ricerca:


Advanced Search e History:
Nella pagina della ricerca avanzata è presente una History delle
query fatte recentemente:

Ciascuna query ha un nome nel formato “#NUMERO”;

E’ possibile riutilizzare query nella history e combinarle tra loro usando gli
operatori booleani;
50
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore
ATTENZIONE AI VARI TIPI DI ENTRY!!!
51
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore


DIVERSI TIPI DI ENTRY.

mRNA (ad es. entry U90223);

DNA (ad es. Entry AF018430);
Le due entry si riferiscono a:

mRNA relativo ad un gene con informazioni relative a , CDS e Proteina;

Informazioni relative al gene che si presenta effettivamente su un tratto di cromosoma
(varianti di splicing, presenza di esoni introni etc etc);
52
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

mRNA ENTRY: U90223
53
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

DNA Entry: AF018430

Due varianti di splicing
54
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

DNA Entry: AF018430
Prendi i nucleotidi da 1 a 1735 dalla entry AF018429.
Aggiungi i nucleotidi da 1 a 1177 dalla entry AF018430.
Aggiungi i nucleotidi da 1 a 45 dalla entry AF018431.
Aggiungi i nucleotidi da 658 a 732 dalla entry AF018432.7
…..
…..
55
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Contiene le sequenze create dalla traduzione di sequenze nucleotidiche codificanti provenienti da GenBank,
EMBL,DDBJ;

Le sequenze proteiche sono importate inoltre da db esterni quali Protein Information Resource (PIR),
SWISS-PROT, Protein Research Foundation (PRF).

Le sequenze proteiche sono inoltre estratte da strutture provenienti da Protein Data Bank (PDB).
56
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Metodi di ricerca:

57
Sono identici a quelli visti per Nucleotide;
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Metodi di ricerca:

Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Protein

Data di pubblicazione;

Data di Modifica;

Db sorgente: EMBL,Genbank,
DDBJ, etc;

Escludere lavori incompleti,
brevetti, etc.
58
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein
59
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Metodi di ricerca:

Possono essere usati anche direttamente nel campo di
ricerca racchiusi tra [ ]
I tag sono identici a quelli visti per Nucleotide ad
eccezione di alcuni come ad es:
[molecular weight]
Ricerca avanzata
60
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

La ricerca di tp53 nel
db Protein.
Questa volta troviamo la
sequenza proteica.
61
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

La ricerca di tp53 nel
db Protein.
Ma possiamo sempre
risalire alla Coding
Sequence
62
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein


Scegliendo come modalità di visualizzazione “FASTA” otteniamo:
Possiamo cambiare l’intervallo da visualizzare
63
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein



Scegliendo come modalità di visualizzazione “FASTA” otteniamo:
Trovare regioni di similarità tra tp53 e altre sequenze (BLAST);
Trovare regioni conservate in tp53 (CD-search);
64
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Scegliendo come modalità di visualizzazione “FASTA” otteniamo:

Trovare pattern all’interno della sequenza

Tutto quanto detto vale anche per Nucleotide.
65
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Contiene geni. Mantiene informazioni relativamente a nomenclatura, localizzazione
cromosomica, prodotti dei geni, malattie etc.
66
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

67
Sono identici a quelli visti per Nucleotide e Protein;
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Gene

Search Field tags:

Chromosome;

Taxonomy ID;

Gene Name;

Gene Length;

Disease/Phenotype;

Etc…
68
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

69
Organismo
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

70
Opzioni e Date;
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

71
Tassonomia;
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene
72
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

Possono essere usati anche direttamente nel campo di
ricerca racchiusi tra [ ]
I tag sono identici a quelli visti per Nucleotide e Protein
ad eccezione di alcuni come ad es:
[exon count]
[taxonomy ID]
[disease/phenotype]
[cromosome]
Ricerca avanzata
73
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene
Esempi di Query:
74
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

PubMed è un database di citazioni e abstract della letteratura biomedica.

Quando l’intero articolo è disponibile, vengono forniti link per la consultazione (Pubmed Central, la
biblioteca nazionale degli USA).

Tutorial: http://www.nlm.nih.gov/bsd/disted/pubmedtutorial
75
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
PubMed contiene al suo interno 4 database:
 MEDLINE
citazioni dal 1966 ad oggi; abstract; MESH; aggiornamento
settimanale;
 OLDMEDLINE
 con citazioni dal 1951 al 1965 , no abstract, no MESH
 PREMEDLINE (In Process citations)
per citazioni non ancora indicizzate; no MeSH ; aggiornamento
giornaliero
 PUBLISHER SUPPLIED CITATIONS
per citazioni ricevute via elettronica direttamente dall’editore.
Non ancora pubblicate in cartaceo.
76
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Anche PubMed ha il suo formato Flat file:
[AU] campo autore
[TI] campo titolo
[TA] nome della rivista
[LA] lingua di pubblicazione dell’articolo
[MH] Mesh terms (soggetti)
[DP] data di pubblicazione(A/M/G)
[EDAT] data di inserimento nel pubmed (A/M/G)
[AB] abstract
77
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca:

Usare i Limits: La pagina di PubMed in cui normalmente si vanno ad impostare i limiti (Limits) è
cambiata. Ora i limiti vengono chiamati Filters (Filtri) e sono posizionati alla sinistra dello schermo di
PubMed dopo aver effettuato una ricerca.

Per utilizzare i filtri basterà cliccare sulle voci che interessano (es. Publications dates, Article Types ecc …)
ed automaticamente la ricerca verrà aggiornata sulla base dei filtri selezionati.

Per aggiungere Filtri cliccare su “Choose additional filters” si aprirà una finestra in cui sarà possibile
selezionare altri filtri che verranno aggiunti alla colonna a sinistra della pagina. Nella funzione “Manage
Filters” alla destra della finestra sarà possibile invece accedere alla sezione MyNCBI in cui sarà possibile
selezionare dei filtri fissi per le ricerche.

Per cancellare i filtri basterà selezionare “Clear” o “Clear all” se si vogliono eliminare tutti.
78
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
79
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Ricerca avanzata
80
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Ricerca avanzata
81
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Usare i MESH TERMS
• Un vocabolario di termini medici che vengono assegnati ad un articolo per
rappresentarne il contenuto;
• Se state effettuando una ricerca su "heart attacks", un autore potrebbe aver
utilizzato le parole "heart attack", un altro "myocardial infarct", un altro
ancora semplicemente "infarct;
• Nella semplice ricerca per parola chiave è utile inserire tutti e tre i termini
per reperire gl articoli rilevanti sull'argomento;
• Con i MeSH, invece, tutti gli articoli rilevanti sono stati indicizzati con il
termine "myocardial infarction", il termine "ufficiale" per questo concetto.
82
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Usare il tag MeSH - Medical Subject Headings.
Dalla Pagina della ricerca avanzata è possibile accedere al
vocabolario di termini medici utili alla ricerca.
83
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
MeSH Database.
84
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Proviamo a ricercare nel DB di MeSH il termine “brain neoplasm”
Ci sono delle sottointestazioni relative al termine che possiamo selezionare
85
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Il DB è organizzato come un albero. Possiamo selezionare un nodo e
ricercare le eventuali sottocategorie correlate.
86
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Infine possiamo aggiungere a “Search Builder” il relativo tag di ricerca oppure
fare direttamente una ricerca su PubMed.
87
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Anche il DB MeSH ha la sua ricerca avanzata di termini medici.
88
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca. Esempi:

Ricercare articoli scritti da “Bonnie W. Ramsey” riguardo la terapia
genica nella fibrosi cistica cystic fibrosis gene therapy ramsey bw

Quando si conosce solo il cognome di un autore si può usare il tag [au]:
brody[au]

Da alcuni anni Pubmed sta inserendo anche i nomi completi degli autori;
89
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Risultati di una ricerca:
Send to
Filtri
Display Settings
90
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Risultati di una ricerca:
91
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca. Single Citation Matcher.
92
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca. Topic-Specific Queries.
93
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di Ricerca. Clinical Query:
94
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di Ricerca. Clinical Query:

Categoria «Clinical Study»: Citazioni filtrate per uno specifico studio clinico
(THERAPY, DIAGNOSIS,PROGNOSIS…ETC ETC);

Categoria «Systematic Reviews»: Citazioni filtrate per review di dati
provenienti da studi clinici e sintesi quantitative

Categoria «Medical Genetics»: Citazioni filtrate per genetica medica
95
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Catalogo Riviste: Pubmed mette a disposizione anche un
metodo di ricerca di riviste del settore;
96
Bioinformatica
Entrez
Esercitazioni

Esercitazione 1:

Ricercare dalla pagina principale di Entrez il gene il cui accession number è
BC043443;
Quanti risultati otteniamo nel db Gene?
Quale è il nome ufficiale del gene? Gli altri possibili Nomi?
In quale filamento del dna si trova?
Quante varianti di Splicing? Sono tutte codificanti proteina?
A quali malattie è associato?
E’ coinvolto nel processo dell’apoptosi?
Quanto è lunga la coding sequence della prima variante di slicing?
97
Bioinformatica







Entrez
Esercitazioni

Esercitazione 1I:

La citocromo c ossidasi (cox4) è un complesso multimerico localizzato nella
membrana mitocondriale interna che partecipa al trasporto degli elettroni nella
catena respiratoria mitocondriale.Vogliamo selezionare il gene corrispondente alla
subunità 4 umana presente nel cromosoma 16 e prendere poi la sequenza
nucleotidica e la relativa traduzione proteica.

STEP 1: Da Entrez selezioniamo il DB Gene;
STEP 2: Nel campo di ricerca digitiamo:

(homo sapiens[Organism]) AND (16[Chromosome]) AND “cytochrome c oxidase” AND (“subunit 4” OR
“subunit iv” OR “cox4”)


98
STEP 3: Il primo risultato ottenuto è quello che cercavamo (isoforma 1).
Cliccliamo sulla sequenza e successivamente sul link “primary Source” e poi
“Genbank”
STEP 4 : Recuperare la sequenza mRNA relativa. Recuperare la CDS in
formato fasta e la relativa traduzione.
Bioinformatica
Entrez
Esercitazioni

Esercitazione III:


99
Quale è la tassonomia di “drosophila melanogaster”?
Suggerimento: Dalla pagina principale di Entrez digitare drosophila
melanogaster[organism] (o equivalentemente selezionando il DB
taxonomy digitare drosophila melanogaster)
Bioinformatica
Entrez
Esercitazioni

Esercitazione IV:







100
Utilizzando Entrez cercare il gene tp53 del cane (Canis familiaris).
Di che tipo di gene si tratta?
In quale cromosoma si trova?
Quale è il refSeq Status?
Quante isoforme ci sono?
In quale filamento si trova? (senso/antisenso)
Ci sono geni omologhi in altri organismi? Quali?
Bioinformatica
Entrez
Esercitazioni

Esercitazione V:




101
Dal DB Protein selezionare la proteina CAD99002.
Quale è il nome della proteina?
Quale è la lunghezza della proteina?
Quale è la lunghezza della coding sequence?
Bioinformatica
Entrez
Esercitazioni

Esercitazione VI:


102
Quante proteine umane sono presenti in banca dati?
Quante di queste sono codificate dal genoma mitocontriale?
(suggerimento: usare limits dal db protein)
Bioinformatica
Entrez
Esercitazioni

Esercitazione VII:







103
Quanti articoli ha pubblicato G. Pesole nel 2005?
Quanti articoli in pubmed contengono la parola “Bioinformatics”?
Quanti articoli bioinformatici ha pubblicato Alfredo Ferro fino ad oggi?
Quanti di questi riguardano la backtranslation? (suggerimento: usare il
nome completo)
Cercare articoli review sull’ischemia cerebrale (cerebral ischemia) come
argomento principale riguardante la fascia di età fra i 45 e 64 anni. (sugg:
guardate bene i limits).
Ricercare articoli sulla osteoporosi (osteoporosis) nelle donne.
Quale è il nome completo della rivista “Ann. Entomol. Soc. Am.”
Quale è il nome completo della rivista PNAS.
Bioinformatica
Entrez
Esercitazioni

Esercitazione VIII:


104
Trovare la tassonomia del pomodoro (tomato). Quale è il nome
scientifico?
Trovare la tassonomia della vite (wine grape). Quale è il nome
scientifico?
Bioinformatica
Entrez
Esercitazioni

Esercitazione IX:

Ricercare tutte le sequenze nucleotidiche riguardanti i muscoli nell’uomo
che si riferiscano a myosin oppure a telethonin ma non a skelectal.
105
Bioinformatica
SRS - http://srs.ebi.ac.uk
106
Bioinformatica
SRS - http://srs.ebi.ac.uk
SRS (Sequence Retrieval System) è un sistema per la ricerca e l’estrazione di
dati biologici via web;
SRS consente la navigazione attraverso varie banche dati sfruttando il crossreferencing;
La gran parte delle opzioni messe a disposizione da SRS sono uguali a quelle
di Entrez;
Generalmente quando usiamo SRS e Entrez, il numero di sequenze che
otteniamo attraverso i due sistemi è diverso a causa di un diverso
aggiornamento delle banche dati utilizzate dai due sistemi di interrogazione;
107
Bioinformatica
SRS - http://srs.ebi.ac.uk
Il database EMBL è stato
rimosso dal tool di
ricerca di SRS
108
Bioinformatica
SRS - http://srs.ebi.ac.uk
Dopo aver scelto i DB nucleotidici e standard query inseriamo nei campi di ricerca
i termini da ricercare utilizzando (come per Entrez i tag appropriati)
109
Bioinformatica
SRS - http://srs.ebi.ac.uk
I termini verranno correlati con un operatore AND
110
Bioinformatica
SRS - http://srs.ebi.ac.uk
Query in formato testuale con operatori booleani e tag per restringere la
ricerca.
Ci sono alcune piccole differenze rispetto a Entrez: Ad esempio gli
operatori booleani sono indicati con &, !, | etc.
111
Bioinformatica
SRS - http://srs.ebi.ac.uk
Risultato della ricerca:
Il primo record è “ipotetical”
Il terzo Record è quello che cercavamo (isoforma 1);
112
Bioinformatica
SRS - http://srs.ebi.ac.uk
E’ possibile selezionare una o più sequenze e richiamare su di essa un
programma come ad es. BLAST, CLUSTALW, FASTA,Transeq
(traduzione in aminoacidi), Backtranseq (backtranslation), etc etc.
113
Bioinformatica
SRS - http://srs.ebi.ac.uk
Cliccando sul link
relativo otteniamo
la pagina contenente
le informazioni;
E’ praticamente
molto simile a quella
di Entrez.
114
Bioinformatica
SRS - http://srs.ebi.ac.uk
Tra le altre informazioni
troviamo le Features della
sequenza (Introni, esoni etc
etc).
Traduzione
115
Bioinformatica
SRS - http://srs.ebi.ac.uk
In fondo alla pagina troviamo anche la sequenza
116
Bioinformatica
SRS - http://srs.ebi.ac.uk
117
Bioinformatica
SRS - http://srs.ebi.ac.uk

Scegliamo il DB in cui
effettuare la ricerca;

Possiamo scegliere
tra:


118
Standard Query;
Extended Query;
Bioinformatica
SRS - http://srs.ebi.ac.uk
119
Bioinformatica
DDBJ -
120
http://www.ddbj.nig.ac.jp/
Bioinformatica
DDBJ -
121
http://www.ddbj.nig.ac.jp/
Bioinformatica
DDBJ -
122
http://getentry.ddbj.nig.ac.jp/top-e.html
Bioinformatica
Altre Banche dati


SWISSPROT/UNIPROT (http://www.uniprot.org/ ): banca dati originale, sviluppata in
Svizzera.

E’ una banca dati altamente curata, con alto livello di annotazione (descrizione della
proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e posttrasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database,
basso livello di ridondanza.

Questa banca dati fornisce entry flat-file che si differenziano da EMBL soprattutto per
quanto riguarda le features che descrivono nelle proteine la presenza di aa modificati,
regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi;
PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli
USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre
minori vantaggi nel suo uso.
123
Bioinformatica
UNIPROT
124
Bioinformatica
UNIPROT

http://www.ebi.ac.uk/uniprot/remotingAPI/
125
Bioinformatica
UNIPROT 
http://www.uniprot.org/
Ricerca Testuale
Ricerchiamo la proteina relativa a TP53 in Homo Sapiens
126
Bioinformatica
UNIPROT 
http://www.uniprot.org/
Ricerca Testuale
Otteniamo una lista di entry: La prima è quello che cerchiamo.
Da notare l’Entry Name tipico di UniProt.
Cliccando sulla entry otteniamo numerose informazioni (in parte uguali a Entrez)
127
Bioinformatica
UNIPROT -
http://www.uniprot.org/
Formato della Entry:
XML, FASTA,TXT
Informazioni e Funzione
Ma c’e’ anche:
128
•
Bibliografia;
•
Le interazioni;
•
Ontologie;
•
Features: Binding site,
Motif,Siti attivi;
Bioinformatica
UNIPROT -
http://www.uniprot.org/
Annotazioni e loro
posizionamento
visivo all’interno
della proteina:
Regioni;
Binding Site;
Motivi;
129
Bioinformatica
UNIPROT -
http://www.uniprot.org/
Cliccando
su
una
regiuone è possibile
vedere la sequenza e
fare un BLAST
130
Bioinformatica
UNIPROT -
131
http://www.uniprot.org/
Bioinformatica
UNIPROT -
http://www.uniprot.org/
TOOLS:
A
132
questo
punto
possiamo
ad
esempio fare un
BLAST
sulla
proteina.
Bioinformatica
UNIPROT -
http://www.uniprot.org/
Otteniamo gli stessi risultati di BLAST
su NCBI visualizzati in modo diverso.
133
Bioinformatica
UNIPROT -
http://www.uniprot.org/
Possiamo allineare due o più sequenze anche
mettendo solo l’identificativo
134
Bioinformatica
UNIPROT -
http://www.uniprot.org/
Scaricare una o più entry
135
Bioinformatica
UNIPROT -
http://www.uniprot.org/
Mappare uno o più ID di UniProt nell’ID di un altro DB
(GenBank, PIR, PDB, etc. etc.)
Può essere molto utile ad esempio quando cerchiamo la
struttura 3D di una proteina in PDB.
136
Bioinformatica
UNIPROT 
http://www.uniprot.org/
Ricerca Testuale Avanzata
Ricerca avanzata con operatori booleani e tag per filtrare
(La sintassi è leggermente diversa da quella vista per Entrez e SRS).
137
Bioinformatica
UNIPROT 
http://www.uniprot.org/
Esercitazione I:





138
Ricercare la sequenza URIC_PAPHA.
Quale è l’organismo?
Quanto è lunga la sequenza?
Quali sono i processi biologici in cui è coinvolta?
Indicare la posizione nella proteina di Binding site.
Bioinformatica
PIR -
139
http://pir.georgetown.edu/
Bioinformatica
PIR 
http://pir.georgetown.edu
Clicchiamo su Search/Analysis – Text Search
140
Bioinformatica
PIR 
http://pir.georgetown.edu
In modo del tutto analogo
agli altri tool possiamo
effettuare
una
ricerca
utilizzando
operatori
booleani e/o tag per il
filtraggio.
141
Bioinformatica
PIR -
http://pir.georgetown.edu
Tool:

BLAST;

FASTA;

Ricerca di pattern in
DB;

NEEDLEMANWUNSCH;

CLUSTALW;

T-Coffee;

Muscle;

Visualizzazione grafica
di domini;
142
Bioinformatica
Scarica

1-banche_dati_1 - 2013