Bioinformatica
Banche dati biologiche
Dr. Giuseppe Pigola – [email protected]
Banche dati biologiche

Le banche dati sono dei contenitori costruiti per
immagazzinare grandi quantità di dati biologici in modo
efficiente e razionale;

Le banche dati biologiche raccolgono informazioni e dati
derivati da:



Letteratura;
Analisi di laboratorio (in vitro e in vivo);
Analisi bioinformatiche (in silico).
Ogni banca dati è caratterizzata da un elemento biologico
centrale che costituisce l’oggetto intorno al quale viene
costruita la ENTRY principale della banca dati;

2
Bioinformatica
Banche dati biologichie

La maggior parte delle banche dati sono fruibili in formato
Flat-file: Ogni entry è memorizzata in un file di testo
generalmente strutturato, contenente le informazioni;

Con il crescere dei dati si è reso necessario adottare DBMS;

Uso del web per accedere a informazioni tra loro correlate
(cross-referencing) attraverso link ipertestuali;

Banche dati in formato XML;
3
Bioinformatica
Banche dati biologichie
Ridondanze e Errori:






Errori durante l’estrazione delle sequenze;
Algoritmi per la previsione di strutture imperfetti;
Inserimento erroneo di duplicati nei DB;
Diversi nomi per la stessa sequenza;
Non vi è un’unica struttura per un gene (splicing alternativi). Lo
stesso gene può essere rappresentato da numerose sequenze nei
vari DB;
NCBI accetta tutte le sequenze ma le eleva al rango di
REFSEQ (sequenza di riferimento) e assegna un refseqID solo
dopo numerosi controlli anche manuali;

4
Bioinformatica
Banche dati primarie

Sono banche dati di sequenze di acidi nucleici (DNA, RNA):
 EMBL datalibrary (EMBL – European Molecular Biology
Laboratory - 1980);
 GenBank (NCBI – National Center for Biotechnology
Information - 1982);
 DDBJ (DNA Database of Japan - 1986).

Esiste un accordo tra le tre banche per cui l’inserimento di
dati in una, comporta l’automatico inserimento nelle altre;

EMBL adotta un formato diverso dalle altre due;
5
Bioinformatica
NCBI -
http://www.ncbi.nlm.nih.gov/
NCBI – National Center for Biotechnology Information.
Gestisce un gran numero di DB tra i quali:
• Gene
Contiene dati inerenti i geni di tutte le specie caratterizzate, quali la struttura
genica ed il contesto genomico, le ontologie, le interazioni con altri geni ed i link
alle sequenze ed alla relative pubblicazioni scientifiche.
• Nucleotide
Contiene le sequenze nucleotidiche di tutte le specie caratterizzate, siano esse
codificanti o meno.
• Protein
Ha la stessa struttura di Nucleotide ma è relativo alle sequenze aminoacidiche.
• Pubmed
E’ il database delle pubblicazioni scientifiche di carattere biologico e biomedico.
Per ogni articolo è disponibile l’abstract. Pubmed Central contiene articoli
completi scaricabili gratuitamente.
• Taxonomy
Contiene la classificazione dei vari organismi;
6
Bioinformatica
NCBI -
http://www.ncbi.nlm.nih.gov/
Esempio di entry in GenBank
• LOCUS: Entry name;
• ACCESSION: Accession Number;
• SOURCE: Organismo;
• REFERENCE;
7
Bioinformatica
NCBI -
http://www.ncbi.nlm.nih.gov/
Esempio di entry in GenBank
• FEATURES;
• ORIGIN;
8
Bioinformatica
EMBL -
http://srs.ebi.ac.uk
EMBL – European Molecular Biology Laboratory
Anche EMBL permette di accedere a numerosi DB.
•EMBL DataLibrary
Contiene dati inerenti Geni e Sequenze Nucleotidiche;
•UniProt
Contiene dati proteici (gestito da un consorzio di cui fa parte EMBL);
• NCBI
Si appoggia anche a NCBI per ricercare informazioni relative a
pubblicazioni (PUBMED) o malattie genetiche (OMIM);
9
Bioinformatica
EMBL -
http://srs.ebi.ac.uk
Esempio di entry in EMBL
• ID Entry name;
• AC Accession Number;
• OS Source Organism;
• OC Tassonomia;
• KW Parole Chiave;
• RA Autori;
• RT Titolo;
• DR Cross Reference;
10
Bioinformatica
EMBL -
http://srs.ebi.ac.uk
Esempio di entry in EMBL
• FT Features;
• SQ Sequenza;
11
Bioinformatica
DDBJ -
http://www.ddbj.nig.ac.jp/
DDBJ – DNA Data bank of Japan
Si tratta in pratica di una copia di NCBI;
Mette a disposizione tool per ricercare e analizzare dati molto simili a quelli che
vedremo per Entrez;
Il formato adottato da DDBJ per i flat-file è identico a quello di NCBI;
12
Bioinformatica
Interrogazione di banche dati

I sistemi più utilizzati per interrogare le banche dati sono:

Entrez (Sviluppato da NCBI): Permette di accedere a numerose banche
dati (anche contemporaneamente) attraverso una interfaccia web.
 Permette di effettuare ricerche testuali sui DB utilizzando diverse
sintassi per i vari DB.

SRS - Sequence Retrieval System (Sviluppato da EBI – European
Bioinformatics Institute);

Anche DDBJ offre un metodo di ricerca e analisi dei dati via WEB (ma in
pratica si tratta delle stesse cose che vedremo per Entrez e SRS);
13
Bioinformatica
Entrez -
14
http://www.ncbi.nlm.nih.gov/Entrez
Bioinformatica
Entrez -
http://www.ncbi.nlm.nih.gov/Entrez
Ricerca in tutti i database
Risorse principali:
• Nucleotide;
• Protein;
•Genome;
• Gene;
• Taxonomy;
• Pubmed;
15
Bioinformatica
Entrez
Cerchiamo informazioni
relativamente al gene
umano TP53
Clicchiamo in corrispondenza di Gene
16
Bioinformatica
Entrez
Opzioni di filtraggio;
Ricerca di informazioni
correlate;
Dettagli;
Etc;
La prima voce è quello che cerchiamo
17
Bioinformatica
Entrez
Simbolo Ufficiale, Nome del Gene, Tipo di gene, Classificazione, breve Sommario
18
Bioinformatica
Entrez
Taxonomy Browser: Classificazione dell’organismo
19
Bioinformatica
Entrez
Classificazione dell’organismo
Gerarchia di classificazione
20
Bioinformatica
Entrez
Database contenente la informazioni sulla sequenza (in questo caso HGNC)
21
Bioinformatica
Entrez
Nome e simbolo del gene
22
Bioinformatica
Entrez
ID unico fornito da dall’autorità HGNC: HUGO Gene Nomenclature Committee
23
Bioinformatica
Entrez
Approved: Il gene ha un simbolo approvato da HGNC;
Entry withdrawn: Il gene precedentemente approved non esiste più;
Symbol withdrawn: - La entry, predentemente approvata è stata fusa con un’altra;
24
Bioinformatica
Entrez
Indica la posizione del gene o la regione del cromosoma
25
Bioinformatica
Entrez
Alias
26
Bioinformatica
Entrez
Il Reference Sequence ID fornito da NCBI e
Accession Numbers Per le sequenze di riferimento (Link rispettivamente a mRNA, CDS, etc.)
27
Bioinformatica
Entrez
L’entry per TP53 sul DB
GenBank (mRNA)
Locus:Nome identificativo;
Accession Number: ID;
Keywords: parole chiavi che identificano la
funzione biologica;
Source Organism: Classificazione;
Reference: informazioni bibliografiche;
28
Bioinformatica
Entrez
Features: Carateristiche della
sequenza; Eventuali introni ed
esoni, promotori, enanchers,
etc…
Traduzione
29
Bioinformatica
Entrez
Link alla Coding Sequence
Viene indicato anche il punto di
inizio e di fine.
30
Bioinformatica
Entrez
Sequenza dell’mRNA relativo
al gene.
31
Bioinformatica
Entrez
Salvare l’entry come file
oppure in clipboard o
collections (NCBI
memorizza
temporaneamente le
informazioni);
Modalità di visualizzazione
32
Bioinformatica
Entrez
Alcuni formati standard delle sequenze. (A) FASTA, (B) GCG
33
Bioinformatica
Entrez
Link ai relativi geni per gli organismi Mouse e Rattus Norvegicus
34
Bioinformatica
Entrez
Link agli articoli correlati su Pubmed e CiteXplore
35
Bioinformatica
Entrez
36
Bioinformatica
Entrez
37
Bioinformatica
Entrez
Sequenza genomica di
riferimento con relativi link al
FASTA o entry GenBank
Ogni riga rappresenta una
variante di splicing (le varianti
differiscono nel numero e
nelle dimensioni degli esoni,
indicati da rettangolini, gli
introni sono rappresentati
dalle linee sottili).
Contesto genomico: Regione
genomica di appartenenza e
geni limitrofi.
Le frecce indicano il filamento
(destra: senso, sinistra:
antisenso).
38
Bioinformatica
Entrez
Fenotipi patologici
correlati al gene
(malattie);
Sono forniti dei link a
delle informazioni
aggiuntive;
39
Bioinformatica
Entrez
Interazioni con proteine
coinvolte nell’HIV.
Interazioni note con altre
proteine. Link a tali
sequenze e pubblicazioni
relative.
40
Bioinformatica
Entrez
• Markers correlati;
• Variazioni del gene o malattie
associate in varie popolazioni;
• Omologia (Ortologhi in altre specie);
• Pathways in cui il gene è coinvolto;
• Annotazioni ontologiche (Processi,
funzioni e localizzazione cellulare);
Informazioni relative alla proteina
(solo per geni codificanti proteine);
41
Bioinformatica
Entrez
Qui troviamo I link alle sequenze
nucleotidiche e proteiche relative al gene.
Diversi link per ogni variante di splicing.
42
Bioinformatica
Entrez
Sequenze correlate (ad es precalcolate
con BLAST) con link ai DB Nucleotide,
Protein;
Link addizionali a sorgenti esterne;
43
Bioinformatica
Entrez
Salvare l’entry come file
oppure in clipboard o
collections (NCBI
memorizza
temporaneamente le
informazioni);
Modalità di visualizzazione;
44
Bioinformatica
Entrez
Una Tabella con le
informazioni sulla struttura
del gene per ogni variante
di splicing;
45
Bioinformatica
Entrez
Posizionandoci con il mouse
sul nome di una isoforma
viene visualizzato un menu a
tendina con informazioni e
link;
Link alla entry in Protein della
proteina relativa;
Link alla entry in Nucleotide del
mRNA;
46
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Contiene le sequenze nucleotidiche di tutte le specie
caratterizzate, siano esse codificanti o meno.
47
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Simbolo o nome di un gene o proteina : Ad es. BAX;

Ricerca per Accession Number ad es. CAA79696, NP_778203,
263191547, BC043443, NM_002020 etc);

Ricerca per autore: Ad es. Smith JR (Cognome seguito dalle iniziali senza
punti);

Ricercare una frase esatta: Ad es. "contactin associated protein";

Usare gli operatori booleani: AND, OR, NOT (ad es. contactin AND
neurofascin);
48
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare gli operatori booleani: AND, OR, NOT insieme alle parentesi
g1p3 AND (response element OR promoter)

Di default viene applicato l’operatore AND:
Tp53 mouse

49
Usare Wild Cards “*” oppure “?”
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Nucleotide

Data di pubblicazione;

Data di Modifica;

Db sorgente: EMBL,Genbank,
DDBJ, etc;

Tipo di molecola: DNA,RNA,
mRNA, cRNA;

Localizzazione della sequenza:
mitocondrio, nucleo, etc;

Escludere lavori incompleti;

Escludere brevetti;
50
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare i Limits: Field tags;
Selezionando ad esempio Organism possiamo
usare nella ricerca il nome dell’organismo (ad
es. “human, mouse, green plant, bacteria,
drosophila similis”
Una volta fatta la ricerca possiamo filtrare ancora
i dati utilizzando il menu sulla destra della
pagina dei risultati;
51
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare i Limits: Possono essere usati anche
direttamente nel campo di ricerca racchiusi tra [ ]
[accession] Accession number;
[all field];
[author];
[ecrno] EC/RN Number (enzyme commission number);
[Gene Name]
[Issue] [title] [journal] etc…Parametri pubblicazione;
[Publication date] Data di Pubblicazione e eventuale
Modifica;
Lunghezza della sequenza;
Ricerca avanzata
52
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

Usare i Limits. Esempi:
Frogs AND 2010/06[Publication Date]
110:500[Sequence Length]
2009/3/1:2009/9/30[Publication Date]
NC_0000*[Accession] AND Human[Organism]
53
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

Metodi di ricerca:

54
Advanced Search:
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore
Metodi di ricerca:


Advanced Search e History:
Nella pagina della ricerca avanzata è presente una History delle
query fatte recentemente:

Ciascuna query ha un nome nel formato “#NUMERO”;

E’ possibile riutilizzare query nella history e combinarle tra loro usando gli
operatori booleani;
55
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore


DIVERSI TIPI DI ENTRY.

mRNA (ad es. entry U90223);

DNA (ad es. Entry AF018430);
Le due entry si riferiscono a:

mRNA relativo ad un gene con informazioni relative a , CDS e Proteina;

La seconda mostra come un gene si presenta effettivamente su un tratto di cromosoma
(varianti di splicing, presenza di esoni introni etc etc);
56
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

mRNA ENTRY: U90223
57
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

DNA Entry: AF018430

Due varianti di splicing
58
Bioinformatica
Entrez - Nucleotide
http://www.ncbi.nlm.nih.gov/nuccore

DNA Entry: AF018430
Prendi i nucleotidi da 1 a 1735 dalla entry AF018429.
Aggiungi i nucleotidi da 1 a 1177 dalla entry AF018430.
Aggiungi i nucleotidi da 1 a 45 dalla entry AF018431.
Aggiungi i nucleotidi da 658 a 732 dalla entry AF018432.
59
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Contiene le sequenze create dalla traduzione di sequenze nucleotidiche codificanti
provenienti da GenBank, EMBL,DDBJ;

Le sequenze proteiche sono importate inoltre da db esterni quali Protein
Information Resource (PIR), SWISS-PROT, Protein Research Foundation (PRF).

Le sequenze proteiche sono inoltre estratte da strutture provenienti da Protein
Data Bank (PDB).
60
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Metodi di ricerca:

61
Sono identici a quelli visti per Nucleotide;
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Metodi di ricerca:

Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Protein

Data di pubblicazione;

Data di Modifica;

Db sorgente: EMBL,Genbank,
DDBJ, etc;

Escludere lavori incompleti,
brevetti, etc.
62
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Metodi di ricerca:

Usare i Limits: Possono essere usati anche
direttamente nel campo di ricerca racchiusi tra [ ]
I tag sono identici a quelli visti per Nucleotide ad
eccezione di alcuni come ad es:
[molecular weight]
Ricerca avanzata
63
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

La ricerca di tp53 nel
db Protein.
Questa volta troviamo la
sequenza proteica.
64
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

La ricerca di tp53 nel
db Protein.
Ma possiamo sempre
risalire alla Coding
Sequence
65
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein


Scegliendo come modalità di visualizzazione “FASTA” otteniamo:
Possiamo cambiare l’intervallo da visualizzare
66
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein



Scegliendo come modalità di visualizzazione “FASTA” otteniamo:
Trovare regioni di similarità tra tp53 e altre sequenze (BLAST);
Trovare regioni conservate in tp53 (CD-search);
67
Bioinformatica
Entrez - Protein
http://www.ncbi.nlm.nih.gov/protein

Scegliendo come modalità di visualizzazione “FASTA” otteniamo:

Trovare pattern all’interno della sequenza

Tutto quanto detto vale anche per Nucleotide.
68
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Contiene geni. Mantiene informazioni relativamente a nomenclatura, localizzazione
cromosomica, prodotti dei geni, malattie etc.
69
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

70
Sono identici a quelli visti per Nucleotide e Protein;
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Gene

Search Field tags:

Chromosome;

Taxonomy ID;

Gene Name;

Gene Length;

Disease/Phenotype;

Etc…
71
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

72
Usare i Limits: Organismo
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

73
Usare i Limits: Opzioni e Date;
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

74
Usare i Limits: Tassonomia;
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene

Metodi di ricerca:

Usare i Limits: Possono essere usati anche
direttamente nel campo di ricerca racchiusi tra [ ]
I tag sono identici a quelli visti per Nucleotide e Protein
ad eccezione di alcuni come ad es:
[exon count]
[taxonomy ID]
[disease/phenotype]
[cromosome]
Ricerca avanzata
75
Bioinformatica
Entrez - Gene
http://www.ncbi.nlm.nih.gov/gene
Esempi di Query:
76
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

PubMed è un database di citazioni e abstract della letteratura biomedica.

Quando l’intero articolo è disponibile, vengono forniti link per la consultazione
(Pubmed Central, la biblioteca nazionale degli USA).

Tutorial: http://www.nlm.nih.gov/bsd/disted/pubmedtutorial
77
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
PubMed contiene al suo interno 4 database:
 MEDLINE
citazioni dal 1966 ad oggi; abstract; MESH; aggiornamento
settimanale;
 OLDMEDLINE
 con citazioni dal 1951 al 1965 , no abstract, no MESH
 PREMEDLINE (In Process citations)
per citazioni non ancora indicizzate; no MeSH ; aggiornamento
giornaliero
 PUBLISHER SUPPLIED CITATIONS
per citazioni ricevute via elettronica direttamente dall’editore.
Non ancora pubblicate in cartaceo.
78
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Anche PubMed ha il suo formato Flat file:
[AU] campo autore
[TI] campo titolo
[TA] nome della rivista
[LA] lingua di pubblicazione dell’articolo
[MH] Mesh terms (soggetti)
[DP] data di pubblicazione(A/M/G)
[EDAT] data di inserimento nel pubmed (A/M/G)
[AB] abstract
79
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca:

Usare i Limits;
Cliccare su limits nella pagina
principale di entrez Pubmed

Data di pubblicazione;

Tipo di articolo;

Linguaggio;

Specie;

Sesso;
80
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca:

Ricerca Avanzata;
[mesh] Medical Subject Headings (termini
biomedici indicizzati in un vocabolario curato
da NCBI). Usati per indicare un argomento.
Esempio: tutte le pubblicazioni di “smith” dal
2009 al 2010
81
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Usare il tag MeSH - Medical Subject Headings.
Dalla Pagina della ricerca avanzata è possibile
accedere al vocabolario di termini medici utili alla
ricerca.
82
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Proviamo a ricercare nel DB di MeSH il termine “brain neoplasm”
Ci sono delle sottointestazioni relative al termine che possiamo selezionare
83
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Il DB è organizzato ad albero. Possiamo selezionare un nodo e
ricercare le eventuali sottocategorie correlate.
84
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Infine possiamo aggiungere a “Search Builder” il relativo tag di ricerca oppure
fare direttamente una ricerca su PubMed.
85
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Anche il DB MeSH ha la sua ricerca avanzata di termini medici.
86
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca. Esempi:

Ricercare articoli scritti da “Bonnie W. Ramsey” riguardo la terapia
genica nella fibrosi cistica cystic fibrosis gene therapy ramsey bw

Quando si conosce solo il cognome di un autore si può usare il tag [au]:
brody[au]

Da alcuni anni Pubmed sta inserendo anche i nomi completi degli autori;
87
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Risultati di una ricerca:
Send to
Filtri
Display Settings
88
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Risultati di una ricerca:
89
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca. Single Citation Matcher.
90
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di ricerca. Topic-Specific Queries.
91
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di Ricerca. Clinical Query:
92
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Metodi di Ricerca. Clinical Query:

Ricerca degli aspetti clinici della terapia genica nella fibrosi cistica,
selezionare la categoria “Therapy”, lo scope “Narrow”, e la query: cystic
fibrosis gene therapy

Ricerca di reviews su terapia inalatoria nella polmonite: inhalation
therapy pneumonia

Per trovare informazioni su anemia falciforme, dalla pagina Clinical
Queries scegliere “Genetic Counseling” dal menu “Topic” e immettere i
termini di ricerca seguente nella casella di ricerca: sickle cell anemia
93
Bioinformatica
Entrez - Pubmed
http://www.ncbi.nlm.nih.gov/pubmed

Catalogo Riviste.
 Pubmed mette a disposizione
anche un metodo di ricerca di
riviste del settore;
94
Bioinformatica
Entrez
Esercitazioni

Esercitazione 1:

Ricercare dalla pagina principale di Entrez il gene il cui accession number è
BC043443;
Quanti risultati otteniamo nel db Gene?
Quale è il nome ufficiale del gene? Gli altri possibili Nomi?
In quale filamento del dna si trova?
Quante varianti di Splicing? Sono tutte codificanti proteina?
A quali malattie è associato?
E’ coinvolto nel processo dell’apoptosi?
Quanto è lunga la coding sequence della prima variante di slicing?
95
Bioinformatica







Entrez
Esercitazioni

Esercitazione 1I:

La citocromo c ossidasi (cox4) è un complesso multimerico localizzato nella
membrana mitocondriale interna che partecipa al trasporto degli elettroni nella
catena respiratoria mitocondriale.Vogliamo selezionare il gene corrispondente alla
subunità 4 umana presente nel cromosoma 16 e prendere poi la sequenza
nucleotidica e la relativa traduzione proteica.

STEP 1: Da Entrez selezioniamo il DB Gene;
STEP 2: Nel campo di ricerca digitiamo:

(homo sapiens[Organism]) AND (16[Chromosome]) AND “cytochrome c oxidase” AND (“subunit 4” OR
“subunit iv” OR “cox4”)


96
STEP 3: Il primo risultato ottenuto è quello che cercavamo (isoforma 1).
Cliccliamo sulla sequenza e successivamente sul link “primary Source” e poi
“Genbank”
STEP 4 : Recuperare la sequenza mRNA relativa. Recuperare la CDS in
formato fasta e la relativa traduzione.
Bioinformatica
Entrez
Esercitazioni

Esercitazione III:


97
Quale è la tassonomia di “drosophila melanogaster”?
Suggerimento: Dalla pagina principale di Entrez digitare drosophila
melanogaster[organism] (o equivalentemente selezionando il DB
taxonomy digitare drosophila melanogaster)
Bioinformatica
Entrez
Esercitazioni

Esercitazione IV:







98
Utilizzando Entrez cercare il gene tp53 del cane (Canis familiaris).
Di che tipo di gene si tratta?
In quale cromosoma si trova?
Quale è il refSeq Status?
Quante isoforme ci sono?
In quale filamento si trova? (senso/antisenso)
Ci sono geni omologhi in altri organismi? Quali?
Bioinformatica
Entrez
Esercitazioni

Esercitazione V:




99
Dal DB Protein selezionare la proteina CAD99002.
Quale è il nome della proteina?
Quale è la lunghezza della proteina?
Quale è la lunghezza della coding sequence?
Bioinformatica
Entrez
Esercitazioni

Esercitazione VI:


100
Quante proteine umane sono presenti in banca dati?
Quante di queste sono codificate dal genoma mitocontriale?
(suggerimento: usare limits dal db protein)
Bioinformatica
Entrez
Esercitazioni

Esercitazione VII:







101
Quanti articoli ha pubblicato G. Pesole nel 2005?
Quanti articoli in pubmed contengono la parola “Bioinformatics”?
Quanti articoli bioinformatici ha pubblicato Alfredo Ferro fino ad oggi?
Quanti di questi riguardano la backtranslation? (suggerimento: usare il
nome completo)
Cercare articoli review sull’ischemia cerebrale (cerebral ischemia) come
argomento principale riguardante la fascia di età fra i 45 e 64 anni. (sugg:
guardate bene i limits).
Ricercare articoli sulla osteoporosi (osteoporosis) nelle donne.
Quale è il nome completo della rivista “Ann. Entomol. Soc. Am.”
Quale è il nome completo della rivista PNAS.
Bioinformatica
Entrez
Esercitazioni

Esercitazione VIII:


102
Trovare la tassonomia del pomodoro (tomato). Quale è il nome
scientifico?
Trovare la tassonomia della vite (wine grape). Quale è il nome
scientifico?
Bioinformatica
SRS - http://srs.ebi.ac.uk
103
Bioinformatica
SRS - http://srs.ebi.ac.uk
SRS (Sequence Retrieval System) è un sistema per la ricerca e l’estrazione di
dati biologici via web;
SRS consente la navigazione attraverso varie banche dati sfruttando il crossreferencing;
La gran parte delle opzioni messe a disposizione da SRS sono uguali a quelle
di Entrez;
Generalmente quando usiamo SRS e Entrez, il numero di sequenze che
otteniamo attraverso i due sistemi è diverso a causa di un diverso
aggiornamento delle banche dati utilizzate dai due sistemi di interrogazione;
104
Bioinformatica
SRS - http://srs.ebi.ac.uk
Proviamo a ricercare il
gene corrispondente alla
subunità 4 umana di
citocromo c ossidasi
Selezioniamo Library Page
dalla home page di EMBLEBI
105
Bioinformatica
SRS - http://srs.ebi.ac.uk

Scegliamo il DB in cui
effettuare la ricerca;

Possiamo scegliere
tra:


106
Standard Query;
Extended Query;
Bioinformatica
SRS - http://srs.ebi.ac.uk
Dopo aver scelto EMBL come DB e standard query inseriamo nei campi di
ricerca i termini da ricercare utilizzando (come per Entrez i tag
appropriati)
107
Bioinformatica
SRS - http://srs.ebi.ac.uk
I termini verranno correlati con un operatore AND
108
Bioinformatica
SRS - http://srs.ebi.ac.uk
Query in formato testuale con operatori booleani e tag per restringere la
ricerca.
Ci sono alcune piccole differenze rispetto a Entrez: Ad esempio gli
operatori booleani sono indicati con &, !, | etc.
109
Bioinformatica
SRS - http://srs.ebi.ac.uk
Risultato della ricerca:
Il primo record è “ipotetical”
Il terzo Record è quello che cercavamo (isoforma 1);
110
Bioinformatica
SRS - http://srs.ebi.ac.uk
E’ possibile selezionare una o più sequenze e richiamare su di essa un
programma come ad es. BLAST, CLUSTALW, FASTA,Transeq
(traduzione in aminoacidi), Backtranseq (backtranslation), etc etc.
111
Bioinformatica
SRS - http://srs.ebi.ac.uk
Cliccando sul link
relativo otteniamo
la pagina contenente
le informazioni;
E’ praticamente
molto simile a quella
di Entrez.
112
Bioinformatica
SRS - http://srs.ebi.ac.uk
Tra le altre informazioni
troviamo le Features della
sequenza (Introni, esoni etc
etc).
Traduzione
113
Bioinformatica
SRS - http://srs.ebi.ac.uk
In fondo alla pagina troviamo anche la sequenza
114
Bioinformatica
SRS - http://srs.ebi.ac.uk
Esercizio I
Ricercare in SRS tutte le sequenze nucleotidiche riguardanti i muscoli
nell’uomo che si riferiscano a myosin oppure a telethonin ma non a skelectal.
115
Bioinformatica
SRS - http://srs.ebi.ac.uk
Esercizio II
Effettuare tutte le ricerche fatte su entrez anche su srs.
116
Bioinformatica
DDBJ -
117
http://www.ddbj.nig.ac.jp/
Bioinformatica
DDBJ 
http://www.ddbj.nig.ac.jp/searches-e.html
Ricerca di sequenze:
118
Bioinformatica
Altre Banche dati


SWISSPROT/UNIPROT (http://www.ebi.ac.uk/swissprot/access.html): banca dati
originale, sviluppata in Svizzera.

E’ una banca dati altamente curata, con alto livello di annotazione (descrizione della
proteina, delle funzioni, della sua struttura, di modificazioni post-traslazionali e posttrasduzionali, di varianti, di polimorfismi etc), alto livello di integrazione con altri database,
basso livello di ridondanza.

Questa banca dati fornisce entry flat-file che si differenziano da EMBL soprattutto per
quanto riguarda le features che descrivono nelle proteine la presenza di aa modificati,
regioni peptidiche corrispondenti ad isoforme, domini strutturali e siti di polimorfismi;
PIR (http://pir.georgetown.edu): altra banca dati di sequenze proteiche sviluppata negli
USA. E’ molto curata e ben annotata, ma è poco integrata con altri database e quindi offre
minori vantaggi nel suo uso.
119
Bioinformatica
UNIPROT
120
Bioinformatica
UNIPROT

Dal sito di EBI possiamo
accedere al DB UniProt tramite
ricerca testuale o SRS;

Possiamo inoltre eseguire tools
come BLAST, CLUSTALW su
sequenze del DB;

Possaimo accedere a una
libreria Java per l’accesso
remoto al DB;
121
Bioinformatica
UNIPROT 
http://www.uniprot.org/uniprot/
Ricerca Testuale
Tool: In questo caso stiamo effettuando una ricerca
122
Bioinformatica
UNIPROT 
http://www.uniprot.org/uniprot/
Ricerca Testuale
Ricerchiamo la proteina relativa a TP53 in Homo Sapiens
123
Bioinformatica
UNIPROT 
http://www.uniprot.org/uniprot/
Ricerca Testuale
Otteniamo una lista di entry: La prima è quello che cerchiamo.
Da notare l’Entry Name tipico di UniProt.
Cliccando sulla entry otteniamo numerose informazioni (in parte uguali a Entrez)
124
Bioinformatica
UNIPROT -
http://www.uniprot.org/uniprot/
Formato della Entry:
XML, FASTA,TXT
Informazioni e Funzione
Ma c’e’ anche:
125
•
Bibliografia;
•
Le interazioni;
•
Ontologie;
•
Features: Binding site,
Motif,Siti attivi;
Bioinformatica
UNIPROT -
http://www.uniprot.org/uniprot/
TOOLS:
A
126
questo
punto
possiamo
ad
esempio fare un
BLAST
sulla
proteina.
Bioinformatica
UNIPROT -
http://www.uniprot.org/uniprot/
Otteniamo gli stessi risultati di BLAST
su NCBI visualizzati in modo diverso.
127
Bioinformatica
UNIPROT -
http://www.uniprot.org/uniprot/
Possiamo allineare due o più sequenze anche
mettendo solo l’identificativo
128
Bioinformatica
UNIPROT -
http://www.uniprot.org/uniprot/
Scaricare una o più entry
129
Bioinformatica
UNIPROT -
http://www.uniprot.org/uniprot/
Mappare uno o più ID di UniProt nell’ID di un altro DB
(GenBank, PIR, PDB, etc. etc.)
Può essere molto utile ad esempio quando cerchiamo la
struttura 3D di una proteina in PDB.
130
Bioinformatica
UNIPROT 
http://www.uniprot.org/uniprot/
Ricerca Testuale Avanzata
Ricerca avanzata con operatori booleani e tag per filtrare
(La sintassi è leggermente diversa da quella vista per Entrez e SRS).
131
Bioinformatica
UNIPROT 
http://www.uniprot.org/uniprot/
Esercitazione I:





132
Ricercare la sequenza URIC_PAPHA.
Quale è l’organismo?
Quanto è lunga la sequenza?
Quali sono i processi biologici in cui è coinvolta?
Indicare la posizione nella proteina di Binding site.
Bioinformatica
PIR -
133
http://pir.georgetown.edu
Bioinformatica
PIR 
http://pir.georgetown.edu
Clicchiamo su Search/Analysis – Text Search
134
Bioinformatica
PIR 
http://pir.georgetown.edu
In modo del tutto analogo
agli altri tool possiamo
effettuare
una
ricerca
utilizzando
operatori
booleani e/o tag per il
filtraggio.
135
Bioinformatica
PIR -
http://pir.georgetown.edu
Tool:

BLAST;

FASTA;

Ricerca di pattern in
DB;

NEEDLEMANWUNSCH;

CLUSTALW;

T-Coffee;

Muscle;

Visualizzazione grafica
di domini;
136
Bioinformatica
Scaricare
Slides

Lezione_17-marzo-2014 - Corso di Biologia Molecolare 2