Laboratorio di Informatica – 2004/ 2005
Corso di laurea in biotecnologie - Novara
Viviana Patti
[email protected]
V. Patti
Esercitazione 6
1
Info&Bio@Lab
Banche dati biologiche
V. Patti
Esercitazione 6
2
1
Es1. Ricerca di sequenze di amminoacidi in
banche dati biologiche
http://www.ncbi.nlm.nih.gov/Entrez/
Prima fase - obiettivi:
Ricerca di 3 proteine in ENTREZ
Salva i dati che descrivono le 3 proteine in
formato testo
Importa i dati in un foglio di lavoro Excel che
costituirà il tuo Report
Salva i due elementi in formato FASTA (solo
informazione relativa alla sequenza) su file di
testo
Importa anche le sequenze in formato FASTA
dei 3 elementi nel foglio di lavoro Excel
V. Patti
Esercitazione 6
3
Ricerca su ENTREZ
cerchiamo sequenze
proteiche
V. Patti
Esercitazione 6
4
2
α-catena emoglobinica del cavallo
• Query: Search Protein for Equus caballus;
ricerca Limited to -> seleziona Organism
parola chiave
V. Patti
Esercitazione 6
5
α-catena emoglobinica del cavallo
• Query: Search Protein for hemoglobin;
ricerca Limited to -> seleziona Protein Name
parola chiave
V. Patti
Esercitazione 6
6
3
α-catena emoglobinica del cavallo
• Query: Uso la History: #1 AND #2 AND alpha
Limited to Protein Name
query complessa
con operatori
booleani; operandi:
riferimenti a query
precedenti e alpha
limitato alle
occorrenze nel
campo protein name
V. Patti
Esercitazione 6
7
α-catena emoglobinica del cavallo
• Eureka! Ho solo 3 sequenze che
corrispondono ai criteri specificati nell'ultima
query, fra cui quella cercata
P01958
V. Patti
Esercitazione 6
8
4
History delle query
Osserva: Usando gli operatori booleani,
le parole chiave giuste e i limiti sulle
parole chiave sono riuscita
procedendo per passi successivi a
esprimere una query soddisfatta da
sole 3 sequenze della banca dati; fra
queste c'è quella cercata
V. Patti
Esercitazione 6
9
Osserva
• Data la storia
La Query:
• #1 AND #2 AND alpha Field Protein Name
è equivalente alla query:
• Equus caballus Field Organism AND
hemoglobin Field Protein Name AND alpha
Field Protein name
V. Patti
Esercitazione 6
10
5
P01958
Salva su un file
di solo testo
l'informazione
sull'elemento
(visualizzazione di default):
emoa_cavallo_completo.txt
Osserva: Banca dati
sorgente: SWISSPROT
V. Patti
Esercitazione 6
11
P01958
Prova a visualizzare
l'informazione
sulla
proteina selezionata
in vari formati:
• FASTA
• XML
• ASN.1
• graphics
V. Patti
Esercitazione 6
12
6
Salva la sequenza FASTA
Salva su un file
di solo testo la
sequenza in formato
FASTA:
emoa_cavallo.txt
V. Patti
Esercitazione 6
13
Importa i risultati ottenuti in Excel
• Creare una nuova cartella di lavoro Excel (bioinfo.xls) e
riportare in Foglio1 i dati del risultato trovato come in
figura (ID, nome completo, organismo, articoli scientifici
di riferimento e data di pubblicazione, ecc.): usa la
funzionalità di Import automatico (Dati -> Import...)
• riportare in fondo allo stesso foglio i dati della sequenza
in FASTA
rinomina Foglio 1: EmoAlphaCavallo
V. Patti
Esercitazione 6
14
7
α-catena emoglobinica dell'uomo
• Utilizzando Entrez cercare la catena
emoglobinica alpha dell'uomo
• Supponete questa volta di avere il codice
esatto che identifica la proteina nella banca
dati: entry P01922
• Usate il codice come parola chiave nella query
V. Patti
Esercitazione 6
15
α-catena emoglobinica dell'uomo
• Selezionate l'unico elemento restituito
• Salvate sia l'informazione completa
sull'elemento, sia la sequenza FASTA ->
File emoa_uomo.txt
V. Patti
Esercitazione 6
16
8
Importa i risultati ottenuti in Excel
• riportare su Excel in un nuovo foglio di lavoro i dati del
nuovo risultato trovato (ID, nome completo, organismo,
articoli scientifici di riferimento e data di pubblicazione,
ecc.)
• riportare in fondo allo stesso foglio i dati della sequenza
in FASTA;
rinomina il foglio:
EmoAlphaUomo
V. Patti
Esercitazione 6
17
β-catena emoglobinica del cavallo
• Utilizzando Entrez cercare la catena
emoglobinica beta del cavallo
• Salvare la sequenza sia nel formato con
annotazioni sia in FASTA
• Riportare su Excel in un nuovo foglio di lavoro
i dati del nuovo risultato trovato (ID, nome
completo, organismo, articoli scientifici di
riferimento e data di pubblicazione, ecc.)
• Riportare in fondo allo stesso foglio i dati della
sequenza in FASTA;
• Rinominare il foglio: EmoBetaCavallo
V. Patti
Esercitazione 6
18
9
Scarica

Info&Bio@Lab - Dipartimento di Informatica