Laboratorio di Informatica – 2004/ 2005 Corso di laurea in biotecnologie - Novara Viviana Patti [email protected] V. Patti Esercitazione 6 1 Info&Bio@Lab Banche dati biologiche V. Patti Esercitazione 6 2 1 Es1. Ricerca di sequenze di amminoacidi in banche dati biologiche http://www.ncbi.nlm.nih.gov/Entrez/ Prima fase - obiettivi: Ricerca di 3 proteine in ENTREZ Salva i dati che descrivono le 3 proteine in formato testo Importa i dati in un foglio di lavoro Excel che costituirà il tuo Report Salva i due elementi in formato FASTA (solo informazione relativa alla sequenza) su file di testo Importa anche le sequenze in formato FASTA dei 3 elementi nel foglio di lavoro Excel V. Patti Esercitazione 6 3 Ricerca su ENTREZ cerchiamo sequenze proteiche V. Patti Esercitazione 6 4 2 α-catena emoglobinica del cavallo • Query: Search Protein for Equus caballus; ricerca Limited to -> seleziona Organism parola chiave V. Patti Esercitazione 6 5 α-catena emoglobinica del cavallo • Query: Search Protein for hemoglobin; ricerca Limited to -> seleziona Protein Name parola chiave V. Patti Esercitazione 6 6 3 α-catena emoglobinica del cavallo • Query: Uso la History: #1 AND #2 AND alpha Limited to Protein Name query complessa con operatori booleani; operandi: riferimenti a query precedenti e alpha limitato alle occorrenze nel campo protein name V. Patti Esercitazione 6 7 α-catena emoglobinica del cavallo • Eureka! Ho solo 3 sequenze che corrispondono ai criteri specificati nell'ultima query, fra cui quella cercata P01958 V. Patti Esercitazione 6 8 4 History delle query Osserva: Usando gli operatori booleani, le parole chiave giuste e i limiti sulle parole chiave sono riuscita procedendo per passi successivi a esprimere una query soddisfatta da sole 3 sequenze della banca dati; fra queste c'è quella cercata V. Patti Esercitazione 6 9 Osserva • Data la storia La Query: • #1 AND #2 AND alpha Field Protein Name è equivalente alla query: • Equus caballus Field Organism AND hemoglobin Field Protein Name AND alpha Field Protein name V. Patti Esercitazione 6 10 5 P01958 Salva su un file di solo testo l'informazione sull'elemento (visualizzazione di default): emoa_cavallo_completo.txt Osserva: Banca dati sorgente: SWISSPROT V. Patti Esercitazione 6 11 P01958 Prova a visualizzare l'informazione sulla proteina selezionata in vari formati: • FASTA • XML • ASN.1 • graphics V. Patti Esercitazione 6 12 6 Salva la sequenza FASTA Salva su un file di solo testo la sequenza in formato FASTA: emoa_cavallo.txt V. Patti Esercitazione 6 13 Importa i risultati ottenuti in Excel • Creare una nuova cartella di lavoro Excel (bioinfo.xls) e riportare in Foglio1 i dati del risultato trovato come in figura (ID, nome completo, organismo, articoli scientifici di riferimento e data di pubblicazione, ecc.): usa la funzionalità di Import automatico (Dati -> Import...) • riportare in fondo allo stesso foglio i dati della sequenza in FASTA rinomina Foglio 1: EmoAlphaCavallo V. Patti Esercitazione 6 14 7 α-catena emoglobinica dell'uomo • Utilizzando Entrez cercare la catena emoglobinica alpha dell'uomo • Supponete questa volta di avere il codice esatto che identifica la proteina nella banca dati: entry P01922 • Usate il codice come parola chiave nella query V. Patti Esercitazione 6 15 α-catena emoglobinica dell'uomo • Selezionate l'unico elemento restituito • Salvate sia l'informazione completa sull'elemento, sia la sequenza FASTA -> File emoa_uomo.txt V. Patti Esercitazione 6 16 8 Importa i risultati ottenuti in Excel • riportare su Excel in un nuovo foglio di lavoro i dati del nuovo risultato trovato (ID, nome completo, organismo, articoli scientifici di riferimento e data di pubblicazione, ecc.) • riportare in fondo allo stesso foglio i dati della sequenza in FASTA; rinomina il foglio: EmoAlphaUomo V. Patti Esercitazione 6 17 β-catena emoglobinica del cavallo • Utilizzando Entrez cercare la catena emoglobinica beta del cavallo • Salvare la sequenza sia nel formato con annotazioni sia in FASTA • Riportare su Excel in un nuovo foglio di lavoro i dati del nuovo risultato trovato (ID, nome completo, organismo, articoli scientifici di riferimento e data di pubblicazione, ecc.) • Riportare in fondo allo stesso foglio i dati della sequenza in FASTA; • Rinominare il foglio: EmoBetaCavallo V. Patti Esercitazione 6 18 9