Corso di studi in Biologia A.A. 2013-2014 Informatica e Bioinformatica Alessandro Vezzi, PhD Dipartimento di Biologia III piano sud – Lab n°15 Telefono 049 827 6243 E-mail: [email protected] Informatica e Bioinformatica – A. A. 2013-2014 1 Premessa Questo corso, alquanto introduttivo, è uno dei primi insegnamenti in cui sentite parlare di concetti biologici. Si tratta di un corso breve, strutturato in: 10 ore di lezione e 4 esercitazioni pomeridiane Scopo: introdurre alcune nozioni basilari riguardanti i dati biologi. mostrare alcuni strumenti e metodi per accedere all’informazione biologica in modo razionale ed efficiente, utilizzando le risorse disponibili in rete. Non si tratta dunque di un vero corso di bioinformatica, ma di un breve corso introduttivo di carattere biologico/bioinformatico. Informatica e Bioinformatica – A. A. 2013-2014 2 Requisiti Non è inizialmente richiesto di saper “programmare”, ma: sarà utile una minima conoscenza di Internet (in ogni caso si fa presto ad imparare!) è importante saper cercare le risorse ed informazioni in rete (sapete tutti cosa sono i motori di ricerca, ad es. Google? e Wikipedia?) i siti sono praticamente tutti in inglese! Informatica e Bioinformatica – A. A. 2013-2014 3 Supporto didattico Le lezioni saranno rese disponibili in formato .ppt e .pdf all’indirizzo: http://didattica.cribi.unipd.it/bioinfo/ Un possibile testo Date, orari e locazione delle lezioni frontali: 3 marzo ore 8:30 – 10:15 Aula C piano terra 10 marzo ore 8:30 – 10:15 Aula C piano terra Ma ricordate che questo è un corso introduttivo alla bioinformatica e che internet è una risorsa inesauribile di dati e nozioni. 17 marzo ore 8:30 – 10:15 Aula C piano terra 20 marzo ore 8:30 – 9:15 24 marzo ore 8:30 – 10:15 Aula C piano terra 27 marzo ore 8:30 – 9:15 Aula C piano terra 28 marzo ore 8:30 – 9:15 (solo se necessaria) Aula C piano terra Informatica e Bioinformatica – A. A. 2013-2014 Aula C piano terra 4 Date, orari e locazione delle esercitazioni Marzo: Lunedì 17 Giovedì 20 14:30-18:30 14:30-18:30 Esercitazione 1, I turno Esercitazione 1, II turno Lunedì 24 Giovedì 27 14:30-18:30 14:30-18:30 Esercitazione 2, I turno Esercitazione 2, II turno Giugno: Martedì 3 Giovedì 5 14:30-18:30 14:30-18:30 Esercitazione 3, I turno Esercitazione 3, II turno 14:30-18:30 14:30-18:30 Esercitazione 4, I turno Esercitazione 4, II turno Lunedì 9 Giovedì 12 I turno: studenti da Allegra a Ielo II turno: studenti da Klein a Zardinoni Le esercitazioni saranno svolte nelle aule ex-Taliercio al plesso Paolotti. Sito web delle esercitazioni: to be assigned • Informatica e Bioinformatica – A. A. 2013-2014 5 Argomenti trattati a lezione Perché è utile la Bioinformatica? Concetti base sui dati biologici. Archiviazione dei dati: i database biologici Banche dati primarie e derivate: strutture, consultazioni semplici e ricerche complesse. Similarità di sequenza e allineamenti. Pattern e profili proteici. Browser genomici. Informatica e Bioinformatica – A. A. 2013-2014 6 Argomenti delle esercitazioni Consultazione e ricerche nelle banche dati (articoli scientifici, malattie genetiche, acidi nucleici, proteine, ecc.) Utilizzo di risorse web per ricerche di particolari molecole biologiche, ricerche di similarità. Utilizzo dei browser genomici per il reperimento di informazioni biologiche. Utilizzo di python per l’analisi di file di tipo biologico Informatica e Bioinformatica – A. A. 2013-2014 7 IMPARATE A SFRUTTARE la rete internet a vostro vantaggio, infatti: ecco due siti interessanti per reperire informazioni e strumenti utili per la bioinformatica: Train online with EMBL-EBI presente all’EBI (European Bioinformatics Institute) http://www.ebi.ac.uk/training/online/ NCBI Educational Resources presente all’NCBI (National Center for Biotechnology Information) http://www.ncbi.nlm.nih.gov/education/ Informatica e Bioinformatica – A. A. 2013-2014 8 Modalità d’esame L'esame consiste in domande a risposta multipla che riguardano sia quanto discusso a lezione che le tematiche affrontate nei laboratori didattici. Informatica e Bioinformatica – A. A. 2013-2014 9 Perché è utile la Bioinformatica? Articolo open (consultabile gratuitamente) il cui titolo è: “Minke whale genome and aquatic adaptation in cetaceans” Adattato da foto di Joanne Weston Quindi, ricapitolando: - sequenziamento ed assemblaggio del genoma di una balena Minke (e di altri cetacei); - analisi comparativa dei genomi di 8 specie di mammiferi; - specifici adattamenti associabili ai cambiamenti fisiologici e morfologici necessari per la vita nell’acqua. Informatica e Bioinformatica – A. A. 2013-2014 10 Alcuni numeri (pochi) relativi all’articolo Alcuni dati di sequenziamento Informatica e Bioinformatica – A. A. 2013-2014 11 Alcuni dati di genomica comparativa Come poter gestire e confrontare questa enorme quantità di dati? Come poter individuare, a partire da tali dati, quali caratteristiche sono specifiche dei cetacei? Ma, sono poi così diversi?? Informatica e Bioinformatica – A. A. 2013-2014 12 Quali sono le vostre conoscenze di base sulla Biologia? Per affrontare serenamente questo corso introduttivo alla bioinformatica, dovreste saper rispondere ad alcune domande, tra cui: che cosa è il DNA? che cosa è una proteina? che cosa è un gene? che cosa è un genoma? che differenza c’è tra un procariote ed un eucariote? tra un batterio ed un virus? avete sentito parlare dei seguenti organismi: Drosophila melanogaster, Caenorhabditis elegans, Saccharomyces cerevisiae,…? sapreste dare una definizione di essere vivente? Informatica e Bioinformatica – A. A. 2013-2014 13 Gli esseri viventi: macchine dotate di un programma. Questo vale sia per gli organismi a singola cellula (tipo i batteri), che per gli organismi pluricellulari come l’uomo. In questo senso la vita non è che il programma che "gira". Ma, qual è il programma degli esseri viventi? PROGRAMMA DI AUTOREPLICAZIONE codificato negli acidi nucleici, più precisamente nel DNA. Come in un computer dove distinguiamo il software (programmi, dati, informazione) e l’hardware (computer, cioè la macchina che interpreta il software), anche in un organismo biologico è distinguibile - una componente specializzata per contenere l'informazione necessaria all'attuazione del programma biologico (il DNA); - una componente che è in grado di interpretare l'informazione e di tradurla in azioni (in prima approssimazione può essere considerata la cellula). Informatica e Bioinformatica – A. A. 2013-2014 14 Concetto fondamentale: il programma è “conservato” all’interno del DNA (che costituisce la vera e propria “memoria” del sistema essere vivente). In questo nastro è registrato l’ordine lineare da assegnare agli aminoacidi, che costituiscono le proteine (veri e propri operatori). Il programma: operazioni che le varie classi di proteine e di altre molecole, reclutate e attivate nel momento e nella localizzazione opportuna (da qui l’importanza del sistema “cellula”) eseguono in maniera coordinata. Cosa ha contribuito all’esplosione della Bioinformatica? Informatica e Bioinformatica – A. A. 2013-2014 15 Lo sviluppo di tecnologie strumentali sempre più sofisticate Enorme aumento nella produzione dei dati!! (Nature, 2009, vol. 458, 719-724) La quantità di dati prodotta aumenta più velocemente del numero di pubblicazioni scientifiche (crescita esponenziale). Come colmare il gap? Aumentiamo il numero di pubblicazioni scientifiche? Sarebbe impossibile arrivare a leggere milioni di articoli diversi! Sono necessari nuovi sistemi di immagazzinamento e di accesso all’informazione. Informatica e Bioinformatica – A. A. 2013-2014 16 Internet L’esplosione di Internet ha contribuito in modo determinante allo sviluppo della Bioinformatica, ed è difficile immaginare lo sviluppo avuto dalle bioscienze senza l’informatica ed Internet. Gli scienziati hanno ora accesso da ogni parte del mondo e quasi sempre gratuitamente agli archivi biologico-informatici resi disponibili in rete. Inoltre, interfacce grafiche sempre più potenti e “user-friendly” consentono di effettuare delle rapide interrogazioni delle banche dati in modo molto semplice ed intuitivo. Parallelamente a ciò, vengono resi disponibili in rete programmi bioinformatici sempre più potenti e numerosi. Informatica e Bioinformatica – A. A. 2013-2014 17 Quali dati hanno determinato lo sviluppo della Bioinformatica? L’enorme quantità di dati prodotti nel campo della biologia molecolare, specialmente nel campo del sequenziamento diretto di interi genomi di organismi (Uomo, Topo, Ratto, Pollo, Drosophila, Caenorhabditis, Lievito, …). L’avanzamento di altri approcci di tipo “genomico” e “proteomico” che producono quantità massicce di dati. Tutto ciò ha determinato la necessità di gestire ed analizzare grosse quantità di dati. Informatica e Bioinformatica – A. A. 2013-2014 18 Cos’è la Bioinformatica? Una definizione BIO INFORMATICA “Una disciplina che fa da ponte tra le scienze della vita e l’informatica” Una definizione più accattivante (data da Mark Bogusky, pioniere della Bioinformatica) Applicazione dell’informatica alla gestione e all’analisi dei dati e delle informazioni biologiche Importanza della Bioinformatica Il principale obiettivo della bioinformatica è scoprire la maggior quantità possibile di informazioni nascoste nella massa di dati e volte ad approfondire e comprendere meglio le funzioni biologiche degli organismi viventi. Le nuove conoscenze possono avere un profondo impatto negli studi evolutivi, nella scienza medica, in agricoltura, biotecnologie, ecc. ecc. Informatica e Bioinformatica – A. A. 2013-2014 19 Le due anime della Bioinformatica GESTIONE DEI DATI DATABASE ANALISI DEI DATI COMPUTATIONAL BIOLOGY Nello studiare la bioinformatica sarà necessario: Sapere cosa sono e come sono strutturati i database Avere conoscenze biologiche Conoscere dove sono archiviati i dati biologici Conoscere come sono archiviati questi dati Saper effettuare ricerche (anche complesse) Essere in grado di utilizzare i molteplici tools pubblicamente disponibili Informatica e Bioinformatica – A. A. 2013-2014 20 Database e Computational Biology DATABASE Memorizzazione accurata, organizzazione, indicizzazione e mantenimento di informazioni biologiche COMPUTATIONAL BIOLOGY Alcune delle possibili analisi dei dati (la lista è infinita) : ricerca di similarità tra sequenze (ricerca di omologia funzionale); ricerca di geni nelle sequenze di DNA (predizione genica); ricerca di motivi funzionali nel DNA (es. siti di binding per fattori di trascrizione) nell’RNA (strutture secondarie) e nelle proteine (domini); analisi dei genomi e loro comparazione; allineamento multiplo di sequenze e analisi filogenetica; analisi di dati strutturali 3D di proteine; predizione della struttura di proteine; ……. Informatica e Bioinformatica – A. A. 2013-2014 21 Quali sono i dati biologici? Sono principalmente dati di sequenza di acidi nucleici e proteine, derivati soprattutto dai numerosi progetti di sequenziamento sistematico. Sequenze di acidi nucleici Sequenze di proteine Archivi di dati di esperimenti relativi a microarray RNA-seq interazioni proteiche Pubblicazioni di carattere biologico Tra poco scenderemo più in dettaglio Informatica e Bioinformatica – A. A. 2013-2014 22 Le -OMICS La bioinformatica, in particolare, si occupa di gestire ed analizzare i dati che sono prodotti in modo sistematico nelle numerose e più disparate discipline biologiche, quelle a cui spesso ci si riferisce come –OMICS. Ad esempio, la Genomica è la disciplina che si occupa di produrre, gestire ed analizzare i dati del genoma. INSIEME DEI DATI DISCIPLINA GENOME GENOMICS PROTEOME PROTEOMICS TRASCRIPTOME TRASCRIPTOMICS METABOLOME METABOLOMICS BIBLIOME BIBLIOMICS Curiosità. Un sito che elenca tutte le –omics citate in letteratura: http://www.genomicglossaries.com/content/omes.asp Informatica e Bioinformatica – A. A. 2013-2014 23 Proteomics Anche in questo caso la materia è vastissima: collezioni di sequenze di proteine di un organismo (proteoma) e loro analisi determinazione della struttura 3D delle proteine (cristallografia e raggi X, NMR) predizione della struttura di proteine di cui sia nota solo la sequenza PDB: database di strutture di proteine http://www.rcsb.org/pdb/ Informatica e Bioinformatica – A. A. 2013-2014 24 Proteomics Separazione di proteine in base alle caratteristiche chimico-fisiche (massa, pH) http://bioinformatics.org/lecb2dgeldb/ Interazioni proteina - proteina, proteina – acidi nucleici, proteina - metaboliti Informatica e Bioinformatica – A. A. 2013-2014 25