Universita` di Padova Laurea Biologia Molecolare Corso di Bioinformatica III (A.A. 2006-2007) Docente: Dr. Nicola Vitulo Dipartimento di Biologia, CRIBI Tel. 0498276165 Email: [email protected] BIOINFO3 - Lezione 1 1 Calendario Esercitazioni: 1 Marzo 14:00 -18:00 MySql 7 Marzo 14:00 -18:00 HTML 20 Marzo 14:00 -18:00 PERL 23 Marzo 14:00 -18:00 MySql / PERL 30 Marzo 14:00 -18:00 CGI-BIN Competenze informatiche necessarie per il corso: nessuna Tipologia d`esame: scritto (2h) Libri di testo: appunti di lezione (grup.cribi.unipd.it/~nicolav/bioinfoIII_padova/) BIOINFO3 - Lezione 1 2 LA BIOINFORMATICA COS’È LA BIOINFORMATICA? Esistono diverse definizioni..... BIOINFORMATICA= APPLICAZIONE DELL’INFORMATICA ALLA GESTIONE E ALL’ANALISI DEI DATI BIOLOGICI BIOINFO3 - Lezione 1 3 DATI BIOLOGICI Quali sono i dati biologici? Principalmente i dati di sequenza di acidi nucleici e proteine, prodotti in modo sempre più massiccio dai progetti di sequenziamento sistematico (tecnologie sempre piu` sofisticate). Negli ultimi anni vi è stata poi un’invasione di dati relativi ad esperimenti di microarray BIOINFO3 - Lezione 1 4 2007 BIOINFO3 - Lezione 1 5 La bioinformatica e` una branca della biologia in rapida evoluzione, e altamente interdisciplinare in quanto usa tecniche e concetti che derivano dall`informatica, statistica, matematica, chimica , biochimica, fisica. National Center for Biointecnology Information (NCBI) definisce la bioinformatica: la bioinformatica e` la scienza nella quale biologia, informatica e tecnologia dell`informazione si uniscono in un`unica disciplina. Esistono tre importanti sottodiscipline all`interno dell`informatica: BIOINFO3 - Lezione 1 6 1. Sviluppo di nuovi algoritmi e statistiche con i quali valutare le relazioni tra i membri di un ampio data set. 2. Analisi ed interpretazione di vari tipi di dati che includono sequenze aminoacidiche e nucleotidiche, domini proteici, e strutture proteiche. 3. Sviluppo ed implementazione di tool, strumenti, che permettato un efficiente accesso e gestione dei differenti tipi di informazione. BIOINFO3 - Lezione 1 7 National Institute of Health (NIH) Bioinformatica: ricerca, sviluppo o applicazione di strumenti computazionali e di approcci che permettano di espandere e migliorare l`uso di dati biologici inclusi quegli strumenti per l`acquisizione, l`organizzazione, l`archiviazione, l`analisi e la visualizzazione di tali dati. Biologia Computazionale: sviluppo e applicazione di metodi analitici e teoretici, modelli matematici e tecniche di simulazione per lo studio di sistemi biologici. BIOINFO3 - Lezione 1 8 QuickTime™ e un decompressore TIFF (Non compresso) sono necessari per visualizzare quest'immagine. QuickTime™ e un decompressore TIFF (Non compresso) sono necessari per visualizzare quest'immagine. BIOINFO3 - Lezione 1 9 Applicazioni della bioinformatica Computational biology Genomics: la genomica rappresenta l`analisi o la comparazione dell`intero genoma di una o piu` specie. Proteomics: la proteomica consiste nello studio delle proteine - localizzazione, struttura e funzione. Identificazione, caratterizzazione e quantificazione di tutte le proteine coinvolte un un particolare metabolismo, di un organello, cellula, tessuto, organo o organismo. Pharmacogenomics: applicazione degli approcci genomici e tecnologie mirate all`indentificazione dei target delle droghe. Studia in che modo i geni influenzano la risposta ad una droga, sia a livello di popolazione che a livello molecolare BIOINFO3 - Lezione 1 10 Pharmacogenetics: studia in che modo variano le azioni e le reazioni alle droghe. Gli individui rispondono in modo differente al trattamento alle droghe; la maggior parte di questa variabilita` ha basi genetiche. Chemical informatics: memorizzazione, recupero, analisi di informazioni chimiche. Chemometrics: applicazione della statistica all`analisi dei dati chimici. Structural bioinformatics: analisi delle strutture delle macromolecole. Comparative genomics: comparazione del genoma di due o piu`differenti orgnismi. Functional genomics: integrando dati provenienti da sequenziameto di genomi, microarray, proteomica, descrive il funzionamento e l`interazione dei geni. BIOINFO3 - Lezione 1 11 DIMENSIONE “OMICS” I dati biologici hanno guadagnato da tempo il suffisso “-OME” (Genome, Proteome, Trascriptome, Metabolome, Bibliome, Interactome….) e le discipline che li gestiscono e analizzano sono diventate “-OMICS” (Genomics, Proteomics… analisi su larga scala) A chi fosse interessato segnalo il sito http://www.genomicglossaries.com/content/omes.asp che elenca le –ome e gli –omics esistenti BIOINFO3 - Lezione 1 12 Un po` di storia.. Il primo database di dati biologici fu costruito pochi anni dopo che le prime sequenze proteiche cominciarono a diventare disponibili. La prima sequenza proteica ottenuta , di 51 residui, fu l`insulina bovina nel 1956. Circa 10 anni piu` tardi si ottenne la prima sequenza di acidi nucleici, l` alanine rRNA di lievito. Alla fine degli anni `70, Margareth Dayhoff raccolse tutte le sequenze disponibili per creare il primo database biologico (NBRF, National Biomedical Research Foundation). Agli inizi degli anni `80 in Europa l`EMBL promuoveva la creazione dell` EMBL-database, banca dati di sequenze di DNA e RNA. La prima release fu rilasciata nel 1981 e conteneva 519 entries BIOINFO3 - Lezione 1 13 Parallelamente negli Stati Uniti veniva prodotto un archivio simile: banca dati da cui si e` originato GenBank, la cui prima release fu resa pubblica nel 1982. Nel 1986 venne realizzata la banca dati giapponese DDBJ. Accordo tra GeneBank, EMBL e DDBJ per lo scambio giornaliero di dati. Seconda meta` degli anni 80 realizzazione delle prime banche dati specializzate come PROSITE -> innesco per la realizzazione di banche dati sempre piu` specializzate. Sistemi di retrieval: SRS (EBI) e ENTREZ (NCBI). BIOINFO3 - Lezione 1 14 Metodologie bio-computazionali associate alle procedure di confronto di biosequenze per la ricerca di regioni di similarita`. Nel 1970 Needlaman e Wunsch pubblicano l`algoritmo per la ricerca del miglior allineamento globale tra due sequenze. Nel 1971 Gibbs e McIntyre pubblicano un metodo basato sulla matrice basato dot-plot che permetteva la visualizzazione regioni di similarita` piu` o meno stringente , utilizzato poi in numerosi algoritmi di analisi comparative. Nel 1981 Smith e Watermann pubblicano l`algoritmo per il miglior allineameno locale tra due sequenze. Nel 1983 Wilbur e Lipmann pubblicano un algoritmo per la ricerca di similarita` in banca dati e nel 1985 viene pubblicato FASTA, seguito poi nel 1990 da BLAST (Altshul) BIOINFO3 - Lezione 1 15 In parallelo furono sviluppati numerosi metodi per la ricerca di motivi, per la caratterizzazione di sequenze genomiche di regioni codificanti proteine. Per quello che riguarda gli studi di evoluzione molecolare fondamentale e` stata nel 1965 la pubblicazione da parte di Zuckerkandl e Pauling dell`ipotesi dell` “orologio molecolare” (relazione di proporzionalita` diretta tra tempo di divergenza e numero di sostituzioni tra proteine omologhe). 1966 Dayhoff metodo della Massima Parsimonia per l`analisi delle proteine , esteso nel 1977 da Fitch all`analisi delle sequenze nucleotidiche. Metodo di Zucker per la predizione di strutture di RNA e il metodo di Fasman per strutture secondarie proteiche. BIOINFO3 - Lezione 1 16 Esigenza di avere i programmi che implementatano i vari algoritmi in per l`analisi dei dati organizzati in un a logica omogenea e interfacciati con i database di dati biologici: GCG (Genetic Computer Group, Oxford) EMBOSS: prodotto dalla comunita` EMBnet, scaricabile gratuitamente dalla rete (http://www.embnet.org, http://emboss.sourceforge.net/download/) Phylip: pacchetto per analisi di evoluzione molecolare. 1987 : Perl (Practical Extraction Report Language) is released by Larry Wall. 1991: Linus Torvalds announces a Unix-Like operating system which later becomes Linux. 1995: The Haemophilus influenzea genome (1.8 Mb) is sequenced. The Mycoplasma genitalium genome is sequenced. BIOINFO3 - Lezione 1 17 1996: The genome for Saccharomyces cerevisiae (baker's yeast, 12.1 Mb) is sequenced. The Prosite database is reported by Bairoch, et.al. Affymetrix produces the first commercial DNA chips. 1997: The genome for E. coli (4.7 Mbp) is published. 1998: The genomes for Caenorhabditis elegans and baker's yeast are published. The Swiss Institute of Bioinformatics is established as a non-profit foundation. Craig Venter forms Celera in Rockville, Maryland. 2000: The genome for Pseudomonas aeruginosa (6.3 Mbp) is published. The A. thaliana genome (100 Mb) is secquenced. The D. melanogaster genome (180Mb) is secquenced. 2001: The human genome (3,000 Mbp) is published. .... BIOINFO3 - Lezione 1 18 LA BIOINFORMATICA OGGI Si tratta di una disciplina in rapida evoluzione: i libri di testo non sono in grado di tenere il passo con le novità e con i moltissimi database e programmi pubblicati di continuo. Per rimanere aggiornati l’unica possibilità è la rete. Esistono siti specializzati su particolari argomenti (es. Individuazione dei geni, text mining, systems biology..) che cercano (a fatica) di tenere un indice delle pubblicazioni, dei database e dei programmi dedicati a quel particolare ambito ristretto. Fondamentali sono i siti delle riviste scientifiche che accolgono (dopo un lungo e profondo processo di “peer reviewing”) le pubblicazioni. BIOINFO3 - Lezione 1 19 I DUE ASPETTI DELLA BIOINFORMATICA GESTIONE DEI DATI → DATABASE ANALISI DEI DATI → COMPUTATIONAL BIOLOGY BIOINFO3 - Lezione 1 20 DATABASE E COMPUTATIONAL BIOLOGY DATABASE Memorizzazione accurata, organizzazione, indicizzazione e mantenimento di informazioni biologiche COMPUTATIONAL BIOLOGY Qui la lista è lunghissima e sempre in evoluzione. Vi cito solo alcune delle possibili analisi dei dati di cui si occupa la computational biology: •ricerca di similarità tra sequenze (ricerca di omologia funzionale) (dovrebbe essere chiara la differenza tra similarità ed omologia) •ricerca di geni nelle sequenze di DNA •ricerca di motivi funzionali nel DNA (es. siti di binding per fattori di trascrizione) e nelle proteine (domini) •analisi dei genomi •allineamento multiplo di sequenze e analisi filogenetica •analisi di dati strutturali 3D DI PROTEINE •analisi dei risultati di esperimenti con microarray BIOINFO3 - Lezione 1 21 GLI STRUMENTI CHE VEDREMO NEL CORSO GESTIONE DATI MySQL HTML Perl ANALISI DATI MySQL: linguaggio per definizione e gestione database HTML: linguaggio per la definizione di pagine web (accesso ai database e ai programmi attraverso Internet) Perl: linguaggio di programmazione BIOINFO3 - Lezione 1 22 Mysql : http://dev.mysql.com/downloads/mysql/5.0.html Perl: http://www.activestate.com/Products/ActivePerl/ BIOINFO3 - Lezione 1 23