Applicazioni biotechnologiche in systems biology Lezione # 1 Dr. Marco Fondi AA 2012-‐2013 domenica 10 marzo 2013 1 Contatti Dr. Marco Fondi Florence Computational Biology Group Lab. of Microbial and Molecular Evolution Dip. di Biologia Via Madonna del Piano 6, Polo Scientifico S. Fiorentino (c/o Incubatore delle idee) email: marco.fondi@unifi.it tel: 0554574736 2 domenica 10 marzo 2013 -‐ Introduzione alla systems biology ed approccio integrato alle discipline “omiche”. Storia della biologia dei sistemi, presupposti scientifici e filosofici. Bioinformatica. -‐ Genomica 1– Principali tecnologie di sequenziamento -‐ Genomica 2 – Tecniche di analisi in “omica” e metodi di sequenziamento massivo del DNA. Analisi dati sequenziamento massivo -‐ Genomica 3 – Post Genomics analysis (Pangenome, Genome Annotation) -‐ Relazione genotipo – fenotipo -‐ In silico Gene regulation analysis? (predizione bioinformatica dei reguloni?) -‐ Rappresentazione tramite reti e proprietà dei network (dinamica, stabilità, robustezza). Concetti in biologia dei sistemi (Shannon, casualità delle sequenze, complessità statica e dinamica). -‐ Reti di interazioni proteiche e metodi di studio. Interazioni proteina-‐DNA. Reti di regolazione (cascate di segnalazione, regolazione genica). Reti di scambio genico. -‐ Ricostruzione di Reti metaboliche (uso della banca dati KEGG e dei programmi STRING e KAAS). Riconciliazione di network metabolici. -‐ Ingegneria metabolica nei microrganismi Tecniche per la modellizzazione in silico del metabolismo batterico. Flux Balance analysis -‐ Flux Balance analysis e sue varianti 2. Integrazione di dati “-‐omics” per l’analisi di modelli metabolici. -‐ Systems Biology: caso studio 1 -‐ Systems Biology: caso studio 2 3 domenica 10 marzo 2013 -‐ Slides lezioni -‐ A.M. Lensk, Introduzione alla genomica. Zanichelli, 2009 -‐ Articoli scientifici 4 domenica 10 marzo 2013 5 domenica 10 marzo 2013 Where does systems biology come from? 6 domenica 10 marzo 2013 The debate in the phylosophy of biological sciences Reductionism vs. Holism 7 domenica 10 marzo 2013 Reductionism: The properties, concepts, explanations, or methods from one scientific domain (typically at higher levels of organization) can be deduced from or explained by the properties, concepts, explanations, or methods from another domain of science (typically one about lower levels of organization). In recent philosophy of biology (1970s to the early 1990s), the primary debate about reduction has focused on the question of whether (and in what sense) classical genetics can be reduced to molecular biology. 8 domenica 10 marzo 2013 Ontological reduction is the idea that each particular biological system (e.g., an organism) is constituted by nothing but molecules and their interactions. Methodological reduction is the idea that biological systems are most fruitfully investigated at the lowest possible level, and that experimental studies should be aimed at uncovering molecular and biochemical causes. Epistemic reduction is the idea that the knowledge about one scientific domain (typically about higher level processes) can be reduced to another body of scientific knowledge (typically concerning a lower and more fundamental level). 9 domenica 10 marzo 2013 Holism (from ὂλος holos, a Greek word meaning all, whole, entire, total) , is the idea that natural systems (physical, biological, chemical, social, economic, mental, linguistic, etc.) and their properties, should be viewed as wholes, not as collections of parts. This often includes the view that systems somehow function as wholes and that their functioning cannot be fully understood solely in terms of their component parts. The term holism was coined in 1926 by Jan Smuts, a South African statesman, in his book, Holism and Evolution. Smuts defined holism as "The tendency in nature to form wholes that are greater than the sum of the parts through creative evolution. 10 domenica 10 marzo 2013 Vitalism: Galen (medecine), Berzelius (chemistry) Hegel rejected "the fundamentally atomis;c concep;on of the object," arguing that "individual objects exist as manifesta;ons of indivisible substance-‐universals, which cannot be reduced to a set of proper;es or aCributes A hot debate… The func2onal organiza2on of the brain. The holis;c tradi;on (e.g., Pierre Marie) maintained that the brain was a homogeneous organ with no specific subparts whereas the localiza;onists (e.g., Paul Broca) argued that the brain was organized in func;onally dis;nct cor;cal areas which were each specialized to process a given type of informa;on or implement specific mental opera;ons. The controversy was epitomized with the existence of a language area in the brain, nowadays known as the Broca's area. Although Broca's view has gained acceptance, the issue isn't seCled insofar as the brain as a whole is a highly connected organ at every level from the individual neuron to the hemispheres. 11 domenica 10 marzo 2013 What is systems biology? 12 domenica 10 marzo 2013 13 domenica 10 marzo 2013 14 domenica 10 marzo 2013 15 domenica 10 marzo 2013 16 domenica 10 marzo 2013 17 domenica 10 marzo 2013 To solve the system an integrated multi-‐disciplinary approach is needed 18 domenica 10 marzo 2013 era “-OMICS” Genomica (presenza/assenza geni) Trascrittomica (espressione geni) Fenomica 19 domenica 10 marzo 2013 era “-OMICS” Genomica (presenza/assenza geni) Trascrittomica (espressione geni) Fenomica 20 domenica 10 marzo 2013 cosa si ottiene da queste nuove tecnologie? sequenziamento massivo (454 Roche) esperimento di trascrittomica (microarray) esperimento di fenomica (Biolog) 21 domenica 10 marzo 2013 ERA GENOMICA 22 domenica 10 marzo 2013 454, Roche ® Sequenziatori ABI's SOLiD Method. Solexa, Illumina ® 23 domenica 10 marzo 2013 24 domenica 10 marzo 2013 25 domenica 10 marzo 2013 numero attuale di genomi disponibili 26 domenica 10 marzo 2013 27 domenica 10 marzo 2013 28 domenica 10 marzo 2013 29 domenica 10 marzo 2013 > 20 000 strutture proteiche 30 domenica 10 marzo 2013 Transcriptomics - 1 Microarray experiments data 31 domenica 10 marzo 2013 Transcriptomics - 2 RNA-seq experiments data 32 domenica 10 marzo 2013 ? 33 domenica 10 marzo 2013 Computational support in experiment design, processing of results and interpretation of results has become essential. Our ability in the future to make new biological discoveries will depend strongly on our ability to combine and correlate diverse data sets along multiple dimensions and scales, rather than a continued effort focused in traditional areas. Pierre Baldi, Søren Brunak, Bioinformatics, The MIT press, 2001 34 domenica 10 marzo 2013 TASK 1 ü organizzare le conoscenze acquisite a livello globale (es. genoma e proteoma) al fine di rendere tali dati accessibili a tutti, e ottimizzare gli algoritmi di ricerca dei dati stessi per migliorarne l'accessibilità. 35 domenica 10 marzo 2013 TASK 2 ü fornire modelli statistici validi per l'interpretazione dei dati provenienti da esperimenti di biologia molecolare e biochimica al fine di identificare tendenze e leggi numeriche 36 domenica 10 marzo 2013 TASK 3 ü generare nuovi modelli e strumenti matematici per l'analisi di sequenze di DNA, RNA e proteine (evoluzione, funzione ipotetica etc.). Algoritmo Codice 37 domenica 10 marzo 2013 Biologia Bioinformatica Informatica domenica 10 marzo 2013 38 genetica Biologia Molecolare genomica Teoria dei Grafi biochimica statistica Bioinformatica biofisica Analisi numerica paleontologia Analisi di immagine Trattamento dati Design di algoritmi 39 domenica 10 marzo 2013 “Due differenti tecnologie domineranno il XXI secolo, sia dal punto di vista dell’industria che della ricerca scientifica -- le biotecnologie e le tecnologie informatiche” Bill Gates 40 domenica 10 marzo 2013 ? 41 domenica 10 marzo 2013 Wet-Lab experiments DATA üBibliographic Databases üTaxonomic Databases WEB Databases üNucleotide Databases üGenomic Databases üProtein Databases 42 üMicroarray Databases domenica 10 marzo 2013 Knowledge bases = Biological databases Punto di partenza di qualsiasi analisi bioinformatica (e non). 43 domenica 10 marzo 2013 DataBases overview 44 domenica 10 marzo 2013 DataBases overview Sequence Data/Genome Data …atgctggactgagtaatcct… or …MQYYLERRSQMPGYTRYMML… 45 domenica 10 marzo 2013 EMBL-EBI 46 domenica 10 marzo 2013 GenBank 47 domenica 10 marzo 2013 PDB (Protein DataBank) database 48 domenica 10 marzo 2013 JGI Database 49 domenica 10 marzo 2013 sequence in FASTA Format domenica 10 marzo 2013 50 FASTA Format >gi|193425|gb|M60978.1|MUSGAPDS Mus musculus testis-specific isoform of glycerald GGCAGCCAGGCCATGAGATCTTAGGCCATGTCGAGACGTGACGTGGTCCTTACCAATGTTACTGTTGTCC AGCTACGGCGGGACCGATGCCCATGCCCATGCCCATGCCCATGTCCATGCCCATGCCCTGTGATCAGACC ACCTCCACCCAAGCTTGAGGATCCACCACCCACGGTTGAAGAACAGCCACCGCCACCGCCGCCGCCACCT CCACCTCCACCACCACCTCCTCCTCCTCCTCCACCCCAGATAGAGCCAGACAAGTTTGAAGAGGCTCCCC CTCCCCCTCCCCCTCCTCCTCCTCCTCCCCCTCCCCCTCCTCCACCACTCCAAAAGCCAGCTAGAGAGCT GACAGTGGGTATCAATGGATTTGGACGCATTGGTCGTCTGGTGCTGCGAGTCTGCATGGAGAAGGGCATT AGGGTGGTAGCAGTGAATGACCCATTCATTGATCCAGAATACATGGTTTACATGTTCAAATATGACTCCA CACATGGTAGATACAAAGGAAACGTGGAACATAAGAATGGACAACTAGTTGTGGACAACCTTGAGATCAA CACGTACCAGTGCAAAGACCCTAAAGAAATCCCCTGGAGCTCTATAGGGAATCCCTACGTGGTGGAGTGT ACAGGCGTCTATCTGTCCATCGAGGCAGCTTCGGCACATATTTCATCTGGTGCCAGGCGTGTGGTGGTCA CTGCACCCTCCCCCGATGCACCCATGTTTGTCATGGGAGTGAACGAGAAGGACTATAACCCTGGCTCTAT GACCATTGTCAGCAATGCATCCTGTACCACCAACTGCCTGGCTCCTCTCGCCAAGGTTATTCATGAAAAC TTCGGGATCGTGGAAGGGCTAATGACCACAGTCCATTCCTACACAGCCACTCAGAAGACAGTGGATGGGC CATCAAAGAAGGACTGGCGAGGTGGCCGCGGCGCTCACCAAAACATCATCCCATCGTCCACTGGGGCTGC CAAGGCTGTAGGCAAAGTCATCCCAGAGCTCAAAGGGAAGCTAACAGGAATGGCATTCCGGGTGCCAACC CCAAACGTGTCAGTTGTGGACCTGACCTGCCGCCTGGCCAAGCCTGCTTCTTACTCGGCTATCACGGAGG CTGTGAAAGCTGCAGCCAAGGGACCTTTGGCTGGCATCCTTGCTTACACAGAGGACCAGGTGGTCTCCAC GGACTTTAACGGCAATCCCCATTCTTCCATCTTTGATGCTAAGGCTGGAATTGCCCTCAATGACAACTTC GTGAAGCTTGTTGCCTGGTACGACAACGAATATGGCTACAGTAACCGAGTGGTCGACCTCCTCCGCTACA TGTTTAGCCGAGAGAAGTAACACAAAAGGCCCCTCCTTGCTCCCCTGCGCACCTCGCGTTCCTGACTTCG GCTTCCACTCAAAGGCGCCGCCACCGGGTCAACAATGAAATAAAAACGAGAATGCGC 51 domenica 10 marzo 2013 “Text” search DB Sequence in FASTA Format BLAST Sequence similarity search 52 domenica 10 marzo 2013 DataBases overview Sequence Data/Genome Data …atgctggactgagtaatcct… or …MQYYLERRSQMPGYTRYMML… Gene Prediction (ORF finding) 53 domenica 10 marzo 2013 ? domenica 10 marzo 2013 54 tAAATAAACTAAACTAAaCctACGTAGTAGGagTTTTTTATGTCATTCAAGATTACCAGT GTTCGCCTGGGAACAAACGGGCATAAGCACGTTGCACAAGATTAAGTTTTtCTTGTTTAC CGATTGAAGCTGTTGAGCTAGGGAACAAGTTAAAACCAATCGACATTAAAATGTTGTTAA TGTCCGGTGCAACCGCGTAAGTAATCGATGCAAGACGACCAAGGTTTGTCGCGATTTTCT TCGGACGTTTTACGATTGCATAAGCAATCAAATCAGCCGCTTCTTCTGGAGAAAGCGTTG GTACATATTTATAAATCTTAGTTGGTGCGATCATTGGTGTGCGCACTAAAGGCATATAAA TCGAAGTAATTGCAATTTTGTGCGAATGAACTTCTGCCGATAAGCAACGGCTAAATGCAT CAAGCGCAGCTTTCGATGCGACATAAGCCGAGAAGCGTGTTGCATTTGCCAATACACCAA TCGAACTGATGTTGATGATTTGACCGTCTTTGCGTTGCATCATGTGCGGTAATACATTGA GAACTAAACGAACTGCACCGAAGTAATTCAACTGCATGGTACGTTCAAAATCATGGAAAC GATCAATCGATTCATGCACCGCACGACGAATAGAGCGACCTGCATTGTTGACCAAAATAT CAATATGATCTACCGCTGCAAGAATTTCTTTTGAAACCGCATCAATCGAATCCATATCAT TCAGATCACATGGGAAAACAGATGCTTTACCGCCTTCTGCTTCGATCTCTGCTTTAACTT CGTCTAATTTTTCCTTGGTACGAGCAAGTAATAAGACATGTGCACCAGCTTGAGCAAGAT ACTTTGAAACCGTTAGACCAATGCCACTAGATGCACCTGTGACAATGATTGTTTTACCGT CGACTTTTTGCTGAAAAAGTTTTTTGAGTTTTCCGTTCATGTAAGTTACCTACATTAATC AAGCTGTTGTTTGCAATGTCTTCTTATTGCGATTAAACATTGCACTTTATTTTGTATGTA TATTAACCGATATTTTTtGTTTGTCCAGTGTAAATATTTGAAAAATAATAATTTTTTtAG AGTAAAAACTCTAAAACAAAGTATTGTAATAGTTGAAAAAGCAATAATATTTTTTGAGAT ACTTTGAAACCGTTAGACCAATGCCACTAGATGCACCTGTGACAATGATTGTTTTACCGT CGACTTTTTGCTGAAAAAGTTTTTTGAGTTTTCCGTTCATGTAAGTTACCTACATTAATC AAGCTGTTGTTTGCAATGTCTTCTTATTGCGATTAAACATTGCACTTTATTTTGTATGTA TATTAACCGATATTTTTtGTTTGTCCAGTGTAAATATTTGAAAAATAATAATTTTTTtAG 55 AGTAAAAACTCTAAAACAAAGTATTGTAATAGTTGAAAAAGCAATAATATTTTTTGAGAT domenica 10 marzo 2013 56 domenica 10 marzo 2013 Sequenza in formato FASTA: 56 domenica 10 marzo 2013 Sequenza in formato FASTA: >Cromosoma (TITOLO) ATCATTATTGATCCTGATCGGTTAGCATCGTAT TTCCTTACCGGGACCCCATGATCGATACAGTAA ACCTTAGGATGATTATTGATGCTGATCGGTTAG CATCGTATTTCCTTACCGGGACCCCATGATCGA TACAGTAAACCTTAGGTGATTATTGATCCTGAT CGGTTAGCATCGTATTTCCTTACCGGGACCCCA TGATCGATACAGTAATAATTAGGATGATTATTG ATCCTGATCGGTTAGCATCGTATTTCCTTACCG GGACCCCATGATCGATACAGTAAACCTTAGGAT GATTATTGATCCTGATCGGTTAGCATCGTATTT CCTTACCGGGACCCCATGATCGATACAGTAAAC CTTAGATGATTATTGATCCTGATCGGTATGCAT CGTATTTCCTTACCGGGACCCCATGATCGATAC AGTAAACCTTAGGTTGAATCGTATTTCCTTACC GGGACCCCATGATCGATACAGTAAACCTTAGGT AGCATCGTATTTCCTTACCGGGACCCCATGATC GAATGAGTAAACCTTAGGTAGCATTGAATTTCC TTACCGGGACCCCATGATCGATACAGTAAACCT TAGG….. 56 domenica 10 marzo 2013 Sequenza in formato FASTA: >Cromosoma (TITOLO) ATCATTATTGATCCTGATCGGTTAGCATCGTAT TTCCTTACCGGGACCCCATGATCGATACAGTAA ACCTTAGGATGATTATTGATGCTGATCGGTTAG CATCGTATTTCCTTACCGGGACCCCATGATCGA TACAGTAAACCTTAGGTGATTATTGATCCTGAT CGGTTAGCATCGTATTTCCTTACCGGGACCCCA TGATCGATACAGTAATAATTAGGATGATTATTG ATCCTGATCGGTTAGCATCGTATTTCCTTACCG GGACCCCATGATCGATACAGTAAACCTTAGGAT GATTATTGATCCTGATCGGTTAGCATCGTATTT CCTTACCGGGACCCCATGATCGATACAGTAAAC CTTAGATGATTATTGATCCTGATCGGTATGCAT CGTATTTCCTTACCGGGACCCCATGATCGATAC AGTAAACCTTAGGTTGAATCGTATTTCCTTACC GGGACCCCATGATCGATACAGTAAACCTTAGGT AGCATCGTATTTCCTTACCGGGACCCCATGATC GAATGAGTAAACCTTAGGTAGCATTGAATTTCC TTACCGGGACCCCATGATCGATACAGTAAACCT TAGG….. 56 domenica 10 marzo 2013 Sequenza in formato FASTA: >Cromosoma (TITOLO) ATCATTATTGATCCTGATCGGTTAGCATCGTAT TTCCTTACCGGGACCCCATGATCGATACAGTAA ACCTTAGGATGATTATTGATGCTGATCGGTTAG CATCGTATTTCCTTACCGGGACCCCATGATCGA TACAGTAAACCTTAGGTGATTATTGATCCTGAT CGGTTAGCATCGTATTTCCTTACCGGGACCCCA TGATCGATACAGTAATAATTAGGATGATTATTG ATCCTGATCGGTTAGCATCGTATTTCCTTACCG GGACCCCATGATCGATACAGTAAACCTTAGGAT GATTATTGATCCTGATCGGTTAGCATCGTATTT CCTTACCGGGACCCCATGATCGATACAGTAAAC CTTAGATGATTATTGATCCTGATCGGTATGCAT CGTATTTCCTTACCGGGACCCCATGATCGATAC AGTAAACCTTAGGTTGAATCGTATTTCCTTACC GGGACCCCATGATCGATACAGTAAACCTTAGGT AGCATCGTATTTCCTTACCGGGACCCCATGATC GAATGAGTAAACCTTAGGTAGCATTGAATTTCC TTACCGGGACCCCATGATCGATACAGTAAACCT TAGG….. 56 domenica 10 marzo 2013 ORF Finder @ NCBI: 57 domenica 10 marzo 2013 58 domenica 10 marzo 2013 DataBases overview Sequence Data/Genome Data …atgctggactgagtaatcct… or …MQYYLERRSQMPGYTRYMML… Gene Prediction (ORF finding) Metabolic pathways information 59 domenica 10 marzo 2013 Ho un gene (una sequenza), in quale processo metabolico è coinvolto? Dato un processo metabolico, quali sono i geni coinvolti? 60 domenica 10 marzo 2013 Metabolic pathways information @ KEGG 61 domenica 10 marzo 2013 Metabolic pathways information @ KEGG 62 domenica 10 marzo 2013 Apoptosi 63 domenica 10 marzo 2013 Apoptosi in Bos taurus 64 domenica 10 marzo 2013 DataBases overview Sequence Data/Genome Data …atgctggactgagtaatcct… or …MQYYLERRSQMPGYTRYMML… Protein Structure Gene Prediction (ORF finding) Metabolic pathways information 65 domenica 10 marzo 2013 Ogni proteina ha una sua struttura 3D Amino acid sequence >title NLKTEWPELVGKSVEEA KKVILQDKPEAQIIVLPV GTIVTMEYRIDRVRLFVD KLDNIAEVPRVG Folding! 66 domenica 10 marzo 2013 Protein Structure in the WEB Strutture note If prediction = true Predizioni di strutture 67 domenica 10 marzo 2013 68 domenica 10 marzo 2013 Protein structure prediction 69 domenica 10 marzo 2013 Protein structure @ NCBI 70 domenica 10 marzo 2013 Disegno di farmaci drug design Protein-protein docking Evoluzione Proteomica Assegnazione funzionale 71 domenica 10 marzo 2013 DataBases overview Sequence Data/Genome Data …atgctggactgagtaatcct… or …MQYYLERRSQMPGYTRYMML… Protein Structure Gene Prediction (ORF finding) Expression profiles (Microarray Data) Metabolic pathways information 72 domenica 10 marzo 2013 Expression profiles (Microarray Data) Array Analysis Hierarchical Clustering 73 domenica 10 marzo 2013 Gene Expression @ NCBI 74 domenica 10 marzo 2013 Expression profile: 75 domenica 10 marzo 2013 Expression profile: Interazioni proteina-proteina Assegnazione funzionale Proteomica 75 domenica 10 marzo 2013 DataBases overview Sequence Data/Genome Data …atgctggactgagtaatcct… or …MQYYLERRSQMPGYTRYMML… Protein Structure Gene Prediction (ORF finding) Taxonomy Expression profiles (Microarray Data) Metabolic pathways information 76 domenica 10 marzo 2013 77 domenica 10 marzo 2013 DataBases overview Sequence Data/Genome Data …atgctggactgagtaatcct… or …MQYYLERRSQMPGYTRYMML… Protein Structure Gene Prediction (ORF finding) Taxonomy Expression profiles (Microarray Data) Metabolic pathways information 78 domenica 10 marzo 2013 NCBI (http:// www.ncbi.nlm.nih.gov/) • • • • Entrez interface to databases – Medline/OMIM – Genbank/Genpept/Structures BLAST server(s) – Five-plus flavors of blast Draft Human Genome Much, much more… 79 domenica 10 marzo 2013 80 domenica 10 marzo 2013 INTEGRATION!!! 81 domenica 10 marzo 2013 82 domenica 10 marzo 2013 Things to know and remember about using web server-based tools 83 domenica 10 marzo 2013 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro 83 domenica 10 marzo 2013 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro 83 domenica 10 marzo 2013 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro • (Probabilmente) state utilizzando un insieme ristretto delle opzioni disponibili 83 domenica 10 marzo 2013 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro • (Probabilmente) state utilizzando un insieme ristretto delle opzioni disponibili 83 domenica 10 marzo 2013 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro • (Probabilmente) state utilizzando un insieme ristretto delle opzioni disponibili • Grande utilità per analisi preliminari e “veloci”. Per analisi più accurate e complesse è preferibile utilizzare database e software in maniera “locale” 83 domenica 10 marzo 2013 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro • (Probabilmente) state utilizzando un insieme ristretto delle opzioni disponibili • Grande utilità per analisi preliminari e “veloci”. Per analisi più accurate e complesse è preferibile utilizzare database e software in maniera “locale” 83 domenica 10 marzo 2013 Things to know and remember about using web server-based tools • State usando il computer di qualcun altro • (Probabilmente) state utilizzando un insieme ristretto delle opzioni disponibili • Grande utilità per analisi preliminari e “veloci”. Per analisi più accurate e complesse è preferibile utilizzare database e software in maniera “locale” • La pratica e gli errori (intelligenti!!!) sono il miglior modo per imparare 83 domenica 10 marzo 2013