DISS. ETH NO. 21693 MODEL-BASED ANALYSIS OF COORDINATION BETWEEN METABOLISM AND GENE EXPRESSION IN ESCHERICHIA COLI A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH ZURICH (Dr. sc. ETH Zurich) presented by LUCA GEROSA Master of Science, University of Edinburgh, Scotland (UK) Laurea Specialistica, Università di Trento (Italy) born on the 22nd of June 1981, citizen of Italy Accepted on the recommendation of Prof. Dr. Uwe Sauer, examiner Prof. Dr. Matthias Heinemann, co-examiner Prof. Dr. Jörg Stelling, co-examiner 2014 Abstract Abstract Thanks to mature technologies for measuring and manipulating molecular components, the 21st century promises to transform biology from a science of discovery to a technology for the rational manipulation and engineering of cells. In addition to molecular technologies, the rational understanding of a complex system such as the cell requires also quantitative models able to interpret and predict the dynamic response of cellular molecular networks to perturbations. A conceptual bottleneck is given by the necessity of accounting for self-replication, that is, the fact that molecular networks function and respond to stimuli while embedded in growing cells. The goal of this thesis is to identify which regulatory circuits are activated by cells to coordinate metabolism and gene expression as a function of external stimuli and the growth status. We approach such task by building and validating models that explain and predict regulation of metabolism and gene expression by metabolic-transcriptional circuits in the model bacterium Escherichia coli. Metabolism and gene expression are ideal cellular functions for which to dissect environmental and growth-dependent regulation. Because metabolism fuels the expression machinery with the precursors and energy necessary to operate and the expression machinery synthetizes enzymes to catalyze metabolic fluxes, metabolism and the expression machinery are locked in a de facto mutual dependence affected by both the environment and cell growth. Unravelling regulatory circuits that coordinate metabolism and gene expression is thus key not only to understand cell functioning but also to interpret physiological and molecular data obtained in different conditions. In Chapter 1 we review the state-of-the-art for approaches and methods used to study metabolism in microbes. We describe the progress from relatively mature techniques to reconstruct network topology to comparatively slower unravelling of metabolic feedbacks and regulatory logics. We highlight differences between regulation and control and conclude with suggestions for further development of the field. In Chapter 2 we present an experimental-computational approach to dissect contributions to gene expression by specific transcription factors or by the growthdependent global expression machinery. We apply our approach to the arginine biosynthesis pathway in E. coli, and show that specific regulation dominates during 1 Abstract metabolic steady states, whereas global regulation sets a growth-rate dependent promoter capacity during metabolic adaptations. The approach is validated by precise simulation of gene expression upon simultaneous perturbations in arginine availability and growth rate. In Chapter 3 we identify which metabolic pathways in central metabolism of E. coli are regulated by transcription factors and by metabolite concentrations during growth on eight different carbon sources. We show that by integrating gene expression, metabolite and flux data using regulation and network component analysis, we can pinpoint the regulators and interactions that set flux changes. Our approach predicts CRP as the key regulator of metabolic flux changes, a prediction that we experimentally validate for a diauxic shift. In Chapter 4 we show that quantitative and dynamic coordination between metabolism and gene expression is explained by and large by a handful of metabolictranscriptional regulatory circuits. Quantitative analysis of gene expression and metabolite concentrations reveals that environmental perturbations cause specific local but also distal regulatory responses, which are triggered by propagations of metabolic adjustments and by changes in the expression capacity due to cell growth. In the Conclusions and outlook we summarize the discovered principles for coordination between metabolism and gene expression as a function of cell growth and the environment. Our major finding is that a handful of adaptive transcriptional circuits explain most changes in metabolism and the expression machinery. We show that physiological and molecular data can be described, and sometimes predicted, through model-based characterization of feedback and feedforward loops that involve metabolic fluxes, metabolites, transcription factors and expression machinery components. The complexity of cellular response to changing external conditions is therefore due, in our view, to few regulatory loops, some responding directly to specific perturbations but others indirectly to the propagation of metabolic and gene expression readjustment to growth. Since the metabolic-transcriptional circuits characterized in this thesis explain a substantial part of the dynamic properties of metabolism and gene expression, we envisage that in the long run they will be used to develop larger, coarse-grained and multi-scale models, eventually capturing the whole cell, to predict and manipulate cell behavior. 2 Sommario Sommario Grazie all’avvento di tecnologie per la manipolazione di componenti molecolari, il 21esimo secolo promette di rendere la biologia una tecnologia per l’ingegneria razionale della cellula. In aggiunta a tecnologie manipulative, la comprensione razionale di un sistema complesso come la cellular richiede modelli capaci di interpretare e predirre quantitativamente e in termini dinamici la risposta a perturbazioni nelle sue sottostanti reti molecolari. Un limite concettuale nel produrre questi modelli e’ dato dalla necessita’ di includere l’auto-replicazione, ovvero il fatto che le reti molecolari operano e rispondono agli stimili mentre la cellula cresce e si duplica. Lo scopo di questa tesi e’ di identificare i circuiti di regolazione usati dalla cellula per regolare reti molecolari in funzione di stimoli esterni e della crescita cellulare. Approciamo questo obbiettivo costruendo e validando modelli che descrivono e predicono la coordinazione tra metabolismo e espressione genica attraverso circuiti di regolazione metabolico-transcrizionali nel modello batterico Escherichia coli. Il metabolismo e l’espressione genica sono reti molecolari ideali per disezionare la regolazione esterna da quella dipendente dalla crescita cellulare. Siccome il metabolismo rifornisce il macchinario dell’espressione genica con i precursori per sintetizzare l’RNA e le proteine, e il macchinario dell’espressione genica sintetizza gli enzimi per catalizzare reazioni metaboliche, essi sono legati indissolubilmente da una reciproca dipendenza dettata dall’ambiente e dalla crescita cellulare. Caratterizzare il funzionamento quantitativo di tali circuiti di regolazione genica è quindi essenziale non solo per capire il funzionamento interno della cellula, ma anche per interpretare dati fisiologici e molecolari ottenuti a regimi di crescita cellulare differenti. Nel Capitolo 1, recensiamo lo stato dell’arte in termini di approcci e metodi usati per lo studio della regolazione e del controllo del metabolismo nei microbi. Commentiamo il processo per cui la conoscenza attuale è incrementata in modo relativamente veloce da tecniche ormai mature per la ricostruzione delle tipologie delle reti di regolazione, ma è comparativamente più lento nel dipanare i meccanismi di retroazione metabolica e le logiche dei circuiti di regolazione. Terminiamo ponendo l’accento sull’importante differenza tra regolazione e controllo del metabolismo e suggerendo futuri sviluppi nel campo. 3 Sommario Nel Capitolo 2 presentiamo un approccio per delineare il contributo all’espressione genica da regolatori della trascrizione o dal macchinario per l’espressione genica globale. Applichiamo il nostro approccio alla biosintesi dell’arginina in E. coli, e mostriamo che la regolazione specifica domina in regimi metabolici stazionari, laddove la regolazione globale determina la capacità di trascrizione in regimi di adattamento metabolico. L’approccio è validato da precise simulazioni dell’espressione genica durante simultanee perturbazioni dell’arginina e della crescita cellulare. Nel Capitolo 3 identifichiamo le reazioni del metabolismo centrale che in E. coli sono regolate dall trascrizione, o da metaboliti, durante la crescita cellulare in otto sorgenti di carbonio. Mostriamo che integrando dati molecolari con regulation e network component analysis è possibile identificare i regolatori e le loro interazioni che contribuiscono a regolare i flussi metabolici. Usando i dati in regimi stazionari, il nostro approccio predice correttamente CRP come il solo regolatore dei flussi metabolici durante una transizione diauxica. Nel Capitolo 4 mostriamo che la coordinazione tra il metabolismo e il macchinario dell’espressione genica è descritta da un numero limitato di circuiti di regolazione metabolico-transcrizionali. Un analisi quantitativa dell’espressione genica e dei metaboliti mostra che le perturbazioni attivano sia direttamente che indirettamente i circuiti di regolazione. Questo meccanismo di retroazione è causato dalla propagazione di aggiustamenti metabolici e dalla competizione per la capacità cellulare di espressione genica. Nella Conclusione e sviluppi futuri ricapitoliamo i principi elucidati nella coordinazione del metabolismo e dell’espressione genica. Il risultato principale è aver mostrato che pochi circuiti di regolazione sono sufficienti per spiegare il funzionamento del metabolismo e dell’espressione genica in E. coli. Dati fisiologici e molecolari possono essere interpretati, e talvolta predetti, attraverso la quantificazione dei meccanismi di retroazione realizzati da tali circuiti basati su flussi metabolici, metaboliti, fattori della trascrizione e il macchinario per l’espressione genica. Dato che i modelli dei circuiti di regolazione qui discussi descrivono una parte sostanziale delle proprietà dinamiche del metabolismo e dell’espressione genica, prevediamo che essi potranno essere integrati in modelli cellulari più estesi e multi-scala, fino a raggiungere il livello dell’intera cellula. 4