Diss. ETH No. 11579 Structure of Serum Response Factor core bound to DNA A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the of degree Doctor of Natural Science presented by LUCA PELLEGRINI Laurea in Chimica born July 8th, 1966 Italian citizen Prof. T. J. Richmond, Examiner Prof. K. Wuthrich, Co-examiner Zurich, 1996 Summary: The human protein "immediate-early" as a Serum gene Response Factor (SRF) regulates transcription of the family and of muscle cell-specific dimer to DNA promoter sequences that contain the CC(A/T)6GG, named CArG box. A core and sufficient for the activities of DNA a been identified in 58 amino acids DNA a large consensus decamer domain of about 90 amino acids is necessary binding, dimerization and recruitment of the accessory factors that cooperate with SRF to activate domain is there genes like the actins. It binds transcription. Within the binding motif, number of regulatory core called the MADS box, that has proteins from the animal and the plant kingdoms. This work describes the vector, its subcloning of SRF's in E. coli and overexpression cocrystallization with a DNA the X-ray sequence core domain into the pET3a expression purification to homogeneity, containing structure of the SRF core-DNA its CArG box, and determination of a complex using the multiple isomorphous replacement method. The structure of the SRF core-DNA family of transcription binding motif. dyad axis In the factors complex, of the DNA. The of two a-helices that sits complex shows that the members of the MADS recognize their DNA site via the two fold axis of the principal DNA binding a structurally protein dimer coincides with the element is an antiparallel tails of the SRF groove, phosphates core depart and the edges an opposite place. allowing The N-terminal with the DNA there. The C-terminal part of the hydrophobic (3-hairpin that, element from the other monomer, of the coiled coil of the bases to take to from the coiled coil and penetrate in the A/T rich minor making important interactions MADS box is coiled coil top of the minor groove and is aligned roughly parallel on it. The DNA molecule wraps around the basic N-termini of the helices, contacts with the novel DNA forming a in the protein dimer, pairs four-stranded with the same {} -sheet that covers the side the DNA. The C-terminal ends of the SRF core fold into irregular coils followed by two sheet, excluding it from any short cc-helices that close off the upper surface of the contact with the solvent. Overall, the SRF core has P- a compact, slab-like appearance. The DNA double helix is severely bent towards the major groove in direction of the protein A/T rich part of the CArG box shows exploits these conformational a at both ends of the CArG very features of its narrow box, while the central, minor groove. The SRF recognition site to core achieve sequence- specific binding, with only one base-specific contact in the major groove within the CArG box. The three dimensional structure of the SRF core-DNA of the complex expands general principles governing protein-DNA interaction and provides structural basis to understand how different members of the MADS box recognize DNA sequences that are similar but different. our knowledge the necessary family can Zusammenfassung: Das menschliche Protein "Seram der Response Factor" (SRF) reguliert die Transkription "immediate-early" Genfamilie Dimer an DNA Promoter und Sequenzen muskelzell-spezifischer Gene. mit dem Konsensus-Dekamer CArG Box genannt. Eine Kern-Domane und geniigend Faktoren, die fur von Es bindet als CC(A/T)eGG, ungefahr 90 Aminosauren ist notwendig DNA-Bindung, Dimerisierung und Rekrutierung zusatzlicher zusammen enthalt ein 58 Aminosauren in einer grossen Zahl Transkription aktivieren. mit SRF die von langes Diese Kern-Domane DNA bindendes Motiv, MADS Box genannt, das regulatorischen Proteinen dem Tier- und Pflanzenreich aus identifiziert wurde. Die vorliegende Arbeit beschreibt die Expressions-Vektor pET3a, die Subklonierung Uberexpression in der SRF Kern-Domane in den E.coli und die Cokristallisieren mit einer CArG Box enthaltenden DNA Aufreinigung, das Sequenz und die Bestimmung der Rdntgenkristallstruktur des SRF Kern-Domane/DNA Komplexes mittels MIR. Die Struktur der SRF Kern/DNA Transkriptionsfaktoren-Familie Komplexes zeigt, einem derjenigen antiparallelen der DNA was Kontakte mit den zu zusammen. Phosphatgruppen groove" ein, gehen bildet. Dieses deckt die der DNA Symmetrieachse (C2) des Das DNA bindende Element besteht alpha-Helices, vom wobei sie dort entsprechenden Haarnadel des neues die iiber der "minor um aus groove" die N-Termini der Helices, und den Randern der Basen erlaubt. Die N- C-terminale Teil der MADS Box ist eine mit der fallt die ihr. Die DNA wickelt sich terminalen Stiicke des SRF Kerns reiche "minor Komplex "coiled coil" zweier sitzen, ungefahr parallel Mitglieder der MADS ihre DNA Bindestellen tiber ein strukturell DNA bindendes Motiv erkennen. Im Proteins mit dass die "coiled coil" aus und dringen in die A/T wichtige Kontakte zur DNA machen. hydrophobe beta-Haarnadel, anderen Monomers ein gegeniiberliegende Der die im Dimer 4-strangiges beta-Blatt Seite des "coiled coil" ab. Die C- terminalen Enden des SRF-Kems falten sich zwei kurzen verhindern Kern eine alpha-Helices. so zu Diese schliessen das obere Ende des beta-Blattes ab und jeglichen Losungsmittelkontakt. kompakte scheiben-ahnliche Enden der CArG Box stark unregelmassigen "Coils", gefolgt von zur Im grossen und ganzen hat der SRF Form. Die DNA "major groove" in Doppelhelix ist an Richtung des Proteins beiden gebogen, wahrend der zentrale A/T reiche Teil der CArG Box eine sehr enge "minor groove" besitzt. Der SRF Kern nutzt diese Konformationsbesonderheiten seiner Erkennungsstelle Kontakt in der fur sequenz-spezifisches "major groove" Binden mit einem basen-spezifischen der CArG Box. Die dreidimensionale Struktur des SRF Kern/DNA Wissen iiber allgemeinen Prinzipien, Sie stellt die notwendigen wie verschiedene nur Komplexes welche Protein-DNA strukturellen Grundlagen Mitglieder der MADS zur erweitert Wechselwirkungen lenken. Verfugung um zu verstehen, Box Familie ihre ahnlichen aber unterschiedlichen DNA Bindestellen erkennen konnen. unser Riassunto: La proteina umana Serum geni "immediate-early" forma di dimero a e Response Factor (SRF) regola la trascrizione di geni del tessuto muscolare come le actine. Si chiamato CArG box. Un dominio di circa 90 amminoacidi e' necessario sufficiente per le attivita' di complessamente del DNA, recruitamento dei fattori ternari che cooperano Dentro il "core domain" e' contenuta il DNA, chiamata MADS box, che e' trascrizione del regno animale Questo lavoro descrive esepressione pET3a, ot^ogeneita', la sua la il e una La stata di fattori di trascrizione si e SRF per attivare la trascrizione. identificata in core overexpressione in cocristallizzazione complesso dimerizzazione un grande numero legare di fattori di vegetale. del metodo della sostituzione struttura del (core domain) sequenza di 58 amminoacidi capace di subclonaggio del sua con con una domain del SRF nel vettore di E. coli e purificazione un CArG SRF core-DNA, per multipla isomorfa. SRF core-DNA mostra che i membri della legano fino ad sequenza di DNA contenente b^x, e la determinazione della struttura a raggi x del complesso mezzo lega sotto sequenze di DNA promotore che contengono il decamero CC(A/T)6GG, e famiglia di della al loro sito nel DNA tramite strutturale. Nel compesso, l'asse binario del dimero famiglia MADS un nuovo motivo proteico coincide con l'asse binario del CArG box del DNA. II principale elemento responsabile per il complessamento del DNA e' un "coiled coil" di due alfa eliche situate sopra il solco minore del DNA allineate in modo avvolge attorno con i fosfati "coiled coil" I segmenti e e approssimativamente parallelo ai basici le basi di segmenti N-terminali avere luogo. ad esso. e La molecola di DNA si delle alfa eliche, permettendo Le code N-terminali del SRF core si contatti dipartono dal penetrano nel solco minore del DNA, ivi facendo importanti interazioni. C-terminali del MADS box formano dimero, si allinea con lo stesso una forcina beta idrofobica che, nel elemento dell'altro monomero, formando antiparallelo con quattro "strands", un foglio beta che copre il lato del "coiled coil" opposto al DNA. Le estremita1 C-terminali del SRF terminare in brevi alfa eliche che escludendolo da piegata verso il ogni solco contatto si avvolgono in modo il solvente. La in direzione della specifico, legarla in basi limitate ad una, aH'interno del CArG box. La struttura tridimensionale del conoscenza dei principi che governano base strutturale necessaria per proteine si complesso leghino a capire sequenze simili ma severamente del di questa sequenza di per la sequenza di espande la nostra proteine e DNA, membri differenti della diverse. foglio beta, solco minore molto specifiche SRF core-DNA le interazioni fra come un proprie mentre le interazioni DNA per sono poi proteina ad entrambe le estremita' caratteristiche conformazionali modo del per doppia elica del DNA e' CArG box, mentre il tratto centrale, ricco in A/T, presenta stretto. II SRF sfrutta le irregolare sigillano la superficie superiore con maggiore core e fornisce la famiglia MADS di