Chimica delle macromolecole - Unità didattica 3: La struttura delle proteine Amminocidi, peptidi e proteine: Amminoacidi e loro proprietà. Il legame peptidico. Struttura primarie delle proteine. La Struttura secondaria delle proteine. Struttura terziaria e quaternaria delle proteine. Il ripiegamento delle proteine. Esempi di strutture proteiche, proteine fibrose e globulari. Alcuni principi sul ripiegamento delle proteine. le proteine non ripiegate Autoverifica: Conosci la struttura e la nomenclatura degli amminoacidi? sai descrivere la struttura di un dipeptide? Sapresti descriverne la geometria? Come si può descrivere la geometria di un polipeptide? Quali sono gli elementi comuni di struttura secondaria? Da cosa dipende la struttura terziaria? Come si ripiegano le proteine? Tutte le proteine hanno una struttura univoca e stabile? Come si ottengono informazioni sulla struttura delle proteine? Le proteine ricoprono ruoli essenziali negli organismi • Tre esempi di funzione proteica la alcool deidrogenasi ossida gli alcoli ad aldeidi e chetoni – Catalisi: Praticamente tutte le reazioni chimiche degli organismi viventi sono catalizzate da proteine – Trasporto: Alcune proteine trasportano varie sostanze, come l’ossigeno, gli ioni, ecc. – trasferimento di informazioni: Per esempio, gli ormoni. L’emoglobina trasporta l’ossigeno L’insulina controlla la quantità di zucchero nel sangue Cosa è un amminoacido Una molecola che contiene entrambi i gruppi funzionali amminico e carbossilico. Gli amminoacidi più interessanti dal punto di vista della biochimica sono gli α-amminoacidi, in cui il gruppo amminico è legato al carbonio vicinale rispetto al gruppo carbossilico. H carbonio α R R catena laterale R Cα + H 3N COO – gruppo gruppo amminico carbossilico COO – NH 3 COO – modello sfere e bastoncini NH 3 Gli amminoacidi sono strutture tetraedriche gruppi R non polari, alifatici COO Gli amminoacidi naturali Classificati secondo la catena laterale H 3N C H COO H 3N C H H CH 3 gruppi R aromatici COO H C CH H 2N 2 CH 2 H 2C Glicina Alanina C H CH 2 H 3N C H C H C H 3N H 3N H CH3 C H CH2 CH 3 CH 3 CH 3 S C H 3N H H C OH Fenilalanina H 3N C H COO H 3N H H H 3N COO CH 2 CH 2 C CH 2 NH C NH CH C N H NH3 C H C NH2 NH 2 Lisina Arginina Istidina gruppi R carichi negativamente COO H C CH2 CH2 CH2 C COO CH2 O Asparagina Glutammina H 3N C H COO CH 2 H 2N H CH2 CH2 O C CH 2 COO H 3N C COO CH 2 Cisteina COO H 2N COO SH Serina Treonina C Tirosina Triptofano CH2 CH 2 OH CH 3 H 3N CH 2 CH 2 gruppi R polari non carichi COO H gruppi R carichi positivamente Leucina Isoleucina Metionina CH 2OH H 3N C C CH NH CH 3 H 3N H CH 2 COO CH 2 C H C COO Valina CH 2 H 3N H 3N C H CH 2 CH COO COO CH 3 CH 3 COO H 3N COO CH Prolina COO H 3N COO H 3N C H COO Aspartato Glutammato Alcune proprietà degli amminoacidi ← È importante sapere le abbreviazioni La ionizzazione degli amminoacidi … ed in più ci sono talvolta gruppi ionizzabili in catena laterale La titolazione di acido glutammico e lisina Il legame peptidico Gli amminoacidi possono essere legati tra loro mediante il legame peptidico, per fare i peptidi R1 H 3N CH C OH H H R2 N C H COO O H 2O H 2O H 3N R1 H R2 CH C N C H COO O Diverso comportamento acido-base In un peptide, il gruppo carbossilico e quello amminico non sono più vicinali, per cui il loro comportamento acido-base può anche differire da quello dei singoli amminoacidi costituenti. I gruppi carbossilici e amminici coinvolti nei legami peptidici non possono più ionizzare. I gruppi ionizzabili nelle catene laterali possono ionizzare (le loro proprietà possono comunque subire variazioni rispetto a quelle negli amminoacidi isolati). OH CH 3 CH CH H 3N CH 2 OH H H C C N C C H O H O terminale amminico H CH 2 H CH 3 H CH 2 N C C N C C N C H O H O 3 COO H terminale carbossilico Gli amminoacidi sono molecole chirali Tutti gli amminoacidi naturali hanno chiralità L (come la L-gliceraldeide) Esistono amminoacidi nella configurazione D, ma non sono abitualmente trovati nelle proteine Lunghezza e composizione dei polipeptidi in natura I polipeptidi si trovano in natura con precise dimensioni (peso molecolare) e composizione in amminoacidi. Questa evidenza ‘storica’ può essere desunta anche semplicemente idrolizzando i polipeptidi con acidi, in modo da poter analizzare la miscela di amminoacidi risultante. Le proteine possono essere semplici o coniugate Le proteine semplici sono costituite solo da una o più catene polipeptidiche, mentre quelle coniugate contengono anche parti non proteiche associate, necessarie per la loro funzione. Queste parti sono chiamate gruppi prostetici e le proteine coniugate possono essere catalogate sulla base dei loro gruppi prostetici. Un concetto chiave: I livelli della struttura proteica Struttura primaria Struttura secondaria Struttura terziaria Struttura quaternaria Lys Lys Gly Gly Leu Val Ala His residui amminiacidici -elica catena polipeptidica subunità assemblate Struttura primaria: la descrizione di tutti i legami covalenti (la sequenza, le reticolazioni) Struttura secondaria: l’organizzazione stabile degli amminoacidi in motivi strutturali ricorrenti Struttura terziaria: il ripiegamento di un polipeptide in una particolare forma tridimensionale Struttura quaternaria: la relazione strutturale delle diverse subunità (catene polipeptidiche distinte), se presenti La struttura delle proteine è stabilizzata da interazioni deboli La ‘stabilità’ di una proteina è la sua tendenza a mantenere una struttura precisa (detta nativa). In termini termodinamici, la stabilità delle proteine si valuta comunemente con ΔG dell’ordine di 20-65 kJ/mole (poco!) Una lunga catena polipeptidica può essere molto disordinata ed avere molteplici diversi modi di interagire (alta entropia). Le interazioni che permettono ad una catena disordinata (unfolded) di ripiegarsi in una struttura unica (folded) sono proprio le interazioni deboli di cui si è parlato in precedenza: Legami idrogeno Interazioni ioniche Interazioni idrofobiche Tra 2 cisteine si possono instaurare legami disolfuro. Questo legame covalente è molto più forte delle interazioni deboli, ma sono effettivamente le numerosissime interazioni deboli che rendono stabile (e scelgono) una struttura proteica. Ma una delle grandi driving forces per il ripiegamento delle proteine è la possibilità dell’acqua di formare più legami idrogeno se la proteina fa legami deboli con se stessa Viaggio nella struttura delle proteine: La struttura secondaria La geometria del legame peptidico Il legame peptidico non è un legame covalente singolo, ma ha una certa percentuale di doppio legame, di conseguenza non c’è libera rotazione tra i gruppi attaccati tramite esso. C Il carattere di parziale doppio legame del legame peptidico fa sì che ogni peptide può essere pensato come un piano rigido. Ogni piano può, invece, ruotare intorno ai legami dell’azoto e del carbonio carbossilico con il carbonio α per dare le conformazioni del polipeptide piano del legame peptidico N O C H ψ H peptide φ C carbonio α R H N gruppo in catena laterale C O C piano del legame peptidico φ = 180 , ψ =180 Angoli diedri importanti La forma geometrica della catena polipeptidica dipende da tutti gli angoli Ф e ψ che si susseguono lungo la catena Ma non tutte le combinazioni sono possibili, a causa dell’impedimento sterico (un gruppo che dovrebbe occupare lo spazio di un altro) Cα Cα Cα raggio di contatto per atomi non legati ON Cα N H C Cα H raggio di contatto per atomi non legati H Cα O H Cα C C Cα H φ = 180 , ψ = 0 Cα O C N H O H Cα O Cα Cα un’altra rotazione di 120° diφ muove il carbonile ingombrante il più lontano possibile dalla catena laterale H R N φ = –60 , ψ = 180 Cα C H R N O φ = 0 , ψ = 180 C R N O N H R C O H Cα O H Cα C N O N H φ= 0 , ψ = 0 α-elica foglietto β parallelo tripla elica del levogira foglietto β antiparallelo collagene 180 +4 II +5 C –4 90 ψ(gradi) Ramachandran e collaboratori hanno pensato di diagrammare gli angoli φ e ψ delle proteine note e hanno verificato la presenza di zone consentite e zone non consentite del piano φψ. Tra le zone si trovano motivi strutturali caratteristici. Questo grafico, ora noto come diagramma di Ramachandran, mostra le conformazioni ‘popolate’ degli angoli di torsione e le zone ‘proibite’ che sono poco popolate. –5 –3 2 αL 0 3 n=2 α π –90 +3 +5 –4 –180 –180 +4 –5 –90 α-elica destrogira 0 φ(gradi) 90 anello chiuso 180 Diagramma di Ramachandran ideale e reale (da dati strutturali) Ideal Real (a kinase) Ramachandran Plots Il legame idrogeno nelle proteine Dalla discussione fatta in precedenza risulta che il gruppo carbonilico delle proteine contiene un ossigeno che può accettare un legame idrogeno, mentre all’azoto ammidico è legato un idrogeno che può fungere da donatore di legame idrogeno. Questi legami idrogeno possono avvenire con molecole di acqua o, convenientemente, tra parti diverse di una proteine (l’idrogeno di un azoto ammidico con un ossigeno carbonilico sulla stessa catena o su altre catene polipeptidiche). Spesso in una proteina molti legami idrogeno si formano allo stesso tempo Un legame idrogeno tra gruppi di due catene polinucleotidiche L’α-elica È uno dei motivi strutturali più diffusi (e prima scoperti). Grazie a legami idrogeno, gli amminoacidi si organizzano un un’elica DESTROGIRA che compie un giro completo ogni 3.6 ammminoacidi (residui), equivalente a 13 atomi (si dice anche elica 3.613). Ogni amminoacido si estende per 1.5 Å lungo la catena (ogni giro è quindi 1.5 x 3.6 = 5.4 Å, il passo dell’elica). Diverse rappresentazioni dell’ α-elica. L’α-elica L’elica (senza considerare le catene laterali, che puntano verso l’esterno) ha un diametro di 6 Å. Il carbonile di CIASCUN peptide forma un legame idrogeno con l’N-H che sta 4 residui più in alto lungo la catena. I legami idrogeno sono nella direzione dell’asse dell’elica, tutti i carbonili puntano verso una direzione (l’alto) mentre tutti I legami N-H puntano nella direzione opposta. Gli angoli di torsione per ottenere un’elica di questo tipo sono φ=-60° e ψ tra -45 e -50°. Il numero di residui coinvolto in un’elica può variare. La subunità β dell’emoglobina Un modello ideale di α-elica (poly-Ala) Solo n-4 legami ad idrogeno intra-α-elica si possono formare in un’elica lunga n, mentre i primi 4 ossigeni carbonilici e gli ultimi 4 idrogeni ammidici alle estremità dell’elica possono formarli con altri gruppi non parte dell’elica (capping dell’elica) Dallo studio dei poliamminoacidi (polipeptidi fatti da un tipo di amminoacido) si vede che non tutti gli amminoacidi hanno la stessa propensione a formare α-eliche: è particolarmente frequente trovare residui con gruppi R poco ingombranti (Ala) mentre si trovano a fatica gruppi carichi, la cui repulsione disordina l’elica. Si vede, ad esempio, che a valori di pH in cui i gruppi carichi si scaricano (protonazione dei carbossili, deprotonazione degli ammoni) la propensione a formare la doppia elica di tali amminoacidi aumenta. La prolina deforma (o interrompe) l’α-elica. Le proteine fibrose e le α-eliche Le proteine possono essere distinte, sulla base della loro solubilità, in proteine fibrose, globulari e di membrana. Nelle proteine fibrose, le catene polipeptidiche sono allungate e allineate parallelamente alla direzione della fibra. Sono proteine spesso insolubili e con grande resistenza meccanica, che ricoprono ruoli strutturali in natura. L’α-cheratina ad esempio (unghie, capelli …) è costituita di catene con una porzione centrale di 311-314 residui in α-elica, e porzioni N- e Cterminali non a elica. α-elica Coiled coil di due α-eliche Protofilamento (copia di coiled coil) Filamento (quattro protofibrille ritorte in senso destrogiro I residui idrofobici sono nelle parti affacciate delle eliche. La torsione delle eliche serve a nascondere i tratti di residui idrofobici all’acqua (facendoli interagire tra loro sulle due eliche). È una perdita di energia compensata dall’esclusone dell’acqua. Legami disolfuro possono tenere rigidamente insieme le catene. Eliche alternative Esistono anche altri tipi di eliche nelle proteine, stabilizzate da legami idrogeno. L’elica 310 contiene 3 residui per giro (con 10 atomi per giro, facendo legami idrogeno tra carbonili e idrogeni ammidici residui distanti 3 residui lungo la catena – detto i+3). Normalmente queste eliche sono meno frequenti e/o più corte dell’α-elica. Altre strutture ad elica sono il nastro 27 (legami idrogeno tra carbonile e azoto ammidico a i+2) e l’elica π, che ha 4.4 residui per giro (e 16 atomi) per cui è anche detta elica 4.416 (legami H a i+5.) Esempio di Ala8 in elica 310 Esistono anche eliche levogire: l’esempio del collagene 1000 amino acidi di lunghezza, circa 300 nm per 1.4 nm di diametro Le catene del collagene hanno una composizione molto particolare (principalmente glicina, prolina ed idrossiprolina – una modifica dell’amminoacido prolina). Questi residui non si ripiegano facilmente in una delle forme più ‘canoniche’ ma assumono una forma elicoidale molto più estesa dell’α-elica. Le tre eliche che compongono il tropocollagene (la fibrilla base a tripla elica) hanno un passo di 2.9 Å (rispetto agli 1.5 Å dell’α-elica) e 3.3 residui per giro di elica. Ogni elica ha geometria locale LEVOGIRA, mentre la superelica risultante è destrogira. Ogni 3 residui, un amminoacido di ogni elica si trova affacciato all’interno della tripla elica, in una regione di grande ingombro sterico: solo la Gly (o Ala), che ha gruppo R molto poco ingombrante può occupare questa posizione (per cui in ogni catena, un amminoacido ogni 3 è Gly). Le tre catene sono legate da ponti idrogeno (l’N-H delle Gly lega un C=O della Pro o Hyp adiacente) e da altri legami idrogeno. La fibra è quindi legata fortemente. Esistono diversi tipi di collagene: il TIpo I in ossa, tendini e pelle (fatto da due catene uguali ed una diversa), il Tipo II nella cartilagine ed il Tipo III nei vasi sanguigni fatti di 3 catene uguali. tropocollagene In una fibra di collagene, tante triple eliche lunghe 300 nm sono sfasate e tenute insieme tra loro da legami deboli. Al microscopio elettronico queste hanno una apparenza a bande, risultante dalla presenza di interruzioni (buchi) tra le catene. La presenza di questi buchi sembra legata alla presenza di zuccheri legati covalentemente alle idrossiproline in questa posizione. Questi potrebbero avere utilità nel controllare l’organizzazione della struttura o nel servire da punto di nucleazione per la crescita di cristalli di idrossiapatite che formano le ossa (ove questi cristalli sono, appunto immersi in una matrice di collagene. I foglietti beta È un’altra struttura secondaria stabile e molto diffusa delle proteine, stabilizzata dalla formazione cooperativa di un grande numero di legami idrogeno. È detta foglietto ripiegato β o struttura β. Nella struttura, i carboni α stanno nelle pieghe delle ‘strisce’, i C=O puntano in una direzione e gli N-H che li legano nella direzione opposta. Tutti i gruppi formano legami H. Antiparallel β-sheet Foglietti β paralleli o antiparalleli Ogni catena del foglietto può essere pensata come un’elica con passo 2 (2 residui ogni giro). Poiché il carbonio α è tetraedrico, ogni piano del legame peptidico è piegato rispetto a quello successivo (ed il foglietto risulta piegato). I legami idrogeno in questa struttura sono essenzialmente inter-strand. La catena polipeptidica è nella conformazione più estesa possibile (detta talvolta conformazione ε). Il foglietto antiparallelo è un po’ più esteso di quello parallelo (che è più piegato, per formare i legami H, che sono piegati). I residui sono distanti 0.347 nm nel foglietto antiparallelo (0.325 nm in quello parallelo). I gruppi R si estendono perpendicolarmente rispetto al piano del foglietto. Ci sono proteine costituite prevalentemente di α-eliche, altre di β-sheets, mentre altre hanno presentano entrambe le strutture in una stessa catena polipeptidica. Nella seta, ad esempio, le catene polipeptidiche sono organizzate principalmente in foglietti β antiparalleli orientati nella direzione dell’asse della fibra. La conformazione già molto estesa del foglietto motiva la scarsa estensibilità della fibra, che però è molto flessibile. La seta del ragno è, effettivamente, un materiale dalle proprietà meccaniche ragguardevoli: si potesse fare una corda di seta di ragno dello spessore di una matita, sarebbe sufficientemente resistente per fermare un Boeing 747 in volo! α-eliche e zone disordinate danno flessibilità La struttura nanotecnologica della seta In genere si trovano foglietti paralleli in strutture grandi (almeno 5 catene per foglietto) mentre foglietti antiparalleli possono anche essere costituiti di 2 catene. Domini microcristallini di β-sheets danno resistenza La fibroina (della seta) o la β-cheratina (piume degli uccelli) Sono proteine fatte di foglietti β antiparalleli ricchi di Gly e Ala (o Ser) alternati, in modo che da un lato del foglietto possano essere tutte le Gly e dall’altra tutte le Ala/Ser. In questo modo più foglietti possono impilarsi facendo combaciare perfettamente le catene laterali. Le proprietà meccaniche delle fibre dipendono dalla struttura: fibre flessibili ma non estensibili. Il β-turn Le catene polipeptidiche devono anche fare ‘inversioni di direzione’ ad esempio nelle proteine globulari. I β-turn sono ripiegamenti stretti, detti anche ‘ripiegamenti inversi’. Nel β-turn, il carbonile di un residuo fa legame idrogeno con l’idrogeno ammidico 3 residui oltre. Questo legame H stabilizza il ripiegamento. Certi amminoacidi, come la Pro o la Gly compaiono spesso nei β-turn e la conformazione del ripiegamento dipende dalla sua composizione amminoacidica. Gly ha la catena laterale più piccola per cui si può adattare alle ‘richieste’ strutturali degli altri amminoacidi, mentre Pro ha l’angolo Ф fissato dalla struttura ciclica che promuove il ripiegamento. I β-turn facilitano la formazione di foglietti β antiparalleli. O e R3 dalla stessa parte: ingombro, O e R3 da parti opposte ok se R3=H Altre irregolarità nella formazione di legami idrogeno tra le catene di foglietti β antiparalleli portano a distorsioni della geometria: sono detti ripiegamenti β. Coinvolge 2 residui su una catena (che si piega e deforma il foglietto) ed uno sulla catena adiacente legata alla prima. ripiegamento classico ripiegamento G1 ripiegamento largo A causa della stabilizzazione energetica conferita dai legami H, è difficile che una proteina non contenga nessun elemento di struttura (secondaria). La struttura terziaria è il ripiegamento di una singola catena polipeptidica nello spazio. Le informazioni che portano ad una struttura spaziale precisa di una proteina sono tutte contenute nella struttura primaria, anche se seguendo regole che non sono totalmente note, finora. Le eliche e i foglietti (struttura secondaria) si forma, a causa della stabilizzazione impartita dai legami H. In seguito, questi si associano in una struttura compatta: si vede che nessuna proteina è stabile come un singolo strato di polipeptide. Ci sono modi comuni per ottenere questo impacchettamento. Come conseguenza del fatto che i tratti non interessati dalla struttura secondaria sono generalmente brevi, questi congiungono direttamente le strutture secondarie, senza attorcigliamenti o annodamenti complicati. Questo limita la varietà delle strutture terziarie, che formano delle famiglie. Le proteine si ripiegano per formare le strutture più stabili possibili. La stabilità deriva dalla i) formazione del maggior numero possibile di legami H intramolecolari e ii) dalla riduzione della superficie accessibile al solvente. Le proteine globulari sono le più diffuse contengono un quantitativo variabile di α-eliche e β-sheets. Ad esempio la mioglobina, una proteina coniugata di 17 kDa che trasporta ossigeno nei muscoli, sono presenti 8 segmenti di α-elica di lunghezza variabile da 7 a 26 a.a. Lo spazio tra le eliche è riempito dalle catene laterali (idrofobiche) mentre quelle polari sono esposte verso il solvente, come spesso succede. È relativamente insolito che una proteina globulare contenga una proporzione così grande di α-eliche. residui idrofobici in verde Una proteina globulare più tipica è la ribonucleasi A bovina (bovine ribonuclease A) una piccola proteina (14.6 kD, 129 residui) che contiene alcune eliche corte, una sezione importante di β-sheets antiparalleli e alcuni ripiegamenti β, oltre ad alcuni segmenti senza struttura definita. Codice colori amminoacidi: Il nucleo di una proteina spesso contiene soprattutto parti strutturate in eliche o foglietti, poichè in questo modo i gruppi polari C=O e N-H sono neutralizzati nella formazione di legami H e possono stare nell’interno idrofobico di una proteina. Nei casi in cui un’elica si affaccia al solvente, ecco che presenta una faccia con residui polari o carichi ed una con residui idrofobici (elica anfipatica). Si nota che eliche completamente esposte sono polari/cariche. Struttura della calmodulina (una proteina che lega il calcio Con un’elica totalmente esposta al solvente) Struttura della flavodoxina (uno scambiatore di elettroni con un’elica anfipatica esposta al solvente solo su una faccia) L’impaccamento delle proteine Calcolando il volume delle proteine globulari e la somma dei volumi di van der Waals dei singoli amminoacidi, si può vedere che la densità di impaccamento delle proteine è in genere 0.72-0.77. Questo significa che ci sono spazi vuoti (molto piccoli) nell’interno della proteina che possono conferire un certo grado di flessibilità meccanica. La maggior parte di queste cavità non sono grandi a sufficienza per ospitare molecole (acqua). I coil o random coil (gomitolo statistico, in Italiano) sono quelle parti di catena polipeptidica non interessata da una struttura secondaria. Queste parti sono, spesso, ugualmente strutturate, ma in maniera più variabile, grazie alle interazioni delle loro catene laterali (i gruppi R). Queste interazioni sono molto importanti per stabilizzare le strutture proteiche (vedi modello a destra) Stabilizzazione del β-sheet Stabilizzazione dell’α-elica La calmodulina (di Paramecio) che lega il calcio mediante regioni a loop non strutturate Da dati ai raggi X a 1.0 Å Catene disordinate e dinamica nelle proteine Esistono anche tratti di catena polipeptidica che sono ‘disordinati’ (e spesso non appaiono nelle mappe di diffrazione ai raggi X). Può essere che siano tratti flessibili che si possono muovere o che assumono posizioni alternative (per questo non appaiono chiari nella struttura). Spesso catene cariche sulla superficie delle proteine non sono strutturate (molte delle catene laterali delle lisine superficiali della mioglobina, ad esempio). Le proteine sono comunque mantenute strutturate da interazioni deboli, per questo sono comunque consentiti movimenti strutturali, anche rapidi. Talvolta sono a carico di un singolo atomo, talvolta di un’intera porzione della catena polipeptidica. Possono essere indotti dall’agitazione termica o da meccanismi precisi di induzione. Le vibrazioni degli atomi delle proteine sono solitamente movimenti veloci e limitati (0.5 Å). I movimenti collettivi sono più lenti e coinvolgono interi tratti di catena legati covalentemente. Un esempio: il movimento dei domini flessibili di legame degli antigeni negli anticorpi. Avvengono sulle scale di 10-3-10-12 secondi e dipendono anch’essi dall’energia termica. Transizioni conformazionali (10-9-103 secondi) coinvolgono intere porzioni di catena che si sposta anche di grandi distanze (1 nm). Possono avvenire in risposta a stimoli precisi o all’instaurazione o rimozione di interazioni specifiche. Sono importantissime per la catalisi enzimatica Le forze che guidano il ripiegamento tridimensionale delle proteine globulari Due importanti tendenze razionalizzano il ripiegamento delle proteine globulari: -Una catena polipeptidica di L-amminoacidi ha, anche se non ha struttura secondaria, la tendenza ad attorcigliarsi nel senso destrogiro. Questo fa si che le catene tendano a disporsi preferenzialmente in una forma destrogira, ad esempio negli incroci necessari per la formazione di foglietti β paralleli. Antiparallelo rotazione destrogira naturale di una catena polipeptidica Parallelo, destrogiro Molto diffusa Si può formare il motivo βαβ Parallelo, levogiro rara -Il ripiegamento tende a nascondere i residui idrofobici all’interno della proteina, per non esporli al solvente. Le proteine globulari possono essere classificate sulla base del tipo di nucleo idrofobico e di geometria dello scheletro che sono impiegate per nascondere i residui idrofobici. Il ‘nucleo idrofobico’ è quella regione in cui si raccolgono per interagire tra loro e non con il solvente. Si possono razionalizzare i ripiegamenti delle proteine globulari come strati di scheletro ripiegato, in modo che tra gli strati si possano ‘nascondere’ i residui idrofobici. Più di metà delle proteine globulari note ha due strati, circa un terzo ne ha tre, poche ne hanno quattro o cinque. A volte non è facile definire gli strati o contarli. Strato 1 Strato 2 (a) Citocromo c I residui idrofobici sono sepolti tra gli strati (b) Fosfoglicerato kinasi (Dominio 2) Parti gialle=nuclei idrofobici (c) Fosforilasi (Dominio 2) Gli strati possono anche essere geometricamente curvi, come per la trioso fosfato isomerasi, che ha uno strato centrale di β-sheet parallelo ed uno strato esterno di α-eliche. (d) T rioso fosfato isomerasi Oltre che per gli strati, le proteine sono classificabili sulla base della struttura secondaria che contengono (α-eliche antiparall, β-sheet paralleli o misti, β-sheet antiparall. proteine ricche di metalli o disolfuri). Le similitudini della struttura terziaria non devono ingannare su similitudini di funzione: l’omologia funzionale è spesso dipendente da similitudini strutturali su una scala molto più piccola che l’intera proteina. Proteine di eliche antiparallele. È il modo più semplice per impaccare α-eliche. Le proteine quindi consistono di mazzetti (bundle) di eliche, spesso con una torsione levogira. La maggior parte di queste proteine è fatta di 4 eliche. Le globine sono un gruppo importante di proteine di α-eliche: sono costituite da due strati di eliche, uno perpendicolare all’altro e la catena polipeptidica che passa continuamente da uno strato all’altro. la proteina del virus del mosaico del tabacco la mioglobina Proteine di β-sheets paralleli o misti Si nota che i β-sheets paralleli distribuiscono i residui idrofobici su entrambi i lati del piano. Di conseguenza, nessuno dei lati del foglietto può essere esposto al solvente: i foglietti paralleli sono quindi nel nucleo delle proteine che li contengono. Una struttura importante è il β-barrel (barile β), in cui 8 catene formano un foglietto cilindrico affiancato da eliche a loro antiparallele che formano un cilindro esterno di eliche parallele tra loro. Questa è la struttura della trioso fosfato isomerasi, già vista. entrambi i cilindri hanno una torsione destrogira Un altro motivo strutturale comune basato su foglietti paralleli o misti è un ‘muro’ interno di foglietto β attorcigliato protetto dal solvente da entrambi le parti da eliche. Queste strutture possono essere pensate come fatte di 3 strati di scheletro e quindi hanno 2 nuclei idrofobici. Un esempio è l’esokinasi. esokinasi Proteine con foglietti antiparalleli I foglietti antiparalleli dispongono, di solito, i residui idrofobici su un solo lato, per cui possono avere un lato esposto al solvente. La struttura minimale è a 2 strati, per proteggere il nucleo idrofobico. A volte la geometria è a barile (i barili contengono in genere un numero pari di catene e possono essere o tutti paralleli o antiparalleli). A volte le catene sono interbloccate con topologie complicate che ricordano le ‘Greche’. inibitore della tripsina dalla soia Le proteine contenenti metalli o ricche in ponti disolfuro Queste sono proteine generalmente piccole (100 residui) la cui struttura è fortemente influenzata dalla presenza di metalli o legami disolfuro. La struttura di queste proteine ricche in ponti disolfuro diventa instabile se i ponti disolfuro sono rotti. Alcune hanno ripiegamenti simili alle proteine viste finora. L’insulina è un esempio di polipeptide ricco in disolfuri La ferrodoxina è ricca in ferro (come fa presumere il nome stesso) Insulina ferrodoxina I coiled-coil Il motivo strutturale dell’α-cheratina è detto coiled-coil. È un motivo presente anche in altri tipi di proteine non costituite esclusivamente di eliche. In un mazzo di eliche ce ne possono essere 2, 3 o 4 e possono essere parallele o antiparallele. Un esempio di coiled-coil molto esteso è la coda della miosina, proteina motore che si muove sulle fibre di actina Elementi di struttura sovrasecondaria Sono anche chiamati motivi strutturali, o ripiegamenti (folds). Si tratta di raggruppamenti caratteristici di strutture secondarie trovate nelle proteine. Alcuni grandi motivi strutturali possono comprendere l’intera proteina, altri sono molto semplici. Ad esempio, il coiled-coil si può intendere con motivo strutturale. A volte si possono individuare DOMINI di ripiegamento in lunghi polipeptidi: in questo caso, tratti diversi dello stesso polipeptide si ripiegano indipendentemente (e uno può essere ripiegato indipendentemente dagli altri). A volte anche la struttura terziaria è reminiscente della divisione in domini, e la proteina appare costituita di sezioni globulari collegate da filamenti non strutturati. Più comunemente, gli estesi contatti tra i domini non permettono di vedere chiaramente tale suddivisione. Alcuni moduli della titina Esempi di motivi strutturali: Due semplici motivi strutturali che possono nascondere residui idrofobici, creando due strati nella proteina Già visto in precedenza, eliche (destrogire e, raramente, levogire) per fare foglietti β paralleli La tendenza dei β-strand di attorcigliarsi crea strutture come i β-barrel o i foglietti β attorcigliati. I motivi sono la base per una classificazione dei ripiegamenti delle proteine Piruvato chinasi: una complessa struttura in cui si nota un motivo β-α-β Altre consuetudini … Quando entrambi presenti in una proteina, α-eliche e β-sheet fanno di solito parte di due strati strutturali distinti, perché non riescono a formare facilmente legami H tra loro. Più spesso che no, elementi vicini nella struttura primaria restano in prossimità anche in quella terziaria, ma non è una regola. Non si possono formare incroci o nodi nel passare da un elemento di struttura secondaria all’altro. α-Emolisina di Staphilococcus aureus: una proteina con un βbarrel che protrude e che si inserisce nella membrana cellulare creando un buco che porta alla lisi della cellula. Helix- turn- helix Beta sandwiches 4 α bundle Le proteine di membrana si sono adattate ad un ambiente idrofobico La struttura della batteriorodpsina, una proteina pompa che sposta protoni attraverso la membrana (verso fuori) La struttura quaternaria • non lineare • tridimensionale • formata da legami idrogeno, legami covalenti (disolfuri), impaccamento idrofobico ed esposizione di superfici idrofiliche • le strutture favorevoli sono frequenti e sono state catalogate Esempi di altre strutture quaternarie Tetramero SSB, permette il legame coordinato al DNA Esamero DNA elicasi, legame coordinato al DNA e idrolisi di ATP Filamento ricombinasi, per il completo ricoprimento di una molecola estesa In molte proteine, la struttura quaternaria si presenta simmetrica il legame con l’O2 ha effetti strutturali su tutta la proteina, cambiando la propensione stessa di legare l’O2. Come nell’emoglobina, la struttura quaternaria consente un livello aggiuntivo di funzionalità (o di complessità) Generalmente, solo una piccola frazione della superficie proteica è conservata Invariante (il residuo è sempre lo stesso, es: Asp) Conservato (il residuo è generalmente simile, es: carico neg.) non conservato (diversi residui in diverse specie) Le chaperonine e l’assistenza al ripiegamento N =ripiegamento ‘nativo’ Le chaperonine sono grandi complessi di proteine fatti a doppio anello il cui ruolo in vivo è assistere al ripiegamento delle proteine Le Chaperonine cercano di controbilanciare il ripiegamento delle proteine in forme non-native e l’aggregazione delle proteine - Durante il folding de novo - Nelle condizioni di stress (es.: ad alta temperatura – sono a volte detti ‘heat shock proteins’) Cause dell’aggregazione Interazioni idrofobiche Legami idrogeno intercatene Affollamento intracellulare U = catena non ripiegata (unfolded) N = Proteina ripiegata in modo nativo I = intermedio parzialmente ripiegato Il meccanismo di assistenza al ripiegamento delle chaperonine 1- Legano i polipeptidi non ripiegati in modo nativo attraverso interazioni idrofobiche 2- Permettono ai polipeptidi di ripiegarsi in un ambiente idrofobico isolato 1. 2. 3. 4. Il polipeptide non-nativo si lega all’anello trans (lontano a GroES) di GroEL 7ATP (equatoriali) e GroES si legano all’anello cis di GroEL Dissociazione dei 7ADP e di GroES dall’anello cis di GroEL Il dominio apicale di GroEL ruota e cambia conformazione per raddoppiare il volume della sua cavità e mutare le proprietà superficiali da idrofobiche a idrofiliche CHAPERONI CITOSOLICI di Coli e possibile utilizzo contro corpi di inclusione Si possono usare chaperoni come Schlieker et al. -“disaggregasi” che disaggregano il corpo es ClpB - “chaperoni folding” es DnaK e GroEL che intervengono anche nel folding de novo - “chaperoni holding” che prevengono l’aggregazione oppure coaggregano con gli aggregati per richiamare le disaggregasi Oltre ai chaperoni è possibile usare proteasi per disaggregare i corpi di inclusione TF incontra DnaK 5-18% Polipeptide nascente Intermedi del folding Proteina Nativa Incotra GroEL aggregati 10-15% Hsp60 (GroEL), Hsp70 (DnaK) e Hsp90 (HtpG), assistendo il folding, possono aiutarlo mandandolo “avanti”e prevenendo così l’aggregazione. Però queste proteine non sono in grado direttamente di “soccorrere” grossi aggregati. Problematica con alto riscontro nell’espressione di proteine ricombinanti eterologhe La sovraespressione porta ad un livello di aggregazione proteica elevato: CORPI D’INCLUSIONE Sempre maggiore è l’interesse riscontrato dagli studi che descrivono l’eterogeneità della struttura dei corpi d’inclusione e le interazioni dinamiche delle proteine precipitate sotto questa forma con la frazione solubile. Come si determina sperimentalmente la struttura delle proteine? Cristallografia ai raggi X • • • • cristallizzare una proteina bombardarla con i raggi X e registrare il disegno di diffrazione determinare la mappa di densità elettronica dallo scattering e dalla fase mediante trasformata di Fourier: Utilizzare la densità elettronica e le conoscenze biochimiche sulla proteina per raffinare le informazioni ed ottenere un modello "All crystallographic models are not equal. ... The brightly colored stereo views of a protein model, which are in fact more akin to cartoons than to molecules, endow the model with a concreteness that exceeds the intentions of the thoughtful crystallographer. It is impossible for the crystallographer, with vivid recall of the massive labor that produced the model, to forget its shortcomings. It is all too easy for users of the model to be unaware of them. It is also all too easy for the user to be unaware that, through temperature factors, occupancies, undetected parts of the protein, and unexplained density, crystallography reveals more than a single molecular model shows.“ - Rhodes, “Crystallography Made Crystal Clear” p. 183. Cenni storici 1864 1895 Viene cristallizzata l’ emoglobina. Röngten osserva che quando i raggi catodici (elettroni) colpivano un bersaglio metallico si originava una nuova forma di radiazione penetrante, che egli chiamo’ raggi X. 1912 Facendo attraversare dai raggi X un cristallo di solfuro di zinco Von Laue ottiene i primi diffrattogrammi. W.L. Bragg e W.H. Bragg propongono una correlazione semplice tra la figura di diffrazione ottenuta con i raggi X e la disposizione degli atomi nel cristallo che ha generato la figura (legge di Bragg). Anni ‘30 Bernal, Crowfoot, Bragg, ottengono i primi diffrattogrammi da cristalli di proteine (insulina, emoglobina, mioglobina). 1941 Atsbury ottiene il primo diffrattogramma ai raggi X del DNA. 1951 Pauling e Corey propongono la struttura di α-elica e foglietto β in base a considerazioni teoriche. 1953 Watson e Crick propongono la struttura a doppia elica del DNA sulla base delle analisi diffrattometriche ai raggi X di Franklin e Wilkins. 1954 Perutz e coll. elaborano i metodi basati sull’ impiego dei metalli pesanti per risolvere il problema delle fasi nella cristallografia ai raggi X. 1960 Kendrew descrive la struttura della mioglobina a una risoluzione di 2 Å. Perutz propone la struttura della emoglobina, piu’ grande, ad una risoluzione inferiore. Anni ‘80 Hartmut Michel risolve la struttura (3 Å) della prima proteina di membrana (centro di reazione fotosintetico). Anni ‘90 Diviene possibile la cristallografia risolta nel tempo. 2000 Vengono risolte le strutture (3 Å) delle subunita’ L e S del ribosoma (circa 1.5 e 1 MD rispettivamente). Cristallografia ai raggi X • • • • • • • Servono grandi quantità di proteine cristallizzate (le proteine devono cristallizzare) È difficile cristallizzare le proteine Molto difficile per proteine idrofobiche (transmembrana) Più accurato dell’NMR Costoso: $100,000/proteina Accesso a radiazione adatta Tempo di calcolo per risolvere la struttura Cristallografia a raggi X • Ottenere cristalli della proteina – 0.3-1.0 mm – Le singole molecole sono ordinate in modo periodico, ripetitivo. • La struttura è determinata dai dati di diffrazione. problema fondamentale è che l’ intensità dello scattering dei raggi X risultante dall’ interazione con una singola molecola è troppo debole per dare informazioni utilizzabili. → Con un cristallo l’ ampiezza dello scattering viene amplificata di un fattore pari al numero di cellule unitarie che formano il cristallo esaminato. Condizioni per la cristallizzazione di proteine • Proteina pura > 97% e in grande quantita’. • Lenta precipitazione da una soluzione sovrasatura → metodo hanging drop. • Giocano un ruolo molti parametri critici: pH, temperatura, concentrazione della proteina, natura del solvente e del precipitante, ligandi della proteina, etc. • Alcuni cristalli non diffrangono affatto o troppo poco (disordine intrinseco), altri sono troppo piccoli o troppo fragili. Le proteine nei cristalli tendono a impaccarsi lasciando fra loro larghi spazi Impaccamento della glicolato ossidasi → Struttura ‘nativa’ → Diffusione di ligandi, metalli pesanti Diffrazione a raggi X Risoluzione Spettroscopia NMR • I protoni risuonano ad una frequenza che dipende dal loro intorno chimico. • Questo può essere impiegato per caratterizzare una struttura. • Non ha bisogno di cristalli, la proteina può essere in soluzione (anche se in genere molto concentrata). • A risoluzione più bassa della cristallografia ai raggi X. Spettroscopia NMR • • determinare delle costrizioni (distanze, angoli) • • da usare per determinare una struttura Proteine in soluzione acquosa, mobili, vibrano e si mescolano grazie all’agitazione termica l’NMR rileva i chemical shift dei nuclei atomici con spin non nullo a causa delle interazioni che hanno con l’ambiente circostante determina le distanze tra coppie di atomi impiega, poi, conoscenze chimiche e biochimiche sulla proteina per determinare famiglie di modelli. Campo magnetico NMR NOE (Nuclear Overhauser Effect) Risonanza Magnetica Nucleare (NMR) • • • • • • Proteine in soluzione Limite di dimensione ~ 40 kDa Proteine stabili a lungo Marcatura con 15N, 13C, 2H. Strumentazione molto costosa Tempo per assegnare le risonanze Pro e contro X-ray NMR • Richiede cristalli, problematico • • Non ha limiti (teorici) di grandezza Possibile in soluzione, più semplice • Limitato a proteine fino a circa 300 residui • Piú preciso • Meno preciso • Risoluzione • Numero di vincoli • Struttura può essere deformata dai cristalli, rigida • Struttura nativa in soluzione, flessibile • Una “soluzione“ • Molti modelli X-ray NMR Fluorescence Resonance Energy Transfer • • • • • è spesso descritto come “righello molecolare” segmenti di una proteina sono etichettati con fluorofori il trasferimento di energia avviene quando donatore ed accettore interagiscono, questo dipende dalla distanza e decresce come 1/d6 dove d è la separazione tra donatore ed accettore donatore ed accettore devono essere distanti meno di 50 Å, l’intensità di emissione dell’accettore è sensibile alle variazioni di distanza si possono individuare coppie di punti di catena che sono, ad esempio, separati quando la catena non è ripiegata e prossimi quando la catena è ripiegata. Protein DataBank (PDB) X‐ray: 58,000 NMR: 7,400 Utili portali di ricerca per strutture http://www.ncbi.nlm.nih.gov/sites/gquery http://www.pdb.org Il problema del ripiegamento delle proteine … … cioè il problema di capirci qualcosa Perché il ripiegamento delle proteine è un problema? “Chiunque abbia faticato per ripiegare una carta stradale dovrebbe portare particolare rispetto alle proteine, le quali si ripiegano da sole ed in pratica si mettono anche nel cassetto” - (Brian Hayes, da un articolo su American Scientist, 1998) Come si ripiegano le proteine? Le proteine si ripiegano spontaneamente nella loro struttura ‘nativa’, impiegando un tempo biologicamente breve (dell’ordine dei secondi) la struttura nativa è lo stato fondamentale del sistema, La differenza energetica con il primo stato eccitato è >> kT… …il ripiegamento di una proteina è una reazione chimica, il meccanismo è tale che lo stato di transizione abbia bassa energia libera …le proteine si ripiegano o si denaturano come risposta ad uno stimolo esterno e per svolgere funzioni biologiche Perché il ripiegamento delle proteine è (ancora) un problema irrisolto? La struttura tridimensionale proteica NON È GERARCHICA, ma contestuale e la nucleazione ha luogo contemporaneamente: le strutture 2° e 3° crescono insieme Le proteine non hanno un problema di ripiegamento … … ce l’hanno i ricercatori Cartoons by Larry Gonick In principio, le leggi della fisica determinano per intero come una catena lineare di amminoacidi si ripieghi in una struttura tridimensionale complessa dotata di proprietà biochimiche utili. In pratica, predire la struttura partendo dalla sequenza è un grande problema irrisolto. Perché il ripiegamento è un problema? è molto difficile caratterizzare il processo di ripiegamento! Perché il ripiegamento delle proteine è (ancora) un problema irrisolto? STATO FONDAMENTALE STATO NATIVO Paradosso di Levinthal (1968): Se la ricerca è casuale: Ω=5 83 τfold = Ω τfold 2CI2 N= 83 residui k0 ~ 10 58 58 ~ 10 sec 12 10 >> età dell’universo !! ~ 5 stati ogni residuo Energia Ricerca casuale nello spazio conformazionale coordinata(e) di reazione panorama di energia conformazionale simile ad un campo da golf Teoria della superficie di energia potenziale La proteina cerca CONFORMAZIONI ad ENERGIA PIÙ BASSA Cartoons by Larry Gonick Superficie di energia potenziale a ‘campo da golf’ Energia superficie di energia potenziale altamente corrugata superficie di energia potenziale ad imbuto coordinata(e) di reazione troppo lento! troppo lento! OK! Studi teorici hanno mostrato come superfici di energia potenziale fatte ad imbuto con un minimo unico possano guidare efficientemente una proteina verso strutture native grazie alla progressiva organizzazione delle strutture parzialmente ripiegate che si formano lungo il cammino. L’imbuto è corrugato da ‘impedimenti’ locali (impedimenti sterici, contatti non nativi, ecc.) che producono barriere di potenziale alcune volte maggiori delle fluttuazioni termiche. Durante il ripiegamento, questa corrugazione dell’imbuto comanda la cinetica del processo intrappolando le molecole che si stanno ripiegando. Si ipotizza che i processi di ripiegamento/denaturazione possano avvenire su questa complessa superficie di energia potenziale, caratterizzata da numerosi intermedi. Cartoons by Larry Gonick Una proteina è guidata verso la sua struttura nativa da superfici di energia potenziale con una struttura globalmente ‘ad imbuto’ Le molecole individuali seguono cammini differenti. (J. M. Fernandez, H. Li, Science 2004, 303, 1674-1678) Esaminare gli equilibri conformazionali e le cinetiche di ripiegamento al livello della singola molecola, sta divenendo una necessità ed al tempo stesso una grande sfida in biologia sperimentale. (Onuchic & Wolynes Current Opinion in Structural Biology 2004, 14:70–75) Examining protein conformational equilibrium and folding kinetics at a single-molecule level Within such a complex funneled multidimensional energy landscape, different protein molecules, in spite of having the same sequence, can follow markedly different trajectories during their folding and also in their thermal fluctuations after having reached their “native” structure. In fact, one molecule can be driven into one funnel trap, while a different molecule can visit another one, and so on. Through such a multiplicity of conformational paths, peculiar structures could be assumed or particular motions could be made even by only a few molecules of the ensemble. Those structures might be selected or those motions might be rectified to make a specific biological function possible, and the same function would be inaccessible for all the other molecules at that same moment. It has been theoretically recognized that the structure of a protein required for a biological function might also be the result of catastrophic events, such as the cracking or unfolding of part of the protein due to transient strain energies. On this basis, examining protein conformational equilibrium and folding kinetics at a single-molecule level has become a necessity, and it is currently considered a great challenge in experimental biology. Misure di singola molecola Discrasia: pensiamo nei termini di una molecola singola, ma facciamo solitamente esperimenti campionando numeri di Avogadro di molecole ed estraendo quantità mediate Superiamo le limitazioni delle medie con misure di molecole singole, poi è possibile effettuare • medie nel tempo • medie nelle popolazioni conformazionali Gli esperimenti di denaturazione indotta dalla forza normalmente esplorano traiettorie differenti sulla superficie di energia potenziale rispetto agli esperimenti di denaturazione termica o con agenti chimici. denaturazione meccanica denaturazione termica (X. Zhuang & M. Rief, 2003) Gli esperimenti di denaturazione meccanica sono particolarmente rilevanti per le proteine che sono soggette a forze di trazione in vivo. denaturazione meccanica della titina mediante microscopia a forza atomica: Rief et al. Science 1997, 276, 1109-1112 • La curva di forza ha un profilo a denti di sega in cui ogni picco corrisponde allo svolgimento di un dominio individuale • I singoli moduli si svolgono sequenzialmente. mediante optical tweezers Kellemayer et al. Science 1997, 276,1112-1116; Tskhovrebova et al., Nature 1997, 387, 308-312 Denaturazione e rinaturazione di una proteina in velocity clamp Miosina II coiled coil: si comporta come una vera molla entropica: può rilassare molto velocemente poiché la sua struttura è topologicamente semplice (fig.from X. Zhuang, M. Rief Curr. Op. Str. Biol: 2003) Titina: la denaturazione e la rinaturazione procedono su due traiettorie diverse. Il tempo richiesto per campionare tutte le possibili interazioni e scegliere i minimi di energia ottimali diventa sempre più lungo Il processo è dominato da effetti cinetici quando la velocità di applicazione della forza è più alta del tempo di rilassamento molecolare più lento. Panorama (superficie) di energia libera Simulazioni di Dinamica Molecolare E (R ) = Elegame + Eangolo + Ediedrica + Eelettrostatica + EvdW da: http://www.ch.embnet.org/MD_tutorial/ The Structural Prediction Problem “Given a protein sequence, compute its structure”. • • • • Possible in principle. Astronomical, highly under-constrained search space. Biophysics complex and incomplete. Next to impossible in practice. Secondary Structure Prediction • Much simpler to predict a small set of classes than to predict 3-D coordinates of atoms. • Amino acids have different propensities for alpha helices, turns and beta sheets. • Homology can also be used since fold is more conserved than sequence. A Major Challenge of Bio-informatics The challenge: Understand the relationship between amino acid sequence and the 3D structure of proteins; Predict 3D structure from sequence. Unfortunately, the relationship between sequence and structure is very complicated. Current tools perform this task poorly. Best performance (so far) can be achieved using sequence homology to a known 3D structure experimentally determined (by X-ray crystallography or NMR). How do Proteins Acquire Correct Conformation ? • The primary amino acid sequence is crucial in determining its final structure. • In some cases, additional interactions may be required before a protein can attain its final conformation (for example, cofactors, one or more subunits). • Proteins can change their shape and function depending on the environmental conditions in which they are found. The primary amino acid sequence does not change. How is the 3D structure determined? 1. Experimental methods (Best approach): • X-rays crystallography - stable fold, good quality crystals. • NMR - stable fold, not suitable for large molecule. 2. In-silico methods (partial solutions based on similarity): • Sequence or profile alignment - uses similar sequences, limited use of 3D information. • Threading - needs 3D structure, combinatorial complexity. • Ab-initio structure prediction - not always successful. http://www.idi.ntnu.no/grupper/KS-grp/microarray/slides/drablos/Fold_recognition/sld004.htm Predicting Protein Structure Principle: Look for the structure with minimum free energy. Rule of thumb: Hydrophobic a.a. wants to stay “inside” (conserved) ,hydrophilic a.a. wants to be “outside” (less conserved, assuming water as the universal solvent in cells). The main driving force for folding is to pack hydrophobic side-chains into the interior of the molecule, thus creating a hydrophobic core. Factors other than free energy: shape, size, polarity, strength of interactions, etc. Conformation of Polypeptides The Advent of Computational Modeling: Aim: Develop procedures for predicting protein structure, that are not so time consuming and that are not hindered by size and solubility constraints. Basic Theory: Proteins that share a similar sequence, generally share the same basic structure. There is a strong conservation of protein 3D shape across large evolutionary distances. Three Main Approaches for Structural Prediction: 1. Comparative (Homology) Modeling. Requires sequence that is similar to the sequences of a protein(s) of known structure. 2. Fold Recognition (Threading). Requires a structure similar to a known structure (with little sequence similarity). Both based on similarity. 3. Ab-initio (based only on sequence) Have no similarity, based on first principals. Example: A pathway for folding a 2-domain protein. 1. Comparative (Homology) Modeling Principle: Sequence homology usually implies 3D structural similarity. Given a protein sequence, look for homologous sequences with a known structure. Suppose the structure of one or more homologous has already been determined. Then the structure of “our” original protein will be similar (High sequence identity (> 70%), is necessary). Remark: The success of this approach depends on the number of different structures already determined (low success early on, improved as PDB grows). 2. Protein Fold Recognition Classifying Proteins by Folds Goal: Map regions of linear sequence to known folds in PDB. Fold: Collection of proteins that share a similar combination of secondary structures. In human: Estimated number of proteins is 100,000. ~700 folds discovered so far. Nature has created complexity through the combination of a small number of simple elements - such as secondary structures. Fold Recognition Fold recognition - Given a sequence and a library of folds, thread the sequence through each fold. Take the one with the highest score. Note: Method will fail if new protein does not belong to any fold in the library. Experience shows that with current library (~700 folds) most new proteins do find a “good fold”. Score of the threading is computed based on known physical chemistry properties and statistics of amino acids. http://cmgm.stanford.edu/biochem218/16Threading.pdf Fold Recognition - Threading Thick backbone - known structure. Thin lines - modeled structure. Some side-chains are not positioned correctly, but some look good. The similarity of structures is very high in “core regions” (helices & sheets). However, loops vary even in pairs of homologous structures with high % of sequence similarity. Ab-initio, theoretical modeling, and conformation space search • Ab-initio = given amino acid primary structure, i.e. sequence, derive structure from first principles (e.g. treat amino acids as beads and derive possible structures by rotating through all possible φ, ψ angles using a “reliable” energy function, then optimize globally) • Theoretical modeling = subset of ab-initio, given amino acid primary structure and knowledge about characteristic features, derive structure that has that structure and features (e.g. protein has an iron binding site Æ possible heme substructure) • Conformation space search = subset of ab-initio, but a stochastic search in which the sample space is reduced by initial conditions/assumptions (e.g. reduce sample space to conform to Ramachandran plot) Homology modeling and threading • Homology modeling = knowledge-based approach, given a sequence database, use multiple sequence alignment on this database to identify structurally conserved regions and construct structure backbone and loops based on these regions, restore side-chains and refine through energy minimization (apply to proteins that have high sequence similarity to those in the database) • Threading = knowledge-based approach, given a structure database of interest (e.g. one that provides a limited set of possible structures per given sequence for fold recognition, one that provides a one structure per given limited set of possible sequences for inverse folding) use scoring functions and correlations from this database to derive structure that is in agreement (apply to proteins with moderate sequence similarity to those in the database) Energy minimization, simulation and Monte Carlo • Energy minimization = select an appropriate energy function and derive conformations that yield minimal energies based on this function • Simulation = select appropriate molecular conditions and derive conformations that are suited to these molecular conditions • Monte Carlo = subset of molecular simulation, but it is an iterated search through a Markov chain of conformations (many iterations Æ canonical distribution, P(particular conformation)~exp(-E/T)) proposed by N. Metropolis, in which a new conformation is generated from the current one by a small ``move'' and is accepted with a probability Pacc = min(1, exp(-ΔE/kT)), which depends on the corresponding change in energy, ΔE, and on an external adjustable parameter, kT 3. Ab-Initio Prediction Used when all else fails: 1. No homology found to any sequence with known structure. 2. All known folds give poor threading scores. Given only the sequence, try to predict the structure based on physical-chemistry properties (energy, hydrophobicity, size, charge, etc.). Some ab-initio programs try to simulate the process of the protein folding in the cell (by molecular dynamics). Ab-Initio Prediction • A good prediction method for 2- or 3D structures only for small & simple proteins. • Method requires enormous computational resources. Despite substantial improvements, success is still very limited. Talvolta qualcosa non è perfettamente razionale … PARADIGMA STRUTTURA-FUNZIONE SEQUENZA AMMINOACIDICA STRUTTURA 3D FUNZIONE STRUTTURA 3D SPECIFICA E’ PREREQUISITO FONDAMENTALE PER LA FUNZIONALITA’ DELLA PROTEINA ESPERIMENTI DI DENATURAZIONE così dovrebbe funzionare sempre, ma … CONFIGURATIONAL ADAPTABILITY (Karush, 1950) DA STUDI SU ALBUMINA DEL SIERO IPOTESI CHE CAMBI CONFORMAZIONALI SIANO RESPONSABILI DELLA FUNZIONALITA’ DELLA PROTEINA 20 ANNI FA: scoperta, in alcune proteine, di segmenti non strutturati aventi ruolo importante per la funzionalità della proteina stessa. Coda funzionale dell’istone H5 Dalla “TRIPLETTA PROTEICA” Molten globule Ordinato SCHEMA DEL QUARTETTO PROTEICO Gomitolo statistico IUPs INTRINSICALLY UNSTRUCTURED PROTEINS Proteine la cui funzione è direttamente correlata al disordine strutturale • Assenza di folding associata a alta flessibilità • Comuni a molti organismi, in quantità correlata alla complessità • Localizzate soprattutto in nucleo e citoscheletro Trasduzione del segnale Regolazione del ciclo cellulare Espressione genica TECNICHE PRINCIPALI PER DIMOSTRARE L’ASSENZA DI UN’UNICA STRUTTURA 3D Cristallografia ai raggi X Risonanza magnetica nucleare multidimensionale (NMR) Studio delle IUPs in vitro in soluzioni altamente diluite Dicroismo circolare CARATTERISTICHE STRUTTURALI • CONFORMAZIONE ESTESA • COMPOSIZIONE AMMINOACIDICA CARATTERISTICA • • • • BASSA IDROFOBICITA’ ALTA CARICA NETTA MANCANZA DI Cys ABBONDANZA DI Pro • ORDINE STRUTTURALE CONFORMAZIONE ESTESA SARA SBD DOMAIN • La PRINCIPALE PROPRIETÀ strutturale delle IUPs è che non posseggono una struttura ben foldata in condizioni fisiologiche. • Appaiono SNAP-25 HIF-1α HIF-1α infatti in una CONFORMAZIONE ESTESA che sembra assomigliare allo stato di random coil, ma tale struttura dipende da una precisa composizione amminoacidica per nulla casuale. COMPOSIZIONE AMMINOACIDICA DISTINTIVA FREQUENZE DI AMMINOACIDI IN % Arg, Ala, Gly, Pro, Glu, Lys, Ser e Gln (disorder-promoting) Trp, Tyr, Phe, Cys, Ile, Leu e Asn (order-promoting) Tale composizione amminoacidica provoca: BASSA IDROFOBICITA’ ALTA CARICA NETTA E’ FAVORITA UNA CONFORMAZIONE ESTESA COMPOSIZIONE AMMINOACIDICA DISTINTIVA MANCANZA DI Cys ABBONDANZA DI Pro • In una struttura globulare di solito • La prolina è un amminoacido che le cisteine occupano il SITO ATTIVO o stabilizzano i LEGAMI DISOLFURO. Le IUPs infatti sono carenti nella frequenza di questi residui. DESTABILIZZA la struttura avvolta delle proteine a causa della sua struttura rigida. E’ FAVORITA UNA CONFORMAZIONE ESTESA • La prolina induce la formazione di una elica sinistrorsa chiamata POLIPROLINA II (PP II), una conformazione molto frequente nelle IUPs. ORDINE STRUTTURALE ORGANIZZAZIONE DEI DOMINI DELLE IUPs • L’ordine strutturale delle IUPs è visibile a livello della sequenza amminoacidica, come dimostra la BASSA COMPLESSITA’ (molte regioni ripetute) se comparata con le sequenze random delle proteine globulari. • Inoltre la distribuzione a lungo ZONE RICCHE IN AA ACIDI ZONE RICCHE IN AA BASICI ZONE RICCHE IN Pro ZONE CARICHE S,A,Q,N,K NOME DELL’ DELL’AA PREDOMINANTE raggio di alcuni amminoacidi (Pro, Gln, Acidi, Basici) è tutt’altro che casuale. Infatti è chiaramente visibile che l’organizzazione in DOMINI di alcune IUPs è definita dalla prevalenza di alcuni residui piuttosto che di altri. CARATTERISTICHE FUNZIONALI Coinvolgimento in molti PROCESSI CELLULARI: • regolazione della trascrizione e traduzione • trasduzione cellulare del segnale • immagazzinamento di piccole molecole (scavengers) • regolazione dell’assemblaggio di grossi complessi (assemblers) • funzione di chaperoni per proteine e molecole ad RNA multiproteici TRANSIZIONE DISORDINE-ORDINE (coupled folding and binding). Può consistere sia nell’assunzione di uno stato semplicemente più ordinato, sia di una struttura secondaria o terziaria. BINDING PROMISCUITY, capacità di legare più target differenti. Ovviamente ciò presuppone l’adozione di diverse conformazioni. MODIFICAZIONI POST-TRASDUZIONALI (fosforilazioni, acetilazioni, metilazioni,…). Proprietà molto importante per tutte le IUPs la cui funzione è soggetta a modulazione (display sites). Intrinsically Unfolded Proteins (IUPs) against the classical paradigm of protein science “one sequence=one structure” z z z IUPs = proteins that mostly lack a single, well-defined three-dimensional structure in physiological conditions. IUPs play key roles in a wide range of biological processes like transcriptional and translational regulation, signal transduction, protein phosphorylation and help in the folding of RNA and other proteins. IUP’s fulfil more then one, apparently unrelated, function (‘moonlighting’, or multi-tasking proteins); might increase the complexity of metabolic network without increasing the number of underlying proteins Tompa P, Trends Biochem Sci (27) 10, 527-533 Dunker AK, "DisProt: the Database of Disordered Proteins." Nucl. Ac. Res. 2007(35)786-93 CATENE ENTROPICHE • Questa classe di IUPs non è coinvolta nel riconoscimento molecolare. • La funzione deriva direttamente dallo stato disordinato in cui si trovano ed è associata all’abilità conformazionali alternativi. del polipeptide di fluttuare tra stati • Svolgono fondamentalmente ruoli architettonici come ad esempio quello di molle per la contrattilità del muscolo, o di spaziatori dei microtubuli del citoscheletro. • Comprende principalmente bristles, springs e linkers. LEGAME TRANSIENTE A questo gruppo appartengono le IUPs coinvolte in riconoscimenti molecolari, ma che intraprendono con i propri target solo legami transienti, ossia non permanenti nel tempo. • DISPLAY SITES La loro funzione è mediata da modificazioni regolatorie POSTTRADUZIONALI come fosforilazione o proteolisi limitata. • Alcune modificazioni richiedono infatti una buona flessibilità del substrato (data in questo caso dal disordine intrinseco) che permette interazioni transienti ma specifiche con il sito attivo dell’enzima. CHAPERONS • Ultima classe ad essere stata individuata. • Comprende sia chaperoni proteici che RNA-chaperoni. I primi sono la classe funzionale con la maggiore incidenza di regioni non strutturate (il 40% contro il 15% dei proteici). • La funzione dipende direttamente dai segmenti non strutturati. LEGAME STABILE A questo gruppo appartengono le IUPs coinvolte in riconoscimenti molecolari, ma che intraprendono con i propri target solo legami permanenti, ossia duraturi nel tempo. EFFECTORS Alterano l’attività dei loro target molecolari (singole proteine o complessi multiproteici). La loro azione è principalmente inibitoria, ma scoperte recenti hanno dimostrato che possono agire anche da attivatori, dimostrando la loro estrema versatilità strutturale e funzionale. ASSEMBLERS Questa classe di proteine è coinvolta nei processi di assemblaggio, regolazione e stabilizzazione di grossi complessi multiproteici quali ad esempio il ribosoma, la cromatina e il citoscheletro. SCAVENGERS Scavengers significa esattamente “spazzini”, infatti la loro funzione è quella di accumulare e neutralizzare piccole molecole che costituiscono il loro ligando. Human diseases linked with abnormal aggregation of IUPs Chiti & Dobson, Annu Rev Biochem2006 The expression levels of human genesin-vivo are anti-correlated with the aggregation rates of the corresponding proteins measured in-vitro “human proteins have evolved to resist aggregation and to functio n efficiently, but with almost no margin of safety to respond to genetic and environmental factors that decrease their solubility or increase their concentration i n vivo.” “we are constantly living our lives at the edge of a molecular pr ecipice”. (Vendruscolo and coll. Trends Biochem Sci 2007) α-synuclein -Its physiological functions in the nervous system remains to be fully defined. -It is related to several neurodegenerative diseases, including Parkinson’s disease (PD). - α-syn bound to ubiquitin is the main constituent of the proteinaceous cytoplasmic inclusions called Lewy Bodies. Amphipatic region 1 Lewy body α-synuclein immunostain NAC 61 Acidic terminal 95 140 oligomers ? fibrils (β−sheets) Interacting with membranes it acquires α-helix structure Lewy body αSyn is a natively unfolded protein The transition from the natively unfolded monomeric state to fibril is a process of acquiring a β-structure. This process is still under strong debate. Amyloid fibrils The name comes from the early mistaken identification of the substance as starch (amylum in Latin) One of the most intriguing issues in biology is the occasional conversion of proteins into stable fibrillar aggregates. Such structures, known as amyloid fibrils are involved in over 20 neurodegenerative human diseases. An electron microscope image of amyloid fibrils in vitro Diffraction pattern: signature of cross β structure with β-strands orthogonal to the fibril axis Amyloid fibrils Syn 1-140 / 110h 37°C Fibril-involving Proteopathies (Amyloidoses): 42 and counting ! • • • • • • • • • • • • Alzheimer’s disease Parkinson’s disease Atrial Amyloidosis Hereditary Renal Amyloidosis Secondary Systematic Amyloidosis Injection-Localized Amyloidosis Type II diabetes Chronic Wasting Disease (CWD) Scrapie BSE- Mad Cow Disease Kuru Creutzfeldt-Jakob Disease 1 . Tecniche per valutare il contenuto di struttura secondaria DICROISMO CIRCOLARE Lo spettro CD di una IUP è caratterizzato da un’ellitticità negativa a 198 nm e da un’ellitticità prossima a zero a 185 nm. Valutando i valori di ellitticità a 200 e 222 nm si riesce anche a discriminare tra proteine random coils e premolten globules. SPETTROSCOPIA INFRAROSSA DI FOURIER (FT-IR) Le informazioni sulla struttura secondaria derivano dalla scomposizione della banda di assorbimento dell’ammide nei suoi componenti. Questa banda si origina dalla vibrazione di stretching del C=O del legame peptidico, la cui frequenza è sensibile alla conformazione della proteina. Consente di monitorare l’aggregazione della proteina e di discriminare tra eliche con differenti gradi di flessibilità 2. Metodi per valutare la struttura terziaria globale SMALL ANGLE X-RAY SCATTERING (SAXS) L’intensità di scatter è sensibile sia alle dimensioni della proteina in soluzione, sia alle proprietà conformazionali della catena polipeptidica. Confrontando per una proteina il raggio di rotazione sperimentale con quello atteso, si riesce a discriminare tra proteine foldate, random coils e premolten globules. DYNAMIC LIGHT SCATTERING E GEL FILTRATION Attraverso queste tecniche è possibile determinare il raggio idrodinamico Rh di una particella in soluzione: sono stati definite delle relazioni empiriche tra l’Rh e il numero di residui di proteine globulari e di random coils, perciò si può confrontare l’Rh osservato con i valori attesi e valutare il grado di compattezza della proteina. ULTRACENTRIFUGAZIONE ANALITICA E VELOCITA’ DI SEDIMENTAZIONE Anche queste altre due tecniche forniscono informazioni idrodinamiche quali la taglia e la conformazione della proteina 3. Metodi per valutare la struttura terziaria locale SPETTROSCOPIA DI FLUORESCENZA Il principale fluoroforo nelle proteine è l’amminoacido triptofano: esso ha un massimo di assorbanza prossimo a 280 nm e un massimo di emissione altamente dipendente dalla polarità dell’ambiente. L’intensità di fluorescenza del triptofano dipende inoltre dall’interazione con i gruppi vicini. Lo spettro di fluorescenza di una IUP fornisce perciò utili informazioni sull’ambiente del fluoroforo, e quindi sulla presenza di struttura proteica ordinata in sua vicinanza. SPETTROSCOPIA NEAR UV-CD Nella regione near-UV (320-260 nm) i segnali CD sorgono principalmente dalle catene laterali aromatiche di fenilalanina, tirosina e triptofano. Segnali pronunciati sono indicativi di residui aromatici in un ambiente piuttosto asimmetrico, compatibile con la presenza di una residua struttura ordinata. DIFFERENTIAL SCANNING CALORIMETRY (DSC) Poiché l’assenza di una transizione termica cooperativa è indicativa dell’assenza di struttura terziaria rigida, un’analisi della capacità termica può risultare utile per l’individuazione di proteine intrinsecamente disordinate. SURFACE PLASMON RESONANCE (SPR) – tecnologia BIACORE Le variazioni di segnale riflettono cambiamenti conformazionali all’interno di una proteina immobilizzata. Si possono quindi valutare il disordine strutturale intrinseco e il folding indotto in presenza di un ligando Tool: Single-Molecule AFM-based Force-Spectroscopy z z z z z z z Bulk analysis z z SMFS Need: handles are needed to grab an individual IUP molecule by AFM, to connect one end of the protein to the tip and the other to the substrate In SMFS, like for optical tweezers, the handles can • provide an internal standard: their length and behavior under tension is well known, so that interesting events can be recognized • define a precise pulling geometry for the molecule of interest • reduce the effect of non-specific probe-surface interactions Handles+protein=artificial bionanostructure Result: SMFS can detect different classes of singlemolecule events originated by different conformers of α-synuclein in the nanostructure Many nanostructures comprising α-synuclein are pulled and unfolded … here are some example curves of two types Interpretation is due to: is due to: extension of the unstructured portion of the nanostructure It is now possible to characterize the folding state of α-synuclein monomers! [Sandal, Valle, et al. PLOS Biology 2008, 6(1), e6]