Chimica delle macromolecole - Unità didattica 3:
La struttura delle proteine
Amminocidi, peptidi e proteine: Amminoacidi e loro proprietà. Il legame
peptidico. Struttura primarie delle proteine. La Struttura secondaria delle
proteine. Struttura terziaria e quaternaria delle proteine. Il ripiegamento delle
proteine. Esempi di strutture proteiche, proteine fibrose e globulari. Alcuni principi
sul ripiegamento delle proteine. le proteine non ripiegate
Autoverifica: Conosci la struttura e la
nomenclatura degli amminoacidi? sai
descrivere la struttura di un dipeptide?
Sapresti descriverne la geometria?
Come si può descrivere la geometria
di un polipeptide? Quali sono gli
elementi comuni di struttura
secondaria? Da cosa dipende la
struttura terziaria? Come si ripiegano
le proteine? Tutte le proteine hanno
una struttura univoca e stabile? Come
si ottengono informazioni sulla
struttura delle proteine?
Le proteine ricoprono ruoli essenziali negli
organismi
• Tre esempi di funzione proteica
la alcool
deidrogenasi
ossida gli alcoli
ad aldeidi e
chetoni
– Catalisi:
Praticamente tutte le reazioni
chimiche degli organismi viventi
sono catalizzate da proteine
– Trasporto:
Alcune proteine trasportano varie
sostanze, come l’ossigeno, gli ioni,
ecc.
– trasferimento di informazioni:
Per esempio, gli ormoni.
L’emoglobina
trasporta
l’ossigeno
L’insulina
controlla la
quantità di
zucchero nel
sangue
Cosa è un amminoacido
Una molecola che contiene entrambi i gruppi funzionali amminico e
carbossilico. Gli amminoacidi più interessanti dal punto di vista della
biochimica sono gli α-amminoacidi, in cui il gruppo amminico è legato al
carbonio vicinale rispetto al gruppo carbossilico.
H
carbonio α
R
R
catena
laterale
R
Cα
+
H 3N
COO –
gruppo
gruppo
amminico carbossilico
COO –
NH 3
COO
–
modello sfere e
bastoncini
NH 3
Gli amminoacidi sono
strutture tetraedriche
gruppi R non polari, alifatici
COO
Gli amminoacidi naturali
Classificati secondo la catena laterale
H 3N
C
H
COO
H 3N
C
H
H
CH 3
gruppi R aromatici
COO
H
C
CH
H 2N
2
CH
2
H 2C
Glicina Alanina
C
H
CH 2
H 3N
C
H C
H
C
H 3N
H 3N
H
CH3
C
H
CH2
CH 3 CH 3
CH 3
S
C
H 3N
H
H C
OH
Fenilalanina
H 3N
C
H
COO
H 3N
H
H
H 3N
COO
CH 2
CH 2
C
CH 2
NH
C NH
CH
C N
H
NH3
C
H
C
NH2
NH 2
Lisina Arginina Istidina
gruppi R carichi negativamente
COO
H
C
CH2
CH2
CH2
C
COO
CH2
O
Asparagina Glutammina
H 3N
C
H
COO
CH 2
H 2N
H
CH2
CH2
O
C
CH 2
COO
H 3N
C
COO
CH 2
Cisteina
COO
H 2N
COO
SH
Serina Treonina
C
Tirosina Triptofano
CH2
CH 2
OH
CH 3
H 3N
CH 2
CH 2
gruppi R polari non carichi
COO
H
gruppi R carichi positivamente
Leucina Isoleucina Metionina
CH 2OH
H 3N C
C CH
NH
CH 3
H 3N
H
CH 2
COO
CH 2
C H
C
COO
Valina
CH 2
H 3N
H 3N
C H
CH 2
CH
COO
COO
CH 3 CH 3
COO
H 3N
COO
CH
Prolina
COO
H 3N
COO
H 3N
C
H
COO
Aspartato Glutammato
Alcune proprietà degli amminoacidi
← È importante sapere le abbreviazioni
La ionizzazione degli
amminoacidi
… ed in più ci sono talvolta
gruppi ionizzabili in catena
laterale
La titolazione di acido glutammico e
lisina
Il legame peptidico
Gli amminoacidi possono essere legati tra loro mediante il legame peptidico, per
fare i peptidi
R1
H 3N
CH C
OH
H
H
R2
N
C H COO
O
H 2O
H 2O
H 3N
R1
H
R2
CH C
N
C H COO
O
Diverso comportamento acido-base
In un peptide, il gruppo carbossilico e quello amminico non sono più vicinali, per
cui il loro comportamento acido-base può anche differire da quello dei singoli
amminoacidi costituenti. I gruppi carbossilici e amminici coinvolti nei legami
peptidici non possono più ionizzare. I gruppi ionizzabili nelle catene laterali
possono ionizzare (le loro proprietà possono comunque subire variazioni rispetto
a quelle negli amminoacidi isolati).
OH
CH 3 CH
CH
H 3N
CH 2 OH
H
H
C
C
N
C
C
H
O
H
O
terminale amminico
H
CH 2
H
CH
3
H
CH 2
N
C
C
N
C
C
N
C
H
O
H
O
3
COO
H
terminale carbossilico
Gli amminoacidi sono molecole chirali
Tutti gli amminoacidi naturali hanno chiralità L
(come la L-gliceraldeide)
Esistono amminoacidi nella configurazione D, ma
non sono abitualmente trovati nelle proteine
Lunghezza e composizione dei polipeptidi in natura
I polipeptidi si trovano in natura con precise dimensioni (peso molecolare) e
composizione in amminoacidi. Questa evidenza ‘storica’ può essere desunta
anche semplicemente idrolizzando i polipeptidi con acidi, in modo da poter
analizzare la miscela di amminoacidi risultante.
Le proteine possono essere semplici o coniugate
Le proteine semplici sono costituite solo da una o più catene polipeptidiche,
mentre quelle coniugate contengono anche parti non proteiche associate,
necessarie per la loro funzione. Queste parti sono chiamate gruppi prostetici e
le proteine coniugate possono essere catalogate sulla base dei loro gruppi
prostetici.
Un concetto chiave:
I livelli della struttura proteica
Struttura
primaria
Struttura
secondaria
Struttura
terziaria
Struttura
quaternaria
Lys
Lys
Gly
Gly
Leu
Val
Ala
His
residui amminiacidici
-elica
catena polipeptidica
subunità assemblate
Struttura primaria: la descrizione di tutti i legami covalenti (la sequenza, le
reticolazioni)
Struttura secondaria: l’organizzazione stabile degli amminoacidi in motivi
strutturali ricorrenti
Struttura terziaria: il ripiegamento di un polipeptide in una particolare forma
tridimensionale
Struttura quaternaria: la relazione strutturale delle diverse subunità (catene
polipeptidiche distinte), se presenti
La struttura delle proteine è stabilizzata da interazioni deboli
La ‘stabilità’ di una proteina è la sua tendenza a mantenere una struttura precisa
(detta nativa). In termini termodinamici, la stabilità delle proteine si valuta
comunemente con ΔG dell’ordine di 20-65 kJ/mole (poco!)
Una lunga catena polipeptidica può essere molto disordinata ed avere molteplici
diversi modi di interagire (alta entropia). Le interazioni che permettono ad una
catena disordinata (unfolded) di ripiegarsi in una struttura unica (folded) sono
proprio le interazioni deboli di cui si è parlato in precedenza:
Legami idrogeno
Interazioni ioniche
Interazioni idrofobiche
Tra 2 cisteine si possono instaurare legami disolfuro.
Questo legame covalente è molto più forte delle interazioni
deboli, ma sono effettivamente le numerosissime
interazioni deboli che rendono stabile (e scelgono) una
struttura proteica.
Ma una delle grandi driving forces per il ripiegamento
delle proteine è la possibilità dell’acqua di formare più
legami idrogeno se la proteina fa legami deboli con se
stessa
Viaggio nella struttura delle proteine: La struttura secondaria
La geometria del legame peptidico
Il legame peptidico non è un legame covalente singolo, ma ha una certa percentuale
di doppio legame, di conseguenza non c’è libera rotazione tra i gruppi attaccati
tramite esso.
C
Il carattere di parziale doppio legame del
legame peptidico fa sì che ogni peptide può
essere pensato come un piano rigido. Ogni
piano può, invece, ruotare intorno ai legami
dell’azoto e del carbonio carbossilico con il
carbonio α per dare le conformazioni del
polipeptide
piano del
legame peptidico
N
O
C
H
ψ
H
peptide
φ
C
carbonio α
R
H
N
gruppo in
catena laterale
C
O
C
piano del
legame peptidico
φ = 180 , ψ =180
Angoli diedri importanti
La forma geometrica della catena polipeptidica dipende da tutti gli angoli Ф e ψ
che si susseguono lungo la catena
Ma non tutte le combinazioni sono possibili, a causa dell’impedimento sterico
(un gruppo che dovrebbe occupare lo spazio di un altro)
Cα
Cα
Cα
raggio di
contatto
per atomi
non legati
ON
Cα
N
H
C
Cα
H
raggio di
contatto
per atomi
non legati
H
Cα
O
H
Cα
C
C
Cα
H
φ = 180 , ψ = 0
Cα
O
C
N
H
O
H
Cα
O
Cα
Cα
un’altra rotazione di 120° diφ
muove il carbonile ingombrante
il più lontano possibile dalla catena
laterale
H
R
N
φ = –60 , ψ = 180
Cα
C
H
R
N
O
φ = 0 , ψ = 180
C
R
N
O
N
H
R
C
O
H
Cα
O
H
Cα
C
N
O
N
H
φ= 0 , ψ = 0
α-elica
foglietto β parallelo
tripla elica del levogira
foglietto β antiparallelo
collagene
180
+4
II
+5
C
–4
90
ψ(gradi)
Ramachandran e collaboratori hanno
pensato di diagrammare gli angoli φ e ψ
delle proteine note e hanno verificato la
presenza di zone consentite e zone non
consentite del piano φψ. Tra le zone si
trovano motivi strutturali caratteristici.
Questo grafico, ora noto come
diagramma di Ramachandran, mostra le
conformazioni ‘popolate’ degli angoli di
torsione e le zone ‘proibite’ che sono poco
popolate.
–5
–3
2
αL
0
3
n=2
α
π
–90
+3
+5
–4
–180
–180
+4
–5
–90
α-elica
destrogira
0
φ(gradi)
90
anello chiuso
180
Diagramma di Ramachandran ideale e reale (da dati
strutturali)
Ideal
Real (a kinase)
Ramachandran Plots
Il legame idrogeno nelle proteine
Dalla discussione fatta in precedenza
risulta che il gruppo carbonilico delle
proteine contiene un ossigeno che
può accettare un legame idrogeno,
mentre all’azoto ammidico è legato un
idrogeno che può fungere da donatore
di legame idrogeno.
Questi legami idrogeno possono
avvenire con molecole di acqua o,
convenientemente, tra parti diverse di
una proteine (l’idrogeno di un azoto
ammidico con un ossigeno carbonilico
sulla stessa catena o su altre catene
polipeptidiche). Spesso in una
proteina molti legami idrogeno si
formano allo stesso tempo
Un legame idrogeno tra gruppi di
due catene polinucleotidiche
L’α-elica
È uno dei motivi strutturali più diffusi (e prima scoperti). Grazie a legami idrogeno,
gli amminoacidi si organizzano un un’elica DESTROGIRA che compie un giro
completo ogni 3.6 ammminoacidi (residui), equivalente a 13 atomi (si dice anche
elica 3.613).
Ogni amminoacido si estende per 1.5 Å lungo la catena (ogni giro è quindi 1.5 x
3.6 = 5.4 Å, il passo dell’elica).
Diverse
rappresentazioni
dell’ α-elica.
L’α-elica
L’elica (senza considerare le catene laterali, che
puntano verso l’esterno) ha un diametro di 6 Å.
Il carbonile di CIASCUN peptide forma un legame
idrogeno con l’N-H che sta 4 residui più in alto lungo la
catena.
I legami idrogeno sono nella direzione dell’asse
dell’elica, tutti i carbonili puntano verso una direzione
(l’alto) mentre tutti I legami N-H puntano nella direzione
opposta.
Gli angoli di torsione per ottenere un’elica di questo tipo
sono φ=-60° e ψ tra -45 e -50°.
Il numero di residui coinvolto in un’elica può variare.
La subunità β dell’emoglobina
Un modello ideale di α-elica (poly-Ala)
Solo n-4 legami ad idrogeno intra-α-elica si
possono formare in un’elica lunga n, mentre i
primi 4 ossigeni carbonilici e gli ultimi 4 idrogeni
ammidici alle estremità dell’elica possono
formarli con altri gruppi non parte dell’elica
(capping dell’elica)
Dallo studio dei poliamminoacidi
(polipeptidi fatti da un tipo di
amminoacido) si vede che non tutti
gli amminoacidi hanno la stessa
propensione a formare α-eliche: è
particolarmente frequente trovare
residui con gruppi R poco
ingombranti (Ala) mentre si
trovano a fatica gruppi carichi, la
cui repulsione disordina l’elica. Si
vede, ad esempio, che a valori di
pH in cui i gruppi carichi si
scaricano (protonazione dei
carbossili, deprotonazione degli
ammoni) la propensione a formare
la doppia elica di tali amminoacidi
aumenta. La prolina deforma (o
interrompe) l’α-elica.
Le proteine fibrose e le α-eliche
Le proteine possono essere distinte, sulla base della loro solubilità, in proteine fibrose,
globulari e di membrana.
Nelle proteine fibrose, le catene polipeptidiche sono allungate e allineate parallelamente alla
direzione della fibra. Sono proteine spesso insolubili e con grande resistenza meccanica, che
ricoprono ruoli strutturali in natura.
L’α-cheratina ad esempio (unghie,
capelli …) è costituita di catene con
una porzione centrale di 311-314
residui in α-elica, e porzioni N- e Cterminali non a elica.
α-elica
Coiled coil di due α-eliche
Protofilamento (copia di coiled coil)
Filamento (quattro protofibrille ritorte in senso destrogiro
I residui idrofobici sono nelle parti affacciate delle eliche. La
torsione delle eliche serve a nascondere i tratti di residui idrofobici
all’acqua (facendoli interagire tra loro sulle due eliche). È una
perdita di energia compensata dall’esclusone dell’acqua.
Legami disolfuro possono tenere rigidamente insieme le catene.
Eliche alternative
Esistono anche altri tipi di eliche nelle proteine, stabilizzate da legami idrogeno.
L’elica 310 contiene 3 residui per giro (con 10 atomi per giro, facendo legami
idrogeno tra carbonili e idrogeni ammidici residui distanti 3 residui lungo la
catena – detto i+3). Normalmente queste eliche sono meno frequenti e/o più
corte dell’α-elica.
Altre strutture ad elica sono il nastro 27 (legami idrogeno tra carbonile e azoto
ammidico a i+2) e l’elica π, che ha 4.4 residui per giro (e 16 atomi) per cui è
anche detta elica 4.416 (legami H a i+5.)
Esempio di Ala8 in elica 310
Esistono anche eliche levogire: l’esempio del collagene
1000 amino acidi di lunghezza, circa 300 nm per 1.4 nm di diametro
Le catene del collagene hanno una composizione molto
particolare (principalmente glicina, prolina ed idrossiprolina –
una modifica dell’amminoacido prolina). Questi residui non si
ripiegano facilmente in una delle forme più ‘canoniche’ ma
assumono una forma elicoidale molto più estesa dell’α-elica.
Le tre eliche che compongono il tropocollagene (la fibrilla
base a tripla elica) hanno un passo di 2.9 Å (rispetto agli 1.5
Å dell’α-elica) e 3.3 residui per giro di elica.
Ogni elica ha geometria locale LEVOGIRA, mentre la
superelica risultante è destrogira.
Ogni 3 residui, un amminoacido di ogni elica si trova
affacciato all’interno della tripla elica, in una regione di grande
ingombro sterico: solo la Gly (o Ala), che ha gruppo R molto
poco ingombrante può occupare questa posizione (per cui in
ogni catena, un amminoacido ogni 3 è Gly).
Le tre catene sono legate da ponti idrogeno (l’N-H delle Gly
lega un C=O della Pro o Hyp adiacente) e da altri legami
idrogeno. La fibra è quindi legata fortemente.
Esistono diversi tipi di collagene: il TIpo I in ossa, tendini e
pelle (fatto da due catene uguali ed una diversa), il Tipo II
nella cartilagine ed il Tipo III nei vasi sanguigni fatti di 3
catene uguali.
tropocollagene
In una fibra di collagene, tante triple eliche lunghe 300 nm sono sfasate e
tenute insieme tra loro da legami deboli. Al microscopio elettronico queste
hanno una apparenza a bande, risultante dalla presenza di interruzioni (buchi)
tra le catene. La presenza di questi buchi sembra legata alla presenza di
zuccheri legati covalentemente alle idrossiproline in questa posizione.
Questi potrebbero avere utilità nel
controllare l’organizzazione della
struttura o nel servire da punto di
nucleazione per la crescita di cristalli
di idrossiapatite che formano le ossa
(ove questi cristalli sono, appunto
immersi in una matrice di collagene.
I foglietti beta
È un’altra struttura secondaria stabile e molto diffusa delle proteine, stabilizzata dalla
formazione cooperativa di un grande numero di legami idrogeno. È detta foglietto
ripiegato β o struttura β.
Nella struttura, i carboni α stanno nelle pieghe delle ‘strisce’, i C=O puntano in una
direzione e gli N-H che li legano nella direzione opposta. Tutti i gruppi formano legami H.
Antiparallel β-sheet
Foglietti β paralleli o antiparalleli
Ogni catena del foglietto può essere pensata come un’elica con passo 2 (2 residui
ogni giro). Poiché il carbonio α è tetraedrico, ogni piano del legame peptidico è
piegato rispetto a quello successivo (ed il foglietto risulta piegato).
I legami idrogeno in questa
struttura sono essenzialmente
inter-strand. La catena
polipeptidica è nella
conformazione più estesa
possibile (detta talvolta
conformazione ε).
Il foglietto antiparallelo è un po’
più esteso di quello parallelo
(che è più piegato, per formare i
legami H, che sono piegati).
I residui sono distanti 0.347 nm
nel foglietto antiparallelo (0.325
nm in quello parallelo).
I gruppi R si estendono
perpendicolarmente rispetto al
piano del foglietto.
Ci sono proteine costituite prevalentemente
di α-eliche, altre di β-sheets, mentre altre
hanno presentano entrambe le strutture in
una stessa catena polipeptidica.
Nella seta, ad esempio, le catene
polipeptidiche sono organizzate
principalmente in foglietti β antiparalleli
orientati nella direzione dell’asse della fibra.
La conformazione già molto estesa del
foglietto motiva la scarsa estensibilità della
fibra, che però è molto flessibile.
La seta del ragno è, effettivamente, un
materiale dalle proprietà meccaniche
ragguardevoli: si potesse fare una corda di
seta di ragno dello spessore di una matita,
sarebbe sufficientemente resistente per
fermare un Boeing 747 in volo!
α-eliche e zone disordinate danno flessibilità
La struttura nanotecnologica della seta
In genere si trovano foglietti paralleli in
strutture grandi (almeno 5 catene per
foglietto) mentre foglietti antiparalleli
possono anche essere costituiti di 2 catene.
Domini microcristallini di β-sheets
danno resistenza
La fibroina (della seta) o la β-cheratina (piume degli uccelli)
Sono proteine fatte di foglietti β antiparalleli ricchi di Gly e Ala (o Ser) alternati, in
modo che da un lato del foglietto possano essere tutte le Gly e dall’altra tutte le
Ala/Ser. In questo modo più foglietti possono impilarsi facendo combaciare
perfettamente le catene laterali.
Le proprietà meccaniche delle fibre dipendono dalla struttura: fibre flessibili ma
non estensibili.
Il β-turn
Le catene polipeptidiche devono anche fare ‘inversioni di direzione’ ad esempio
nelle proteine globulari. I β-turn sono ripiegamenti stretti, detti anche ‘ripiegamenti
inversi’.
Nel β-turn, il carbonile di un residuo fa legame idrogeno con l’idrogeno ammidico
3 residui oltre. Questo legame H stabilizza il ripiegamento. Certi amminoacidi,
come la Pro o la Gly compaiono spesso nei β-turn e la conformazione del
ripiegamento dipende dalla sua composizione amminoacidica. Gly ha la catena
laterale più piccola per cui si può adattare alle ‘richieste’ strutturali degli altri
amminoacidi, mentre Pro ha l’angolo Ф fissato dalla struttura ciclica che
promuove il ripiegamento. I β-turn facilitano la formazione di foglietti β
antiparalleli.
O e R3 dalla stessa parte: ingombro,
O e R3 da parti opposte
ok se R3=H
Altre irregolarità nella formazione di legami idrogeno tra le catene di foglietti β
antiparalleli portano a distorsioni della geometria: sono detti ripiegamenti β.
Coinvolge 2 residui su una catena (che si piega e deforma il foglietto) ed uno sulla
catena adiacente legata alla prima.
ripiegamento classico
ripiegamento G1
ripiegamento largo
A causa della stabilizzazione energetica conferita dai legami H, è difficile che una
proteina non contenga nessun elemento di struttura (secondaria).
La struttura terziaria è il ripiegamento di una singola catena polipeptidica nello
spazio. Le informazioni che portano ad una struttura spaziale precisa di una
proteina sono tutte contenute nella struttura primaria, anche se seguendo regole
che non sono totalmente note, finora.
Le eliche e i foglietti (struttura secondaria) si forma, a causa della stabilizzazione
impartita dai legami H. In seguito, questi si associano in una struttura compatta: si
vede che nessuna proteina è stabile come un singolo strato di polipeptide. Ci
sono modi comuni per ottenere questo impacchettamento. Come conseguenza
del fatto che i tratti non interessati dalla struttura secondaria sono generalmente
brevi, questi congiungono direttamente le strutture secondarie, senza
attorcigliamenti o annodamenti complicati. Questo limita la varietà delle strutture
terziarie, che formano delle famiglie.
Le proteine si ripiegano per formare le strutture più stabili possibili. La stabilità
deriva dalla i) formazione del maggior numero possibile di legami H
intramolecolari e ii) dalla riduzione della superficie accessibile al solvente.
Le proteine globulari sono le più diffuse
contengono un quantitativo variabile di α-eliche e β-sheets.
Ad esempio la mioglobina, una proteina coniugata di 17 kDa che trasporta ossigeno
nei muscoli, sono presenti 8 segmenti di α-elica di lunghezza variabile da 7 a 26 a.a.
Lo spazio tra le eliche è riempito dalle catene laterali (idrofobiche) mentre quelle polari
sono esposte verso il solvente, come spesso succede. È relativamente insolito che
una proteina globulare contenga una proporzione così grande di α-eliche.
residui idrofobici in
verde
Una proteina globulare più tipica è la ribonucleasi A bovina (bovine ribonuclease
A) una piccola proteina (14.6 kD, 129 residui) che contiene alcune eliche corte,
una sezione importante di β-sheets antiparalleli e alcuni ripiegamenti β, oltre ad
alcuni segmenti senza struttura definita.
Codice colori amminoacidi:
Il nucleo di una proteina spesso contiene soprattutto parti strutturate in eliche o
foglietti, poichè in questo modo i gruppi polari C=O e N-H sono neutralizzati nella
formazione di legami H e possono stare nell’interno idrofobico di una proteina.
Nei casi in cui un’elica si affaccia al solvente, ecco che presenta una faccia con
residui polari o carichi ed una con residui idrofobici (elica anfipatica). Si nota che
eliche completamente esposte sono polari/cariche.
Struttura della calmodulina (una proteina che lega il calcio
Con un’elica totalmente esposta al solvente)
Struttura della flavodoxina (uno scambiatore di elettroni con
un’elica anfipatica esposta al solvente solo su una faccia)
L’impaccamento delle proteine
Calcolando il volume delle proteine globulari e la
somma dei volumi di van der Waals dei singoli
amminoacidi, si può vedere che la densità di
impaccamento delle proteine è in genere 0.72-0.77.
Questo significa che ci sono spazi vuoti (molto
piccoli) nell’interno della proteina che possono
conferire un certo grado di flessibilità meccanica. La
maggior parte di queste cavità non sono grandi a
sufficienza per ospitare molecole (acqua).
I coil o random coil (gomitolo statistico, in Italiano)
sono quelle parti di catena polipeptidica non
interessata da una struttura secondaria. Queste parti
sono, spesso, ugualmente strutturate, ma in maniera
più variabile, grazie alle interazioni delle loro catene
laterali (i gruppi R). Queste interazioni sono molto
importanti per stabilizzare le strutture proteiche (vedi
modello a destra)
Stabilizzazione del β-sheet
Stabilizzazione dell’α-elica
La calmodulina (di Paramecio) che lega il calcio mediante regioni a loop non
strutturate
Da dati ai raggi X a 1.0 Å
Catene disordinate e dinamica nelle proteine
Esistono anche tratti di catena polipeptidica che sono ‘disordinati’ (e spesso non
appaiono nelle mappe di diffrazione ai raggi X).
Può essere che siano tratti flessibili che si possono muovere o che assumono
posizioni alternative (per questo non appaiono chiari nella struttura). Spesso catene
cariche sulla superficie delle proteine non sono strutturate (molte delle catene laterali
delle lisine superficiali della mioglobina, ad esempio).
Le proteine sono comunque mantenute strutturate da interazioni deboli, per questo
sono comunque consentiti movimenti strutturali, anche rapidi. Talvolta sono a carico
di un singolo atomo, talvolta di un’intera porzione della catena polipeptidica. Possono
essere indotti dall’agitazione termica o da meccanismi precisi di induzione.
Le vibrazioni degli atomi delle proteine sono solitamente movimenti veloci e limitati
(0.5 Å).
I movimenti collettivi sono più lenti e coinvolgono interi tratti di catena legati
covalentemente. Un esempio: il movimento dei domini flessibili di legame degli
antigeni negli anticorpi. Avvengono sulle scale di 10-3-10-12 secondi e dipendono
anch’essi dall’energia termica.
Transizioni conformazionali (10-9-103 secondi) coinvolgono intere porzioni di catena
che si sposta anche di grandi distanze (1 nm). Possono avvenire in risposta a stimoli
precisi o all’instaurazione o rimozione di interazioni specifiche. Sono importantissime
per la catalisi enzimatica
Le forze che guidano il ripiegamento tridimensionale delle proteine
globulari
Due importanti tendenze razionalizzano il ripiegamento delle proteine globulari:
-Una catena polipeptidica di L-amminoacidi ha, anche se non ha struttura
secondaria, la tendenza ad attorcigliarsi nel senso destrogiro. Questo fa si che
le catene tendano a disporsi preferenzialmente in una forma destrogira, ad
esempio negli incroci necessari per la formazione di foglietti β paralleli.
Antiparallelo
rotazione destrogira naturale di una catena polipeptidica
Parallelo, destrogiro
Molto diffusa
Si può formare il
motivo βαβ
Parallelo, levogiro
rara
-Il ripiegamento tende a nascondere i residui idrofobici all’interno della proteina,
per non esporli al solvente. Le proteine globulari possono essere classificate
sulla base del tipo di nucleo idrofobico e di geometria dello scheletro che sono
impiegate per nascondere i residui idrofobici. Il ‘nucleo idrofobico’ è quella
regione in cui si raccolgono per interagire tra loro e non con il solvente.
Si possono razionalizzare i ripiegamenti delle proteine globulari come strati di
scheletro ripiegato, in modo che tra gli strati si possano ‘nascondere’ i residui
idrofobici. Più di metà delle proteine globulari note ha due strati, circa un terzo ne
ha tre, poche ne hanno quattro o cinque.
A volte non è facile definire gli strati o contarli.
Strato 1
Strato 2
(a) Citocromo c
I residui idrofobici sono sepolti tra gli strati
(b) Fosfoglicerato kinasi
(Dominio 2)
Parti gialle=nuclei idrofobici
(c) Fosforilasi
(Dominio 2)
Gli strati possono anche essere geometricamente curvi, come per la trioso fosfato
isomerasi, che ha uno strato centrale di β-sheet parallelo ed uno strato esterno di
α-eliche.
(d) T rioso fosfato isomerasi
Oltre che per gli strati, le proteine sono classificabili sulla base della struttura
secondaria che contengono (α-eliche antiparall, β-sheet paralleli o misti, β-sheet
antiparall. proteine ricche di metalli o disolfuri). Le similitudini della struttura
terziaria non devono ingannare su similitudini di funzione: l’omologia funzionale è
spesso dipendente da similitudini strutturali su una scala molto più piccola che
l’intera proteina.
Proteine di eliche antiparallele.
È il modo più semplice per impaccare α-eliche. Le proteine quindi consistono di
mazzetti (bundle) di eliche, spesso con una torsione levogira.
La maggior parte di queste proteine è fatta di 4 eliche.
Le globine sono un gruppo importante di proteine di α-eliche: sono costituite da
due strati di eliche, uno perpendicolare all’altro e la catena polipeptidica che passa
continuamente da uno strato all’altro.
la proteina del virus del mosaico del tabacco
la mioglobina
Proteine di β-sheets paralleli o misti
Si nota che i β-sheets paralleli distribuiscono i residui idrofobici su entrambi i lati del
piano. Di conseguenza, nessuno dei lati del foglietto può essere esposto al
solvente: i foglietti paralleli sono quindi nel nucleo delle proteine che li contengono.
Una struttura importante è il β-barrel (barile β), in cui 8 catene formano un foglietto
cilindrico affiancato da eliche a loro antiparallele che formano un cilindro esterno di
eliche parallele tra loro. Questa è la struttura della trioso fosfato isomerasi, già
vista.
entrambi i cilindri hanno una
torsione destrogira
Un altro motivo strutturale comune basato su foglietti paralleli o misti è un
‘muro’ interno di foglietto β attorcigliato protetto dal solvente da entrambi le parti
da eliche.
Queste strutture possono essere pensate come fatte di 3 strati di scheletro e
quindi hanno 2 nuclei idrofobici. Un esempio è l’esokinasi.
esokinasi
Proteine con foglietti antiparalleli
I foglietti antiparalleli dispongono, di solito, i residui idrofobici su un solo lato, per cui
possono avere un lato esposto al solvente.
La struttura minimale è a 2 strati, per proteggere il nucleo idrofobico. A volte la
geometria è a barile (i barili contengono in genere un numero pari di catene e
possono essere o tutti paralleli o antiparalleli).
A volte le catene sono interbloccate con topologie complicate che ricordano le
‘Greche’.
inibitore della tripsina dalla soia
Le proteine contenenti metalli o ricche in ponti disolfuro
Queste sono proteine generalmente piccole (100 residui) la cui struttura è
fortemente influenzata dalla presenza di metalli o legami disolfuro. La struttura di
queste proteine ricche in ponti disolfuro diventa instabile se i ponti disolfuro sono
rotti. Alcune hanno ripiegamenti simili alle proteine viste finora.
L’insulina è un esempio di polipeptide ricco in disolfuri
La ferrodoxina è ricca in ferro (come fa presumere il nome stesso)
Insulina
ferrodoxina
I coiled-coil
Il motivo strutturale dell’α-cheratina è detto coiled-coil. È un motivo presente
anche in altri tipi di proteine non costituite esclusivamente di eliche. In un mazzo
di eliche ce ne possono essere 2, 3 o 4 e possono essere parallele o
antiparallele.
Un esempio di coiled-coil molto esteso è la coda della miosina, proteina
motore che si muove sulle fibre di actina
Elementi di struttura sovrasecondaria
Sono anche chiamati motivi strutturali, o ripiegamenti (folds). Si tratta di
raggruppamenti caratteristici di strutture secondarie trovate nelle proteine.
Alcuni grandi motivi strutturali possono comprendere l’intera proteina, altri sono
molto semplici. Ad esempio, il coiled-coil si può intendere con motivo strutturale.
A volte si possono individuare DOMINI di ripiegamento in lunghi polipeptidi: in questo
caso, tratti diversi dello stesso polipeptide si ripiegano indipendentemente (e uno può
essere ripiegato indipendentemente dagli altri). A volte anche la struttura terziaria è
reminiscente della divisione in domini, e la proteina appare costituita di sezioni globulari
collegate da filamenti non strutturati. Più comunemente, gli estesi contatti tra i domini non
permettono di vedere chiaramente tale suddivisione.
Alcuni moduli della titina
Esempi di motivi strutturali:
Due semplici motivi strutturali che possono nascondere residui idrofobici, creando
due strati nella proteina
Già visto in precedenza, eliche (destrogire e, raramente, levogire) per fare foglietti
β paralleli
La tendenza dei β-strand di attorcigliarsi
crea strutture come i β-barrel o i foglietti
β attorcigliati.
I motivi sono la base per una classificazione
dei ripiegamenti delle proteine
Piruvato chinasi: una complessa struttura in cui si nota un motivo β-α-β
Altre consuetudini …
Quando entrambi presenti in una proteina, α-eliche e β-sheet fanno di solito parte
di due strati strutturali distinti, perché non riescono a formare facilmente legami H
tra loro.
Più spesso che no, elementi vicini nella struttura primaria restano in prossimità
anche in quella terziaria, ma non è una regola.
Non si possono formare incroci o nodi nel passare da un elemento di struttura
secondaria all’altro.
α-Emolisina di
Staphilococcus aureus:
una proteina con un βbarrel che protrude e
che si inserisce nella
membrana cellulare
creando un buco che
porta alla lisi della
cellula.
Helix- turn- helix
Beta sandwiches
4 α bundle
Le proteine di membrana si sono adattate ad un
ambiente idrofobico
La struttura della
batteriorodpsina, una
proteina pompa che sposta
protoni attraverso la
membrana (verso fuori)
La struttura quaternaria
• non lineare
• tridimensionale
• formata da legami
idrogeno, legami
covalenti (disolfuri),
impaccamento idrofobico
ed esposizione di
superfici idrofiliche
• le strutture favorevoli
sono frequenti e sono
state catalogate
Esempi di altre strutture quaternarie
Tetramero
SSB, permette il
legame coordinato al
DNA
Esamero
DNA elicasi, legame
coordinato al DNA e
idrolisi di ATP
Filamento
ricombinasi, per il
completo ricoprimento
di una molecola
estesa
In molte proteine, la struttura quaternaria si presenta simmetrica
il legame con l’O2 ha
effetti strutturali su tutta
la proteina, cambiando
la propensione stessa di
legare l’O2.
Come nell’emoglobina, la struttura quaternaria
consente un livello aggiuntivo di funzionalità (o
di complessità)
Generalmente, solo una piccola frazione della
superficie proteica è conservata
Invariante (il residuo è sempre lo stesso, es: Asp)
Conservato (il residuo è generalmente simile, es: carico neg.)
non conservato (diversi residui in diverse specie)
Le chaperonine e l’assistenza al ripiegamento
N =ripiegamento ‘nativo’
Le chaperonine sono grandi complessi di proteine fatti a doppio anello il
cui ruolo in vivo è assistere al ripiegamento delle proteine
Le Chaperonine cercano di controbilanciare il ripiegamento delle proteine
in forme non-native e l’aggregazione delle proteine
- Durante il folding de novo
- Nelle condizioni di stress (es.: ad alta temperatura – sono a volte detti
‘heat shock proteins’)
Cause dell’aggregazione
Interazioni idrofobiche
Legami idrogeno intercatene
Affollamento intracellulare
U = catena non ripiegata (unfolded)
N = Proteina ripiegata in modo nativo
I = intermedio parzialmente ripiegato
Il meccanismo di assistenza al ripiegamento delle
chaperonine
1- Legano i polipeptidi non ripiegati in modo nativo attraverso interazioni idrofobiche
2- Permettono ai polipeptidi di ripiegarsi in un ambiente idrofobico isolato
1.
2.
3.
4.
Il polipeptide non-nativo si lega all’anello trans (lontano a GroES)
di GroEL
7ATP (equatoriali) e GroES si legano all’anello cis di GroEL
Dissociazione dei 7ADP e di GroES dall’anello cis di GroEL
Il dominio apicale di GroEL ruota e cambia conformazione per
raddoppiare il volume della sua cavità e mutare le proprietà
superficiali da idrofobiche a idrofiliche
CHAPERONI CITOSOLICI di Coli e possibile utilizzo contro corpi di inclusione
Si possono usare chaperoni come
Schlieker et al.
-“disaggregasi” che disaggregano il corpo es ClpB
- “chaperoni folding” es DnaK e GroEL che intervengono anche nel folding de novo
- “chaperoni holding” che prevengono l’aggregazione oppure coaggregano con gli
aggregati per richiamare le disaggregasi
Oltre ai chaperoni è possibile usare proteasi per disaggregare i corpi di inclusione
TF
incontra DnaK
5-18%
Polipeptide
nascente
Intermedi del
folding
Proteina
Nativa
Incotra GroEL
aggregati
10-15%
Hsp60 (GroEL), Hsp70 (DnaK) e
Hsp90 (HtpG), assistendo il
folding, possono aiutarlo
mandandolo “avanti”e
prevenendo così l’aggregazione.
Però queste proteine non sono in
grado direttamente di “soccorrere”
grossi aggregati.
Problematica con alto riscontro
nell’espressione di proteine ricombinanti
eterologhe
La sovraespressione porta ad un livello di aggregazione
proteica elevato:
CORPI D’INCLUSIONE
Sempre maggiore è l’interesse riscontrato dagli studi che
descrivono l’eterogeneità della struttura dei corpi
d’inclusione e le interazioni dinamiche delle proteine
precipitate sotto questa forma con la frazione solubile.
Come si determina
sperimentalmente la struttura
delle proteine?
Cristallografia ai raggi X
•
•
•
•
cristallizzare una proteina
bombardarla con i raggi X e
registrare il disegno di
diffrazione
determinare la mappa di
densità elettronica dallo
scattering e dalla fase
mediante trasformata di
Fourier:
Utilizzare la densità elettronica
e le conoscenze biochimiche
sulla proteina per raffinare le
informazioni ed ottenere un
modello
"All crystallographic models are not equal. ... The brightly colored stereo views
of a protein model, which are in fact more akin to cartoons than to
molecules, endow the model with a concreteness that exceeds the
intentions of the thoughtful crystallographer. It is impossible for the
crystallographer, with vivid recall of the massive labor that produced the
model, to forget its shortcomings. It is all too easy for users of the model to
be unaware of them. It is also all too easy for the user to be unaware that,
through temperature factors, occupancies, undetected parts of the protein,
and unexplained density, crystallography reveals more than a single
molecular model shows.“
- Rhodes, “Crystallography Made Crystal Clear” p. 183.
Cenni storici
1864
1895
Viene cristallizzata l’ emoglobina.
Röngten osserva che quando i raggi catodici (elettroni) colpivano un bersaglio
metallico si originava una nuova forma di radiazione penetrante, che egli chiamo’
raggi X.
1912
Facendo attraversare dai raggi X un cristallo di solfuro di zinco Von Laue ottiene i primi
diffrattogrammi. W.L. Bragg e W.H. Bragg propongono una correlazione semplice tra la
figura di diffrazione ottenuta con i raggi X e la disposizione degli atomi nel cristallo che
ha generato la figura (legge di Bragg).
Anni ‘30 Bernal, Crowfoot, Bragg, ottengono i primi diffrattogrammi da cristalli di proteine
(insulina, emoglobina, mioglobina).
1941
Atsbury ottiene il primo diffrattogramma ai raggi X del DNA.
1951
Pauling e Corey propongono la struttura di α-elica e foglietto β in base a
considerazioni teoriche.
1953
Watson e Crick propongono la struttura a doppia elica del DNA sulla base delle analisi
diffrattometriche ai raggi X di Franklin e Wilkins.
1954
Perutz e coll. elaborano i metodi basati sull’ impiego dei metalli pesanti per risolvere il
problema delle fasi nella cristallografia ai raggi X.
1960
Kendrew descrive la struttura della mioglobina a una risoluzione di 2 Å. Perutz
propone la struttura della emoglobina, piu’ grande, ad una risoluzione inferiore.
Anni ‘80 Hartmut Michel risolve la struttura (3 Å) della prima proteina di membrana (centro di
reazione fotosintetico).
Anni ‘90 Diviene possibile la cristallografia risolta nel tempo.
2000
Vengono risolte le strutture (3 Å) delle subunita’ L e S del ribosoma (circa 1.5 e 1 MD
rispettivamente).
Cristallografia ai raggi X
•
•
•
•
•
•
•
Servono grandi quantità di
proteine cristallizzate (le proteine
devono cristallizzare)
È difficile cristallizzare le proteine
Molto difficile per proteine
idrofobiche (transmembrana)
Più accurato dell’NMR
Costoso: $100,000/proteina
Accesso a radiazione adatta
Tempo di calcolo per risolvere la
struttura
Cristallografia a raggi X
• Ottenere cristalli della proteina
– 0.3-1.0 mm
– Le singole molecole sono ordinate in modo
periodico, ripetitivo.
• La struttura è determinata dai dati di
diffrazione.
problema fondamentale è che l’ intensità dello scattering dei raggi X risultante
dall’ interazione con una singola molecola è troppo debole per dare informazioni
utilizzabili.
→ Con un cristallo l’ ampiezza dello scattering viene amplificata di un fattore
pari al numero di cellule unitarie che formano il cristallo esaminato.
Condizioni per la cristallizzazione di proteine
• Proteina pura > 97% e in grande quantita’.
• Lenta precipitazione da una soluzione sovrasatura → metodo hanging drop.
• Giocano un ruolo molti parametri critici: pH, temperatura, concentrazione della
proteina, natura del solvente e del precipitante, ligandi della proteina, etc.
• Alcuni cristalli non diffrangono affatto o troppo poco (disordine intrinseco), altri
sono troppo piccoli o troppo fragili.
Le proteine nei cristalli tendono a impaccarsi lasciando fra loro larghi spazi
Impaccamento
della glicolato
ossidasi
→ Struttura ‘nativa’
→ Diffusione di ligandi, metalli pesanti
Diffrazione a raggi X
Risoluzione
Spettroscopia NMR
• I protoni risuonano ad una frequenza che
dipende dal loro intorno chimico.
• Questo può essere impiegato per
caratterizzare una struttura.
• Non ha bisogno di cristalli, la proteina può
essere in soluzione (anche se in genere
molto concentrata).
• A risoluzione più bassa della cristallografia
ai raggi X.
Spettroscopia NMR
•
•
determinare delle costrizioni
(distanze, angoli)
•
•
da usare per determinare una
struttura
Proteine in soluzione acquosa,
mobili, vibrano e si mescolano
grazie all’agitazione termica
l’NMR rileva i chemical shift dei
nuclei atomici con spin non nullo a
causa delle interazioni che hanno
con l’ambiente circostante
determina le distanze tra coppie di
atomi
impiega, poi, conoscenze chimiche
e biochimiche sulla proteina per
determinare famiglie di modelli.
Campo magnetico
NMR
NOE (Nuclear Overhauser Effect)
Risonanza Magnetica Nucleare
(NMR)
•
•
•
•
•
•
Proteine in soluzione
Limite di dimensione ~ 40 kDa
Proteine stabili a lungo
Marcatura con 15N, 13C, 2H.
Strumentazione molto costosa
Tempo per assegnare le risonanze
Pro e contro
X-ray
NMR
•
Richiede cristalli, problematico
•
•
Non ha limiti (teorici) di
grandezza
Possibile in soluzione, più
semplice
•
Limitato a proteine fino a circa
300 residui
•
Piú preciso
•
Meno preciso
•
Risoluzione
•
Numero di vincoli
•
Struttura può essere deformata
dai cristalli, rigida
•
Struttura nativa in soluzione,
flessibile
•
Una “soluzione“
•
Molti modelli
X-ray
NMR
Fluorescence Resonance Energy Transfer
•
•
•
•
•
è spesso descritto come “righello molecolare”
segmenti di una proteina sono etichettati con fluorofori
il trasferimento di energia avviene quando donatore ed accettore
interagiscono, questo dipende dalla distanza e decresce come 1/d6
dove d è la separazione tra donatore ed accettore
donatore ed accettore devono essere distanti meno di 50 Å,
l’intensità di emissione dell’accettore è sensibile alle variazioni di
distanza
si possono individuare coppie di punti di catena che sono, ad
esempio, separati quando la catena non è ripiegata e prossimi
quando la catena è ripiegata.
Protein DataBank (PDB)
X‐ray: 58,000
NMR: 7,400
Utili portali di ricerca per strutture
http://www.ncbi.nlm.nih.gov/sites/gquery
http://www.pdb.org
Il problema del ripiegamento delle proteine …
… cioè il problema di capirci qualcosa
Perché il ripiegamento delle proteine è un
problema?
“Chiunque abbia faticato per ripiegare una
carta stradale dovrebbe portare particolare
rispetto alle proteine, le quali si ripiegano
da sole ed in pratica si mettono anche nel
cassetto”
- (Brian Hayes, da un articolo su American Scientist, 1998)
Come si ripiegano le
proteine?
Le proteine si ripiegano spontaneamente
nella loro struttura ‘nativa’, impiegando un
tempo biologicamente breve (dell’ordine
dei secondi)
la struttura nativa è lo stato fondamentale
del sistema, La differenza energetica con
il primo stato eccitato è >> kT…
…il ripiegamento di una
proteina è una reazione
chimica, il meccanismo è tale
che lo stato di transizione
abbia bassa energia libera
…le proteine si ripiegano o si denaturano
come risposta ad uno stimolo esterno e per
svolgere funzioni biologiche
Perché il ripiegamento delle proteine
è (ancora) un problema irrisolto?
La struttura tridimensionale proteica NON È
GERARCHICA, ma contestuale e la nucleazione ha
luogo contemporaneamente: le strutture 2° e 3°
crescono insieme
Le proteine non hanno un problema di ripiegamento …
… ce l’hanno i ricercatori
Cartoons by Larry Gonick
In principio,
le leggi della fisica determinano per intero come una catena lineare di
amminoacidi si ripieghi in una struttura tridimensionale complessa
dotata di proprietà biochimiche utili.
In pratica,
predire la struttura partendo dalla sequenza è un grande problema
irrisolto.
Perché il ripiegamento è un problema?
è molto difficile caratterizzare il processo di ripiegamento!
Perché il ripiegamento delle proteine
è (ancora) un problema irrisolto?
STATO FONDAMENTALE
STATO NATIVO
Paradosso di Levinthal (1968):
Se la ricerca è casuale:
Ω=5
83
τfold = Ω
τfold
2CI2
N= 83 residui
k0
~ 10
58
58
~ 10 sec
12
10
>> età dell’universo !!
~ 5 stati ogni residuo
Energia
Ricerca casuale nello
spazio conformazionale
coordinata(e) di reazione
panorama di energia
conformazionale simile ad un
campo da golf
Teoria della superficie di energia potenziale
La proteina cerca
CONFORMAZIONI ad
ENERGIA PIÙ BASSA
Cartoons by Larry Gonick
Superficie di energia potenziale a
‘campo da golf’
Energia
superficie di energia potenziale
altamente corrugata
superficie di energia
potenziale ad imbuto
coordinata(e) di reazione
troppo
lento!
troppo
lento!
OK!
Studi teorici hanno mostrato come
superfici di energia potenziale fatte
ad imbuto con un minimo unico
possano guidare efficientemente
una proteina verso strutture native
grazie alla progressiva
organizzazione delle strutture
parzialmente ripiegate che si
formano lungo il cammino.
L’imbuto è corrugato da
‘impedimenti’ locali (impedimenti
sterici, contatti non nativi, ecc.) che
producono barriere di potenziale
alcune volte maggiori delle
fluttuazioni termiche. Durante il
ripiegamento, questa corrugazione
dell’imbuto comanda la cinetica del
processo intrappolando le molecole
che si stanno ripiegando.
Si ipotizza che i processi di
ripiegamento/denaturazione
possano avvenire su questa
complessa superficie di energia
potenziale, caratterizzata da
numerosi intermedi.
Cartoons by Larry Gonick
Una proteina è guidata verso la sua struttura nativa da
superfici di energia potenziale con una struttura
globalmente ‘ad imbuto’
Le molecole individuali seguono
cammini differenti.
(J. M. Fernandez, H. Li, Science 2004,
303, 1674-1678)
Esaminare gli equilibri conformazionali e le
cinetiche di ripiegamento al livello della singola
molecola, sta divenendo una necessità ed al
tempo stesso una grande sfida in biologia
sperimentale.
(Onuchic & Wolynes Current Opinion in
Structural Biology 2004, 14:70–75)
Examining protein conformational equilibrium and folding kinetics
at a single-molecule level
Within such a complex funneled multidimensional energy landscape, different
protein molecules, in spite of having the same sequence, can follow markedly
different trajectories during their folding and also in their thermal fluctuations after
having reached their “native” structure. In fact, one molecule can be driven into
one funnel trap, while a different molecule can visit another one, and so on.
Through such a multiplicity of conformational paths, peculiar structures could be
assumed or particular motions could be made even by only a few molecules
of the ensemble.
Those structures might be selected or those motions might be rectified to make a
specific biological function possible, and the same function would be inaccessible
for all the other molecules at that same moment. It has been theoretically
recognized that the structure of a protein required for a biological function might
also be the result of catastrophic events, such as the cracking or unfolding of part
of the protein due to transient strain energies. On this basis, examining protein
conformational equilibrium and folding kinetics at a single-molecule level has
become a necessity, and it is currently considered a great challenge in
experimental biology.
Misure di singola molecola
Discrasia: pensiamo nei termini di una molecola singola, ma
facciamo solitamente esperimenti campionando numeri di
Avogadro di molecole ed estraendo quantità mediate
Superiamo le limitazioni delle medie con misure di
molecole singole, poi è possibile effettuare
• medie nel tempo
• medie nelle popolazioni conformazionali
Gli esperimenti di denaturazione indotta dalla forza
normalmente esplorano traiettorie differenti sulla
superficie di energia potenziale rispetto agli esperimenti di
denaturazione termica o con agenti chimici.
denaturazione meccanica
denaturazione
termica
(X. Zhuang & M. Rief, 2003)
Gli esperimenti di denaturazione meccanica sono
particolarmente rilevanti per le proteine che sono soggette a
forze di trazione in vivo.
denaturazione meccanica della titina
mediante microscopia a forza atomica: Rief et al. Science 1997, 276, 1109-1112
• La curva di forza ha un profilo a denti di sega in cui ogni picco corrisponde
allo svolgimento di un dominio individuale
• I singoli moduli si svolgono sequenzialmente.
mediante optical tweezers
Kellemayer et al. Science 1997, 276,1112-1116;
Tskhovrebova et al., Nature 1997, 387, 308-312
Denaturazione e rinaturazione di una proteina in velocity clamp
Miosina II coiled coil:
si comporta come una
vera molla entropica:
può rilassare molto
velocemente poiché la
sua struttura è
topologicamente
semplice
(fig.from X. Zhuang, M.
Rief Curr. Op. Str. Biol:
2003)
Titina: la denaturazione e
la rinaturazione
procedono su due
traiettorie diverse. Il
tempo richiesto per
campionare tutte le
possibili interazioni e
scegliere i minimi di
energia ottimali diventa
sempre più lungo
Il processo è dominato da effetti cinetici quando la velocità di applicazione della forza è più
alta del tempo di rilassamento molecolare più lento.
Panorama (superficie) di energia libera
Simulazioni di Dinamica Molecolare
E (R ) = Elegame + Eangolo + Ediedrica + Eelettrostatica + EvdW
da: http://www.ch.embnet.org/MD_tutorial/
The Structural Prediction Problem
“Given a protein sequence, compute its structure”.
•
•
•
•
Possible in principle.
Astronomical, highly under-constrained search space.
Biophysics complex and incomplete.
Next to impossible in practice.
Secondary Structure Prediction
• Much simpler to predict a small set of
classes than to predict 3-D coordinates of
atoms.
• Amino acids have different propensities for
alpha helices, turns and beta sheets.
• Homology can also be used since fold is
more conserved than sequence.
A Major Challenge of Bio-informatics
The challenge: Understand the relationship between amino acid
sequence and the 3D structure of proteins;
Predict 3D structure from sequence.
Unfortunately, the relationship between sequence and
structure is very complicated. Current tools perform this task
poorly.
Best performance (so far) can be achieved using sequence
homology to a known 3D structure experimentally determined
(by X-ray crystallography or NMR).
How do Proteins Acquire
Correct Conformation ?
• The primary amino acid sequence is crucial in determining its final
structure.
• In some cases, additional interactions may be required before a
protein can attain its final conformation (for example, cofactors,
one or more subunits).
• Proteins can change their shape and function depending on the
environmental conditions in which they are found. The primary amino
acid sequence does not change.
How is the 3D structure determined?
1. Experimental methods (Best approach):
• X-rays crystallography - stable fold, good quality crystals.
• NMR - stable fold, not suitable for large molecule.
2. In-silico methods (partial solutions based on similarity):
• Sequence or profile alignment - uses similar sequences,
limited use of 3D information.
• Threading - needs 3D structure, combinatorial complexity.
• Ab-initio structure prediction - not always successful.
http://www.idi.ntnu.no/grupper/KS-grp/microarray/slides/drablos/Fold_recognition/sld004.htm
Predicting Protein Structure
Principle: Look for the structure with minimum free energy.
Rule of thumb: Hydrophobic a.a. wants to stay “inside” (conserved)
,hydrophilic a.a. wants to be “outside” (less conserved, assuming
water as the universal solvent in cells).
The main driving force for folding is to pack hydrophobic side-chains
into the interior of the molecule, thus creating a hydrophobic core.
Factors other than free energy:
shape, size, polarity, strength of interactions, etc.
Conformation of Polypeptides
The Advent of Computational Modeling:
Aim: Develop procedures for predicting protein structure,
that are not so time consuming and that are not hindered
by size and solubility constraints.
Basic Theory: Proteins that share a similar sequence,
generally share the same basic structure. There is a
strong conservation of protein 3D shape across large
evolutionary distances.
Three Main Approaches
for Structural Prediction:
1. Comparative (Homology) Modeling.
Requires sequence that is similar to the sequences of
a protein(s) of known structure.
2. Fold Recognition (Threading).
Requires a structure similar to a known structure
(with little sequence similarity).
Both based on similarity.
3. Ab-initio (based only on sequence)
Have no similarity, based on first principals.
Example:
A pathway for folding a 2-domain protein.
1. Comparative (Homology) Modeling
Principle: Sequence homology usually implies 3D
structural similarity.
Given a protein sequence, look for homologous sequences
with a known structure.
Suppose the structure of one or more homologous has
already been determined. Then the structure of “our”
original protein will be similar (High sequence identity
(> 70%), is necessary).
Remark: The success of this approach depends on the
number of different structures already determined
(low success early on, improved as PDB grows).
2. Protein Fold Recognition Classifying Proteins by Folds
Goal: Map regions of linear sequence to known folds in PDB.
Fold: Collection of proteins that share a
similar combination of secondary structures.
In human: Estimated number of proteins is 100,000.
~700 folds discovered so far.
Nature has created complexity through the
combination of a small number of simple
elements - such as secondary structures.
Fold Recognition
Fold recognition - Given a sequence and a library of folds,
thread the sequence through each fold. Take the one with
the highest score.
Note: Method will fail if
new protein does not belong
to any fold in the library.
Experience shows that with
current library (~700 folds)
most new proteins do find a
“good fold”.
Score of the threading is computed based on known physical chemistry
properties and statistics of amino acids.
http://cmgm.stanford.edu/biochem218/16Threading.pdf
Fold Recognition - Threading
Thick backbone - known structure. Thin lines - modeled
structure. Some side-chains are not positioned correctly,
but some look good.
The similarity of structures is very high in “core regions”
(helices & sheets). However, loops vary even in pairs of
homologous structures with high % of sequence similarity.
Ab-initio, theoretical modeling,
and conformation space search
• Ab-initio = given amino acid primary structure, i.e. sequence,
derive structure from first principles (e.g. treat amino acids as
beads and derive possible structures by rotating through all
possible φ, ψ angles using a “reliable” energy function, then
optimize globally)
• Theoretical modeling = subset of ab-initio, given amino acid
primary structure and knowledge about characteristic features,
derive structure that has that structure and features
(e.g. protein has an iron binding site Æ
possible heme substructure)
• Conformation space search = subset of ab-initio, but a
stochastic search in which the sample space is reduced by
initial conditions/assumptions (e.g. reduce sample space to
conform to Ramachandran plot)
Homology modeling and threading
• Homology modeling = knowledge-based approach, given a
sequence database, use multiple sequence alignment on this
database to identify structurally conserved regions and
construct structure backbone and loops based on these
regions, restore side-chains and refine through energy
minimization (apply to proteins that have high sequence
similarity to those in the database)
• Threading = knowledge-based approach, given a structure
database of interest (e.g. one that provides a limited set of
possible structures per given sequence for fold recognition,
one that provides a one structure per given limited set of
possible sequences for inverse folding) use scoring
functions and correlations from this database to derive
structure that is in agreement (apply to proteins with
moderate sequence similarity to those in the database)
Energy minimization, simulation
and Monte Carlo
• Energy minimization = select an appropriate energy function
and derive conformations that yield minimal energies based
on this function
• Simulation = select appropriate molecular conditions and
derive conformations that are suited to these molecular
conditions
• Monte Carlo = subset of molecular simulation, but it is an
iterated search through a Markov chain of conformations
(many iterations Æ canonical distribution, P(particular
conformation)~exp(-E/T)) proposed by N. Metropolis, in which
a new conformation is generated from the current one by a
small ``move'' and is accepted with a probability Pacc = min(1,
exp(-ΔE/kT)), which depends on the corresponding change in
energy, ΔE, and on an external adjustable parameter, kT
3. Ab-Initio Prediction
Used when all else fails:
1. No homology found to any sequence with known
structure.
2. All known folds give poor threading scores.
Given only the sequence, try to predict the structure
based on physical-chemistry properties (energy,
hydrophobicity, size, charge, etc.).
Some ab-initio programs try to simulate the process of
the protein folding in the cell (by molecular dynamics).
Ab-Initio Prediction
• A good prediction method for 2- or 3D structures
only for small & simple proteins.
• Method requires enormous computational resources.
Despite substantial
improvements, success
is still very limited.
Talvolta qualcosa non è perfettamente razionale …
PARADIGMA STRUTTURA-FUNZIONE
SEQUENZA
AMMINOACIDICA
STRUTTURA 3D
FUNZIONE
STRUTTURA 3D SPECIFICA E’ PREREQUISITO
FONDAMENTALE PER LA FUNZIONALITA’
DELLA PROTEINA
ESPERIMENTI DI DENATURAZIONE
così dovrebbe funzionare sempre, ma …
CONFIGURATIONAL ADAPTABILITY
(Karush, 1950)
DA STUDI SU ALBUMINA DEL SIERO
IPOTESI CHE CAMBI CONFORMAZIONALI
SIANO RESPONSABILI DELLA FUNZIONALITA’
DELLA PROTEINA
20 ANNI FA: scoperta, in alcune proteine, di segmenti non
strutturati aventi ruolo importante per la funzionalità della
proteina stessa.
Coda funzionale
dell’istone H5
Dalla “TRIPLETTA PROTEICA”
Molten globule
Ordinato
SCHEMA DEL QUARTETTO PROTEICO
Gomitolo statistico
IUPs
INTRINSICALLY UNSTRUCTURED PROTEINS
Proteine la cui funzione
è direttamente correlata
al disordine strutturale
• Assenza di folding associata a
alta flessibilità
• Comuni a molti organismi, in
quantità correlata alla
complessità
• Localizzate soprattutto in
nucleo e citoscheletro
ƒ Trasduzione del segnale
ƒ Regolazione del ciclo cellulare
ƒ Espressione genica
TECNICHE PRINCIPALI PER
DIMOSTRARE L’ASSENZA DI UN’UNICA
STRUTTURA 3D
Cristallografia
ai raggi X
Risonanza
magnetica nucleare
multidimensionale
(NMR)
Studio delle IUPs in vitro in
soluzioni altamente diluite
Dicroismo circolare
CARATTERISTICHE STRUTTURALI
• CONFORMAZIONE ESTESA
• COMPOSIZIONE AMMINOACIDICA CARATTERISTICA
•
•
•
•
BASSA IDROFOBICITA’
ALTA CARICA NETTA
MANCANZA DI Cys
ABBONDANZA DI Pro
• ORDINE STRUTTURALE
CONFORMAZIONE ESTESA
SARA SBD DOMAIN
• La PRINCIPALE PROPRIETÀ
strutturale delle IUPs è che non
posseggono una struttura ben
foldata in condizioni fisiologiche.
• Appaiono
SNAP-25
HIF-1α
HIF-1α
infatti
in
una
CONFORMAZIONE ESTESA che
sembra assomigliare allo stato di
random coil, ma tale struttura
dipende
da
una
precisa
composizione amminoacidica per
nulla casuale.
COMPOSIZIONE AMMINOACIDICA
DISTINTIVA
FREQUENZE DI AMMINOACIDI IN %
Arg, Ala, Gly, Pro, Glu, Lys, Ser e Gln
(disorder-promoting)
Trp, Tyr, Phe, Cys, Ile, Leu e Asn
(order-promoting)
Tale composizione amminoacidica provoca:
BASSA IDROFOBICITA’
ALTA CARICA NETTA
E’ FAVORITA UNA CONFORMAZIONE
ESTESA
COMPOSIZIONE AMMINOACIDICA
DISTINTIVA
MANCANZA DI Cys
ABBONDANZA DI Pro
• In una struttura globulare di solito
• La prolina è un amminoacido che
le cisteine occupano il SITO
ATTIVO o stabilizzano i LEGAMI
DISOLFURO. Le IUPs infatti sono
carenti nella frequenza di questi
residui.
DESTABILIZZA
la
struttura
avvolta delle proteine a causa
della sua struttura rigida.
E’ FAVORITA UNA CONFORMAZIONE
ESTESA
• La prolina induce la formazione di
una elica sinistrorsa chiamata
POLIPROLINA II (PP II), una
conformazione molto frequente
nelle IUPs.
ORDINE STRUTTURALE
ORGANIZZAZIONE DEI DOMINI DELLE IUPs
• L’ordine strutturale delle IUPs è
visibile a livello della sequenza
amminoacidica, come dimostra
la BASSA COMPLESSITA’
(molte regioni ripetute) se
comparata con le sequenze
random delle proteine globulari.
• Inoltre la distribuzione a lungo
ZONE RICCHE IN AA ACIDI
ZONE RICCHE IN AA BASICI
ZONE RICCHE IN Pro
ZONE CARICHE
S,A,Q,N,K
NOME DELL’
DELL’AA PREDOMINANTE
raggio di alcuni amminoacidi
(Pro, Gln, Acidi, Basici) è
tutt’altro che casuale.
Infatti è chiaramente visibile
che l’organizzazione in DOMINI
di alcune IUPs è definita dalla
prevalenza di alcuni residui
piuttosto che di altri.
CARATTERISTICHE FUNZIONALI
Coinvolgimento in molti PROCESSI CELLULARI:
• regolazione della trascrizione e traduzione
• trasduzione cellulare del segnale
• immagazzinamento di piccole molecole (scavengers)
• regolazione dell’assemblaggio di grossi complessi
(assemblers)
• funzione di chaperoni per proteine e molecole ad RNA
multiproteici
TRANSIZIONE DISORDINE-ORDINE (coupled folding and binding). Può
consistere sia nell’assunzione di uno stato semplicemente più ordinato, sia
di una struttura secondaria o terziaria.
BINDING PROMISCUITY, capacità di legare più target differenti.
Ovviamente ciò presuppone l’adozione di diverse conformazioni.
MODIFICAZIONI POST-TRASDUZIONALI (fosforilazioni, acetilazioni,
metilazioni,…). Proprietà molto importante per tutte le IUPs la cui funzione
è soggetta a modulazione (display sites).
Intrinsically Unfolded Proteins (IUPs)
against the classical paradigm of protein science “one sequence=one structure”
z
z
z
IUPs = proteins that mostly lack a single, well-defined three-dimensional
structure in physiological conditions.
IUPs play key roles in a wide range of biological processes like transcriptional
and translational regulation, signal transduction, protein phosphorylation and
help in the folding of RNA and other proteins.
IUP’s fulfil more then one, apparently unrelated, function (‘moonlighting’, or
multi-tasking proteins); might increase the complexity of metabolic
network without increasing the number of underlying proteins
Tompa P, Trends Biochem Sci (27) 10, 527-533
Dunker AK, "DisProt: the Database of Disordered Proteins." Nucl. Ac. Res. 2007(35)786-93
CATENE ENTROPICHE
• Questa classe di IUPs non è coinvolta nel riconoscimento molecolare.
• La funzione deriva direttamente dallo stato disordinato in cui si trovano
ed è associata all’abilità
conformazionali alternativi.
del
polipeptide
di
fluttuare
tra
stati
• Svolgono fondamentalmente ruoli architettonici come ad esempio quello
di molle per la contrattilità del muscolo, o di spaziatori dei microtubuli del
citoscheletro.
• Comprende principalmente bristles, springs e linkers.
LEGAME TRANSIENTE
A questo gruppo appartengono le IUPs coinvolte in riconoscimenti molecolari, ma
che intraprendono con i propri target solo legami transienti, ossia non permanenti
nel tempo.
•
DISPLAY SITES
La loro funzione è mediata da
modificazioni regolatorie POSTTRADUZIONALI
come
fosforilazione
o
proteolisi
limitata.
• Alcune modificazioni richiedono
infatti una buona flessibilità del
substrato (data in questo caso
dal disordine intrinseco) che
permette interazioni transienti
ma specifiche con il sito attivo
dell’enzima.
CHAPERONS
• Ultima classe ad essere stata
individuata.
• Comprende sia chaperoni proteici
che RNA-chaperoni. I primi sono
la classe funzionale con la
maggiore incidenza di regioni non
strutturate (il 40% contro il 15%
dei proteici).
• La funzione dipende direttamente
dai segmenti non strutturati.
LEGAME STABILE
A questo gruppo appartengono le IUPs coinvolte in riconoscimenti molecolari, ma
che intraprendono con i propri target solo legami permanenti, ossia duraturi nel
tempo.
EFFECTORS
ƒ Alterano l’attività dei loro
target
molecolari
(singole
proteine
o
complessi multiproteici).
ƒ La
loro
azione
è
principalmente inibitoria,
ma scoperte recenti
hanno dimostrato che
possono agire anche da
attivatori, dimostrando la
loro estrema versatilità
strutturale e funzionale.
ASSEMBLERS
ƒ Questa
classe
di
proteine è coinvolta
nei
processi
di
assemblaggio,
regolazione
e
stabilizzazione
di
grossi
complessi
multiproteici quali ad
esempio il ribosoma,
la cromatina e il
citoscheletro.
SCAVENGERS
ƒ Scavengers significa
esattamente
“spazzini”, infatti la
loro funzione è quella
di accumulare e
neutralizzare piccole
molecole
che
costituiscono il loro
ligando.
Human diseases linked with abnormal aggregation of IUPs
Chiti & Dobson, Annu
Rev Biochem2006
The expression levels of human genesin-vivo are anti-correlated with the
aggregation rates of the corresponding proteins measured in-vitro
“human proteins have evolved to resist aggregation and to functio n efficiently, but
with almost no margin of safety to respond to genetic and environmental factors
that decrease their solubility or increase their concentration i n vivo.”
“we are constantly living our lives at the edge of a molecular pr ecipice”.
(Vendruscolo and coll. Trends Biochem Sci 2007)
α-synuclein
-Its physiological functions
in the nervous system
remains to be fully defined.
-It is related to several
neurodegenerative diseases,
including Parkinson’s disease
(PD).
- α-syn bound to ubiquitin is the
main constituent of the
proteinaceous cytoplasmic
inclusions called Lewy Bodies.
Amphipatic region
1
Lewy body α-synuclein immunostain
NAC
61
Acidic terminal
95
140
oligomers
?
fibrils
(β−sheets)‫‏‬
Interacting with
membranes
it acquires
α-helix
structure
Lewy body
αSyn is a natively
unfolded protein
The transition from the
natively unfolded monomeric
state to fibril is a process of
acquiring a β-structure.
This process is still under
strong debate.
Amyloid fibrils
The name comes from the early mistaken identification of the substance
as starch (amylum in Latin)
One of the most intriguing issues in biology is the occasional
conversion of proteins into stable fibrillar aggregates.
Such structures, known as amyloid fibrils are involved in over 20
neurodegenerative human diseases.
An electron microscope image
of amyloid fibrils in vitro
Diffraction pattern: signature of cross β structure
with β-strands orthogonal to the fibril axis
Amyloid fibrils
Syn 1-140 / 110h 37°C
Fibril-involving Proteopathies (Amyloidoses):
42 and counting !
•
•
•
•
•
•
•
•
•
•
•
•
Alzheimer’s disease
Parkinson’s disease
Atrial Amyloidosis
Hereditary Renal
Amyloidosis
Secondary Systematic
Amyloidosis
Injection-Localized
Amyloidosis
Type II diabetes
Chronic Wasting Disease
(CWD)
Scrapie
BSE- Mad Cow Disease
Kuru
Creutzfeldt-Jakob Disease
1 . Tecniche per valutare il contenuto di struttura
secondaria
DICROISMO
CIRCOLARE
Lo spettro CD di
una IUP è
caratterizzato da
un’ellitticità
negativa a 198
nm e da
un’ellitticità
prossima a zero a
185 nm.
Valutando i valori
di ellitticità a 200
e 222 nm si riesce
anche a
discriminare tra
proteine random
coils e premolten
globules.
SPETTROSCOPIA
INFRAROSSA DI
FOURIER (FT-IR)
Le informazioni sulla
struttura secondaria
derivano dalla
scomposizione della
banda di assorbimento
dell’ammide nei suoi
componenti. Questa
banda si origina dalla
vibrazione di stretching
del C=O del legame
peptidico, la cui
frequenza è sensibile
alla conformazione
della proteina.
Consente di monitorare
l’aggregazione della
proteina e di
discriminare tra eliche
con differenti gradi di
flessibilità
2. Metodi per valutare la struttura terziaria globale
SMALL ANGLE X-RAY SCATTERING (SAXS)
L’intensità di scatter è sensibile sia alle dimensioni della proteina in
soluzione, sia alle proprietà conformazionali della catena
polipeptidica.
Confrontando per una proteina il raggio di rotazione sperimentale
con quello atteso, si riesce a discriminare tra proteine foldate,
random coils e premolten globules.
DYNAMIC LIGHT SCATTERING E GEL FILTRATION
Attraverso queste tecniche è possibile determinare il raggio
idrodinamico Rh di una particella in soluzione: sono stati definite
delle relazioni empiriche tra l’Rh e il numero di residui di proteine
globulari e di random coils, perciò si può confrontare l’Rh osservato
con i valori attesi e valutare il grado di compattezza della proteina.
ULTRACENTRIFUGAZIONE ANALITICA E VELOCITA’ DI
SEDIMENTAZIONE
Anche queste altre due tecniche forniscono informazioni
idrodinamiche quali la taglia e la conformazione della proteina
3. Metodi per valutare la struttura terziaria locale
SPETTROSCOPIA DI FLUORESCENZA
Il principale fluoroforo nelle proteine è l’amminoacido triptofano: esso ha
un massimo di assorbanza prossimo a 280 nm e un massimo di
emissione altamente dipendente dalla polarità dell’ambiente. L’intensità di
fluorescenza del triptofano dipende inoltre dall’interazione con i gruppi
vicini. Lo spettro di fluorescenza di una IUP fornisce perciò utili
informazioni sull’ambiente del fluoroforo, e quindi sulla presenza di
struttura proteica ordinata in sua vicinanza.
SPETTROSCOPIA NEAR UV-CD
Nella regione near-UV (320-260 nm) i segnali CD sorgono
principalmente dalle catene laterali aromatiche di fenilalanina, tirosina e
triptofano. Segnali pronunciati sono indicativi di residui aromatici in un
ambiente piuttosto asimmetrico, compatibile con la presenza di una
residua struttura ordinata.
DIFFERENTIAL SCANNING CALORIMETRY (DSC)
Poiché l’assenza di una transizione termica cooperativa è indicativa
dell’assenza di struttura terziaria rigida, un’analisi della capacità
termica può risultare utile per l’individuazione di proteine
intrinsecamente disordinate.
SURFACE PLASMON RESONANCE (SPR) – tecnologia BIACORE
Le variazioni di segnale riflettono cambiamenti conformazionali
all’interno di una proteina immobilizzata. Si possono quindi valutare
il disordine strutturale intrinseco e il folding indotto in presenza di un
ligando
Tool: Single-Molecule AFM-based Force-Spectroscopy
z
z
z
z
z
z
z
Bulk analysis
z
z
SMFS
Need: handles are needed to grab an
individual IUP molecule by AFM, to
connect one end of the protein to the
tip and the other to the substrate
In SMFS, like for optical tweezers, the handles can
• provide an internal standard: their length and behavior under tension is well
known, so that interesting events can be recognized
• define a precise pulling geometry for the molecule of interest
• reduce the effect of non-specific probe-surface interactions
Handles+protein=artificial bionanostructure
Result: SMFS can detect different classes of singlemolecule events originated by different conformers of
α-synuclein in the nanostructure
Many nanostructures comprising α-synuclein are pulled and unfolded …
here are some example curves of two types
Interpretation
is due to:
is due to:
extension of the unstructured
portion of the nanostructure
It is now possible to characterize the folding state of α-synuclein monomers!
[Sandal, Valle, et al. PLOS Biology 2008, 6(1), e6]
Scarica

La struttura delle proteine