Università degli studi di Roma
“Tor Vergata”
Facoltà di Scienze Matematiche, Fisiche e
Naturali
Tesi di Laurea Triennale in Fisica
“Frequenza di occorrenza del tetrapeptide
HGGG e sue possibili implicazioni
biologiche”
Relatore
Candidato
Prof.ssa Silvia Morante
Stefania Alleva
Anno Accademico 2005/2006
SOMMARIO
 Introduzione: le malattie neurodegenerative;
 La Proteina Prionica: i motivi ripetuti e il legame con il Cu+2;
 Tecniche utilizzate per studiare il sito di legame PrP- Cu+2:
Diffrazione a raggi X; Spettroscopia XAS; Spettroscopia EPR;
Simulazioni numeriche;
 Analisi statistica sulla frequenza di occorrenza del tetrapeptide
HGGG: verifica della rarità;
 Ricerca di omologie, affinità, relazioni tra le proteine umane
dotate del peptide studiando: struttura primaria, struttura
secondaria, struttura terziaria, idropaticità, sito di legame per i
metalli;
 Conclusioni e sviluppi futuri.
MALATTIE
NEURODEGENERATIVE
 Morbo di Parkinson
MALATTIE
NEURODEGENERATIVE
 Morbo di Alzheimer
 Encefalopatie Spongiformi
Trasmissibili (TSE)
 CJD
 nvCJD
AGGREGAZIONE
Agente infettivo:
MISFOLDING
PROTEINA
LA PROTEINA PRIONICA (PrPc)
 Glicoproteina di membrana (cellule presinaptiche)
 Numero di a.a. variabile da specie a specie
 Dominio globulare (strutturato e intramembrana) e dominio non strutturato extramembrana nella
regione N-terminale
 Presenza nel dominio N-terminale di vari octarepeats (PHGGGWGQ), potenziali siti di legame per il Cu+2
 Funzione esatta ignota
IPOTESI PIU’ ACCREDITATE
sc) di segnali cellulari
1. (PrP
Traduzione
LA PROTEINA PRIONICA SCRAPIE
 L’agente patogeno della TSE è la PrPsc, forma anomala della PrP2.c, inAdesione
cui trattimolecolare
di α elica
3. Trasporto e chelazione del rame
sono sostituiti da β-sheet all’estremità C-terminale
4.
Antiossidante
 Misfolding probabilmente legato all’interazione con Cu+2
 La PrPsc si accumula nel CNS portando, dopo anni, alla rottura della barriera ematoencefalica
 Modello diffusione intracellulare cerebrale “domino-stone”
+2
DETERMINARE
LA
COORDINAZIONE
OCTAREPEAT-Cu
 Contagio avviene in genere per progressivo misfolding e aggregazione di PrP adiacenti ma la
malattia può essere trasmessa per iniezione
di PrPsc aintraoculare,
intravenosa e intracerebrale. La
 Diffrazione
raggi X
sc
PrP raggiunge, trasportata dalle cellule B, le terminazioni nervose senza danneggiare organi e
 Spettroscopia XAS
tessuti attraversati
 Spettroscopia EPR
 Simulazioni numeriche
DIFFRAZIONE A RAGGI X
Permette di determinare la disposizione degli atomi in strutture ordinate (cristalli)
Un fascio di fotoni (raggi X)
è inviato sul campione
Le nubi elettroniche degli
atomi diffrangono tali onde che
interferiscono
Dai pattern di diffrazione si
elaborano modelli strutturali del
sistema analizzato
Confronto pattern di
diffrazione simulati e
sperimentali
STRUTTURA CRISTALLOGRAFICA AI
RAGGI X DEL COMPLESSO HGGGW-Cu+2
Burns C.S., Aronoff-Spencer E., Dunham C.M., Lario P., Avdievich N.I., Antholine W.E., Olmsteam M.M.,
Vrielink A., Gerfen G.J., Peisach J., Scott W.G., Millhauser G.L..
Biochemistry
La catena laterale
del W è parallela al
piano equatoriale
Probabilmente
tiene in sito
l’H2O
O di una
molecola
H2O
Nε dell’H1
O di G3
Legame peculiare
HGGGW/Cu+2
Il metallo è
N
deprotonati
legato
alla catena
principale
di G
2 e G3
SPETTROSCOPIA XAS (X-ray
Absorption Spectroscopy)
Legge di Lambert-Beer
I(E)  I 0 e   E d
 Campione in qualsiasi stato di aggregazione;
Vantaggi
 Non esistono regole di selezione;
 Acquisizione rapida dello spettro.
SPETTRO XAS
K-edge =>1s
• Energia di ionizzazione elettrone interno
Energia di
soglia
ATOMO ISOLATO
• Molteplici per ogni specie atomica
• Distinguibili per atomi con Z diversi ed elevati
SISTEMA MULTIATOMICO
Spettro XAS analizzato in
termini della quantità χ(k)
k è il vettore d’onda del
fotoelettrone emesso
k    0 k 
k  
 0 k 
2m  E 0 
k
2
Per energie sufficientemente elevate è adottabile l’approssimazione
di singolo scattering (regione EXAFS)
Ni
 2 k 2i2  2 R i
(k )  S 
A i (k, ) e
e
2
i kR i
2
0
(k )
sin 2kR i   i (k )
Fase e ampiezza onde di back
scattering sono caratteristiche
per ogni specie atomica.
Ma per atomi leggeri (C, O, N)
NON sono DISTINGUIBLI
È necessario introdurre i termini di
scattering multiplo per distinguere
i vari a.a. (regione XANES)
χ(k) è approssimato da una
sommatorie di un numero finito di
termini irriducibili
  A;1,2,, S  
2 

 
CS  i1 
3 

 
CS  i1 ,i2 

( n 1)
nI A; i1 i n 
A; i1 i n  
0 A 
S 
 S 1




CS  i1 ,,iS 
DATI XAS IN COMPOSTI OCTAREPEATS-Cu+2
Morante S., González-Iglesias R., Potrich C., Meneghini C., Meyer-Klaucke W., Minestrina G., Gasset M. (2004).
J. Biol. Chem..
REGIONE XANES
Numero siti
Dati XAS alla soglia K del
Cu+2 in composti con numero
vario di octarepeats e diversi
rapporti di concentrazione
peptide /Cu+2 (R)
Sequenza peptidi utilizzati
R
legame Cu+2
REGIONE EXAFS
Si osservano delle differenze
GEOMETRIA
INTER-REPEAT
(4 o 6 octarepeats)
GEOMETRIA
INTRA-REPEAT
(1 o 2 octarepeats)
KKRPKPWGQPHGGGWGQ
1
0,5
KKRPKPWGQ(PHGGGWGQ)2
2
1,5
KKRPKPWGQ(PHGGGWGQ)4
4
2
BoPrP-(24-242)
6
3
Stesso stato di
ossidazione
GEOMETRIA DI COORDINAZIONE INTRA-REPEAT
Il fit è compatibile con una struttura identica
a quella cristallografica in cui il legame è
completamente nel singolo octarepeat
Ciascun atomo di rame è legato
a tre atomi di azoto e uno di
ossigeno posti su un piano
Il fit è compatibile con la presenza
di un atomo di ossigeno a distanza
maggiore e su un piano ortogonale
GEOMETRIA DI COORDINAZIONE INTER-REPEAT
Il Cu+2 è legato agli anelli imidazolici
di due His di octarepeats diversi
Il legame avviene tra
diversi octarepeats
NB: Se la concentrazione di Cu+2 non satura tutti gli octarepeats
Se appartengono a
diverse PrP potrebbe
favorire
l’aggregazione
SPETTROSCOPIA EPR (Electron
Paramagnetic Resonance)

Basata sull’assorbimento di energia da parte di un sistema dotato di un elettrone spaiato immerso in
un campo magnetico statico (H)
Sono permesse (per l’idrogeno S=1/2 e I=1/2) solo le transizioni

L’Hamiltoniana del sistema
ATOMO DI
IDROGENO
E  gH 
H=He+Hiperfine= βS·g·H + S·A·I
Campo magnetico efficace
Rapporto giromagnetico
considera lo splitting
Zeeman
Interazione col
campo magnetico
A
 h
2
Energia di
contatto di
Fermi
Interazione
iperfine
Termine
dipolare
SIMULAZIONI EPR IN COMPOSTO
OCTAREPEAT-Cu+2
Chattopadhyay, M.; Walter, E. D.; Newell, D. J.; Jackson, P. J.; Aronoff-Spencer, E.; Peisach, J.; Gerfen, G. J.; Bennett, B.;
Antholine, W. E.; Millhauser, G. L. (2005).
J. Am. Chem. Soc.
Sono stati simulati spettri EPR implementando la precedente Hamiltoniana
in sistemi contenenti uno o due ioni Cu+2 , in approssimazione di geometria
rigida e usando sequenze peptidiche diverse per numero di octarepeats e
composizione in a.a.
Cu+2 lega preferibilmente l’octarepeat
Risultati
La geometria di coordinazione dipende dalla
concentrazione relativa peptide/Cu+2
Diverso ruolo delle His e delle Gly nel legare il
metallo
Componenti dello spettro EPR
COMPONENTE 1
 Cu+2 satura tutti gli
Lo spettro mostra
octarepeats
tutte le componenti
 Stessa
struttura
della
ma la forma
varia
con
cristallografia
la concentrazione
COMPONENTE 2
COMPONENTE 3
 Concentrazione intermedia
Cu+2
 Bassa concentrazione
Cu+2
 Riduzione distanza tra atomi
 Un singolo Cu+2 è
legato a tre Nε delle His
 Cu+2 si lega a Nε e N
dell’His e agli O di due H2O
 Stabilizzato da più
octarepeats
 Peptidi con 3 o 4
octarepeats
SEQUENZE UTILIZZATE E COMPONENTI
DELLO SPETTRO EPR
SEQUENZA PEPTIDICA
COMP
N. 1
COMP
N. 2
COMP
N. 3
KKRPKPWGQ(PHGGGWGQ)4
X
X
X
(PHGGGWGQ)3
X
X
X
HGGGWGQPHGGGW
X
X
PHGGGWGQ
X
HGGGW
X
KKRPKPWGQ(PHGXGWGQ)4
X
HGXGWGQPHGXGW
X
HGXGW
X
HXGGW
X
X
HGGGWGQPYGGGW
HGGGWGQPYGGGW
X
X
YGGGWGQPHGGGW
YGGGWGQPHGGGW
X
X
HGGGWGQPYGGGWGQPHGG
GW
GW
X
X
La sostituzione di una G
con X comporta una
modifica del sito di
legame
X
Sostituendo l’His
con Tyr cambia il
sito di legame
SIMULAZIONI NUMERICHE
Furlan S., Guerrieri F., La Penna G., Morante S., Rossi G.C.
Journal of Biological Inorganic Chemistry; European Biophysics Journal
Simulazioni di dinamica molecolare del tipo Car-Parrinello per studiare la
coordinazione del Cu+2
RISULTATI
Il legame tra il Cu+2 e gli azoti
deprotonati delle G2 e G3 è
estremamente stabile
La presenza del triptofano
W5 sembra non avere
influenza sulla stabilità del
legame
Usando dipeptidi
[Cu(HGGG)]2 è stata
messa in evidenza una
struttura “entangled”
I due ioni nei
diversi peptidi si
scambiano
dinamicamente i
leganti
FREQUENZA DEL TETRAPEPTIDE TRA
LE SEQUENZE UMANE
IPOTESI: HGGG nocivo in tutte le proteine
TESI: La selezione naturale ha eliminato il motivo dalle sequenze proteiche
HGGG frequenza significativamente minore dell’aspettato
Analisi statistica usando “l’algoritmo delle parole rare”
Colosimo A., Morante S, Parisi V. and Rossi G. C.
J. theor. Biol.
 Una sequenza oligopeptidica (r) in una sequenza proteica è detta parola (b1b2…br)
 BIAS: parole rare in parole più lunghe: si ipotizza un processo Markoviano di
ordine (r-2)
 Sfruttando iterativamente il teorema della probabilità condizionata
P(b1b 2 b r -1 | b r ) 
Pr (b1b 2 ...b r )
Pr 1 (b1b 2 ...b r 1 )
 Identificando la probabilità con la frequenza di occorrenza
Frequenza sperimentale
K (b b ...b )
E r (b1b 2 ...b r )  r 1 2 r
Nr
Frequenza teorica attesa
E r 1 (b1b 2 ...b r 1 )  E r 1 (b 2 ...b r 1b r )
Tr (b1b 2 ...b r ) 
E r 2 (b 2 b 3 ...b r 1 )
Questi valori vanno confrontati
si introduce la variabile
D r (b1b 2 ...b r ) 
D>>1; D<<1 parola
significativamente abbondante o rara
a opera della selezione naturale
E r (b1b 2 ...b r )
Tr (b1b 2 ...b r )
D ≈ 1 parola compare con
frequenza non significativamente
diversa dal valore teorico aspettato
MISURA DI T4(HGXY) e E4(HGXY)
Algoritmo delle parole rare utilizzato per determinare la frequenza delle quadruplette
HGXY
Programma “cicle.pl” legge tutte le sequenze proteiche umane depositate e misura,
restituendoli in output, il numero di volte e in quante proteine compaiono i peptidi HGX,
GXY, GX e HGXY
Programma “ratio.pl”,
E (HGX )  E (dopo
GXY ) aver calcolato i valori delle variabili E r(b1b2…br) per ogni
T (HGXY ) 
(GX ) di T (HGXY) , calcola D (HGXY) e lo restituisce in output
parola scelta e Equello
4
4
3
3
4
2
Risultati
D 4 (HGXY ) 
D4(HGGG)≈0,75
HGGG
risulta raro
63 peptidi hanno
D4(HGXY)<D4(HGGG)
E 4 (HGXY )
T4 (HGXY
157 )proteine
su oltre
29760 analizzate
hanno HGGG
CORREZIONI SUL CAMPIONE
Campione iniziale costituito da 157 proteine umane contenenti il peptide HGGG e
identificate con codici diversi
CORREZIONI
 eliminare dal campione le sequenze ipotetiche
 controllare gli aggiornamenti delle informazioni depositate
in banca dati
ALLINEAMENTO
MULTIPLO(ClustalW)
 eliminare le ripetizioni
Raggruppato proteine con
definizione simile
 controllare i siti di taglio
Allineate con “gap open penality”
massima, “gap extension penality”
minima e matrice di identità
Campione finale costituito da 99 proteine umane
peptide HGGG
Se le sequenze erano allineate e le
funzioniemolecolari
identiche
diverse
contenenti
il una
sola proteina è stata considerata
RICERCA DI OMOLOGIE
Se HGGG ha un ruolo
simile in tutte le
proteine in cui si
trova
PrP oltre a legare Cu+2 è una
proteina di membrana
Potrebbe trovarsi in una
regione scarsamente
interagente con l’ambiente
circostante
Esiste il PDB SOLO
di un’altra proteina
oltre la PrP
Proteine che
legano metalli
Classificato le proteine
Proteine di
membrana
Funzione esatta PrP
ignota
Analisi struttura
primaria
Ricercato funzione molecolare
svolta e processo biologico in cui
interviene per ogni proteina
Informazioni sugli altri livelli
strutturali
Lunghezza proteine
Localizzazione peptide
Profili idropaticità
Struttura secondaria
Il peptide è in una regione di
random-coil nella PrP
PROTEINE CHE LEGANO METALLI
15 Zn
20 proteine legano
metalli
3 CuRicerca
1 Fe
1 Zn-Fe-Co-Mn
del sito di
legame
In due “zinc-finger
protein”
l’HGGG è
Solo
di 10 proteine
parte
delloZn
“zincche
legano
finger domain”
(C2H2)
ClustalW con opportuni
punteggi di penalità e varie
Dominio costituito da 25-30 a.a. che lega Zn
matrici di simiglianza
Allineamento multiplo
“Zinc-finger domain”
Presente in molte proteine
PrP con altre leganti Cu+2
Nessun risultatoEsistono vari classi PrP con le tre zinc-finger protein
dell’elenco (lett.)
soddisfacente
PrP con le due zinc-finger protein
Sono dotate dello zinc-finger
precedenti
domain
“Zinc-finger
protein”
BUON ALLINEAMENTO
PrP con ognuna delle due zinc-finger
protein precedenti
Proprietà specifiche (legano
DNA con il dominio)
Più comune (C2H2)
ALLINEAMENTO PrP-Zinc Finger Protein
HGGG compare
due volte nella zinc
finger protein
PROTEINE DI MEMBRANA
27 proteine di
membrana
4 legano
Stimato le regioni
3 Cu
metalli
transmembrana
1 Fe
PrP ha il dominio N-terminale
(comprende HGGG)nella regione
non citosolica, il dominio Cterminale all’interno della cellula
e due regioni transmembrana
TMHMM2
Verifica validità del programma con
dati noti della PrP
RISULTATI
 HGGG non è mai in una regione transmembrana
 In 3 casi l’HGGG è nella regione citosolica
 In 24 casi l’HGGG è nella regione non citosolica
 In 13 casi le proteine non hanno regioni transmembrana
PROCESSO BIOLOGICO
PROCESSO BIOLOGICO
A
B
C
Metabolismo
23
6
4
Regolazione Metabolismo Acidi Nucleici
23
0
9
Comunicazione Cellulare E Trasduzione
Dei Segnali
14
9
1
Crescita & Mantenimento Cellulare
11
5
2
Risposta Immunitaria
1
1
0
Trasporto
4
4
1
Apoptosi
1
0
0
Sconosciuto
20
2
3
La maggior parte delle
proteine prende parte a
processi metabolici (13 C)
FUNZIONE MOLECOLARE
FUNZIONE MOLECOLARE
A
B
C
Enzima
21
6
6
Regolatore
9
1
2
Recettore
5
5
0
Strutturali
9
3
1
Ligandi
7
4
3
Trasporto
5
5
1
Chaperone
1
0
0
Fattori Di Trascrizione
11
0
2
Sconosciuta
29
3
5
L’allineamento non ha mostrato
risultati interessanti
Recenti studi sostengono che la PrP
potrebbe essere un fattore di
trascrizione
1\50
Numero diverso di proteine con cui è stata realizzata la
distribuzione;
Banca dati non solo sequenze proteiche umane
951\1000
901\950
851\900
801\850
751\800
701\750
651\700
601\650
551\600
501\550
Intervallo lunghezza
Picco della distribuzione è a lunghezza
maggiore nel nostro campione
>2500
2401\2500
2301\2400
2201\2300
2101\2200
2001\2100
1901\2000
1801\1900
1701\1800
1601\1700
1501\1600
1401\1500
1301\1400
1201\1300
1101\1200
Sequenze banca dati
451\500
401\450
351\400
301\350
251\300
Struttura e
funzioni svolte
1001\1100
Intervallo lunghezza
201\250
0
151\200
10000
51\100
15000
101\150
20000
Numero proteine
25000
1\50
>2500
Lunghezza di una
proteina
2401\2500
2301\2400
2201\2300
2101\2200
2001\2100
1901\2000
1801\1900
1701\1800
1601\1700
1501\1600
1401\1500
1301\1400
1201\1300
1101\1200
1001\1100
951\1000
901\950
851\900
801\850
751\800
701\750
651\700
601\650
551\600
501\550
451\500
401\450
351\400
301\350
251\300
201\250
151\200
101\150
51\100
Numero proteine
LUNGHEZZA PROTEINE
Confrontare il nostro
campione con tutte le
sequenze proteiche
depositate in banca dati
Sequenze nostro campione
30000
9
8
7
6
5
4
3
2
5000
1
0
SEQUENZE SEGNALE &
LOCALIZZAZIONE DEL PEPTIDE
SIGNAL PEPTIDE = breve
sequenza (3-60 a.a.) utilizzata per il
trasporto della proteina
Regione Iniziale (N-terminale)
primi 60 a.a.
Regione Finale (C-terminale)
ultimi 60 a.a.
HGGG nella
regione N-terminale
21
HGGG nella
regione C-terminale
9
HGGG tende preferibilmente
a trovarsi in una regione
centrale della sequenza
(69/99)
Nella PrP i primi due
octarepeats sono nella
regione iniziale
PROFILI DI IDROPATICITA’
Misura del ΔG di trasferimento di un soluto da un solvente
apolare a uno polare
IDROPATICITA’
ΔG =ΔH-T ΔS
Misura la propensità di un a.a. a collocarsi in
una regione polare (ΔG < 0 a.a.idrofilico) o
apolare(ΔG >0 a.a. idrofobico)
Si realizzano delle scale di idropaticità in base ai valori
di ΔG
Sequenza => stringa di numeri
Profili di idropaticità
Profilo della PrP
Realizzato con ProtScale
L’HP del singolo a.a. è mediata sui primi
vicini
Valore di riferimento -0,4 (HP Gly)
RISULTATI
 Tutte le proteine sono caratterizzate da zone anfifiliche
 La maggior parte delle proteine che legano metalli sono anfifiliche
 Proteine sono di membrana sono prevalentemente anfifiliche
ANALISI DELLA REGIONE ATTORNO IL
TETRAPEPTIDE
 Nella metà dei casi il peptide è in una regione anfifilica
 Nel 40% dei casi è in una regione idrofilica
 In 7 peptidi è localizzato in una regione idrofobica
 Nella PrP e nelle due “zinc-finger protein” in cui l’H partecipa al sito
di legame il peptide è in una regione idrofilica compresa tra due regione
idrofobiche
STRUTTURA SECONDARIA
α ELICA
β sheet
Ciascun a.a. ha una
propensità a trovarsi in
una struttura
Predire la
struttura
secondaria
Random-coil
HNN (corrispondenza con
la realtà superiore al 60%)
Abbiamo rilevato che:
 Il peptide HGGG si colloca preferibilmente in una regione di random coil
 Solo in 6 proteine l’His è in una regione strutturata ;
 La maggior parte delle proteine ha una struttura prevalentemente random-coil
STRUTTURA SECONDARIA
7
0
6
0
58
5
0
4
0
3
0
20
2
0
8
1
0
9
4
0
>50%random
coil
>random
coil
elica=random
coil
> elica
>50% elica
CONCLUSIONI & FUTURI SVILUPPI
 Il motivo HGGG è risultato significativamente raro nelle sequenze
proteiche umane depositate
 Non è stata individuata una caratteristica comune alle proteine che lo
contengono che possa chiaramente indicare le ragioni della rarità
 Ripetizione dell’intera procedura di analisi sul peptide GGGH
 Utilizzare simulazioni numeriche ed esperimenti in vitro per misurare
l’affinità per il Cu+2 delle proteine del campione simili alla PrP
 Raffinamento delle tecniche di allineamento con l’uso di altre matrici di
proprietà
 Raffinamento dell’analisi dei profili di idropaticità
 Verifica del dato relativo alla quasi totale assenza nel campione (2/100
contro un valore medio di 40/100) di proteine di cui è nota la struttura
Scarica

Frequenza di occorrenza del tetrapeptide HGGG e sue possibili