Università degli studi di Roma “Tor Vergata” Facoltà di Scienze Matematiche, Fisiche e Naturali Tesi di Laurea Triennale in Fisica “Frequenza di occorrenza del tetrapeptide HGGG e sue possibili implicazioni biologiche” Relatore Candidato Prof.ssa Silvia Morante Stefania Alleva Anno Accademico 2005/2006 SOMMARIO Introduzione: le malattie neurodegenerative; La Proteina Prionica: i motivi ripetuti e il legame con il Cu+2; Tecniche utilizzate per studiare il sito di legame PrP- Cu+2: Diffrazione a raggi X; Spettroscopia XAS; Spettroscopia EPR; Simulazioni numeriche; Analisi statistica sulla frequenza di occorrenza del tetrapeptide HGGG: verifica della rarità; Ricerca di omologie, affinità, relazioni tra le proteine umane dotate del peptide studiando: struttura primaria, struttura secondaria, struttura terziaria, idropaticità, sito di legame per i metalli; Conclusioni e sviluppi futuri. MALATTIE NEURODEGENERATIVE Morbo di Parkinson MALATTIE NEURODEGENERATIVE Morbo di Alzheimer Encefalopatie Spongiformi Trasmissibili (TSE) CJD nvCJD AGGREGAZIONE Agente infettivo: MISFOLDING PROTEINA LA PROTEINA PRIONICA (PrPc) Glicoproteina di membrana (cellule presinaptiche) Numero di a.a. variabile da specie a specie Dominio globulare (strutturato e intramembrana) e dominio non strutturato extramembrana nella regione N-terminale Presenza nel dominio N-terminale di vari octarepeats (PHGGGWGQ), potenziali siti di legame per il Cu+2 Funzione esatta ignota IPOTESI PIU’ ACCREDITATE sc) di segnali cellulari 1. (PrP Traduzione LA PROTEINA PRIONICA SCRAPIE L’agente patogeno della TSE è la PrPsc, forma anomala della PrP2.c, inAdesione cui trattimolecolare di α elica 3. Trasporto e chelazione del rame sono sostituiti da β-sheet all’estremità C-terminale 4. Antiossidante Misfolding probabilmente legato all’interazione con Cu+2 La PrPsc si accumula nel CNS portando, dopo anni, alla rottura della barriera ematoencefalica Modello diffusione intracellulare cerebrale “domino-stone” +2 DETERMINARE LA COORDINAZIONE OCTAREPEAT-Cu Contagio avviene in genere per progressivo misfolding e aggregazione di PrP adiacenti ma la malattia può essere trasmessa per iniezione di PrPsc aintraoculare, intravenosa e intracerebrale. La Diffrazione raggi X sc PrP raggiunge, trasportata dalle cellule B, le terminazioni nervose senza danneggiare organi e Spettroscopia XAS tessuti attraversati Spettroscopia EPR Simulazioni numeriche DIFFRAZIONE A RAGGI X Permette di determinare la disposizione degli atomi in strutture ordinate (cristalli) Un fascio di fotoni (raggi X) è inviato sul campione Le nubi elettroniche degli atomi diffrangono tali onde che interferiscono Dai pattern di diffrazione si elaborano modelli strutturali del sistema analizzato Confronto pattern di diffrazione simulati e sperimentali STRUTTURA CRISTALLOGRAFICA AI RAGGI X DEL COMPLESSO HGGGW-Cu+2 Burns C.S., Aronoff-Spencer E., Dunham C.M., Lario P., Avdievich N.I., Antholine W.E., Olmsteam M.M., Vrielink A., Gerfen G.J., Peisach J., Scott W.G., Millhauser G.L.. Biochemistry La catena laterale del W è parallela al piano equatoriale Probabilmente tiene in sito l’H2O O di una molecola H2O Nε dell’H1 O di G3 Legame peculiare HGGGW/Cu+2 Il metallo è N deprotonati legato alla catena principale di G 2 e G3 SPETTROSCOPIA XAS (X-ray Absorption Spectroscopy) Legge di Lambert-Beer I(E) I 0 e E d Campione in qualsiasi stato di aggregazione; Vantaggi Non esistono regole di selezione; Acquisizione rapida dello spettro. SPETTRO XAS K-edge =>1s • Energia di ionizzazione elettrone interno Energia di soglia ATOMO ISOLATO • Molteplici per ogni specie atomica • Distinguibili per atomi con Z diversi ed elevati SISTEMA MULTIATOMICO Spettro XAS analizzato in termini della quantità χ(k) k è il vettore d’onda del fotoelettrone emesso k 0 k k 0 k 2m E 0 k 2 Per energie sufficientemente elevate è adottabile l’approssimazione di singolo scattering (regione EXAFS) Ni 2 k 2i2 2 R i (k ) S A i (k, ) e e 2 i kR i 2 0 (k ) sin 2kR i i (k ) Fase e ampiezza onde di back scattering sono caratteristiche per ogni specie atomica. Ma per atomi leggeri (C, O, N) NON sono DISTINGUIBLI È necessario introdurre i termini di scattering multiplo per distinguere i vari a.a. (regione XANES) χ(k) è approssimato da una sommatorie di un numero finito di termini irriducibili A;1,2,, S 2 CS i1 3 CS i1 ,i2 ( n 1) nI A; i1 i n A; i1 i n 0 A S S 1 CS i1 ,,iS DATI XAS IN COMPOSTI OCTAREPEATS-Cu+2 Morante S., González-Iglesias R., Potrich C., Meneghini C., Meyer-Klaucke W., Minestrina G., Gasset M. (2004). J. Biol. Chem.. REGIONE XANES Numero siti Dati XAS alla soglia K del Cu+2 in composti con numero vario di octarepeats e diversi rapporti di concentrazione peptide /Cu+2 (R) Sequenza peptidi utilizzati R legame Cu+2 REGIONE EXAFS Si osservano delle differenze GEOMETRIA INTER-REPEAT (4 o 6 octarepeats) GEOMETRIA INTRA-REPEAT (1 o 2 octarepeats) KKRPKPWGQPHGGGWGQ 1 0,5 KKRPKPWGQ(PHGGGWGQ)2 2 1,5 KKRPKPWGQ(PHGGGWGQ)4 4 2 BoPrP-(24-242) 6 3 Stesso stato di ossidazione GEOMETRIA DI COORDINAZIONE INTRA-REPEAT Il fit è compatibile con una struttura identica a quella cristallografica in cui il legame è completamente nel singolo octarepeat Ciascun atomo di rame è legato a tre atomi di azoto e uno di ossigeno posti su un piano Il fit è compatibile con la presenza di un atomo di ossigeno a distanza maggiore e su un piano ortogonale GEOMETRIA DI COORDINAZIONE INTER-REPEAT Il Cu+2 è legato agli anelli imidazolici di due His di octarepeats diversi Il legame avviene tra diversi octarepeats NB: Se la concentrazione di Cu+2 non satura tutti gli octarepeats Se appartengono a diverse PrP potrebbe favorire l’aggregazione SPETTROSCOPIA EPR (Electron Paramagnetic Resonance) Basata sull’assorbimento di energia da parte di un sistema dotato di un elettrone spaiato immerso in un campo magnetico statico (H) Sono permesse (per l’idrogeno S=1/2 e I=1/2) solo le transizioni L’Hamiltoniana del sistema ATOMO DI IDROGENO E gH H=He+Hiperfine= βS·g·H + S·A·I Campo magnetico efficace Rapporto giromagnetico considera lo splitting Zeeman Interazione col campo magnetico A h 2 Energia di contatto di Fermi Interazione iperfine Termine dipolare SIMULAZIONI EPR IN COMPOSTO OCTAREPEAT-Cu+2 Chattopadhyay, M.; Walter, E. D.; Newell, D. J.; Jackson, P. J.; Aronoff-Spencer, E.; Peisach, J.; Gerfen, G. J.; Bennett, B.; Antholine, W. E.; Millhauser, G. L. (2005). J. Am. Chem. Soc. Sono stati simulati spettri EPR implementando la precedente Hamiltoniana in sistemi contenenti uno o due ioni Cu+2 , in approssimazione di geometria rigida e usando sequenze peptidiche diverse per numero di octarepeats e composizione in a.a. Cu+2 lega preferibilmente l’octarepeat Risultati La geometria di coordinazione dipende dalla concentrazione relativa peptide/Cu+2 Diverso ruolo delle His e delle Gly nel legare il metallo Componenti dello spettro EPR COMPONENTE 1 Cu+2 satura tutti gli Lo spettro mostra octarepeats tutte le componenti Stessa struttura della ma la forma varia con cristallografia la concentrazione COMPONENTE 2 COMPONENTE 3 Concentrazione intermedia Cu+2 Bassa concentrazione Cu+2 Riduzione distanza tra atomi Un singolo Cu+2 è legato a tre Nε delle His Cu+2 si lega a Nε e N dell’His e agli O di due H2O Stabilizzato da più octarepeats Peptidi con 3 o 4 octarepeats SEQUENZE UTILIZZATE E COMPONENTI DELLO SPETTRO EPR SEQUENZA PEPTIDICA COMP N. 1 COMP N. 2 COMP N. 3 KKRPKPWGQ(PHGGGWGQ)4 X X X (PHGGGWGQ)3 X X X HGGGWGQPHGGGW X X PHGGGWGQ X HGGGW X KKRPKPWGQ(PHGXGWGQ)4 X HGXGWGQPHGXGW X HGXGW X HXGGW X X HGGGWGQPYGGGW HGGGWGQPYGGGW X X YGGGWGQPHGGGW YGGGWGQPHGGGW X X HGGGWGQPYGGGWGQPHGG GW GW X X La sostituzione di una G con X comporta una modifica del sito di legame X Sostituendo l’His con Tyr cambia il sito di legame SIMULAZIONI NUMERICHE Furlan S., Guerrieri F., La Penna G., Morante S., Rossi G.C. Journal of Biological Inorganic Chemistry; European Biophysics Journal Simulazioni di dinamica molecolare del tipo Car-Parrinello per studiare la coordinazione del Cu+2 RISULTATI Il legame tra il Cu+2 e gli azoti deprotonati delle G2 e G3 è estremamente stabile La presenza del triptofano W5 sembra non avere influenza sulla stabilità del legame Usando dipeptidi [Cu(HGGG)]2 è stata messa in evidenza una struttura “entangled” I due ioni nei diversi peptidi si scambiano dinamicamente i leganti FREQUENZA DEL TETRAPEPTIDE TRA LE SEQUENZE UMANE IPOTESI: HGGG nocivo in tutte le proteine TESI: La selezione naturale ha eliminato il motivo dalle sequenze proteiche HGGG frequenza significativamente minore dell’aspettato Analisi statistica usando “l’algoritmo delle parole rare” Colosimo A., Morante S, Parisi V. and Rossi G. C. J. theor. Biol. Una sequenza oligopeptidica (r) in una sequenza proteica è detta parola (b1b2…br) BIAS: parole rare in parole più lunghe: si ipotizza un processo Markoviano di ordine (r-2) Sfruttando iterativamente il teorema della probabilità condizionata P(b1b 2 b r -1 | b r ) Pr (b1b 2 ...b r ) Pr 1 (b1b 2 ...b r 1 ) Identificando la probabilità con la frequenza di occorrenza Frequenza sperimentale K (b b ...b ) E r (b1b 2 ...b r ) r 1 2 r Nr Frequenza teorica attesa E r 1 (b1b 2 ...b r 1 ) E r 1 (b 2 ...b r 1b r ) Tr (b1b 2 ...b r ) E r 2 (b 2 b 3 ...b r 1 ) Questi valori vanno confrontati si introduce la variabile D r (b1b 2 ...b r ) D>>1; D<<1 parola significativamente abbondante o rara a opera della selezione naturale E r (b1b 2 ...b r ) Tr (b1b 2 ...b r ) D ≈ 1 parola compare con frequenza non significativamente diversa dal valore teorico aspettato MISURA DI T4(HGXY) e E4(HGXY) Algoritmo delle parole rare utilizzato per determinare la frequenza delle quadruplette HGXY Programma “cicle.pl” legge tutte le sequenze proteiche umane depositate e misura, restituendoli in output, il numero di volte e in quante proteine compaiono i peptidi HGX, GXY, GX e HGXY Programma “ratio.pl”, E (HGX ) E (dopo GXY ) aver calcolato i valori delle variabili E r(b1b2…br) per ogni T (HGXY ) (GX ) di T (HGXY) , calcola D (HGXY) e lo restituisce in output parola scelta e Equello 4 4 3 3 4 2 Risultati D 4 (HGXY ) D4(HGGG)≈0,75 HGGG risulta raro 63 peptidi hanno D4(HGXY)<D4(HGGG) E 4 (HGXY ) T4 (HGXY 157 )proteine su oltre 29760 analizzate hanno HGGG CORREZIONI SUL CAMPIONE Campione iniziale costituito da 157 proteine umane contenenti il peptide HGGG e identificate con codici diversi CORREZIONI eliminare dal campione le sequenze ipotetiche controllare gli aggiornamenti delle informazioni depositate in banca dati ALLINEAMENTO MULTIPLO(ClustalW) eliminare le ripetizioni Raggruppato proteine con definizione simile controllare i siti di taglio Allineate con “gap open penality” massima, “gap extension penality” minima e matrice di identità Campione finale costituito da 99 proteine umane peptide HGGG Se le sequenze erano allineate e le funzioniemolecolari identiche diverse contenenti il una sola proteina è stata considerata RICERCA DI OMOLOGIE Se HGGG ha un ruolo simile in tutte le proteine in cui si trova PrP oltre a legare Cu+2 è una proteina di membrana Potrebbe trovarsi in una regione scarsamente interagente con l’ambiente circostante Esiste il PDB SOLO di un’altra proteina oltre la PrP Proteine che legano metalli Classificato le proteine Proteine di membrana Funzione esatta PrP ignota Analisi struttura primaria Ricercato funzione molecolare svolta e processo biologico in cui interviene per ogni proteina Informazioni sugli altri livelli strutturali Lunghezza proteine Localizzazione peptide Profili idropaticità Struttura secondaria Il peptide è in una regione di random-coil nella PrP PROTEINE CHE LEGANO METALLI 15 Zn 20 proteine legano metalli 3 CuRicerca 1 Fe 1 Zn-Fe-Co-Mn del sito di legame In due “zinc-finger protein” l’HGGG è Solo di 10 proteine parte delloZn “zincche legano finger domain” (C2H2) ClustalW con opportuni punteggi di penalità e varie Dominio costituito da 25-30 a.a. che lega Zn matrici di simiglianza Allineamento multiplo “Zinc-finger domain” Presente in molte proteine PrP con altre leganti Cu+2 Nessun risultatoEsistono vari classi PrP con le tre zinc-finger protein dell’elenco (lett.) soddisfacente PrP con le due zinc-finger protein Sono dotate dello zinc-finger precedenti domain “Zinc-finger protein” BUON ALLINEAMENTO PrP con ognuna delle due zinc-finger protein precedenti Proprietà specifiche (legano DNA con il dominio) Più comune (C2H2) ALLINEAMENTO PrP-Zinc Finger Protein HGGG compare due volte nella zinc finger protein PROTEINE DI MEMBRANA 27 proteine di membrana 4 legano Stimato le regioni 3 Cu metalli transmembrana 1 Fe PrP ha il dominio N-terminale (comprende HGGG)nella regione non citosolica, il dominio Cterminale all’interno della cellula e due regioni transmembrana TMHMM2 Verifica validità del programma con dati noti della PrP RISULTATI HGGG non è mai in una regione transmembrana In 3 casi l’HGGG è nella regione citosolica In 24 casi l’HGGG è nella regione non citosolica In 13 casi le proteine non hanno regioni transmembrana PROCESSO BIOLOGICO PROCESSO BIOLOGICO A B C Metabolismo 23 6 4 Regolazione Metabolismo Acidi Nucleici 23 0 9 Comunicazione Cellulare E Trasduzione Dei Segnali 14 9 1 Crescita & Mantenimento Cellulare 11 5 2 Risposta Immunitaria 1 1 0 Trasporto 4 4 1 Apoptosi 1 0 0 Sconosciuto 20 2 3 La maggior parte delle proteine prende parte a processi metabolici (13 C) FUNZIONE MOLECOLARE FUNZIONE MOLECOLARE A B C Enzima 21 6 6 Regolatore 9 1 2 Recettore 5 5 0 Strutturali 9 3 1 Ligandi 7 4 3 Trasporto 5 5 1 Chaperone 1 0 0 Fattori Di Trascrizione 11 0 2 Sconosciuta 29 3 5 L’allineamento non ha mostrato risultati interessanti Recenti studi sostengono che la PrP potrebbe essere un fattore di trascrizione 1\50 Numero diverso di proteine con cui è stata realizzata la distribuzione; Banca dati non solo sequenze proteiche umane 951\1000 901\950 851\900 801\850 751\800 701\750 651\700 601\650 551\600 501\550 Intervallo lunghezza Picco della distribuzione è a lunghezza maggiore nel nostro campione >2500 2401\2500 2301\2400 2201\2300 2101\2200 2001\2100 1901\2000 1801\1900 1701\1800 1601\1700 1501\1600 1401\1500 1301\1400 1201\1300 1101\1200 Sequenze banca dati 451\500 401\450 351\400 301\350 251\300 Struttura e funzioni svolte 1001\1100 Intervallo lunghezza 201\250 0 151\200 10000 51\100 15000 101\150 20000 Numero proteine 25000 1\50 >2500 Lunghezza di una proteina 2401\2500 2301\2400 2201\2300 2101\2200 2001\2100 1901\2000 1801\1900 1701\1800 1601\1700 1501\1600 1401\1500 1301\1400 1201\1300 1101\1200 1001\1100 951\1000 901\950 851\900 801\850 751\800 701\750 651\700 601\650 551\600 501\550 451\500 401\450 351\400 301\350 251\300 201\250 151\200 101\150 51\100 Numero proteine LUNGHEZZA PROTEINE Confrontare il nostro campione con tutte le sequenze proteiche depositate in banca dati Sequenze nostro campione 30000 9 8 7 6 5 4 3 2 5000 1 0 SEQUENZE SEGNALE & LOCALIZZAZIONE DEL PEPTIDE SIGNAL PEPTIDE = breve sequenza (3-60 a.a.) utilizzata per il trasporto della proteina Regione Iniziale (N-terminale) primi 60 a.a. Regione Finale (C-terminale) ultimi 60 a.a. HGGG nella regione N-terminale 21 HGGG nella regione C-terminale 9 HGGG tende preferibilmente a trovarsi in una regione centrale della sequenza (69/99) Nella PrP i primi due octarepeats sono nella regione iniziale PROFILI DI IDROPATICITA’ Misura del ΔG di trasferimento di un soluto da un solvente apolare a uno polare IDROPATICITA’ ΔG =ΔH-T ΔS Misura la propensità di un a.a. a collocarsi in una regione polare (ΔG < 0 a.a.idrofilico) o apolare(ΔG >0 a.a. idrofobico) Si realizzano delle scale di idropaticità in base ai valori di ΔG Sequenza => stringa di numeri Profili di idropaticità Profilo della PrP Realizzato con ProtScale L’HP del singolo a.a. è mediata sui primi vicini Valore di riferimento -0,4 (HP Gly) RISULTATI Tutte le proteine sono caratterizzate da zone anfifiliche La maggior parte delle proteine che legano metalli sono anfifiliche Proteine sono di membrana sono prevalentemente anfifiliche ANALISI DELLA REGIONE ATTORNO IL TETRAPEPTIDE Nella metà dei casi il peptide è in una regione anfifilica Nel 40% dei casi è in una regione idrofilica In 7 peptidi è localizzato in una regione idrofobica Nella PrP e nelle due “zinc-finger protein” in cui l’H partecipa al sito di legame il peptide è in una regione idrofilica compresa tra due regione idrofobiche STRUTTURA SECONDARIA α ELICA β sheet Ciascun a.a. ha una propensità a trovarsi in una struttura Predire la struttura secondaria Random-coil HNN (corrispondenza con la realtà superiore al 60%) Abbiamo rilevato che: Il peptide HGGG si colloca preferibilmente in una regione di random coil Solo in 6 proteine l’His è in una regione strutturata ; La maggior parte delle proteine ha una struttura prevalentemente random-coil STRUTTURA SECONDARIA 7 0 6 0 58 5 0 4 0 3 0 20 2 0 8 1 0 9 4 0 >50%random coil >random coil elica=random coil > elica >50% elica CONCLUSIONI & FUTURI SVILUPPI Il motivo HGGG è risultato significativamente raro nelle sequenze proteiche umane depositate Non è stata individuata una caratteristica comune alle proteine che lo contengono che possa chiaramente indicare le ragioni della rarità Ripetizione dell’intera procedura di analisi sul peptide GGGH Utilizzare simulazioni numeriche ed esperimenti in vitro per misurare l’affinità per il Cu+2 delle proteine del campione simili alla PrP Raffinamento delle tecniche di allineamento con l’uso di altre matrici di proprietà Raffinamento dell’analisi dei profili di idropaticità Verifica del dato relativo alla quasi totale assenza nel campione (2/100 contro un valore medio di 40/100) di proteine di cui è nota la struttura