Modellistica molecolare
Davide Cittaro e Marco Stefani
Master bioinformatica 2003
Introduzione
La genomica ha mostrato come la sequenza di aminoacidi di una proteina non sia
sufficiente per determinare con precisione la sua struttura, e con essa la sua
funzionalità: si è visto infatti che sequenze molto simili, se non addirittura identiche,
possono generare proteine con strutture e quindi funzionalità diverse.
D’altro canto, la capacità di predire la struttura di una proteina, data la sequenza, è
importante per essere in grado di analizzare da un punto di vista teorico le
funzionalità di proteine sconosciute. Lo scopo è studiare la capacità di interazione
della proteina con l’ambiente circostante, cioè con le altre proteine e il solvente
presenti nella cellula, ma anche come la struttura della proteina cambia in seguito ai
cambiamenti ambientali o alle mutazioni della sua struttura.
La teoria
Uno degli strumenti che cercano di risolvere questo problema è la modellistica
molecolare, che, utilizzando le conoscenze sull’interazione tra atomi e molecole che
derivano dalla chimica e dalla fisica, cerca di determinare la struttura finale della
molecola. Questa metodologia è detta ab initio proprio perché si basa sulle
caratteristiche fondamentali degli atomi e sulle leggi che determinano le interazioni
tra atomi.
La modellistica molecolare studia lo stato energetico delle molecole partendo dalle
relazioni geometriche e spaziali tra gli atomi che le compongono.
Una molecola viene descritta attraverso tre valori, che determinano univocamente le
relazioni geometriche e spaziali di qualunque numero di atomi:
•
•
•
distanza di legame: è la distanza che separa due atomi
angolo di valenza: è l’angolo individuato da tre atomi
angolo diedro: è l’angolo di rotazione tra i due atomi centrali in un sistema di
quattro atomi. Viene anche detto angolo di torsione
L’energia di una molecola è definita come una ipersuperficie detta Superficie di
Energia Potenziale (PES), che ha (3N - 6) + 1 dimensioni, dove N è il numero di
atomi. Le 6 dimensioni sottratte sono i gradi di libertà legati ai moti esterni; ciò rende
il sistema leggermente meno complesso, ma soprattutto lo rende indipendente dalla
posizione della molecola rispetto al sistema di riferimento. La PES è una curva
continua e quindi in teoria ammette infinite configurazioni; di queste, però, viene
cercato solo il sottoinsieme delle configurazioni chimicamente possibili, e di queste,
quelle chimicamente più stabili, cioè con derivata prima nulla, hanno un interesse
biologico perché sono le configurazioni che la molecola assume con maggiore
probabilità.
Da un punto di vista teorico, utilizzando le leggi della meccanica quantistica, è
relativamente semplice costruire un modello teorico in grado di descrivere con una
buona approssimazione il sistema di atomi e la sua evoluzione nel tempo. Purtroppo,
quando si abbandona la descrizione analitica per calcolare numericamente lo stato del
sistema in un certo istante, la dimensione del problema rende sostanzialmente
intrattabile il problema per una tipica proteina di qualche centinaio di aminoacidi. La
complessità computazionale è dell’ordine di O(N3). Nella realtà, questo metodo è
praticabile solo con molecole di qualche decina di atomi.
La prima semplificazione è data dall’utilizzo della meccanica classica: descrivere gli
atomi come entità indivisibili riduce sia il numero di variabili sia la complessità
intrinseca del sistema, che scende a circa O(N2). Le relazioni tra gli atomi sono
espresse dalla legge di Hooke: gli atomi si comportano come se fossero legati tra loro
da molle.
L’energia interna della molecola è data da due tipologie di parametri: i cosiddetti
termini di legame e i termini di non legame. La quantità calcolata è sempre
considerata relativa all’energia della molecola allo stato naturale, cioè allo stato di
minima energia potenziale in condizioni di equilibrio energetico. I termini di legami
sono i legati alle relazioni spaziali tra gli atomi; i termini di non legame descrivono le
interazioni coulombiane e di Van der Waals, determinate cioè dalla loro carica.
Poiché l’energia potenziale della molecola in uno stato di non equilibrio non è nota,
ma, in condizioni normali, la molecola vibra in un intorno dell’equilibrio, è
ragionevole approssimare la funzione dell’energia intorno al valore di minimo con
una espansione in serie di Taylor. Sfruttando una serie di considerazioni matematiche,
è possibile semplificare ulteriormente l’equazione.
La PES di una molecola presenta un numero estremamente elevato di punti stazionari,
molti dei quali hanno un’energia troppo elevata per essere chimicamente verosimili.
Le conformazioni interessanti, quindi, sono quelle che hanno la maggiore probabilità
reale di verificarsi e in cui la molecola tende a stabilizzarsi. Questa probabilità è
definita dalla probabilità di Boltzman:
pi =
e − ∆Ei / KT
,
∑ e −∆Ei / KT
i
dove ∆Ei = E0 - Ei e E0 è il minimo assoluto.
La probabilità di Boltzman è funzione della temperatura dell’intero sistema: alcune
conformazioni sono più probabili a una certa temperatura T. Ma aumentando la
temperatura, cresce anche l’energia cinetica della molecola, la quale può superare le
eventuali barriere energetiche e cadere in un altro minimo.
La ricerca dei punti stazionari può utilizzare metodi di calcolo locali o globali, che
differiscono essenzialmente nella capacità di superare le barriere potenziali della PES.
I metodi locali si basano tutti sulla variazione del gradiente: dato un punto specifico
della PES, si cercano le variazioni della geometria della molecola fino a raggiungere
il minimo locale che rappresenta l’attrattore del punto di partenza. Poiché la derivata
prima della funzione dell’energia potenziale non è nota, occorre utilizzare delle
approssimazioni che danno il valore della derivata in un insieme discreto di punti,
partendo dal valore noto della derivata prima del punto di partenza. Il metodo del
gradiente segue la direzione dello spostamento dell’energia in modo da minimizzare il
gradiente, fino ad annullarlo. Esistono due tecniche fondamentali, che nella ricerca
vengono usate in successione:
• metodo Newton-Raphson
• metodo lineare.
I metodi globali si muovono su tutta la PES alla ricerca del minimo globale. Poiché
l’esplorazione sistematica della superficie è normalmente impensabile, i metodi
campionano un sottoinsieme delle possibili conformazioni secondo strategie
deterministiche o stocastiche; le conformazioni più promettenti (in genere quelle con
energia minima) vengono analizzate con un metodo locale alla ricerca del punto
stazionario di attrazione. Dopo un sufficiente numero di campionamenti e dei
rispettivi minimi locali, si considera il minimo globale come il punto stazionario di
minore energia tra tutti quelli trovati.
L’unico metodo in grado di garantire il minimo globale è il cosiddetto simulated
annealing, che però in pratica non viene usato perché converge troppo lentamente.
Tra le tecniche alternative, che non garantiscono il risultato ottimale, ci sono il
metodo stocastico Metropolis-Montecarlo: da un valore iniziale dato (seed),
l’algoritmo genera un insieme casuale di numeri sulla base dei quali si variano le
coordinate interne della molecola ottenendo una nuova conformazione; se l’energia
associata è minore dell’energia della configurazione di partenza, la configurazione
viene accettata e minimizzata; se l’energia è maggiore, si calcola la probabilità di
Boltzman p associata alla variazione dell’energia tra le due configurazioni e si genera
un nuovo numero casuale r: la nuova configurazione viene accettata se p > r. Le
configurazioni accettate sono la base per una nuova iterazione, fino a quando si
decide di avere trovato il minimo globale.
I tempi di convergenza non sono garantiti e c’è la possibilità di calcolare più volte la
stessa configurazione.
La ricerca sistematica è un metodo deterministico, la cui velocità di esecuzione è
inversamente proporzionale alla risoluzione della PES, cioè alla dimensione degli
incrementi con cui si esplora la PES. D’altro canto, è evidente che una bassa
risoluzione porta ad un campionamento approssimativo che potrebbe fare perdere
molti punti stazionari.
Un altro metodo deterministico modifica la funzione dell’energia in modo tale che, in
un dato intervallo, abbia un solo minimo, che viene trovato iterativamente dividendo
l’intervallo in sottointervalli sempre più piccoli. Questo metodo garantisce di trovare
il minimo, cosa impossibile per i metodi stocastici.
La dinamica molecolare analizza l’evoluzione della conformazione molecolare nel
tempo, cioè cerca di determinare le traiettorie degli atomi della molecola sottoposti
alle forze determinate dall’energia cinetica del sistema e dalle interazioni tra gli atomi
stessi.
Per ogni atomo occorre quindi risolvere l’equazione fondamentale del moto:
ρ
ρ
dr
f i = mi 2i .
dt
L’intero sistema di equazioni differenziali viene calcolato ad intervalli regolari, che
dipendono dalla frequenza del moto che si vuole studiare. Le vibrazioni molecolari,
per esempio, che sono il movimento fondamentale della molecola, sono dell’ordine
del femtosecondo. Ciò implica, che se si vuole ottenere una ‘istantanea’ dello stato
della molecola, è indispensabile definire gli intervalli di tempo della simulazione
dello stesso ordine di grandezza.
Le condizioni del sistema all’interno del quale si conduce la dinamica molecolare
sono fondamentali per determinare l’andamento della simulazione. Se si impone che
il sistema sia isolato, le forze interne devono rimanere costanti per tutta la dinamica;
se inoltre l’inizio della dinamica corrisponde allo stato “naturale” della molecola,
allora le forze interne devono essere nulle, cioè i momenti angolare e lineare devono
essere conservati.
Due parametri fondamentali per la definizione del sistema sono l’energia e la
temperatura. Poiché ad ogni grado di libertà della molecola corrisponde un’energia
termica, l’energia cinetica del sistema è data da
∑K
i
i
=
3N − 6
k bT .
2
Mantenendo costante uno dei due valori, si ottengono due tipici sistemi:
• NVE o microcanonico
• NVT o canonico
Entrambi hanno impongono che il numero di molecole e il volume all’interno del
quale si muovono gli atomi siano costanti. Nel modello microcanonico l’energia
totale del sistema deve restare costante, in quello canonico la temperatura.
Gli esperimenti
Utilizzando le tecniche della modellistica molecolare abbiamo cercato di verificare la
capacità dei simulatori di riprodurre il ripiegamento di una sequenza di aminoacidi,
come normalmente avviene per le proteine; gli esperimenti condotti sono stati
essenzialmente due: verificare la stabilità strutturale di una proteina nota, e la ricerca
del minimo globale nella PES di una breve sequenza di aminoacidi.
STABILITÀ CONFORMAZIONALE
Dalla banca dati PDB abbiamo scelto il peptide sintetico 1DNG; la sua struttura non è
determinata da un ambiente complesso come è il citoplasma; inoltre è breve (15
residui) e con una sola α-elica, che costituisce il 53,33% della struttura:
QAPAYEEAAE ELAKS
S HHHHH HHHTT
La struttura del polipeptide è stata determinata sperimentalmente tramite NMR, e
quindi è un buon punto di riferimento per la verifica dell’evoluzione della
simulazione.
Per questo esperimento abbiamo usato una serie di cicli di meccanica e dinamica
molecolare, per vedere l’evoluzione nel tempo della struttura e a quale conformazione
la ricerca della minima energia potenziale avrebbe portato la molecola.
Per la minimizzazione della molecola abbiamo usato il campo di forze Amber94, che
è ottimizzato per le sequenze aminoacidiche.
La dinamica si svolge in un ambiente canonico, dove cioè la temperatura è costante;
tenendo conto che i tempi delle vibrazioni molecolari sono dell’ordine del
femtosecondo, e che i tempi di folding sono perlomeno dell’ordine dei 100
picosecondi, abbiamo stabilito in 120.000 il numero di iterazioni per ogni ciclo di
dinamica.
Gli altri parametri delle dinamica non sono stati cambiati; in particolare la
temperatura è stata mantenuta a 300K, per conservare le tipiche condizioni
dell’ambiente cellulare.
Le configurazioni campionate sono state 1000; tutte sono state minimizzate, e la
migliore è stata utilizzata per il successivo ciclo di dinamica.
I valori iniziali della molecola sono riportati in Tabella 1. Il calcolo dei parametri
energetici della struttura 1DNG prima della minimizzazione rivela un valore di
energia interna positivo, probabilmente imputabile al fatto che la struttura depositata
in 1DNG è la struttura media di diverse soluzioni NMR.
E
str
ang
stb
tor
oop
Iniziale
182,676 35,025 15,473 0,060 82,593 0,060
Minimizzata -430,644 9,930 28,407 2,239 70,568 2,239
ele
vdw
0,060 44,070
-216,438 -12,223
sol
E - sol
5,335 177,341
-315,364 -115,280
Tabella 1 - Livelli di energia del peptide 1DNG
In soli tre cicli abbiamo notato che l’energia potenziale tende a stabilizzarsi, e quindi
abbiamo interrotto l’esperimento, ritenendo che in queste condizioni non ci sarebbero
stati miglioramenti sostanziali. La serie di grafici che seguono (Figura 1, Figura 2 e
Figura 3) mostrano l’andamento dell’energia nei tre cicli che abbiamo eseguito: per
ogni campione viene mostrato in blu il livello di energia potenziale assunto durante la
dinamica, e in giallo l’energia della configurazione dopo la minimizzazione. Si può
vedere come l’energia della molecola si stabilizzi intorno a –250 Kcal/mol già al
primo ciclo, e resti stabile sugli stessi valori anche nelle successive iterazioni.
Figura 1 – Energie nel primo ciclo di dinamica e minimizzazione
Figura 2 - Energie nel secondo ciclo di dinamica e minimizzazione
Figura 3 - Energie nel terzo ciclo di dinamica e minimizzazione
La seconda serie di grafici mostra la relazione tra l’energia potenziale e l’energia
minimizzata della molecola. Nel primo ciclo, Figura 4, è interessante notare come la
maggior parte delle conformazioni campionate durante la dinamica siano compresse
in un intervallo piuttosto ridotto di energia dopo la minimizzazione. Questa
rappresentazione rafforza l’idea che ci sia un grande bacino di attrazione in cui
cadono moltissime conformazioni. Nel secondo e terzo ciclo il risultato della
minimizzazione sembra essere indipendente dalla scelta del campione, e tutto ricade
nello stesso minimo di energia.
Figura 4 - Relazione tra energia potenziale e minimizzata al primo ciclo
Figura 5 - Relazione tra energia potenziale e minimizzata al secondo ciclo
Figura 6 - Relazione tra energia potenziale e minimizzata al terzo ciclo
La stabilità riscontrata potrebbe dipendere dalla scelta della temperatura a cui è stata
condotta la simulazione: i 300K utilizzati potrebbero non essere sufficienti a superare
una ipotetica barriera energetica della PES, e limitare il campionamento in un’area
diversa da quella del minimo globale. Per questo, abbiamo effettuato un ulteriore
ciclo di meccanica e dinamica a 800K, ma i migliori risultati delle energie potenziali
minimizzate sono risultate paragonabili ai precedenti, e quindi abbiamo abbandonato
la ricerca. Ancora una volta i grafici mostrano che il punto stazionario trovato ha
sempre lo stesso livello di energia, nonostante i livelli di energia potenziale dei
campioni siano notevolmente più alti, come ci si aspettava data la notevole
temperatura del sistema.
Figura 7 - Energie nel ciclo di dinamica e minimizzazione a 800K
Figura 8 - Relazione tra energia potenziale e minimizzata al ciclo a 800K
Anche se è difficile trarre delle conclusioni definitive usando queste metodologie, i
nostri esperimenti ci portano a pensare di avere effettivamente trovato un bacino di
attrazione molto forte, che forse non coincide con il minimo energetico assoluto da un
punto di vista matematico, ma che certamente stabilizza notevolmente la proteina,
rendendola insensibile anche a variazioni “traumatiche” del sistema.
Di seguito mostriamo l’evoluzione della struttura durante la sequenza di meccanica e
dinamica molecolare. L’apparente perdita di struttura visibile nelle immagini non
contraddice i risultati numerici visti sopra, perché se una piccola variazione di
posizione può influire sulla rappresentazione grafica della struttura eliminando la
freccia che indica l’α-elica, essa non determina variazioni fondamentali nella
molecola reale.
Figura 9 – Struttura tridimensionale originale
Figura 10 – Struttura tridimensionale dopo il primo ciclo
Figura 11 – Struttura tridimensionale dopo il secondo ciclo
Figura 12 – Struttura tridimensionale dopo il terzo ciclo
Figura 13 – Struttura tridimensionale dopo il ciclo a 800K
RICERCA DEI PUNTI STAZIONARI
Dalla sequenza della proteina 1DNG abbiamo selezionato i cinque aminoacidi dell’αelica
Ala – Glu – Glu – Leu – Ala.
Partendo dalla struttura lineare abbiamo usato la ricerca sistematica e la ricerca
stocastica alla ricerca dei punti di minimo, possibilmente globale.
La ricerca sistematica
La ricerca sistematica è un algoritmo deterministico, la cui capacità di garantire il
risultato ottimale dipende solo dalla risoluzione con cui si analizza la PES. Poiché la
PES è una superficie continua, la ricerca può essere potenzialmente estremamente
dispendiosa dal punto di vista del calcolo, quindi diventa indispensabile trovare il
compromesso migliore tra i tempi di esecuzione dell’algoritmo e la necessità di avere
una buona risoluzione della PES: intervalli troppo ampi nella discretizzazione
potrebbero fare mancare il minimo globale.
Le conformazioni vengono generate dalle rotazioni degli angoli di torsione.
Utilizzando dei passi di 60 o 120 gradi per i 17 angoli diedri della sequenza in esame,
il numero di conformazioni generabili supera i 16 miliardi. Dal grafico di
Ramachandran relativo ai cinque aminoacidi scelti, considerati all’interno di 1DNG
(Figura 14), si può vedere come gli angoli φ e ψ non sono multipli di 60º, e quindi
non verranno mai individuati dall’algoritmo con il passo dato.
Figura 14 – Grafico di Ramachadran
Inoltre, dati i limitati mezzi di calcolo, si è reso necessario un ulteriore aumento dei
vincoli di ricerca: abbiamo usato la funzione di minimizzazione del passo offerta da
MOE che incrementa gli angoli in modo da campionare il minimo locale dell’energia
potenziale per quel legame. Con questa euristica il numero di conformazioni trovate si
è ridotto a poco più di 400.000.
Di tutte abbiamo calcolato l’energia, e minimizzato il 10% con la minore energia. In
Tabella 2 riportiamo le 10 migliori conformazioni.
Struttura
1
2
3
4
5
6
7
8
9
10
U (Kcal/mol)
-135,28
-134,70
-134,00
-133,91
-133,87
-130,40
-128,39
-128,29
-127,52
-126,67
Tabella 2 - Energia potenziale delle strutture minimizzate
In Figura 15 è riportata la struttura della conformazione a minore energia potenziale,
dalla quale risulta immediatamente che il ripiegamento trovato non ha, purtroppo,
alcuna somiglianza con l’elica formata dalla sequenza da cui deriva il nostro
pentapeptide. Probabilmente, quindi, l’euristica utilizzata non permette la
soddisfacente esplorazione della PES.
Figura 15 – Configurazione a minore energia potenziale risultante dalla ricerca sistematica
La ricerca stocastica
Il campionamento casuale della PES permette di ottenere una “visione d’insieme”
dello spazio delle conformazioni della molecola molto più velocemente rispetto alla
ricerca sistematica; d’altro canto, l’algoritmo non è in grado di garantire che troverà la
soluzione ottimale, se non in tempi molto lunghi (tendenti all’infinito). A questo si
aggiunge, come nel caso della dinamica molecolare, il problema della terminazione,
perché non ci sono strumenti matematici in grado di valutare la probabilità di avere
raggiunto effettivamente il minimo globale.
Nella nostra ricerca abbiamo mantenuto i parametri proposti da MOE, escludendo
però l’inversione dei centri chirali nella generazione delle strutture, dal momento che
in natura la conformazione del carbonio α è sempre levogira. Le strutture analizzate
durante la ricerca sono state 10.000, da cui sono state selezionate sei configurazioni,
che abbiamo minimizzato, e i cui livelli di energia sono riportati in Tabella 3.
Struttura
1
2
3
4
5
6
U (Kcal/mol)
-72,37
-69,22
-68,90
-68,19
-67,93
-67,28
Tabella 3 – Energia potenziale delle strutture minimizzate
Della configurazione a minore energia potenziale è riportata la struttura in Figura 16,
dalla quale risulta che il ripiegamento trovato non ha neppure in questo caso alcuna
somiglianza con un α-elica. Il numero di strutture esplorate è decisamente troppo
piccolo per poter pensare di ottenere risultati interessanti, e confrontando questo
numero con quelli generati dalla ricerca sistematica l’esplorazione della PES è
decisamente superficiale. Ciononostante l’ordine di grandezza dell’energia delle
conformazioni trovate è paragonabile a quello delle conformazioni trovate dalla
ricerca sistematica. In più è interessante notare come le conformazioni generate con i
due differenti algoritmi siano simili, almeno nella disposizione dello scheletro, che si
ripiega a ferro di cavallo. Le differenti disposizioni delle catene laterali sono
evidentemente le principali responsabili delle differenze energetiche tra le due
molecole.
Figura 16 – Configurazione a minore energia potenziale risultante dalla ricerca stocastica
Dare una valutazione della qualità dei risultati non è semplice: in generale non si
hanno informazioni sulla struttura che si dovrebbe ottenere, e quindi l’esperienza del
ricercatore diventa un fattore fondamentale per capire se la ricerca sta dando dei frutti,
se si continuando l’esplorazione si possono ottenere miglioramenti, e, in definitiva,
quando interrompere la ricerca. Nel nostro caso constatiamo che due metodologie
diverse convergono a risultati simili, e questo ci porta a pensare che con questo livello
di dettaglio nella ricerca non si possono ottenere risultati migliori di quelli ottenuti.
Scarica

Modellistica molecolare