UNIVERSITA’ DEGLI STUDI DI MILANO FACOLTA’ DI FARMACIA Corso di laurea in Chimica e Tecnologia Farmaceutiche NUOVO METODO PER IL DOCKING AUTOMATICO DI LIGANDI CON MACROMOLECOLE A STRUTTURA 3D NOTA Relatore: Chiar.mo Prof. Luigi Villa Tesi di laurea di: Alessandro Pedretti matricola n° 398885 anno accademico 1994/1995 Stato dell’arte 1. Introduzione La ricerca tramite banca dati di strutture tridimensionali [1] è ormai uno degli strumenti più validi per fornire informazioni per l'identificazione di composti biologicamente attivi. Tale tipo di ricerca può essere di due tipi: la ricerca geometrica e il docking molecolare. La ricerca geometrica evidenzia quelle molecole che soddisfano una serie di relazioni geometriche fra specifici insiemi di atomi o di gruppi funzionali (gruppo farmacoforo, tossicoforo o, più in generale, bioforo). Il docking, invece, ha la funzione di individuare quelle molecole che possono occupare un specifico sito di legame in una macromolecola e di studiarne la distribuzione spaziale. Quest'ultima tecnica richiede la conoscenza della struttura del sito di legame, che può essere acquisita tramite tecniche cristallografiche a raggi X, NMR e/o modellazione per omologia con strutture note. I metodi di docking posizionano un ligando nel sito di legame di una proteina mediante ottimizzazione della complementarità sterica, idrofobica ed elettrostatica e, in alcuni casi, mediante la stima dell'energia libera d'interazione (scoring). L'incremento del numero disponibile di strutture enzimatiche, proteiche e di nucleotidi di potenziale interesse terapeutico determinate sperimentalmente tramite diffrazione di raggi X e spettroscopia NMR [2] è fonte d'interesse per la ricerca farmaceutica ed ha reso possiblie la progettazione di nuovi ligandi (“de novo design”). I metodi di “de novo design” hanno lo scopo di generare nuove strutture chimiche per estrapolazione diretta delle informazioni contenute nella struttura del sito recettoriale [3]. La costruzione di nuove molecole è un processo iterativo che attualmente si basa largamente sull’intuizione chimica del ricercatore e sul docking interattivo tramite l'impiego della computer grafica. Lo sviluppo interattivo di strutture ad attività 1 farmacologica è solitamente guidato dalla visualizzazione delle proprietà con mappe codificate opportunamente a colori sulle superfici molecolari. Fra tali metodi di visualizzazione bisogna ricordare le mappe di contorni energetici ottenute tramite sonde molecolari [4,5], il potenziale elettrostatioco molecolare, le mappe di idrofobicità - idrofilia locale, l’utilizzo di griglie di punti per la valutazione rapida dell'energia [6] e la minimizzazione energetica di semplici strutture [7]. Il calcolo dell’energia può essere condotto mediante metodiche quantomeccaniche, più rigorose ma riservate per ora a sistemi di dimensioni molto limitate, a causa dell’impegno di calcolo e della quantità di memoria fisica richiesti. In alternativa, sono state sviluppate molte metodiche basate su algoritmi di meccanica classica (campi di forze, vedi oltre) che, se da un lato consentono di riprodurre le geometrie molecolari con accettabile grado di accuratezza, dall’altro presentano limitate esigenze di potenza di calcolo e di memoria. Pertanto, con tale approccio, possono essere trattati in modo qualitativamente accettabile anche i sistemi macromolecola - ligando o addirittura proteina - proteina. La minimizzazione dell’energia stessa procede poi in diverse forme e con metodiche più o meno raffinate (algoritmi “steepest desent”, VAØ4A, gradienti coniugati, ecc) a seconda dello scopo da ottenere. Essa può riguardare l’ottimizzazione della geometria di valenza dei due partners dell’interazione, oppure la loro geometria torsionale ( in questo senso si apre il problema conformazionale che è a tutt’oggi il più complesso da ridurre,) oppure, ed è questo il caso più frequente nel design di ligandi bioattivi, minimizzare la sola componente intermolecolare dell’energia del sistema, mantenendo costanti le componenti intramolecolari dei due partners di interazione. In questo caso lo scopo è ovviamente quello di ottimizzare l’orientazione reciproca, cioè la complementarità sterica, lipofilica ed elettronica. Un cenno a parte merita anche il problema dell’evasione da eventuali minimi locali sull’ipersuperficie di energia potenziale. I tradizionali metodi di minimizzazione a gradiente sono 2 infatti in grado di individuare solo i minimi più prossimi al punto di partenza. Per ovviare a questo inconveniente sono state sviluppate diverse metodiche, alcune delle quali sono già state discusse nella sezione 2 della parte introduttiva. Attualmente, il “de novo drug design” rappresenta un settore di ricerca “di frontiera” [8,9,10] in forte sviluppo anche a causa dell’elevatissiomo numero di strutture 3D disponibili nelle banche dati di svariate industrie appartenenti al settore chimico, farmaceutico ed agricolo. Queste banche dati rappresentano quindi uno strumento insostituibile per ricerche di docking; ad esse si aggiungono le banche dati commerciali, pubbliche o create da enti accademici come nel caso del Cambridge Structural Database (CSD) [11], presso il quale sono reperibili le strutture cristallografiche di oltre 50000 piccole molecole organiche. Molti sistemi di docking automatico sono in grado di selezionare composti teoricamente interessanti [12] a partire da quelli presenti nelle banche dati, assegnando a ciascuno di essi un punteggio che ne sintetizzi la potenziale abilità d'interazione col sito di legame. Le molecole dotate di un punteggio più elevato, quindi potenzialmente candidate ad essere nuovi farmaci, possono essere sperimentate farmacologicamente e dai risultati ottenuti, si può trarre spunto per nuove modifiche alla struttura. In molte tecniche di docking automatico, il ligando è posizionato in una macromolecola a conformazione bloccata, poiché la difficoltà di effettuare l'analisi di una macrostruttura conformazionalmente flessibile rende impossibile l'ottenimento di risultati in tempi ragionevoli. Il docking in strutture rigide permette di individuare solo le conformazioni a bassa energia d'interazione e non consente di evidenziare quelle molecole che, per sfortunata scelta del conformero, sono impossibilitate ad interagire col sito recettoriale benché siano potenzialmente attive [12]. Ad esempio, il metotressato è disponibile in due conformazioni sperimentali presso la banca dati 3 CSD, ma nessuna è simile a quella che si trova nel complesso diidrofolato reduttasi - metotressato cristallizzato [13]. 4 2. Metodi proposti La selezione di situazioni spaziali potenzialmente interessanti dipende dall'attribuzione di un punteggio (score) capace di evidenziare la bontà dell’interazione ligando - proteina. Infatti, soltanto le situazioni con il punteggio più elevato vengono prese in considerazione. Per questo motivo, l'attribuzione del punteggio risulta essere una delle fasi più critiche del processo di docking. I fattori che influenzano l'interazione ligando - recettore comprendono i fenomeni elettrostatici (inclusi i legami d’idrogeno), le forze di Van der Waals e l'interazione idrofobica [14,15]. In particolare quest'ultima costituisce la “forza motrice” in grado di promuovere la formazione del legame, mentre i legami d'idrogeno e le interazioni elettrostatiche sono responsabili della specificità [16]. La formazione del legame intermolecolare richiede la desolvatazione del ligando e della macromolecola con contemporanea rottura dei legami d'idrogeno acqua - recettore e acqua - ligando. Poiché molti di questi legami che si spezzano vengono poi riformati fra il ligando e il recettore, la differenza netta di energia libera è spesso prossima a zero [17,18]. I due principali problemi del docking derivano dalla valutazione della struttura ligando - proteina e dal calcolo dell'energia libera di legame. Il computo dell'energia libera di legame è estremamente complicato e pertanto solo pochi sistemi di docking sono in grado di realizzare questo. Le funzioni di attribuzione del punteggio delle singole situazioni spaziali generate dall'interazione ligando - recettore, possono essere di vario tipo: si va da calcoli teorici, molto onerosi dal punto di vista computazionale, a calcoli empirici, molto più semplici e rapidi da eseguire. Gli algoritmi di docking devono essere molto veloci per poter avere un utilizzo prati5 co nella ricerca di nuovi farmaci in quanto spesso ci si trova di fronte a numerosi potenziali ligandi che devono essere selezionati dagli archivi delle banche dati. Per questo motivo, il calcolo dell'energia non può che essere approssimativo e non può essere utilizzato in maniera affidabile per confrontare ligandi molto diversi fra loro. In ogni caso, i metodi empirici di calcolo dell'energia sono quelli maggiormente utilizzati per il docking per i problemi di velocità di calcolo precedentemente menzionati, in quanto veloci e in grado di fornire dati sufficientemente affidabili di energie relative. La valutazione della componente di solvatazione nel computo dell'energia libera di legame è molto difficile. I calcoli di meccanica molecolare tramite campo di forze sovrastimano l'importanza dei legami d'idrogeno anche utilizzando una costante dielettrica distanza - dipendente [19]. Infatti, a causa di tale sovrastima, è stato ossevato che molecole altamente polari come gli zuccheri, ottengono spesso elevati punteggi per l’interazione con molti siti di legame, perchè in grado di essere ottimi accettori - donatori di legami d’idrogeno. Una soluzione a questo problema può essere quella di introdurre nel campo di forze dei fattori di correzione per riprodurre con maggiore accuratezza il legame d’idrogeno [20]. Tale procedimento è però alquanto laborioso, in quanto la modifica va adeguata ad ogni diverso tipo di legame d’idrogeno, per il quale devono essere disponibili sufficienti dati sperimentali o derivati da calcoli per ricavare parametri corretti. Altrimenti, occorre considerare l’energia libera di solvatazione. I modelli empirici di solvatazione stimano l'energia libera di solvatazione in funzione dell'area superficiale accessibile al solvente e producono dei risultati qualitativamente ragionevoli che incidono poco sui tempi di calcolo [21-23]. Tuttavia solo pochi programmi di docking utilizzano attualmente tale approccio. Uno dei più recenti sistemi per valutare la solvatazione è costituito da AMSOL [24], il quale combina un metodo semiempirico basato sugli orbitali molecolari con un modello continuo di solvatazione comprendente 150 soluti neutri e 28 ioni. Tale meto6 do è in grado di commettere un errore assoluto di sole 0.7 Kcal/mol per i soluti neutri e di 2.6 Kcal/mol per gli ioni. Purtroppo AMSOL richiede un elevato tempo di calcolo ed è pertanto applicabile solo a molecole piccole. Il programma LUDI di H. J. Böhm [25], dedicato al “de novo design”, posiziona piccoli gruppi funzionali presenti nel proprio archivio nel sito attivo dell'enzima. E' basato su una serie di regole empiriche che considerano i tipi di atomi e le loro geometrie per i vari tipi d'interazione. Böhm ha definito una semplice funzione empirica per l'attribuzione del punteggio che utilizza il valore di 1.5 Kcal/mol proposto da Fesht [18] per il legame d'idrogeno e 25 cal/(mol.Å) per l'interazione idrofobica. Lo scopo fondamentale è quello di determinare il peso relativo dei legami d'idrogeno e dei termini idrofobici nell'interazione ligando - recettore: Score = ∑ h − bonds (100. f ( ∆R). f ( ∆α)) + 53 A A rappresenta l'area di contatto idrofobico espressa in Ångstrom quadrati, i termini f ( ∆R) e f ( ∆α) sono delle funzioni empiriche i cui valori sono compresi tra zero e uno, ed hanno il compito di tener conto della distanza e dall’angolo di legame del legame d’idrogeno non ideale. Questa funzione è in grado di attribuire il punteggio alle singole situazioni spaziali in maniera soddisfacente. Bohacek e McMartin [26] hanno sviluppato una diversa funzione empirica per l'attribuzione del punteggio che si basa sulla correlazione fra tipo di atomo del ligando, che interagisce con la superficie del recettore accessibile al solvente, e tipo di superficie (idrofobica, accetrice o donatrice di legami d'idrogeno). Questa funzione può risultare molto utile per il docking. 7 Kuntz et al. [27] hanno sviluppato il programma DOCK, il quale è da considerarsi il primo metodo di docking usato nella ricerca di nuovi farmaci. DOCK è nato allo scopo di realizzare un algoritmo per il “design de novo” dei ligandi da inserire nel sito attivo di una macromolecola di struttura nota. Questo programma ricerca gli orientamenti del ligando geometricamente permessi, mantenendo rigida la struttura del ligando stesso e del sito recettoriale. Il metodo utilizzato per tale scopo comprende diverse fasi: la descrizione del ligando e della cavità recettoriale come insieme di sfere, l'orientamento del ligando e l'attribuzione del punteggio all'orientamento. La cavità del recettore è descritta come un insieme di sfere in contatto con la superficie molecolare [28]. Ciascuna sfera è generata dalla tangente alla superficie molecolare in un punto a (pertanto il vettore normale alla superficie comprendente questo punto passa per il centro della sfera) che tocca la superficie in un altro punto b (Fig. 1). Fig. 1 - Rappresentazione della superficie molecolare secondo Kuntz 8 Vari criteri sono utilizzati per ridurre il numero di sfere ad un valore accettabile. Solo le sfere più piccole generate per ciascun punto della superficie vengono mantenute e viene considerata solo una sfera per ciascun atomo del recettore. Viene calcolato l'angolo fra i due vettori passanti per il centro della sfera e i punti A e B della superficie al fine di scartare sfere che occupano “crepacci” di troppo limitate dimensioni. Solo le sfere che hanno il valore dell'angolo al di sopra di una soglia di 90° sono tenute in considerazione. Infine, le sfere con raggio maggiore di 5 Å, che si proiettano perlopiù nello spazio occupato dal solvente, vengono scartate. Le sfere selezionate sono raggruppate in clusters (vedi oltre) caratterizzati dal fatto di essere costituiti da sfere sovrapposte le une alle altre. Generalmente il cluster più grande corrisponde al sito di legame del recettore, mentre gli altri clusters descrivono le cavità più piccole presenti nella superficie proteica. La forma del ligando è similmente descritta da sfere che sono generate posizionandosi all'interno della superficie molecolare del ligando. Le sfere sono prodotte in maniera analoga alla precedente ad eccezione del fatto che la direzione della normale alla superficie è definita da un punto interno alla struttura del ligando. Dopo aver ottenuto una rappresentazione della forma del ligando e del sito recettoriale, è necessario confrontare le rispettive catteristiche spaziali e ciò è effettuato accoppiando i gruppi di sfere del ligando con quelli della proteina. Per definire l'orientamento del ligando nel sito recettoriale, sono necessarie come minimo quattro coppie di sfere. Sfortunatamente non è possibile esaminare tutti gli accoppiamenti possibili fra le sfere poiché il loro numero è elevatissimo. Per Ns sfere del sito recettoriale e per Nl sfere del ligando si ha un numero di accoppiamenti pari ad N: N= Ns ! ( N s − N l )! 9 Supponendo di avere Ns = 50 e Nl = 25, si hanno più di 1039 possibiltà e pertanto risulta impraticabile ogni forma di analisi sistematica. Allo scopo di superare questo problema, viene utilizzato un metodo di comparazione basato sul campionamento dei possibili confronti. In particolare, la comparazione delle sfere avviene per selezione di una coppia di sfere del sito recettoriale, misurando la distanza fra i due rispettivi centri. Generalmente le coppie sono scelte partendo da quelle che hanno distanze maggiori. In seguito viene selezionata una coppia di sfere del ligando, la cui distanza fra i centri deve essere compatibile con quella della coppia del recettore considerando eventualmente una certa tolleranza. A questo punto viene selezionata una terza sfera della proteina, vengono calcolate le distanze fra i tre centri ed infine le due distanze così ottenute vengono confrontate con quelle del ligando ottenute analogamente per selezione di una nuova sfera. Questo processo continua fino a quando non è stato confrontato un numero specificato di sfere o non è più possibile trovare nuove coppie che soddisfino la tolleranza introdotta sulla distanza dei centri. Se si verificano le condizioni precedenti, il programma torna indietro e continua a cercare comparazioni alternative. Solitamente questo algoritmo seleziona molti dei possibili confronti. DOCK [29] definisce le basi per un metodo di ricerca di composti sulla base della pura e semplice complementarità della forma del sito recettoriale di struttura nota con le caratteristiche geometriche del ligando. Questo programma è stato modificato per la ricerca di ligandi presenti nelle banche dati utilizzando un'appropriata funzione di assegnamento del punteggio. Ciò consente di valutare l'interazione di moltissimi ligandi con una determinata macromolecola in meno di un giorno di calcolo e di selezionare quel ligando che presenta la maggiore complementarietà di forma nei confronti del sito recettoriale. Ciascuna molecola specificata, presente in archivio, viene confrontata con la proteina considerata, utilizzando il metodo precedente10 mente descritto. Ad ogni ligando è attribuito un punteggio e alla fine della ricerca viene evidenziata la molecola col miglior punteggio. Generalmente una semplice funzione di attribuzione del punteggio, basata sul confronto della forma del ligando con quella del recettore ,è in grado di discriminare i composti attivi da quelli inattivi in modo statisticamente significativo. Da ciascun confronto delle sfere del ligando con quelle del sito recettoriale è possibile ricavare un potenziale orientamento del ligando stesso. Tale orientamento è ottenuto dal computo della rotazione e della traslazione del ligando che soddisfa la sovrapposizione delle coppie di sfere del ligando con quelle del recettore. Il metodo originale utilizzato dal programma DOCK [27] per attribuire il punteggio a ciascuna posizione trovata, tiene conto esclusivamente della sovrapposizione delle sfere di Van der Waals: E overlap = ∑i ∑k ( ri + rk − d ik ) ri e rk sono i raggi di Van der Waals degli atomi del recettore e del ligando e dik è la distanza interatomica fra gli atomi i e k. Questa formula è stata modificata per meglio descrivere la complementarità delle forme del ligando con quelle del sito recettoriale [29]. Invece di minimizzare in modo indistinto tutte le sovrapposizioni interatomiche, la nuova funzione discrimina fra le sovrapposizioni costruttive ai fini dell'interazione, e quelle che, facendo prevalere l'effetto repulsivo, indeboliscono il legame ligando - proteina. Vengono misurate le distanze fra gli atomi del ligando e quelli del sito recettoriale e se queste ricadono all'interno della distanza ideale di Van der Waals più un certo valore di tollaranza, viene loro attribuito un punteggio positivo. Gli atomi,la cui distanza si allontana maggiormente da quella ideale, hanno un peso inferiore nel computo del punteggio. Se la distanza è inferiore ad un valore minimo (generalmente alquanto inferiore rispetto alla distanza 11 ideale), viene attribuito un elevato punteggio negativo. Così facendo, molte deviazioni dalla distanza ideale sono comprese nella funzione allo scopo di compensare l'assenza di flessibilità nei modelli del ligando e della proteina (Fig. 2). La fase di attribuzione del punteggio di ciascun possibile orientamento del ligando è molto dispendiosa in termini di tempo di calcolo. Al fine di accelerare questa fase, viene precalcolato il punteggio di ciascun punto di una griglia collocata nel sito recettoriale [30]. A ciascun atomo del ligando viene attribuito il punteggio ottenuto considerando quello del punto della griglia più vicino oppure interpolando i valori di più punti della griglia vicini all'atomo considerato. In questa maniera si ottiene un sensibile incremento della velocità di calcolo. Fig. 2 - Funzione “soft” di attribuzione del punteggio 12 In molti casi può essere necessario considerare non solo la complementarietà geometrica, ma anche quella elettrostatica e per questo motivo è stata sviluppata un'altra funzione per l'attribuzione del punteggio [31], che impiega i termini non - bonded del campo di forze AMBER [32]. Per abbattere i tempi di calcolo, viene utilizzata una griglia precalcolata anche per le proprietà elettrostatiche. Il metodo approssimato utilizzato dal programma non può garantire l’ottenimento di tutte le comparazioni potenzialmente interessanti. Per questo motivo sono stati sviluppati sistemi alternativi di confronto [30], che si differenzino dal precedente principalmente per due aspetti. La prima metodica prevede che le sfere vengano suddivise in più sottogruppi (bins) sulla base della loro reciproca distanza. I vari sottogruppi hanno la funzione di restringere il campo di scelta per la sfera successiva da aggiungere al confronto in corso. Le dimensioni del sottogruppo possono essere modificate dall'utente e questo permette un maggiore controllo della ricerca nel suo insieme. Un secondo metodo, molto differente rispetto all'originale, è stato sviluppato al fine di poter specificare l'ordine col quale vengono scelte le sfere. Ad esempio, selezionata una sfera di partenza, si può scegliere una sfera del sottogruppo che comprende le sfere più lontane da quella di partenza, e così via. Le strutture generate da DOCK non sono ottimizzate, benchè la funzione di assegnazione del punteggio comprenda i termini non - bonded del force field AMBER, che sono altamente sensibili alle variazioni di distanze interatomiche [32]. Infatti, piccole variazioni di posizione del ligando possono portare ad ampie variazioni nel punteggio calcolato, evidenziando così una cattiva correlazione fra accuratezza del docking e punteggio. Meng et al. [33] hanno messo a punto un sistema semplice e veloce per l'ottimizzazione di strutture rigide, che migliora signifi- 13 cativamente il calcolo dell'energia e che orienta il ligando in una posizione comparabile a quella ottenuta sperimentalmente. Quando il ligando e il recettore sono entrambi proteine, il problema del numero di strutture generabili è veramente complesso. Per consentire il docking di sistemi proteina - proteina in tempi ragionevoli, è necessario sfruttare i metodi di confronto modificati descritti in precedenza. Nella fase di generazione dei clusters, le sfere più grandi non sono considerate e ciò permette di ottenere clusters di dimensioni generalmente più limitate dato che il numero delle comparazioni possibili cresce rapidamente all'aumentare del numero delle sfere. Clusters piccoli, cioè costituiti da poche sfere, consentono un notevole risparmio sul tempo di calcolo. E' stato evidenziato con diverse prove che è possibile riprodurre gli orientamenti sperimentali per molti complessi proteina - proteina ed inoltre sono state trovate posizioni di docking alternative. Un particolare metodo di docking proteina - proteina, in prticolare antigene-anticorpo, è stato messo a punto da Vakser [34] e si basa su un particolare algoritmo che cerca di superare l’inaccuratezza dei dati sperimantali disponibili introducendo una certa “tolleranza” nella descrizione della superficie molecolare. Tale algoritmo prevede che la struttura sia del recettore, sia del ligando venga proiettata su opportune griglie 3D, assegnando a ciascun punto un valore proporzionale al volume adiacente libero o occupato dagli atomi, a seconda di punti interni o esterni alla molecola in esame. Per il recettore, tale valore sarà negativo se il punto è interno alla molecola, mentre sarà positivo se il punto è esterno. Nel caso della griglia del ligando, i punti interni avranno un valore positivo, mentre quelli esterni ne avranno uno negativo. Moltiplicando punto per punto la griglia del ligando con quella del recettore, si ottengono valori nulli per punti della griglia del ligando esterni ad esse, valori positivi qualora i punti interni al ligando corrispondano a punti esterni del recettore ed infine valori negativi nel caso si verifichi una sovrapposizione delle due molecole considerate. Elaborando i valori ottenuti è possibile ottenere 14 un punteggio per ciascuna posizione del ligando ottenuta per rototraslazione di una griglia rispetto all’altra. Tale tipo di approccio è stato modificato dallo stesso Vakser in funzione della precisione dei dati cristallografici a disposizione. Infatti, l’utilizzo di griglie tridimensionali con una distanza fra i punti (grid step) inferiore alla precisione dei dati sperimentali non è rigoroso ed è privo di significato. Un valore di grid step generalmente corretto in rapporto alle tecniche attuali potrebbe essere di circa 7 Å, ma purtroppo con una griglia così rarefatta l’algoritmo precedentemente proposto diventa inefficace e privo di significato fisico. E’ stato proposto dallo stesso Autore di modificare l’algoritmo associando a ciascun punto della griglia un valore che non risulti solo funzione del volume libero o occupato circostante al punto stesso, ma anche del numero di atomi compresi nel cubo di 7 Å di lato delimitato dai punti adiacenti a quello considerato. Singh et al. [35] hanno sviluppato il programma GEMINI che, sfruttando le informazioni relative alle conformazioni delle catene laterali contenute in una banca dati di strutture cristallografiche, riesce a prevedere le conformazioni di un ligando proteico posizionato nel sito recettoriale. E’ stato dimostrato che GEMINI è in grado di generare un orientamento comparabile alle rispettive strutture cristallografiche per una serie di peptidi legati agli enzimi endotiapepsina, carbossipeptidasi A e termolisina. Wang [36], prendendo in considerazione il problema assai complesso di ottimizzare il docking molecolare al fine di poterlo applicare a complessi ligando - recettore completamente proteici, evidenzia come un tale tipo di approccio possa essere semplificato considerando solo quelle zone cave di una delle due proteine che consentano l'avvicinamento e l'interpenetrazione tra i due partners in esame. In questo modo si riduce notevolmente l'estensione dello spazio conformazionale da analizzare. Per ottenere tutto questo, è stato ripreso l'approccio ideato da 15 Connolly [28] che si basa sulla ricerca dei motivi strutturali salienti dal punto di vista della complementarità (per esempio cavità ed estroflessioni) presenti sulla superficie molecolare delle due proteine allo scopo di definirne il reciproco orientamento. Una posizione ottimale può essere identificata evidenziando almeno quattro coppie di tali motivi complementari. Wang, dopo aver constatato la difficoltà di individuare quattro coppie di zone d'interazione, ipotizza come sia possibile limitare tale ricerca ad una sola coppia di zone, definendo poi l'esatto orientamento reciproco attraverso procedure dinamiche di docking, come ad esempio quelle basate sul confronto di griglie molecolari. Per evidenziare i punti critici di contatto, è necessario definire una superficie molecolare quale quella proposta da Richards [37], che si ottiene esplorando la superficie di Van der Waals con una sfera di raggio prestabilito. In questo modo, si definisce la superficie accessibile a tale sonda sferica e, nel caso in cui il suo raggio corrisponda a quello dell'ipotetica sfera che approssima le caratteristiche geometriche dell'acqua, viene caratterizzata la superficie accessibile al solvente. Un tale tipo di descrizione può rivelarsi inadatta per il docking proteina - proteina e pertanto Wang propone di utilizzare una superficie mista, classificando gli atomi in "esterni" ed "interni" sulla base dell'accessibilità nei confronti del solvente. Gli atomi esterni vengono descritti mediante la superficie accessibile al solvente, mentre gli atomi interni sono rappresentati attraverso la semplice superficie di Van der Waals, la quale permette di descrivere, in modo più preciso, le caratteristiche geometrico - strutturali delle cavità interne che risultano decisive nell'interazione fra le due proteine. Entrambe le strutture proteiche vengono proiettate su una griglia tridimensionale e per ciascun punto della superficie interna, viene costruita la sfera che interseca la parte interna della proteina, in modo del tutto analogo alla descrizione delle sfere negative di Kuntz [27]. Considerando i raggi di tali sfere è possibile descrivere le caratteristiche geometriche della cavità (concavità, convessità, ecc.), mentre considerando il volume di tali sfere è poi possibile risalire al volume 16 delle cavità intramolecolari e, in modo del tutto analogo, è possibile derivare il volume e la forma delle estroflessioni molecolari. La ricerca della zona d'interazione si realizza confrontando le estroflessioni del ligando con le cavità del recettore sulla base della compatibilità dei volumi e della complementarietà geometrica. Individuando un' accoppiamento fra zona recettoriale e ligando, si determinano cinque dei sei gradi di libertà conformazionale, ossia i tre gradi traslazionali e due gradi rotazionali. Il terzo grado di libertà rotazionale viene determinato con una procedura di docking sistematico attraverso 360/teta casi possibili (teta = "step size" della ricerca), valutando l'energia d'interazione e scartando i casi in cui si ha sovrapposizione molecolare. L'orientamento migliore che si ottiene, viene ottimizzato col metodo Monte Carlo. L'intero processo di ricerca richiede più tempo rispetto a quello proposto da Connolly, anche se risulta applicabile ad un numero maggiore di complessi soprattutto grazie all'originale approccio per la descrizione della superficie molecolare. Da molti Autori [38-40] è stata evidenziata la possibilità di incorporare nella procedura di comparazione la complementarità elettronica oltre la già citata complementarità sterica. Alla base di questo approccio, detto DOCK mirato, vi è l'idea di limitare il procedimento di confronto degli atomi (o delle sfere) del ligando con le sfere del recettore sfruttando delle proprietà compatibili. Per esempio certe sfere recettoriali possono essere identificate come siti donatori - accettori di legami d'idrogeno e pertanto solo gli atomi del ligando di tipo appropriato possono interagire con queste sfere. I vantaggi di questo tipo di approccio consistono sia in un potenziale aumento della velocità di comparazione (superiore da uno a tre ordini di grandezza, in funzione della ristrettività dei criteri applicati) sia in un miglioramento dell'orientamento del ligando rispetto a quanto si ottiene con la sola complementarità geometrica fra ligando e sito recettoriale. 17 Una delle maggiori limitazioni del metodo impiegato dal programma DOCK consiste nel fatto che le geometrie del ligando e del recettore sono mantenute rigide. Ciò è legato alla metodologia di confronto che si basa su distanze fisse. Infatti, se fosse permessa la variazione delle distanze stesse, il problema combinatoriale relativo ai confronti diverrebbe di complessità proibitiva. Fra i vari metodi sviluppati per superare almeno in parte questo tipo di ostacolo bisogna ricordare quello proposto da R. L. DesJarlais et al. [41] che sfrutta la possibilità di suddividere il ligando in più parti rigide ciascuna delle quali viene posizionata a livello del sito recettoriale utilizzando l’algoritmo standard del programma DOCK. I vari orientamenti ottenuti dal docking dei singoli frammenti vengono analizzati sequenzialmente allo scopo di individuare il modo di riassemblare le diverse parti nella struttura originaria del ligando, rispettando le appropriate geometrie di legame. Purtroppo molti ligandi non possono essere suddivisi in un numero ridotto di parti e pertanto questo approccio non rappresenta la soluzione completa al problema della flessibilità. Un altro metodo [40] sfrutta il docking di una porzione iniziale del ligando (frammento d’ancoraggio) nel sito recettoriale seguito da una ricerca conformazionale per la rimanente parte del ligando. Il frammento d’ancoraggio è posizionato nella macromolecola utilizzando il programma DOCK, ottimizzando in seguito la complementarietà dei legami d’idrogeno col sito recettoriale. I vari orientamenti così ottenuti sono raggruppati in clusters; per ciascuno di essi viene evidenziato un orientamento del punto d’ancoraggio che viene utilizzato come base per la ricerca conformazionale. Quest’ultima fase consiste nel mantenere fisso il frammento d’ancoraggio, mentre i legami presenti nella restante parte del ligando vengono ruotati sistematicamente per ottimizzare l’interazione del ligando col sito recettoriale. I due metodi elencati precedentemente introducono flessibilità esclusivamente nella struttura del ligando e non in quella del recettore. Leach prende in considerazione la possibilità di ottenere 18 una parziale flessibilità del recettore tramite il blocco conformazionale dello scheletro base (backbone) della proteina. Solo alcune catene laterali, preventivamente selezionate, sono mobili secondo parametri predefiniti, mentre le restanti sono mantenute fisse. Nel caso del ligando vengono generate una serie di conformazioni tramite analisi conformazionale, mentre le catene laterali del recettore sono selezionate ricavandone la conformazione da strutture proteiche sperimentali ad alta risoluzione[42]. Il ligando è posizionato nel sito recettoriale sfruttando un metodo modificato del docking con strutture flessibili, descritto in precedenza. Poi vengono analizzate varie combinazioni di conformeri del ligando con le posizioni delle catene laterali della proteina utilizzando algoritmi di ricerca combinatoriale che sono in grado di individuare le strutture caratterizzate da un valore che ricade in un certo intervallo del minimo energetico globale. Un’accorgimento utile per tener conto della flessibilità dal ligando consiste nell’impiego di algoritmi genetici [43] (vedi oltre) che consentono di ottimizzare l’accoppiamento tra sfere del ligando e del recettore per il fitting. La flessibilità del ligando viene inclusa ammettendo la variabilità delle torsioni nell’ottimizzazione tramite algoritmi genetici. In questo modo, è possibile eseguire contemporaneamente un’ottimizzazione dell’orientamento e della conformazione del ligando variando gli angoli di torsione e selezionando le coppie di sfere per il confronto geometrico. Il programma DOCK può essere utilizzato per la ricerca di composti “testa di serie” (lead compounds) dai quali trarre spunto per modificazioni successive. Un esempio di tale applicazione è rappresentato dal docking di una serie di composti (circa 10000, provenienti dalla banca dati CSD) con la proteasi HIV-1 [39]. I composti ai quali sono stati attribuiti i 200 migliori punteggi utilizzando il metodo della complementarietà geometrica, sono stati analizzati tramite grafica molecolare allo scopo di selezionarli, utilizzando diversi criteri, per esempio 19 quello della semplicità di sintesi. Uno dei composti maggiormente interessanti si è dimostrato il bromoperidolo, benchè fosse classificato solo cinquantunesimo nella graduatoria dei migliori ligandi. L’aloperidolo, già disponibile sul mercato e strutturalmente correlabile al bromoperidolo, è stato sperimentato e si è rivelato un inibitore debole ma specifico della proteasi HIV-1. Successivamente sono state ottenute due strutture cristallografiche del complesso fra la proteasi e un derivato dell’aloperidolo e una di queste si è dimostrata comparabile con l’orientamento generato da DOCK. La metodica sfruttata da DOCK e dai programmi ad esso correlati ha consentito di ottenere composti “lead” con modesta attività verso una serie di siti di legame. Tuttavia, in alcuni casi, una successiva analisi cristallografica ha indicato modalità di legame piuttosto differenti da quelle suggerite da DOCK. Ciò può essere interpretato innanzitutto con la moderata affinità dei ligandi esaminati, che consente di ipotizzare modalità di legame non univoche. Inoltre occorre considerare che la conformazione ricavata dall’analisi cristallografica può essere influenzata dall’impaccamento delle molecole nel cristallo, dalla presenza di molecole del solvente di cristallizzazione e dalla flessibilità del ligando. Nella maggior parte delle applicazioni, DOCK non tiene conto di tutto ciò; pertanto non è sorprendente che i risultati talvolta non siano buoni. Ciò non significa che la modalità di legame suggerita da DOCK non sia possibile, ma solo che non è la più probabile. Oltre ai sistemi di docking correlati al metodo introdotto dal programma DOCK, sono state sviluppate altre metodiche che prendono in considerazione il problema del posizionamento di piccole molecole in strutture macromolecolari tramite particolari funzioni di attribuzione del punteggio che sintetizza l’interazione ligando - recettore. Molti metodi di docking si basano sulla rappresentazione dell’ipersuperficie molecolare oppure della superficie accessibile al solvente come quella proposta da Connolly [28]. Le tecniche 20 che considerano esplicitamente i punti che compongono la superficie molecolare richiedono tempi di calcolo elevati, mentre i metodi più veloci impiegano una serie di sfere per rappresentare la superficie. Una particolare classe di programmi di docking utilizza il metodo Monte Carlo per tener conto della flessibilità conformazionale del ligando, come nel caso di AUTODOCK [44]. Questo programma calcola l’energia d’interazione fra ligando e recettore utilizzando un campo di forze di meccanica molecolare (per esempio AMBER [32]). Il docking può essere eseguito a partire da una posizione determinata manualmente oppure casualmente e sfrutta un algoritmo di simulated annealing per ottimizzare l’energia totale del sistema. Le traslazioni, le rotazioni e gli angoli di torsione del ligando sono modificati simultaneamente e ciascuna variazione viene accettata o scartata utilizzando un algoritmo tipo Metropolis [45] il quale consente di evitare i minimi energetici locali (vedi sezione sperimentale di questa tesi). All’inizio la temperatura è impostata su valori estremamente alti, ma poi viene progrssivamente diminuita. Lo svantaggio principale di questo approccio è costituito dalla lentezza di calcolo che limita l’applicazione esclusivamente allo studio di ligandi di piccole dimensioni e non permette di eseguire ricerche su un elevato numero di ligandi. Trattandosi di un metodo stocastico, è necessario disporre di un metodo per discernere le situazioni spaziali geometricamente simili e quindi dotate di energia d’interazione simile da quelle potenzialmente interessanti. In ogni caso il programma AUTODOCK è in grado di generare degli orientamenti spaziali corretti e plausibili dal punto di vista sperimentale. Hart e Read [46] hanno messo a punto un metodo di docking simile a quello sfruttato dal programma AUTODOCK ed hanno ottenuto dei risultati ragionevoli ma in tempi non propriamente brevi. Yue [47] ha applicato un metodo Monte Carlo - simulated annealing per rico- 21 struire il complesso proteasi serinica - inibitore utilizzando un insieme di misure ottenute sperimentalmente tramite raggi X come vincoli per restringere il campo di ricerca. I metodi Monte Carlo richiedono tempi di calcolo piuttosto elevati. Malgrado ciò, essi rappresentano una buona scelta per il docking di un numero ristretto di molecole se si desidera un campionamento molto fitto, ma risultano essere inadeguati per la ricerca dei ligandi a partire dalle strutture presenti nelle banche dati. Una particolare tecnica di docking consiste nell’effettuare una preselezione degli orientamenti ligando - recettore tramite accoppiamento di atomi donatori e accettori di legami d’idrogeno e nell’attribuzione di un certo grado di flessibilità della struttura del ligando. Smellie, Crippen e Richards [48] hanno sviluppato un veloce sistema di docking grafico che coinvolge un ligando conformazionalmente flessibile e un recettore rigido e che è stato applicato al docking di una serie di triazine con la diidrofolato riduttasi di E. coli complessata col NADPH. Lo schema di docking comprende coppie donatore - accettore di legami d’idrogeno vincolate da una serie di distanze minime e massime tra l’atomo accettore e donatore. Per due interazioni simultanee fra gli atomi recettoriali i,k e gli atomi del ligando j,l, devono essere soddisfatti i seguenti vincoli: d ik ≤ U jl + δ d ik ≥ L jl − δ dik è la distanza fra i punti i e k del sito recettoriale, Ujl e Ljl descrivono le distanze minima e massima tra gli atomi del ligando j e l che definiscono la flessibilità strutturale del ligando stesso e δ è un parametro che riassume la flessibilità del sito recettoriale. 22 L’algoritmo utilizzato ricerca tutti i possibili accoppiamenti fra gli atomi donatori e accettori di legami d’idrogeno e i relativi vincoli di distanza con lo scopo di trovare tutti gli orientamenti del ligando che permettano almeno cinque legami d’idrogeno col sito recettoriale. In questo modo vengono evidenziati una serie di orientamenti che soddisfano i vincoli di distanza senza però tener conto delle caratteristiche geometriche del sito di legame. Pertanto, molti orientamenti ottenuti sono stericamente impossibili per effetto della sovrapposizione dei raggi di Van der Waals del ligando con quelli della proteina e, di conseguenza, vengono scartati tramite un adeguato sistema di controllo. Questo tipo di approccio si dimostra utile soprattutto nelle fasi preliminari in cui si esegue una valutazione generica dei possibili siti di interazione caratterizzati da un’alta densità di atomi donatori e/o accettori di legami d’idrogeno. Kasinos et al. [49] ha messo a punto un metodo di docking simile al precedente in cui il ligando e il sito recettoriale sono rappresentati da una serie di punti ottenuti dalla proiezione di un vettore della lunghezza di 1.6 Å passante per le coordinate di ciascun atomo del ligando e del sito recettoriale capace di formare legami d’idrogeno. L’algoritmo di comparazione consite nella valutazione diretta della complementarità fra i punti calcolati del ligando con quelli della proteina. Il ligando è poi posizionato nel sito recettoriale sulla base di una sovrapposizione dei punti d’interazione sede di legame d’idrogeno che sfrutta il metodo dei minimi quadrati per ottimizzare le distanze. Yamada e Itai [50,51] hanno sviluppato un metodo di docking che considera flessibile la struttura del ligando tramite una ricerca sistematica degli angoli di torsione, come pure la struttura del recettore tramite minimizzazione energetica d’interazione del complesso iniziale ligando - proteina utilizzando il campo di forze empirico AMBER [32]. Tale algoritmo è alla base del programma ADAM, la cui velocità di calcolo è dovuta anche al precalcolo degli orientamenti 23 ligando - sito recettoriale sfruttando la complementarità dei legami d’idrogeno. Tutto questo è ottenuto tramite il calcolo di una griglia tridimensionale composta da atomi fittizi (dummy atoms) accettori e donatori di legami d’idrogeno a livello del sito di legame della proteina. Quindi vengono generati una serie di coppie di atomi accettore/donatore di legami d’idrogeno ottenuti dalla comparazione degli atomi del ligando con quelli fittizi della griglia. Le varie coppie vengono raggruppate in sottoinsiemi ciascuno dei quali descrive un particolare orientamento ligando - macromolecola che viene successivamente ottimizzato variando sistematicamente i legami mobili della molecola posizionata tramite confronto delle distanze fra gli atomi del ligando e quelli fittizi della griglia recettoriale. I migliori orientamenti ottenuti vengono ottimizzati con il programma AMBER sia a livello del ligando, sia a livello recettoriale, introducendo così una completa libertà conformazionale. ADAM è stato utilizzato per il docking del metotressato e del trimetoprim nella diidrofolato reduttasi dimostrandosi efficace soprattutto perchè il sito attivo dell’enzima considerato è altamente polarizzato con cariche fortemente localizzate, rappresentando così un caso ideale. L’approccio che vede l’impiego della complementarità dei legami d’idrogeno può risultare carente nel caso di siti di legame altamente lipofili come nel caso della fosfolipasi A2. In questo caso, che rappresenta l’estremo opposto di quello della diidrofolato riduttasi, la scarsa densità di atomi donatori/accettori di legami d’idrogeno nel sito recettoriale non consente di posizionare il ligando in modo adeguato poichè le interazioni idrofobiche non sono contemplate dal metodo applicato. Un buon metodo dal punto di vista del computo dell'energia d'interazione ligando - macromolecola recettoriale è stato messo a punto da Vedani [52]. Infatti, viene data notevole importanza alla valutazione dei legami d'idrogeno, includendo anche i termini geometrici, nell'espressione dell'energia senza però trascurare le interazioni elettrostatiche, di Van der Waals e quelle con centri metallici. Il metodo sfruttato per il docking comprende una serie di fasi successive. Il 24 file in formato PDB [53] delle coordinate di partenza del recettore, che deve essere di natura proteica, viene convertito in un formato appropriato e contemporaneamente vengono individuate tutte le posizioni degli atomi d'idrogeno che presentino un legame polarizzato, compresi anche quelli delle molecole d'acqua. Al fine di ridurre i tempi di calcolo, la struttura macromolecolare viene ridotta considerando soltanto i residui aminoacidici compresi in un certo intorno del sito attivo (regione sito - attivo estesa). Alla struttura così semplificata vengono assegnate le cariche parziali e i parametri del campo di forze (proprio dell'Autore, benché venga utilizzata la stessa simbologia di AMBER per i tipi atomici) e viene generata la connettività. Il ligando viene posizionato nel sito recettoriale adattando le catene laterali degli aminoacidi e mantenendo fisso lo scheletro principale della proteina. Questa approssimazione è giustificata dall'incremento di velocità che ne deriva e che permette di analizzare lo spazio conformazionale. Il programma di ottimizzazione del complesso che viene generato sfrutta una minimizzazione eseguita col metodo dei gradienti coniugati. Ripetendo le fasi precedentemente descritte per più ligandi è possibile non solo evidenziare quello dotato di migliore energia d'interazione, ma anche di ottenere per quest'ultimo un modello ottimizzato di interazione grazie alla flessibilità introdotta sulle catene laterali della proteina. Nel tentativo di attribuire una giusta importanza all’ idrofobicità, Vakser e Aflalo [54] hanno proposto un metodo per analizzare il riconoscimento del ligando da parte del recettore (molecular recognition) sulla base delle caratteristiche idrofobiche, data l’importanza che giocano nell’interazione fra due molecole e nelle equazioni di QSAR classico. Vengono considerati esclusivamente gli atomi idrofobici, quando si confrontano due superfici molecolari. Questa approssimazione è giustificata dall’osservazione che nella maggior parte dei complessi ligando - proteina cristallograficamente noti, il sito attivo presenta una densità di gruppi idrofobici più alta che altrove. Una spiegazione razionale di tale scelta risiede nel fatto che i gruppi idrofilici 25 sono generalmente solvatati dall’acqua e relativamente liberi di muoversi e quindi meno adatti all’interazione rispetto a quelli idrofobici. Questi ultimi hanno il vantaggio di non risultare solvatati dall’acqua e di avere un peso maggiore nella determinazione della struttura molecolare. Prendendo in considerazione esclusivamente gli atomi idrofobici si riesce ad eliminare i falsi positivi tipici dell’interazione idrofilica, a rendere superfluo lo studio di modelli flessibili nel caso in cui si assuma che la componente idrofobica sia strutturalmente rigida, ed infine a ridurre il numero di atomi da confrontare rendendo i calcoli meno onerosi. E’ possibile combinare la ricerca geometrica in banche dati con il docking di strutture mantenute rigide, come nel caso del programma CLIX [55]. In questo caso particolare, viene utilizzato il programma GRID [4] per la preliminare identificazione delle potenziali regioni di interazione, sfruttando una sonda atomica e la visualizzazione grafica di griglie. La ricerca di strutture tridimensionali tramite banca dati fornisce una serie di ligandi che soddisfano le relazioni geometriche fra punti farmacoforici che, successivamente, vengono posizionati all’interno del sito recettoriale. Ciascun orientamento viene ottimizzato mediante meccanica molecolare allo scopo di ridurre le interazioni repulsive. CLIX attribuisce un punteggio ad ogni orientamento basato sull’energia di interazione tra punti GRID del recettore e atomi del ligando. Bacon e Moult [56] hanno sviluppato un sistema basato sul metodo dei minimi quadrati per ottimizzare la sovrapposizione delle superfici molecolari del sito recettoriale e del ligando. In particolare, la superficie di Connolly [57] viene rappresentata come un insieme di punti connessi da vettori che costituiscono una struttura reticolare. La rappresentazione del sito recettoriale così semplificata viene sfruttata per un confronto con il ligando secondo il sistema proposto da McLachlan [58] che si basa sulla rototraslazione del ligando e sull’ottimizzazione in base al metodo dei minimi quadrati. L’interazione ligando - macromolecola viene valutata attri- 26 buendo un punteggio sulla base della complementarità geometrica e dell’interazione elettrostatica, nel computo della quale si tiene conto dell’effetto del dielettrico. Fisher et al. [59] hanno ideato un metodo che esegue il docking fra strutture rigide sulla base del confronto delle caratteristiche geometriche. La superficie molecolare di Connolly [28] viene rappresentata come una serie di sfere sfruttando lo stesso algoritmo del programma DOCK. La superficie di ciascuna sfera viene “triangolata” ovvero viene descritta con delle terne di punti che vengono memorizzate in una matrice per consentire successivamente un rapido accesso ai dati. Il confronto viene effettuato fra i triangoli che descrivono la superficie del ligando e del sito recettoriale. Walls e Sternberg [60] hanno sviluppato un metodo che consente di realizzare un docking fra strutture rigide tra antigeni e anticorpo, sfruttando un algoritmo basato sulla complementarietà di superficie descritta da un apposito “soft potential”. Essendo la struttura del sito anticorpale non sperimentalmente nota, ma costruita tramite modelling, è presumibile che contenga errori ed imprecisioni. Pertanto il metodo di docking impiegato doveva avere una certa tolleranza agli errori e considerare la flessibilità del sito che ne deriva. Le superfici dell’antigene e dell’anticorpo vengono rappresentate come una serie di porzioni di superficie poste a intervalli di 0.5 Å. Le approssimazioni introdotte nell’elaborazione di tali superfici permettono di evidenziarne le principali caratteristiche, ignorando i dettagli considerati trascurabili. Una ricerca globale che implica i sei gradi di libertà rototraslazionali viene realizzata al fine di ottenere la reciproca orientazione tra antigene e anticorpo. Ogni orientazione ottenuta viene valutata con un potenziale di Lennard - Jones modificato, in modo che la minimizzazione ottenuta con il nuovo potenziale sia meno precisa della precedente e permetta una maggiore tolleranza nell’ottimizzazione. Questo potenziale di superficie è stato modificato per favorire delle operazioni di docking che ignorino le ampie zone di superficie che risultano sovrapposte nel com27 plesso antigene - anticorpo. I migliori orientamenti ottenuti sono stati ulteriormente selezionati in base alla componente elettrostatica. Ogni catena laterale è stata classificata come idrofobica, polare, positiva o negativa e rappresenta da una singola sfera. La componente elettrostatica viene calcolata sommando le interazioni delle porzioni sovrapposte, e quindi vengono scartate le strutture la cui sommatoria elettrostatica risulti maggiore di zero. L’accordo tra i dati sperimentali e i risultati così ottenuti è generalmente buono anche se la scarsità delle applicazioni finora realizzate non consente una valutazione statistica di questo metodo. Anche Jiang e Kim [61] hanno sviluppato un approccio di “soft docking” basato su strutture rigide e ne hanno evidenziato l’efficacia su numerosi complessi proteina - proteina e sul complesso metotressato - diidrofolato reduttasi / NADPH. Tali Autori rappresentano la superficie molecolare utilizzando vettori normali ai punti considerati su di essa e incorporando i punti adiacenti in cubi capaci di approssimare la rappresentazione superficiale. Successivamente il ligando viene confrontato con i cubi rappresentanti e il sito attivo attraverso una ricerca rototraslazionale sistematica. I modelli ottenuti vengono valutati con un metodo del tutto analogo al precedente. I risultati ottenuti per il complesso metotressato - diidrofolato reduttasi / NADPH riproducono con buona approssimazione i risultati cristallografici. Tale metodo richiede un tempo di calcolo proporzionale alla complessità del ligando e alla densità dei punti considerati sulle superfici. Billeter et al. [62] hanno applicato un metodo di ottimizzazione vincolata, noto come “algoritmo ellissoidale” per realizzare procedure di docking su strutture sia rigide, sia flessibili. La ricerca dei migliori orientamenti viene ottenuta tramite particolari tecniche di rototraslazione, sfruttando una serie di vincoli sterici basati sul calcolo dei raggi di Van der Waals degli atomi del ligando e del recettore. Il ligando è costretto a rimanere nel sito da tali vincoli, ma il suo movimento è consentito da una certa flessibilità casuale. L’algoritmo ellissoidale permette di 28 ottenere la corretta orientazione del ligando all’interno di una cavità recettoriale, impedendone, con i vincoli già citati, l’uscita, ma risulta incapace di indirizzare correttamente il ligando verso il sito. A tal fine Billeter ha usato un semplice potenziale basato sulla superficie di Connolly capace di guidare il ligando nella giusta direzione. Il metodo è stato applicato al complesso metotressato - diidrofolato reduttasi / NADPH ottenendo risultati incoraggianti. Una particolare nota di riguardo deve essere rivolta ai già citati algoritmi genetici per le loro potenzialità e per la possibilità di includerli nelle procedure di ottimizzazione del docking. Gli algoritmi genetici, descritti per la prima volta nel 1975 da John H. Holland [63], possono costituire una nuova via per l'ottimizzazione di strutture molecolari. Fondamentalmente, si tratta di algoritmi stocastici "intelligenti" sviluppati in analogia con la teoria evolutiva di Darwin e adattati all'ottimizzazione. Il problema principale dei calcoli di meccanica molecolare e di quantomeccanica è costituito dal fatto che l'ipersuperficie di energia da esplorare comprende generalmente, oltre al minimo assoluto, anche molti minimi locali. Applicando gli algoritmi classici (per esempio quelli a gradiente), è possibile raggiungere solo un minimo locale, e più precisamente quello più vicino alla geometria di partenza [64]. Diverse strategie sono state proposte per superare questo problema e tra queste vanno menzionate il "simulated annealing", metodi di dinamica molecolare, sistemi di analisi geometrica, la ricerca sistematica tramite una griglia di campionamento più o meno fitta ed infine i metodi stocastici basati sulla generazione di configurazioni casuali. Fra questi ultimi sono compresi gli algoritmi genetici. Essi operano su una popolazione di individui ragionevolmente numerosa (da 10 a 100) chiamati cromosomi. Ciascun cromosoma è costituito da una stringa che codifica i parametri del sistema che si vuole ottimizzare. Un singolo parametro codificato è chiamato gene. La stringa è generalmente formata da un insieme (array) binario, o di numeri reali, o di altri codici. 29 L'ottimizzazione con algoritmi genetici è un processo scandito dalle fasi successive dell'evoluzione segnate dal passaggio da una generazione a quella successiva. In primo luogo la popolazione attuale è valutata secondo un criterio prestabilito. Nel caso dell'ottimizzazione di strutture molecolari, tale criterio è rappresentato ad esempio dall'energia del sistema. Sulla base dei risultati ricavati, viene creata la generazione successiva. Gli individui della generazione corrente con le migliori caratteristiche hanno più probabilità di partecipare alla creazione della generazione successiva rispetto a quelli che presentano prestazioni peggiori. La valutazione delle caratteristiche di una popolazione è l'unica fase degli algoritmi genetici che non è casuale, ma richiede una "conoscenza" dominio - specifica, ovverosia una capacità di discriminare e quantizzare le capacità dei singoli individui. La creazione di una nuova popolazione, ad eccezione della fase di inizializzazione, è basata principalmente su tre operazioni: la semplice copia dei geni selezionati, il cross-over e la mutazione. Nell'operazione di cross-over, in particolare, due figli vengono prodotti da due genitori selezionati. A livello delle coppie di cromosomi appartenenti rispettivamente ai due genitori vengono parzialmente scambiati i geni (definiti da uno o più punti selezionati casualmente) in maniera da ottenere delle nuove sequenze di codice. Nel caso in cui fosse utilizzata una codifica binaria, sarebbero scambiati i bit corrispondenti, come nel seguente esempio: Genitori Selezione del sito di cross-over Figli 000000000 000000|000 111111000 111111111 111111|111 000000111 Per quanto riguarda l'operazione di mutazione, essa può essere ottenuta ad esempio per somma ad un gene di un incremento generato casualmente. 30 Gli algoritmi genetici, essendo metodi stocastici, non consentono di prevedere in anticipo il successo di un singolo calcolo. Oggi sono disponibili un elevato numero di algoritmi genetici atti a risolvere i più svariati problemi di simulazione ed ottimizzazione fra i quali vi è il docking molecolare. Fra le tante applicazioni degli algoritmi genetici nel docking, bisogna ricordare il lavoro di Y. L. Xiao e D. E. Williams [65], i quali hanno unito le potenzialità di questi algoritmi alla rapidità di calcolo dell'energia d'interazione fra ligando e proteina tramite force field. Secondo questi autori, il metodo messo a punto da loro è molto più efficiente dei metodi puramente energetici perché la costruzione di una griglia nell'iperspazio di docking, costituita da svariati milioni di combinazioni geometriche, è fortemente limitata dalla potenza di calcolo dei computers attuali. In particolare l'energia del sistema è stata valutata mediante un potenziale semplificato basato su CVFF [73], includendo nel calcolo solo i termini non-bonded. Il programma sviluppato da questi autori è chiamato GAME (Genetic Algorithm for Minimization of Energy) ed esegue la comparazione di due molecole A e B. La molecola A è mantenuta fissa, mentre il centro di massa della molecola B è rototraslato liberamente usando sei gradi di libertà. Questi sei gradi di libertà vengono codificati in una stringa di bit che costituisce un "individuo". Per esempio la stringa S S = 100110101110021001010011 rappresenta l'insieme di parametri per la rototraslazione del tipo Pi(X, Y, Z, Ax, Ay, Az): Pi = (4.5, 5.0, 9.0, 120, 100, 60) 31 Allo stadio iniziale viene creata una generazione di Ni individui tramite l'assegnamento di 0 o di 1 a ciascun bit della stringa in modo casuale. Ciò consente di ottenere una serie di individui che rappresentano situazioni assai differenti del ligando nello spazio di ricerca. I dati immagazzinati nella stringa vengono usati per rototraslare la molecola A. I vari individui vengono ordinati sfruttando una funzione di valutazione basata sul calcolo dell'energia di interazione E della molecola A con B. La funzione di valutazione converte il valore di E nel fattore f che sintetizza le prestazioni dell'individuo in maniera tale che valori negativi di E abbiano f positivo addizionato ad un valore base F. Gli algoritmi genetici consentono di evolvere dalla generazione attuale verso una nuova generazione con caratteristiche migliori tramite tre fasi: selezione, riproduzione e valutazione. Nella fase di riproduzione, l’algoritmo genetico utilizzato dal programma GAME sfrutta la generazione di numeri casuali per selezionare il punto della stringa dove operare il cross-over e/o la mutazione. I migliori individui della nuova generazione vengono comparati con quelli della precedente e, nel caso in cui risultassero energeticamente peggiori dei precedenti, la nuova generazione verrebbe abbandonata. L'utente può definire il numero massimo di nuove generazioni create il quale, una volta raggiunto, determina l'arresto del programma. Oltre alla possibilità di sfruttare il docking per il confronto di ligandi depositati in banche dati con una macromolecola a struttura tridimensionale nota, può essere assai interessante applicare gli algoritmi di docking a metodi di “de novo design” automatici al fine di valutare l’entità dell’interazione fra recettore e ligando costruito sulla base della complementarità. Nishibata e Itai [66] hanno realizzato un metodo per il “de novo design” basato sulla creazione di una serie di strutture direttamente nella cavità del sito recettoriale, connettendo covalentemente degli atomi, selezionati casualmente, ad una struttura di partenza. Le potenzialità del ligando vengono valutate tramite il calcolo dell’energia d’interazione col recettore, sfruttando un campo di forze. 32 Il programma utilizzato (LEGEND) è capace di generare un gran numero di ligandi le proprietà dei quali vengono valutate successivamente grazie al programma di docking LORE. LEGEND possiede un archivio contenete informazioni per sedici tipi diversi di atomi come l’ibridazione, il numero e il tipo di legame, la geometria, ecc. Per semplificare il calcolo dell’energia d’interazione ligando - recettore e quindi per ridurre il tempo di calcolo, viene generata una griglia tridimensionale a livello del sito di legame. Per ciascun punto della griglia viene calcolata l’energia d’interazione fra una sonda atomica (C, N, O, H) e gli atomi del recettore, sfruttando i termini non-bonded del potenziale MM2. Il potenziale elettrostatico di ciascun punto viene determinato a partire dalle cariche atomiche degli atomi della macromolecola che si affacciano verso la cavità del sito di legame. Tali cariche vengono attribuite tramite il programma AMBER. La generazione del ligando tramite il programma LEGEND si sviluppa in tre fasi: selezione del primo atomo, generazione degli atomi successivi e completamento della struttura molecolare. Il primo atomo selezionato (atomo d’ancoraggio) ha la funzione di fissre l’intera struttura del ligando a quella del recettore. La scelta di questo atomo avviene casualmente a partire dai numerosi eteroatomi della macromolecola che sono in grado di formare legami d’idrogeno. La selezione del primo atomo del ligando è influenzata dalla sua capacità d’interagire con l’atomo d’ancoraggio mediante un legame d’idrogeno. Successivamente, i restanti atomi del ligando vengono generati uno per uno fino al raggiungimento del numero che viene preventivamente impostato dall’utente. Per ogni atomo da aggiungere, viene scelto automaticamente, tramite calcolo di un numero casuale, un atomo del ligando generato in precedenza, col quale formare il nuovo legame covalente. Il tipo di atomo, il tipo di legame e l’orientamento spaziale del nuovo atomo sono selezionati casualmente. In particolare, la posizione dell’atomo è determinata da un punto scelto casualmente compreso nel cerchio definito dal valore dalla lunghezza e 33 dell’angolo di legame formato con l’atomo d’attacco, entrambi assegnati in accordo con il relativo tipo di atomo descritto dal potenziale MM2. Nel caso in cui la posizione dell’atomo non fosse accettabile o per sovrapposizione dei raggi di Van der Waals fra nuovo atomo e atomi precedentemente generati o per uno sfavorevole contributo energetico, il programma scarta la posizione d’attacco e tenta di trovarne un’altra sfruttando il metodo precedentemente descritto. Se LEGEND dovesse fallire dopo un certo numero di tentativi, l’atomo da aggiungere alla struttura del ligando viene scartato e si tenta di generarne uno diverso. La struttura generata tramite una serie di cicli come quello descritto viene successivamente completata aggiungendo gli atomi di carbonio mancanti agli anelli aromatici frammentari e saturando le valenze rimaste aperte con atomi d’idrogeno. La carica del ligando viene determinata col metodo di Del Re [67] e alla fine la struttura viene ottimizzata. Siccome LEGEND è capace di generare un elevato numero di ligandi, le loro strutture vengono classificate sulla base di parametri energetici, sfruttando il programma LORE. In conclusione, i metodi di docking precedentemente descritti si basano essenzialmente o sulle interazioni idrofiliche (legame d’idrogeno, legami ionici) o su interazioni idrofobiche (fattori sterici e interazioni di non legame). Entrambi gli approcci forniscono buoni risultati nei metodi citati. I metodi considerati si differenziano nettamente anche nella velocità di calcolo e, per alcune applicazioni, gli algoritmi più complessi risultano impraticabili. Le tecniche di docking dovrebbero essere supportate da metodiche di analisi di archivi di strutture capaci di realizzare rapide ricerche delle molecole che soddisfino alcuni elementari requisiti di complementarità con il recettore considerato. L’elemento fondamentale di tutti questi approcci risiede nel metodo con cui vengono valutati gli orientamenti calcolati. Molto spesso le funzioni utilizzate risultano imprecise, pochè molte componenti (in particolare quella entropica e quella di solvatazione) vengono ignorate. Rimane da stabilire quanto rapidi possano essere metodi capaci sia di valu34 tare il corretto orientamento sia di calcolare un valore di energia libera accurato. Le componenti energetiche e strutturali del docking non si basano quasi mai sugli stessi algoritmi: infatti strutture ragionevolmente accurate si possono ottenere con metodi standard di meccanica molecolare incapaci tuttavia di fornire un’adeguata valutazione dell’energia di legame. Metodi più precisi potrebbero richiedere un tempo di calcolo nettamente maggiore. D’altro canto, le tecniche di docking costituiscono un tipico esempio di calcolo parallelo e potrebbero essere velocizzate semplicemente distribuendo l’insieme dei possibili orientamenti da valutare su una rete di processori. Le molecole d’acqua di cristallizzazione presenti nel sito di legame costituiscono un annoso problema: debbono essere tenute in considerazione durante il docking oppure devono essere ignorate ? Considerare delle molecole di acqua legate da un’appropriata rete di legami d’idrogeno nel sito attivo può aumentare l’energia d’interazione a causa della variazione d’entropia di desolvatazione. Questa strategia è stata spesso utilizzata nei metodi di “de novo drug design”, ma ha avuto scarso successo. I migliori risultati si ottengono confrontando i modelli ottenuti con entrambi gli approcci. Bacon e Moult [56] sono stati incapaci di posizionare l’ampicillina nel sito della β-lattamasi senza includere una molecola d’acqua che probabilmente costituisce una parte integrante del complesso enzima - inibitore. Un’altra area di futuro interesse consiste nell’adeguato trattamento della flessibilità recettoriale. Sono stati sviluppati diversi metodi che permettono almeno una certa libertà conformazionale del ligando, mentre finora solo il lavoro di Leach [40] ha cercato di trattare la flessibilità del recettore, consentendo variazioni conformazionali a un sottoinsieme limitato di catene laterali, ritenute significative nell’interazione. Un adeguato trattamento della libertà conformazionale del ligando dovrebbe consentire anche ampi movimenti del recettore fino a una completa riorganizzazione della struttura proteica. 35 Questo è un problema di difficile soluzione, anche se è noto che in numerosi casi l’interazione ligando - recettore viene accompagnata da ampie variazioni conformazionali della macromolecola. La capacità di predire tali cambiamenti risulterà di fondamentale importanza nella comprensione dei meccanismi di attivazione recettoriale e trasduzione del segnale. Degno di nota è il tentativo di Vakser [54] di superare il problema della bassa risoluzione delle tecniche cristallografiche oggi disponibili. Anche se il problema non è stato completamente risolto, in ogni caso il metodo proposto dall’Autore è in grado di fornire informazioni preliminari riguardanti i siti di interazione probabili di alcune coppie di proteine. Tali informazioni sono comunque suscettibili di ulteriori raffinamenti qualora risultino disponibili dati di maggiore precisione. Un numero esiguo di metodi di docking è stato finora utilizzato a fini preditivi di strutture di complessi ignote; nella maggior parte delle applicazioni è stata solamente valutata la capacità di riprodurre strutture note cristallograficamente. Un’eccezione è rappresentata dal metodo di Kuntz [27] che, nonostante la sua semplicità, ha sorprendentemente ottenuto una notevole serie di successi nell’individuare nuove molecole capaci di legarsi al sito recettoriale in esame. Il successo dei metodi di docking non disgiunto dalla disponibilità di archivi strutturali sempre più ricchi indica come queste procedure avranno in futuro un ruolo sempre maggiore nella progettazione di nuovi “lead compounds”. 36 Parte sperimentale 1. Introduzione al metodo BioDock è un programma modulare creato per essere utilizzabile su piattaforme hardware differenti apportando semplici modifiche. Questa possibilità è garantita dal fatto che il codice base è stato sviluppato in linguaggio C [68-70]standard (ANSI). Inoltre, l'impiego nelle fasi preliminari di più piattaforme hardware ha consentito di evidenziare gli aspetti critici che possono precludere o rendere difficoltoso il funzionamento del programma con altri computers. I sistemi utilizzati nella stesura del codice sono stati: Silicon Graphics IRIS 4D/50, Silicon Graphics INDIGO, Silicon Graphics INDIGO² [71], Commodore AMIGA (68030/68882) e PC MS-DOS [72] (in quest'ultimo caso sono stati collaudati i soli programmi accessori e non BioDock). Per ogni piattaforma sono stati impiegati gli opportuni strumenti per lo sviluppo di software oltre a pacchetti software commerciali di modellistica molecolare: per il sistema Silicon Graphics si è fatto uso del Developer's Kit della stessa Silicon Graphics (nelle versioni per IRIX V 3.3, 4.0.5, 5.3), del complesso di programmi della Biosym [73] (Insight II, Builder, Biopolymer e Discover nelle versioni 2.0 e 2.1) e del programma quantomeccanico semiempirico MOPAC [74] (nella versione 5) per il calcolo delle cariche atomiche; per il sistema AMIGA si è fatto uso del compilatore GCC (nelle versioni 2.6.3 e 2.7.0) [75] e del debugger Enforcer [76] (nella versione 37); per il sistema MS-DOS si è fatto uso del compilatore Turbo C/C++ [77] (nella versione 3.5). 37 2. Principi teorici. Il programma BioDock è costituito attualmente da due sottoprogrammi: uno destinato al docking vero e proprio, l'altro destinato all'analisi geometrica e alla caratterizzazione dei clusters. 2.1 Algoritmi di docking. Il principio generale su cui si basa la sezione di docking consiste nel considerare la proteina e il ligando come strutture rigide e nel far compiere al ligando spostamenti casuali nello spazio. Di volta in volta, viene valutata, con un potenziale empirico estremamente semplificato, l'energia intermolecolare d'interazione tra il ligando nella nuova disposizione e il recettore. Il tipo di potenziale impiegato comprende i termini cosiddetti "non - bonded" (di non legame) e verrà discusso in dettaglio nella sezione di meccanica molecolare di questa tesi. Vengono scartate a priori, senza valutare l'energia, e pertanto in modo molto rapido, le situazioni in cui si verifica un'eccessiva sovrapposizione fra sfere di van der Waals degli atomi di ligando e recettore, determinabile per semplice calcolo delle distanze interatomiche. Le situazioni favorevoli (frames), invece, vengono memorizzate in un opportuno file chiamato di traiettoria (trajectory), che consente la successiva analisi e manipolazione delle strutture molecolari del complesso ligando - recettore ottenute. Come sistema di riferimento, BioDock utilizza una terna di assi cartesiani, rispetto ai quali vengono eseguite tutte le operazioni di rototraslazione. Il movimento della molecola da posizionare è realizzato attraverso la variazione dei sei gradi di libertà del sistema: traslazione lungo gli assi X, Y ,Z e rotazione sugli assi X, Y, Z. (In teoria sarebbero necessari ben nove assi di rotazione corrispondenti rispettivamente a ciascun direttore che determina la posizione reciproca nello spazio degli assi X, Y, Z. In questa modo si avrebbero ben dodici gradi di libertà che, tuttavia, è possibile ridurre a sei imponendo le condi38 zioni di perpendicolarità degli assi e quindi anche dei piani XY, XZ e YZ. Tutto questo porta ad una riduzione significativa del numero di parametri da considerare per generare un frame). Per ciascun grado di libertà viene generato un numero casuale compreso in un intervallo definibile dall'utente e successivamente si procede alla rototraslazione secondo lo schema sotto riportato. Supponendo di avere un ligando di N atomi, per ciascun atomo sarà necessario: - portare il sistema di riferimento dall'origine degli assi al centro di rotazione (vedi oltre): X = x - xm Y = y - ym Z = z - zm - ruotare di un angolo γ attorno all'asse Z e cioè sul piano XY: T = X cos γ - Y sin γ Y = X sin γ + Y cos γ X=T - ruotare di un angolo α attorno all'asse X e cioè' sul piano YZ: T = Y cos α - Z sin α Z = Y sin α + Z cos α Y=T 39 - ruotare di un angolo β attorno all'asse Y e cioè' sul piano XZ: T = X cos β - Z sin β Z = X sin β + Z cos β - riportare le coordinate al sistema di riferimento originale ed eseguire la traslazione: X = T + x m + ∆x Y = Y + ym + ∆y Z = Z + zm + ∆z In queste relazioni x, y, z sono le coordinate originali dell'atomo generico; X, Y, Z sono le nuove coordinate; x m, ym, zm sono le coordinate del centro di rotazione; α, β, γ sono le rotazioni attorno gli assi X, Y e Z; ∆x, ∆y, ∆z sono le traslazioni lungo gli assi X, Y, Z; T è una variabile in cui sono riportati temporaneamente i risultati intermedi del calcolo (coordinata temporanea). I valori di α, β, γ, ∆x, ∆y, ∆z possono essere impostati dall’utente o determinati automaticamente dal programma a seconda delle modalità operative (vedi oltre). Per quanto riguarda il centro di rotazione, esso corrisponde generalmente al centro di massa del ligando (condizione di default di BioDock), anche se, in casi particolari, può essere definito a piacimento da parte dell'utente. Una volta eseguita la rototraslazione, è necessario controllare che non si abbia interazione repulsiva tra gli atomi della proteina e quelli del ligando. Questa operazione consiste nel verificare che, dopo lo spostamento, la distanza fra gli atomi della molecola e quelli della proteina 40 non sia inferiore alla somma dei rispettivi raggi di Van der Waals. Considerando due atomi (i, j), le rispettive coordinate (Xi, Yi, Zi e Xj, Yj, Zj) e i rispettivi raggi di Van der Waals (Ri e Rj), si avrà: Ri + R j ≤ (X i − Xj ) + (Y − Y ) + ( Z 2 2 i j i − Zj ) 2 Se questa condizione non fosse soddisfatta, allora la situazione creatasi come conseguenza dalla rototraslazione del ligando sarebbe scartata. In realtà, esiste la possibilità che i raggi di Van der Waals si sovrappongano leggermente senza che si crei una situazione di repulsione eccessiva. Si introduce quindi un certo grado di tolleranza nella precedente relazione, che diventa quindi: Ri + R j − S ≤ (X i −Xj ) + (Y − Y ) + ( Z 2 2 i j i −Zj ) 2 Il valore di S (grado di sovrapposizione permesso) è definibile dall'utente ed è compreso generalmente in un intervallo compreso fra 0.1 e 0.3 Å. Superato il test sulla sovrapposizione dei raggi di Van der Waals, si procede al calcolo dell'energia di interazione fra ligando e proteina considerando esclusivamente l'energia di non legame. Per il lavoro di questa tesi, il force field utilizzato è stato CVFF [73]; tuttavia è allo studio la possibilità di rendere BioDock compatibile con l'uso di altri campi di forze standard o con modificazioni introdotte dall'utente. I termini di non legame del CVFF considerati sono i seguenti: 41 Aij E NB = ∑ ∑ r Aij = Ai . A j Bij = Bi . B j i j 12 ij − Bij 6 ij r + qi .q j ε. rij i e j sono due generici atomi appartenenti rispettivamente al ligando e alla macromolecola; Ai, Aj, Bi, Bj sono parametri empirici del force field; Rij è la distanza fra i due atomi i e j; ε è la costante dielettrica; qi e qj sono le cariche atomiche parziali di i e j. I primi due termini dell’equazione precedente esprimono l'interazione di Van der Waals come somma fra il termine repulsivo e quello attrattivo, mentre il terzo termine rappresenta l'interazione elettrostatica. Non compare esplicitamente un contributo del legame d'idrogeno al potenziale, in quanto, in prima approssimazione, si può considerare compreso nel termine coulombiano. E' allo studio la possibilità di introdurre anche un termine che esprima l'energia di desolvatazione, che può influenzare in modo determinante l'energetica del sistema. Per quanto riguarda il valore della costante dielettrica, è stato considerato valido il modello del dielettrico continuo del CVFF [73]. La velocità di calcolo può essere sensibilmente aumentata introducendo un valore di "cutoff" nel computo dell'energia. Tale valore soglia rappresenta la distanza interatomica oltre la quale si possono considerare trascurabili, almeno ai fini del presente lavoro, le energie di interazione tra i due atomi in esame. Un valore ottimale sembra essere 14 Å [78], ma è stato verificato che, nel caso del docking fra la tacrina e la colinoesterasi (vedi oltre), un valore di cutoff pari a 10 Å può essere considerato accettabile. Infatti effettuando il calcolo rispettivamente con tutte le possibili interazioni intramolecolari ed ignorando quelle oltre i 10 Å, la differenza di energia è 42 pari a sole 1-1.5 Kcal/mol, mentre il tempo di calcolo richiesto viene notevolmente diminuito. Tale differenza energetica può essere considerata trascurabile date le dimensioni del sistema. Sempre per incrementare la velocità di calcolo, è possibile realizzare il docking coinvolgendo solo una specifica regione della macromolecola, trascurando tutti gli atomi posti oltre una certa distanza dal centro di rotazione. Questa possibilità è utile quando i parametri impostati impongano che il ligando non si muova molto rispetto alla posizione di partenza, in particolare quando si desideri, ad esempio, non allontanarsi eccessivamente da una struttura determinata per via sperimentale, o da un'ipotesi considerata sufficientemente affidabile. BioDock consente, inoltre, di eseguire una simulazione completamente casuale senza approdare ad una situazione di minimo, oppure di convergere progressivamente verso un frame di minima energia. Il primo procedimento è utile per ottenere un certo numero di punti di partenza favorevoli e diversi fra loro per la successiva ottimizzazione. Il secondo modo di procedere viene sfruttato per l'ottimizzazione stessa. Tale possibilità è attuata grazie ad una variazione dinamica degli intervalli (inizialmente impostati dall'utente) entro i quali possono oscillare i valori random utilizzati per la rototraslazione. In particolare il programma genera una serie di frames che hanno soddisfatto il test di sovrapposizione dei raggi di Van der Waals (frames utili) e tra questi seleziona quello ad energia di interazione inferiore. Il frame così individuato viene utilizzato come nuova struttura di riferimento rispetto alla quale vengono eseguite le successive rototraslazioni. Contemporaneamente gli intervalli vengono ridotti con un algoritmo selezionabile dall'utente. Nel caso in cui non venga trovato alcun frame fra quelli della serie attuale che abbia un’energia inferiore rispetto a quella del frame di riferimento, il programma continua senza convergere. Allo stato attuale, sono disponibili due modalità di intervento sull'ampiezza delle oscillazioni casuali: una caratterizzata da 43 una funzione di tipo lineare e una caratterizzata da una funzione esponenziale, con cui si ottiene un decremento più graduale degli intervalli. Durante l'ottimizzazione si possono introdurre dei fenomeni perturbativi che riducano il rischio di approdare su un minimo locale. Nel presente lavoro è implementata la possibilità di applicare la seguente procedura tipo Metropolis [45] per la selezione dei frames di riferimento: se il frame attuale risulta avere energia inferiore rispetto a quello precedente (∆E < 0) , viene selezionato e memorizzato come nuova situazione di riferimento. In caso contrario (∆E > 0), viene computato il fattore F di Boltzmann: F =e − ∆E RT in cui R è la costante dei gas e T è la temperatura, contemporaneamente viene generato un numero casuale compreso tra 0 e 1. Se tale numero è maggiore di F, il frame attuale è usato come nuova struttura di riferimento, in caso contrario viene memorizzato, ma non utilizzato come riferimento. Tale procedura è nota come “Boltzmann jump”. Quando l’algoritmo di ottimizzazione converge verso una struttura molecolare, tutti gli intervalli di rototraslazione vengono ridotti con la modalità lineare o esponenziale precedentemente impostata. La procedura termina dopo il calcolo di un numero massimo di frames utili (stabilito dall’utente), o per raggiungimento della convergenza. Quest'ultima situazione è valutata tramite il calcolo della deviazione standard dell'energia. Vengono considerati i soli frames compresi nell'ultima serie utilizzata per la ricerca del minimo. L’uso dell’ espressione 44 s= ∑ (X i i − X )2 n −1 dove s è la stima della deviazione standard, n è il numero di osservazioni, Xi è il valore del dato i, X è la media, non è ottimale (nel nostro caso Xi rappresenta l’energia del frame i e X l’energia media degli n frames considerati). Infatti, per il calcolo della deviazione standard con questo metodo, occorre che sia presente in memoria il valore di energia di ogni singolo frame. Dal punto di vista dell’ ottimizzazione d’uso delle risorse di calcolo, e invece più vantaggiosa la seguente espressione: s= ∑X i 2 i (∑ X ) − i n −1 2 i n che consente la memorizzazione di soli due valori (la sommatoria delle energie e la sommatoria del quadrato delle energie). 2.2 Algoritmi di analisi. Il grandissimo numero di strutture molecolari generate da BioDock rende necessaria la creazione di una sezione di analisi rapida dei frames, che consenta di eliminare in maniera veloce ed efficace le configurazioni troppo simili fra loro. Il numero di comparazioni n da eseguire in funzione del numero dei frames a , escludendo la situazione di partenza, è dato dalla seguente relazione: 45 n= 1 2 1 a − a −1 2 2 Si supponga, in particolare, di aver simulato un docking completamente random che abbia generato una trajectory di 400,000 frames utili e di voler paragonare tutti i frames fra loro. Questo significa dover eseguire circa 80 miliardi di comparazioni. Se fosse possibile effettuare 100 comparazioni al secondo, sarebbero necessari circa 25 anni di calcolo. Il primo algoritmo implementato nel corso di questa tesi prevedeva la comparazione diretta di coppie di frames misurando le distanze fra gli atomi dell'uno e dell'altro, facendone poi la media. Se questo valore è inferiore ad una soglia definibile dall'utente, i due frames sono considerati simili. In particolare si ha: D = ∑i ∆X i2 + ∆Yi 2 + ∆Zi2 n D è la distanza media fra tutti gli atomi di due frames; ∆Xi, ∆Yi, ∆Zi sono le differenze fra le coordinate atomiche di atomi corrispondenti nei due frames; n è il numero di atomi che compongono il ligando. L' inefficienza di questo algoritmo è data dal fatto che i vari frames sono registrati nella trajectory soltanto riportando le rotazioni e le traslazioni relative rispetto al frame di partenza e l'energia d'interazione. Tuttavia, per poter comparare i due frames, occorre generare le coordinate cartesiane di entrambi e successivamente valutare le distanze interatomiche tra atomi corrispondenti come illustrato sopra. In tal modo, riprendendo l’esempio sopra riportato, il calcolo potrebbe essere eseguito in tre anni e mezzo da un computer come la Silicon Graphics INDIGO2, che è in grado di effettuare circa 1000 comparazioni al secondo. E’ ovvio che in queste condizioni la comparazione sa46 rebbe comunque improponibile. E’ stato perciò sviluppato un algoritmo estremamente efficiente in grado di abbattere i tempi di calcolo sulla stessa piattaforma hardware e sullo stesso esempio da tre anni e mezzo a 40 minuti.. Tale risultato è stato ottenuto eseguendo la rototraslazione dei frames prima di compararli tra loro e sintetizzando le posizioni degli atomi di ciascuna situazione spaziale in tre pseudocoordinate Xf, Yf e Zf, temporaneamente memorizzate in un file. La successiva analisi non ha più come oggetto i singoli atomi di ciascun frame, ma utilizza solamente le terne di pseudocoordinate. Supponendo di avere un ligando costituito da 30 atomi, per ciascuna comparazione fatta col metodo precedentemente implementato, è necessario misurare la distanza fra trenta coppie di coordinate, mentre, utilizzando il nuovo algoritmo, basta confrontare solo tre coppie di valori. Per discriminare il posizionamento e l’ orientamento reciproco del ligando nei vari frames che è stato considerato accettabile per l’applicazione descritta in questa tesi, l’utente definisce la distanza media fra gli atomi di una generica coppia di frames al di sotto della quale i frames in questione vengono considerati simili. Un valore di tale distanza è pari a 1 Å. Le situazioni considerate simili vengono memorizzate in una matrice binaria, generando così delle “famiglie” di frames (clusters),per ciascuna delle quali viene salvato il frame dotato di minor energia d’interazione con la proteina. Gli altri frames del cluster vengono scartati. 47 2.3 Descrizione del programma 2.3.1 Struttura di BioDock Dal punto di vista della programmazione, l'intero codice del programma è suddivisibile in sezioni "fisiche" e in sezioni "logiche" (Fig. 3). Le sezioni "fisiche" corrispondono a vari files di codice sorgente di dimensioni limitate che sono stati generati per rendere meno onerosa, in termini di tempo, la fase di compilazione. Inoltre, la possibilità di disporre di una serie di listati relativamente brevi consente un più facile debugging in virtù della maggiore leggibilità. Si tenga presente che BioDock è costituito da più di 5000 righe di codice (60000 caratteri). Pertanto, se non fosse stata applicata la tecnica che prevede la generazione e la compilazione di moduli separati, ognuno deputato ad eseguire un numero limitato di operazioni, difficilmente si sarebbe potuto modificare in maniera agevole il programma. Le sezioni "fisiche" comprendono le parti di codice vero e proprio (files con estensione .c) e i cosiddetti "handlers" (files con estensione .h). Questi ultimi, in particolare, contengono informazioni quali tabelle di dati, costanti, variabili preinizializzate, ecc. Le parti di codice vero e proprio si distinguono in: Main.c - inizializzazione generale. Parser.c - interpretazione e controllo sintassi del file di input. Dock.c - modulo per il docking. Loader.c - caricamento ed assegnazione di carica, potenziale e raggio atomico agli atomi contenuti nel file di coordinate. Restart.c - inizializzazione necessaria in caso di restart della simulazione. Analyzer.c - modulo per l'analisi dei clusters. 48 Sub.c - sottoprogrammi vari. Per quanto riguarda gli "handlers" bisogna ricordare: Ini.h - strutture, variabili e costanti condivise con tutte le parti di codice. Pm.h - tabelle dei parametri del force field, dei raggi di Van der Waals e dei pesi atomici. Parser.h - tabella delle parole chiave per l'interpretazione del file di input. Analyzer.h - strutture e costanti per l'analisi dei clusters. 49 Fig. 3 - Diagramma di flusso del programma BioDock V1.1 50 Le sezioni "logiche" consentono di suddividere il flusso del programma in diversi passi (steps), ciascuno dei quali presenta una serie di subroutines in grado di svolgere delle operazioni elementari. Le principali sezioni “logiche” che compongono BioDock sono le seguenti: - Main - Docking - Lettura delle coordinate atomiche - Assegnazione dei parametri di potenziale - Generazione del file di restart - Posizionamento ligando e calcolo energetico - Memorizzazione su supporto magnetico - Analyzer - Lettura delle coordinate atomiche - Rototraslazione dei frames (Fase 1) - Analisi geometrica (Fase 2) - Memorizzazione della nuova traiettoria (Fase 3) 2.3.2 Sezione "Main" Costituisce il codice che viene eseguito per primo quando viene lanciato BioDock . Ha la funzione di interpretare le opzioni di linea come il nome del file di input e l'attivazione della modalità interattiva che vengono specificate al momento dell'invocazione del programma. Inoltre questa sezione comprende l'interprete dei comandi che elencati nel file di input e impostati 51 dall’utente per generare la simulazione. In base a tali comandi viene selezionato il modulo opportuno che, allo stato attuale può essere o quello di docking , o quello di analisi. 2.3.3 Sezione “Docking” Il modulo in questione è quello che in primo luogo carica e valuta la struttura sia del ligando, sia della macromolecola e successivamente esegue il docking vero e proprio. Le operazioni eseguite dal programma possono pertanto essere distinte in: - Lettura delle coordinate atomiche. Il file contenente le coordinate atomiche deve essere in formato Biosym [73] di tipo “nuovo” (generato da Insight II versione 2.1 o superiore) o di tipo “vecchio”,generato da versioni di Insight II precedenti, e deve contenere contemporaneamente, in forma di insieme molecolare (assembly), le strutture del ligando e della proteina. In questo file vengono elencati per ciascun atomo le coordinate cartesiane, il tipo atomico, la carica e il numero di residuo d’appartenenza. In particolare tale numero è importante per individuare gli atomi del ligando. E’ allo studio la possibilità di utilizzare i files PDB [53] per l’input delle coordinate e il relativo programma atto a ricostruire la connettività (ossia la matrice che definisce le interconnessioni atomiche) e ad assegnare i parametri di carica e potenziale. - Assegnazione dei parametri di potenziale. A ciascun atomo sono assegnati i valori di A e B che rientrano nell’espressione del calcolo dell’energia d’interazione, come precedentemente descritto. Oltre a questi,a ciascun atomo sono assegnati i valori del raggio di Van der Waals da utilizzare nel test di sovrapposizione 52 delle sfere atomiche; contemporaneamente è calcolata la carica totale e il peso molecolare sia del ligando, sia della macromolecola. Inoltre, per il solo ligando, viene determinato il centro di massa che eventualmente verrà utilizzato come centro di rotazione per generare nuovi frames. La formula utilizzata per tale calcolo è la seguente: Xm = Ym = Zm = ∑ M .X i i i PM ∑ M .Y i i i PM ∑ M .Z i i i PM PM = ∑i M i Xm, Ym, Zm sono le coordinate del centro di massa; Xi, Yi, Zi sono le coordinate cartesiane dell’ atomo i; Mi è la massa atomica dell’ atomo i; PM è il peso molecolare del ligando. - Generazione del file di restart. Il file di restart ha lo scopo di permettere il riavviamento di BioDock nel caso in cui la simulazione fosse stata interrotta da un evento imprevisto o dal raggiungimento della convergenza (nel caso ad esempio che si desideri ridurre la soglia di convergenza) o del numero massimo di frames specificati dall’utente. Tale file viene creato all’inizio della simulazione e viene aggiornato al verificarsi di una serie di situazioni quali il cambiamento del frame di riferimento, l’ottenimento di un numero di frames utili multiplo di 100 e la sospensione esterna dell’esecuzione del programma decisa dall’operatore. 53 - Posizionamento ligando e calcolo energetico. Per ciascun frame vengono generati sei numeri casuali, compresi negli intervalli specificati dall’utente, corrispondenti alle traslazioni e alle rotazioni rispetto al frame di riferimento e utilizzati per la rototraslazione del ligando. Con gli accorgimenti citati in una sezione precedente di questa tesi, viene vagliato il frame e se accettabile viene registrato nel file di traiettoria. Sempre in questa parte del programma vengono applicati gli algoritmi di convergenza, di “Boltzmann jump” e di interruzione della simulazione secondo i criteri descritti in precedenza , salvo diversa indicazione da parte dell’utente nel file di input. - Memorizzazione dei dati su supporto magnetico. Questa sezione viene eseguita in parte contemporaneamente alle altre ed in parte solo al termine della simulazione. In particolare, in ogni istante viene aggiornato un file chiamato di “output” in cui è riportata, in maniera leggibile da parte dell’utente, l’operazione in atto in quel preciso istante. In base agli eventi citati in precedenza, viene aggiornato continuamente il file di restart ed inoltre, quando è individuato un frame utile, i dati vengono registrati nel file di traiettoria. Al termine della simulazione, l’utente può imporre la registrazione del frame migliore direttamente in forma di coordinate cartesiane. 54 2.3.4 Sezione “Analyzer” Rappresenta quella parte di BioDock destinata all’analisi geometrica dei frames generati dalla sezione di docking e all’eliminazione delle posizioni del ligando spazialmente simili. Anche in questo caso le fasi dell’elaborazione possono essere distinte in: - Lettura delle coordinate atomiche. Valgono le stesse considerazioni fatte precedentemente per il modulo di docking, fatta eccezione per il fatto che viene considerato il solo ligando e non si ha alcun assegnazione dei parametri di force field e dei raggi di Van der Waals. - Rototraslazione dei frames. La geometria di ogni frame è memorizzata nel file di trajectory in forma binaria mediante i sei valori corrispondenti alla traslazione e alla rotazione relative. - Analisi geometrica. Secondo la procedura sopra descritta, si calcolano le coordinate cartesiane di ciascun frame, e si memorizzano in forma compatta trasformandole nelle pseudocoordinate Xf, Yf, Zf. Dalla comparazione dei valori Xf, Yf e Zf di coppie di frames, viene costruita la matrice binaria che identifica i frames geometricamente simili, e genera così una serie di clusters. I problemi concernenti questa fase sono già stati considerati nella sezione 2.2 della parte sperimentale di questa tesi. 55 - Memorizzazione della nuova traiettoria. Alla fine dell’analisi, i frames di minima energia che caratterizzano ciascun cluster, vengono registrati in un nuovo file di traiettoria. La loro geometria è sempre espressa in termini di rotazione e traslazione relative rispetto alla posizione iniziale del ligando al fine di permettere una successiva manipolazione. 56 2.4 Programmi aggiuntivi. BioDock genera i files di trajectory in formato binario (come descritto in precedenza) allo scopo di immagazzinare il massimo numero di informazioni occupando il minimo spazio possibile sul supporto magnetico. Tuttavia, questo file non è visualizzabile direttamente da parte dell’utente, sia per quanto riguarda i valori di rototraslazione di ciascun frame, sia per quanto riguarda la struttura tridimensionale del ligando. Per questo motivo, sono stati creati i programmi ausiliari BtjView ed Extractor, i quali hanno rispettivamente la funzione di visualizzare i valori α, β, γ, ∆x, ∆y, ∆z di ciascun frame e di produrre un file di coordinate cartesiane in formato Biosym. Entrambi i programmi mettono a disposizione dell’utente la possibiltà di attivare selezioni multiple per rendere meno tedioso il lavoro di visualizzazione dei dati o di estrazione delle strutture dal file di traiettoria. Un esempio di trajctory resa leggibile da BtjView è qui di seguito riportato: Parametri assegnati: ~~~~~~~~~~~~~~~~~~~~ * Frames generati : * Ampiezza traslazione X: * Ampiezza traslazione Y: * Ampiezza traslazione Z: * Centro rotazione X : * Centro rotazione Y : * Centro rotazione Z : * Overlap : * Cutoff : * Boltzmann Jump : 42 30.0000 30.0000 30.0000 4.3726 70.2612 64.8854 0.1000 10.0000 Off * * * * * * * * * * Versione trajectory Ampiezza rotazione X Ampiezza rotazione Y Ampiezza rotazione Z Assegnaz. centro rot. Force check Assegnazione autom. BioCut Costante dielettrica Temperatura : 1.02 : 360.0000 : 360.0000 : 360.0000 : Off : On : Off : 0.0000 : 1.0000 : 300.00 Frame dX dY dZ Ax Ay Az Energia ======================================================================== 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -49.1673 1 -9.6084 9.9907 5.1375 135.2189 -5.5189 109.0294 -17.4815 2 -12.4335 8.3784 2.2529 30.6895 69.8486 112.4279 -22.1076 3 -2.1839 12.2715 11.4432 -146.2777 38.4508 12.2491 -17.0867 4 1.2930 12.0070 11.2455 -11.2158 90.9734 140.5500 -17.9451 5 8.9967 10.1087 14.2233 -174.5302 -15.6555 -10.9913 -17.3939 6 -7.1054 -4.1132 13.3671 45.4772 -96.2285 -9.8499 -17.9763 57 7 -14.8060 -7.8680 8 -9.7164 10.2694 9 -7.6398 13.6298 10 -9.8928 -12.1042 11 -11.7675 5.7576 12 11.9433 14.6684 13 -13.2786 -9.0821 14 4.3127 14.9265 15 -11.5032 -1.0504 16 -13.6509 14.8600 17 -14.3728 9.4368 18 -1.6814 13.0577 19 -13.4946 14.8026 20 14.9711 8.7320 21 -1.0386 -14.7819 22 -1.1039 -7.1733 23 -0.6057 8.6807 24 9.5591 14.9407 25 14.6852 13.2575 26 -1.1684 13.2394 27 -4.7589 14.7903 28 -3.3733 -11.2427 ... 14.9090 7.7967 -107.5647 -66.8206 1.2819 26.0660 83.9433 -61.5683 -1.8263 143.5696 166.8646 3.6894 11.8859 -133.9381 -93.2099 -47.9761 6.3808 -164.7298 3.9209 -59.4269 12.5527 47.4820 -150.6435 -65.5363 11.3931 -36.2546 75.2523 105.3169 14.7411 58.4103 -148.2335 -161.7120 14.6781 46.4945 -115.0212 -47.0665 14.1899 72.3756 -136.8579 98.5309 14.6894 44.8872 -101.6509 29.6334 14.8646 68.5401 61.1240 131.1476 1.9689 91.8059 -86.5172 -20.2886 9.3103 -135.9136 -137.4513 -23.1183 14.4537 10.0204 -29.5449 -165.3069 14.8766 35.9246 94.3144 86.8898 14.3003 137.6761 -78.2248 90.0376 6.8164 13.3329 58.6364 110.3728 3.5901 147.5473 -169.5997 -104.7204 1.9277 -6.5388 109.5520 -151.5140 -1.2908 -43.6929 -139.8753 -53.7135 8.2846 -42.8284 -144.5399 -75.1678 Minimo energetico (escluso frame di partenza): 28 -3.3733 -11.2427 8.2846 -42.8284 -144.5399 -75.1678 -3.5627 -19.7604 -18.1580 -18.7828 -23.6655 -3.0594 -19.3833 -2.7831 -12.1058 -0.3758 -2.8385 -5.6646 -4.1748 -11.6675 -11.7727 -15.6489 -21.1087 -13.6714 -17.1436 -18.9089 -14.5288 -27.7674 -27.7674 All’inizio della tabella sono riportati i parametri utilizzati nella simulazione (vedi oltre). Procedendo da sinistra verso destra, ciascuna colonna rappresenta: il numero del frame, le traslazioni rispetto agli assi X, Y, Z in Ångstrom, le rotazioni in gradi intorno gli assi X, Y, Z (corrispondenti agli angoli α, β, γ che compaiono nelle equazioni della sezione 2.1 della parte sperimentale di questa stessa tesi), l’energia di interazione fra ligando e proteina in Kcal/mol. Al termine di questa stessa tabella è evidenziato il frame con la più bassa energia di interazione. 58 3. Applicazione del metodo BioDock 3.1 L’acetilcolinesterasi I farmaci appartenenti alla classe degli stimolanti dei recettori colinergici comprendono sia quelli ad azione diretta, sia quelli ad azione indiretta. I composti colinomimetici ad azione diretta, in base alle caratteristiche di selettività nei confronti dei recettori colinergici, possono avere una prevalente attività muscarinica oppure nicotinica. I colinomimetici ad azione indiretta inibiscono il processo d'idrolisi dell'acetilcolina eseguito dall'enzima acetilcolinesterasi che, scindendola in acido acetico e colina, porta alla sua inattivazione. Riducendo l'entità del fenomeno di inattivazione, l'acetilcolina persiste negli spazi intersinaptici per un periodo più lungo rispetto alla norma, esercitando così un'azione protratta sui recettori con conseguente potenziamento dell'attività. L'acetilcolinesterasi (Fig. 10) è un enzima omodimerico caratterizzato dalla presenza di un sito di legame per la testa cationica dell'acetilcolina e di un sito catalitico dal quale viene catalizzata l'idrolisi. Quest'ultimo è composto dalla cosiddetta triade catalitica (his440, ser200, glu327) che, prima dell'interazione col substrato, vede la formazione di un legame d'idrogeno fra un'azoto imidazolico dell'istidina e l'idrogeno della serina. Tale interazione polarizza il legame idrogeno ossigeno (Fig. 4) della stessa serina al fine di rendere l'atomo d'ossigeno più suscettibile a formare un legame con il carbonio carbonilico dell'acetilcolina e a cedere l'idrogeno. Con un meccanismo concertato della durata approssimativa di 150 microsecondi [79], l'idrogeno della serina viene ceduto all'ossigeno della colina con contemporanea rottura del legame estereo co- 59 lina - acetato e formazione del legame acetato - serina. Successivamente, interviene l'acqua che, grazie alle sue prorietà nucleofile, idrolizza il legame acetato - serina, riportando l'enzima alla situazione di partenza e liberando una molecola di acido acetico. Il rilascio della colina dal sito di legame avviene per riduzione dell'affinità con l'enzima e per spiazzamento da parte di un'altra molecola di substrato. I composti che sono dotati di attività inibente nei confronti della acetilcolinesterasi possono essere distinti in reversibili (edrofonio, carbammati) (Fig. 8) e in irreversibili (organofosfati). In entrambi i casi, le molecole vanno ad occupare il sito attivo dell'enzima o una regione ad esso adiacente, impedendo l'accesso al substrato naturale o la catalisi. Fig. 4 - Rappresentazione schematica del sito attivo dell’acetilcolinesterasi 60 Fig. 5 - Struttura stereo degli aminoacidi del sito attivo dell’acetilcolinesterasi Qualora l'interazione inibitore - enzima risulti reversibile, quindi non covalente, l'acetilcolina pùo competere col farmaco eventualmente spiazzandolo se la sua costante di formazione del complesso e la sua concentrazione lo consentono. Da ciò è evidente che, in questo caso, l'inibizione enzimatica non può essere completa ed è destinata a terminare dopo un breve periodo. Qualora, invece, si abbia a che fare con un inibitore irreversibile, quest'ultimo forma legami covalenti con l'enzima rendendo vana qualsiasi forma di competizione da parte dell'acetilcolina. In quest'ultimo caso, l'inibizione persiste per un periodo prolungato che è funzione del turn-over dell'acetilcolinesterasi. I composti che sfruttano un tale meccanismo d'azione sono altamente tossici (Sarin, DFP, Tabun, Soman, ecc). Benché agiscano con lo stesso meccanismo, gli insetticidi organofosforici come il parathion e il malathion sono meno tossici per l'uomo perché 61 inattivi nella forma nella quale vengono utilizzati. Alla base dell'azione di queste due molecole vi è dapprima una loro attivazione per desolfurazione (sono tiofosfati) operata dal metabolismo dell'organismo (Fig. 9) che li ha assunti, quindi la formazione del legame fosfoestereo con la serina della triade catalitica. Quest'ultimo, essendo più stabile rispetto a un normale legame estereo, non viene idrolizzato in tempi utili e pertanto il sito catalitico viene occupato in modo irreversibile. Nel caso d'intossicazione da organofosforici, l'unico sistema per ripristinare la funzionalità dell'acetilcolinesterasi è di somministrare un'ossima (pralidossima, propralidossima, NIMA, trimedossima, obidossima, ecc) che, nel caso in cui il legame fosfoestereo non sia troppo "invecchiato" (Fig. 6), può spostare la molecola che occupa l'ossidrile serinico, sfruttando una reazione di transesterificazione. I composti organofosforici trovano applicazione come insetticidi e come armi chimiche, ma trovano rari impieghi nel settore medico (ecotiopato nella cura del glaucoma). Il meccanismo d'azione degli inibitori reversibili può essere di due tipi: gli alcoli ammonici quaternari (edrofonio o tensilon) si legano reversibilmente al sito attivo o nei pressi di esso, mediante interazioni elettrostatiche che, essendo labili, permettono al complesso di sopravvivere per un breve periodo (da 2 a 10 minuti), mentre i carbammati (fisostigmina o eserina, piridostigmina, neostigmina) carbamilano il sito esterasico dell'enzima. I carbammati, essendo più resistenti degli esteri, vengono idrolizzati lentamente e ciò consente di prolungare l'occupazione del sito per un periodo compreso fra i 30 minuti e le 6 ore. 62 +N CH3 CH N OH N CH N OH CH3 Pralidossima Pro-pralidossima O CH3 C CH N OH NIMA HO N CH + + N CH2CH2CH2 N CH N OH Trimedossima HO N CH + + N CH2OCH2 N CH N OH Obidossima Fig. 6 - Riattivatori dell’acetilcolinesterasi 63 Gli impieghi clinici degli inibitori dell'acetilcolinesterasi sono svariati e comprendono la cura del glaucoma (fisostigmina, demecario, ecotiopato), dell'ileo paralitico post-operatorio, del megacolon congenito, dell'esofagite da riflusso, della ritenzione urinaria (come conseguenza di intervento chirugico, parto, lesione traumatica, malattia del midollo spinale), della miastenia grave, di tachiaritmie sovraventricolari e delle intossicazioni da farmaci antimuscarinici. Recentemente è stata evidenziata la possibilità applicare gli inibitori dell’acetilcolinesterasi, in particolare la tacrina, nella cura del morbo di Alzheimer [80], benchè già nel 1986 [81] ne siano stati documentati gli effetti farmacologici e la tossicologia in questo campo d’applicazione. Grazie alla risoluzione della struttura cristallografica dell’acetilcolinesterasi, è stato possibile evidenziare un forte momento dipolare nella struttura dell’enzima [82] allineato con il canale imbutiforme (“gorge”) che pone in comunicazione il sito attivo con l’esterno. L’ingresso del substrato nella cavità è favorito dalla forza elettrostatica generata dal dipolo. All’interno del “gorge”, le catene laterali dei residui aromatici schermano il ligando dall’interazione diretta con residui anionici che generano il dipolo. L’affinità dell’ammonio quaternario dell’acetilcolina per i residui aromatici e la forza elettrostatica generata dal dipolo agiscono in concerto per creare un legame efficiente e selettivo fra substrato e acetilcolinesterasi. Recentemente Harel et al. [83], hanno studiato il legame di una serie di inibitori dell’acetilcolinesterasi cocristallizzati con l’enzima. Nel complesso con l’edrofonio (Fig. 7/B) (non si tratta di un inibitore specifico dell’acetilcolinesterasi), il ligando interagisce con l’indolo del Trp84 tramite l’azoto quaternario e con la Ser220 e la His440 tramite un doppio legame d’idrogeno che coinvolge l’ossidrile in meta. La tacrina (Fig.7/C), invece, nel suo complesso con l’enzima, interagisce con l’indolo del Trp84 sfruttando l’elevata densità elettronica del suo sistema acridinico. Il decametonio (Fig. 7/A), la cui struttura si estende lungo il canale d’accesso al sito attivo, utilizza i due azoti quaternari per l’interazione con l’indolo del Trp84 e 64 del Trp279. L’unica differenza importante riscontrata nella struttura enzimatica risiede nell’orientamento dell’anello benzenico della Phe330, che nel caso del complesso col decametonio è disposto parallelamente alla superficie del “gorge”, mentre nel caso di quello con la tacrina e con l’edrofonio è posizionato in maniera da avere un interazione col ligando. In tutti i casi presi in considerazione si evidenzia il ruolo importante svolto dai residui aromatici nell’interazione di ligandi ammonici quaternari con l’enzima acetilcolinesterasi, mettendo in risalto che i residui Trp84 e Phe330 svolgono la funzione di “sottosito anionico” del sito attivo e il residuo Trp279 rappresenta il sito anionico periferico. 65 Fig. 7 Complessi fra acetilcolinesterasi e decametonio (A), edrofonio (B), tacrina (C) 66 CH3 + CH3 CH2 CH2 N CH3 CH3 C O O Acetilcolina H3C O O + CH3 N CH3 CH3 N C O H3C H3C NH C O Carbarile Neostigmina O O CH3 H3C NH C O O C CH3 N CH3 N N CH3 CH3 +N CH3 Fisostigmina (eserina) Piridostigmina N HO + NH3 + CH3 N C2H5 CH3 Edrofonio Tacrina Cl Cl C2H5 O O C2H5 + + CH2 N CH2 CH2 NH C C NH CH2 CH2 N CH2 C2H5 C2H5 Ambenonio Fig. 8 - Inibitori reversibili dell’acetilcolinesterasi 67 CH3 H3C H3C CH3 CH O O P CH O (H3C)3C CH O O P H3C F F CH3 Isofluorpato H5C2 H5C2 Soman O O P O S + CH3 CH2 CH2 N CH3 CH3 Ecotiopato S O2N O P O C2H5 metab. O C2H5 O O2N O Parathion H3C O H3C O S P O C2H5 O C2H5 Paraoxon O S P metab. CH C O C2H5 CH2 C O C2H5 H3C O H3C O O Malathion O P O S CH C O C2H5 CH2 C O C2H5 O Malaoxon Fig. 9 - Inibitori irreversibili dell’acetilcolinesterasi 68 Fig. 10 - Struttura secondaria dell’acetilcolinesterasi 3.2 Docking del complesso tacrina - acetilcolinesterasi. Per collaudare le potenzialità del programma BioDock, è stato preso in considerazione l’enzima acetilcolinesterasi della Torpedo californica come struttura macromolecolare, e l’inibitore tacrina come ligando da posizionare. Il file di coordinate spaziali utilizzato, reperibile 69 presso l’archivio Internet del Protein Data Bank [53] (file pdb1acj.ent), deriva dall’analisi ai raggi X della struttura ottenuta dalla cocristallizzazione dellla proteina con l’inibitore [80]. Ciò significa che si è volutamente partiti da una situazione in cui è nota sperimentalmente la posizione dell’inibitore nel complesso con l’enzima. Dato che i files presenti nell’archivio PDB [53] sono di origine cristallografica, e pertanto non riportano le coordinate degli atomi di idrogeno, si è proceduto alla loro modellazione utilizzando il software Insight II (modulo Builder). Sempre con tale programma (modulo Biopolymer), sono stati aggiunti alcuni segmenti di proteina mancanti (da Asp1 a His3, da Ala486 a Ala489 , da Glu536 a Thr537) e sono state riparate le porzioni presumibilmente non corrette a causa della relativamente bassa risoluzione. Alla struttura molecolare risultante sono state assegnate le cariche e i parametri di potenziale tramite il modulo Builder. Il campo di forze usato è stato il CVFF [73]. Le parti introdotte ex novo sono state ottimizzate utilizzando il programma Discover e mantenendo fisse le restanti parti: la procedura di minimizzazione ha incluso 500 iterazioni sfruttando l’algoritmo di minimizzazione Steepest descent (della discendente più ripida) trascurando le interazioni non-bonded oltre i 20 Å (cutoff ), poi 12500 iterazioni utilizzando l’algoritmo Conjugate gradients. L’intera struttura, compreso il ligando, è stata poi ottimizata mediante 10500 iterazioni (Conjugate gradients e cutoff 20 Å) lasciando libere le catene laterali degli aminoacidi e mantenendo fisso lo scheletro principale della proteina (backbone). Un’ulteriore raffinamento (20000 iterazioni, Conjugate gradients, cutoff 10 Å, con limite di convergenza pari a 0.001) è stato ottenuto mantenendo fissa l’intera struttura della tacrina e della acetilcolinesterasi ad esclusione dei residui aminoacidici (backbone incluso) compresi in una sfera di raggio 15 Å centrata sul centro geometrico della tacrina (X = 4.025; Y = 69.943; Z = 63.296). La selezione dei residui da muovere col criterio sopra citato è stata possibile grazie al programma BioLock appositamente creato per questa situazione. 70 Ovviamente, l’operazione di rendere mobile (“calda”) una zona interna di una proteina, al sciando “congelato” il resto della struttura vincolata ai dati sperimentali, non ha significato fisico e non sarebbe lecita. In particolare, il rischio è quello di creare artificialmente regioni a gradiente d’energia relativamente elevato nella fascia di confine tre le zone calda e fredda della proteina. Tuttavia, il raggio della sfera è sufficientemente ampio per considerare trascurabile, ai fini del presente lavoro, un’eventuale influenza dei gradienti della zona di confine sul potenziale del sito di legame dell’inibitore. Il complesso così ottenuto è stato trattato con BioDock sfruttando il seguente file di input: Project 1acj_min5 Module Residue Pri Frames Restart Docking 999 19 20000 Off Delta_X Delta_Y Delta_Z 1.0 1.0 1.0 Rot_X Rot_Y Rot_Z 5 5 5 AutoPar Off SaveMin Off Cutoff 10 OverLap 0.1 IntFrames 10 ConvMode 0 Confactor 0.95 BoltzJmp Off Envar 0.01 Dielectric 1 ForceChk On Ciascun comando è caratterizzato da una parola chiave seguita da un parametro. I comandi attualmente implementati comprendono: AutoPar, BioCut, BoltzJmp, Cent_X, Cent_Y, 71 Cent_Z, Confactor, ConvMode, Cutoff, Delta_X, Delta_Y, Delta_Z, Dielectric, Envar, ForceChk, Frames, IntFrames, Module, Overlap, Pri, Project, Residue, Restart, Rot_X, Rot_X, Rot_Z, Shell, Temp, Text. Considerando i comandi nel file di input utilizzato per l’ottimizzazione, Project informa BioDock sul nome del progetto e quindi sul nome dei files che dovrà utilizzare e/o generare, Module seleziona il tipo di modulo (in questo caso quello di docking), Residue indica il numero del residuo da muovere (ligando) presente nel file di coordinate, Pri inpone l’esecuzione del programma con la priorità specificata (comando attivo solo sulla versione di BioDock per Silicon Graphics), Frames sono il numero di frames utili da generare, Restart attiva o meno la modalità di restart (come descritto in precedenza), Delta_X, Delta_Y, Delta_Z, Rot_X, Rot_X, Rot_Z definiscono gli intervalli delle rototraslazioni ammesse, AutoPar,se On, attiva l’assegnazione automatica degli intervalli di rototraslazione, SaveMin, se On, impone la registrazione su disco del frame di minimo in forma di coordinate cartesianeoltre che nel normale formato binario, CutOff definisce il valore in Ångstrom della distanza di cutoff, OverLap indica il valore di sovrapposizione dei raggi di Van der Waals oltre il quale la repulsione è da considerare eccessiva, IntFrames rappresenta il numero di frames utili dopo il quale applicare l’algoritmo di convergenza, ConvMode è il tipo di algoritmo di convergenza (0 lineare, 1 esponenziale), Confactor è la pendenza con la quale avviene la convergenza in caso di applicazione dell’algoritmo a funzione lineare, BoltzJmp, se On, attiva la modalità Boltzmann jump, Envar è il valore della deviazione standard calcolato sull’ultima serie di frames utili che consente a BioDock di stabilire il raggiungimento della convergenza (come citato in precedenza in questa tesi), Dielectric è il valore della costante dielettrica, ed infine ForceChk, se On, forza il superamento del controllo della sovrapposizione dei raggi di Van der Waals alla struttura di partenza. L’output generato da questa simulazione è il seguente: 72 ********************** **** BioDock V1.1 **** ********************** ATTENZIONE: BumpCheck sulla struttura di partenza non eseguito. Ottimizzazione frame 1acj_plus_159406 **** Docking **** Parametri assegnati: ~~~~~~~~~~~~~~~~~~~~ * Frames da generare : * Ampiezza traslazione X: * Ampiezza traslazione Y: * Ampiezza traslazione Z: * Ampiezza rotazione X : * Ampiezza rotazione Y : * Ampiezza rotazione Z : * Overlap : * Cutoff : * Costante dielettrica : * Boltzmann Jump : 10000 1.0000 1.0000 1.0000 5.0000 5.0000 5.0000 0.5000 10.0000 1.0000 Off Caratteristiche ligando: ~~~~~~~~~~~~~~~~~~~~~~~~ Numero residuo: Dimensione: Peso molecolare: Carica: Coord. centro massa (X,Y,Z): 999 30 atomi 199.1235 Daltons 1.0002 4.372565 70.261192 64.885353 Caratteristiche proteina: ~~~~~~~~~~~~~~~~~~~~~~~~~ Dimensione reale: Peso molecolare: Carica: 8619 atomi 61712.4570 Daltons -9.9999 Modalita' di convergenza 0 attivata. * Numero interframes : 10 * Fattore di convergenza: 0.950000 Nuovo frame di riferimento: Nuovo frame di riferimento: Nuovo frame di riferimento: Continuo per altri 10 frames Nuovo frame di riferimento: ... Continuo per altri 10 frames Continuo per altri 10 frames Continuo per altri 10 frames Continuo per altri 10 frames Continuo per altri 10 frames Continuo per altri 10 frames Nuovo frame di riferimento: Continuo per altri 10 frames 8 energia -37.4559 11 energia -42.2721 26 energia -46.7950 riferendomi al frame 26 47 energia -47.5598 riferendomi al frame 683 riferendomi al frame 683 riferendomi al frame 683 riferendomi al frame 683 riferendomi al frame 683 riferendomi al frame 683 789 energia -49.7090 riferendomi al frame 789 73 File "1acj_THA.cor" salvato. Minimo energetico: N. Frames utili: Numero collisioni: Cicli utili: Velocita' (Iter./min) Lunghezza trajectory: 789 energia -49.7090 Kcal/mol 810 701 53.61 % 21.26 22788 bytes Tempo impiegato: 1 ora 11 minuti 5 secondi. Successivamente la molecola della tacrina è stata isolata, protonata ed ottimizzata col programma quantomeccanico semiempirico MOPAC (con l’algoritmo AM1) al fine di ottenere una distribuzione di carica migliore di quella empirica assegnata dal software Biosym [73], soprattutto per quanto riguarda il gruppo ammonico. Il ligando ottimizzato è stato reinserito nell’enzima mantenendo la precedente posizione e il complesso così ottenuto è stato ottimizzato con BioDock. Rispetto al docking precedente, è stato eseguita una simulazione completamente casuale, senza cioè utilizzare gli algoritmi di convergenza. In questa maniera sono stati ottenuti 600.000 frames tramite tre successive simulazioni da 200.000. Il file di input utilizzato è stato il seguente: Project Module Residue Pri Frames Restart 1acj_plus Docking 999 19 200000 On Delta_X Delta_Y Delta_Z 30 30 30 Rot_X Rot_Y Rot_Z 360 360 360 AutoPar Off 74 SaveMin Off Cutoff 10 OverLap 0.1 IntFrames 0 BoltzJmp Off Dielectric 1 ForceChk On I parametri rototraslazionali conferiscono al ligando la massima libertà di movimento, mentre IntFrames è posto a zero per evitare che si converga su un frame specifico. In questa situazione, l’output generato è stato il seguente: ********************** **** BioDock V1.1 **** ********************** ATTENZIONE: BumpCheck sulla struttura di partenza non eseguito. **** Docking **** ... Minimo energetico: N.159406 energia Frames utili: Numero collisioni: Cicli utili: Velocita' (Iter./min) Lunghezza trajectory: -22.2366 Kcal/mol 200000 7168626 2.71 % 2102.96 5600108 bytes Tempo impiegato: 2 giorni 10 ore 23 minuti 56 secondi. In questo modo sono sati creati dei frames con lo scopo di trovare una serie di situazioni spaziali potenzialmente interessanti per l’interazione del ligando con la proteina, dalle quali partire per successive ottimizzazioni. Il file di traiettoria risultante è stato sottoposto all’analisi geometrica tramite il modulo Analyzer di BioDock. Un tipico file di input per la comparazione dei frames è il seguente: 75 Project 1acj_plus Module Dist Analyzer 1 Il parametro Dist, non disponibile per il modulo Docking, rappresenta la distanza media fra gli atomi al di sotto della quale i frames comparati si considerano simili (vedi sezione 2.2 della parte sperimentale). Sono stati utilizzati tre valori di Dist, rispettivamente 1, 2 e 3 Å, che hanno consentito di ottenere per ciascuna simulazione 755, 122 e 42 clusters. Questo fatto evidenzia che allargando il criterio di similitudine, diminuisce il numero di famiglie di frames. Un tipico esempio di output di analisi geometrica è il seguente: ********************** **** BioDock V1.1 **** ********************** **** Analyzer **** Parametri assegnati: ~~~~~~~~~~~~~~~~~~~~ * Frames da analizzare * Iterazioni previste * Termine di paragone * Numero ligando * Atomi ligando : : : : : 400000 8E10 3.0000 999 30 FASE 1: Rototraslo i frames. FASE 2: Comparo i frames. Lavoro Eseguito: 0 25 50 75 100 ################################################## FASE 3: Genero la nuova trajectory. Numero clusters: 42 Tempo impiegato: 5 minuti 56 secondi. 76 Dalla traiettoria ottenuta con Dist pari ad un Ångstrom, è stato estratto il frame di minima energia il quale rappresenta il cluster con i frame di miglior energia. I parametri di rototraslazione che caratterizzano questo frame sono: Frame dX dY dZ Ax Ay Az Energia ====================================================================== 0 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 -49.1673 Minimo energetico (escluso frame di partenza): 550 -3.3733 -11.2427 8.2846 -42.8284 -144.5399 -75.1678 -27.7674 Il frame 0 rappresenta la situazione di partenza, mentre il frame 550 corrisponde alla nuova situazione spaziale individuata che successivamente è stata ottimizzata utilizzando il modulo di docking di BioDock con il seguente file di input: Project 1acj_min2 Module Residue Pri Frames Restart Docking 999 17 20000 Off Delta_X Delta_Y Delta_Z 1.0 1.0 1.0 Rot_X 5 Rot_Y Rot_Z 5 5 AutoPar SaveMin Cutoff OverLap IntFrames Confactor ConvMode BoltzJmp Envar Dielectric ForceChk BioCut Text Off On 10 0.1 10 0.95 0 Off 0.01 1 Off 20 Ottimizzazione frame 550 77 Degno di nota è il parametro BioCut 20 che consente di accelerare notevolmente l’ottimizzazione trascurando tutti gli atomi della proteina oltre i 20 Å di distanza dal centro di rotazione del ligando (come già trattato in questa stessa tesi nella sezione 2.1). 78 4. Risultati e discussione Il problema del posizionamento di antagonisti all’interno di una biomacromolecola non è di semplice soluzione. Se infatti nel caso degli agonisti si suppone che essi debbano interagire con il sito attivo della struttura proteica al fine di scatenare quella serie di reazioni che portano all’attività biologica, gli antagonisti, o inibitori enzimatici possono: • interagire anch’essi con il sito attivo, in modo transitorio o legandosi covalentemente; • interagire con un sito adiacente al sito attivo, impedendo per ragioni conformazionali, elettrostatiche o steriche l’accesso dell’agonista al sito stesso; • interagire con una porzione di macromolecola molto lontana dal sito attivo, impedendo ad esempio l’apertura di “flaps” (come avviene per gli inibitori dell’ HIV proteasi) o ostruire fisicamente l’ingresso di un canale che consente l’accesso dell’agonista al sito attivo. E’ chiaro pertanto che i tentativi di docking di un antagonista debbano basarsi su una struttura sperimentale, in quanto, in caso di molteplici possibilità di legame, i force fields attualmente disponibili ben difficilmente sono in grado di valutare con un buon grado di affidabilità quale di esse sia la più probabile. Un metodo di docking può essere considerato valido se è in grado di riprodurre, almeno come una tra le strutture probabili, quella ottenibile sperimentalmente. Una fase successiva può essere quella predittiva, in cui di un ligando noto, correttamente posizionato, viene simulata la modificazione ai fini di migliorare la sua affinità per il sistema. Le nuove strutture possono quindi essere sintetizzate, sottoposte all’analisi cristallografica e valutate dal punto di vista farmacologico. Tale processo iterativo purtroppo è raramente realizza- 79 bile allo stato attuale delle tecnologie, sia computazionali che strumentali, ma rappresenta un ciclo ideale a cui tendere per lo sviluppo di farmaci mediante l’approccio diretto. Il software sviluppato in questa tesi ha riguardato l’aspetto di docking privilegiando la velocità di calcolo e la semplicità d’utilizzo. La tabella dei tempi di calcolo, riportata a pag. 72, evidenzia come le tre strutture considerate come probabili candidate siano state individuate in tempi accettabili. In particolare il minimo più stabile è stato individuato rapidamente, come descritto a pag. 70 (anche se ciò è scarsamente indicativo, in quanto tale minimo coincide con la struttura sperimentale che è stata scelta come punto di partenza). Complesso A B C ∆E (kcal mol -1) 0.0 14.94 25.51 Tabella 1 Il metodo BioDock ha consentito di individuare tre minimi (Fig. 12) in un intervallo di energia pari a 25 Kcal/mol . Tale intervallo, piuttosto ampio, è stato scelto in modo da ovviare in parte ai limiti dovuti all’approssimazione del potenziale ai soli due termini di Van der Waals e coulombiano. Il minimo largamente più stabile (∆E = 0, vedi Tabella 1), coincide con la posizione sperimentale raffinata mediante il software Biosym. La tacrina è posizionata profondamente nel canale che attraversa la proteina e in cui viene “aspirato” l’agonista secondo il meccanismo proposto da Ripoll et al. [82]. L’antagonista si trova in una regione adiacente alla triade catalitica, anche se, dai risultati ottenuti nel presente lavoro, non sembra interagire direttamente con nessuno dei tre aminoacidi in80 teressati (Fig. 11/A e Fig. 13). L’interazione con la proteina è ampiamente stabilizzata da forti interazioni π - π tra gli anelli insaturi dell’inibitore ed alcuni residui aminoacidici con catene laterali aromatiche (Fig. 14). Infatti si osserva una disposizione parallela ed una distanza di soli 3.70 Å tra il centro geometrico dell’arile della Phe330 e l’anello benzenico della tacrina. Sull’altro lato della molecola, è osservabile un’analoga interazione tra il benzene del sistema indolico del Trp84 e la sottostruttura piridinica della tacrina (distanza tra i centri geometrici 3.76 Å). L’interazione è ulteriormente rinforzata dal legame d’idrogeno di un protone della testa ammonica con una delle molecole d’acqua di cristallizzazione presenti nella cavità in prossimità del sito attivo. La stessa molecola d’acqua forma poi un secondo legame d’idrogeno con una seconda molecola di solvente, che era già stato evidenziato nella struttura cristallografica [83]. 81 Fig. 11 Non è stato invece osservato, a causa della diversa disposizione dell’ His440, il legame d’idrogeno sperimentalmente trovato nel complesso cristallino, tra NH della His440 e l’azoto del nucleo triciclico della tacrina. La disposizione dell’arile della Tyr442 rispetto alla tacrina stessa evidenzia un’interazione, in questo caso perpendicolare, tra i due sistemi aromatici. E’ interessante osservare come BioDock sia in grado di ipotizzare altre due posizioni di interazione alternative plausibili, anche se con energia d’interazione superiore, quindi meno probabili. Nel secondo minimo individuato (Fig. 11/B e Fig. 15), la tacrina risulta posizionata a qualche Ångstrom di distanza lungo il “canale d’accesso” al sito attivo. In questo caso il complesso 82 è stabilizzato dall’interazione π - π con il Trp279 (3.84 Å) tra il centroide del benzene indolico e centroide dell’anello piridinico, da un legame d’idrogeno tra un protone ammonico e l’ossigeno carbonilico della Tyr334 e da un debole legame d’idrogeno tra l’azoto del nucleo triciclico (raramente osservato nel caso di questo studio) e una molecola d’acqua di cristallizzazione. E’ interessante notare come in questo caso la funzione ammonica della tacrina si collochi in una posizione analoga a quella occupata dalla testa cationica del decametonio nel complesso cristallizzato con lo stesso enzima (Fig. 7/A) Il terzo minimo considerato (Fig. 11/C e Fig. 16), ulteriormente meno stabile di circa 10 Kcal/mol, si trova in una zona ancora più periferica, in pratica all’ingresso del canale imbutiforme dell’acetilcolinesterasi (Fig. 12). In questo caso, oltre a generiche interazioni di carattere idrofobico non facilmente identificabili, si può osservare la formazione di un legame d’idrogeno tra l’azoto del nucleo triciclico della tacrina e l’ossidrile della Tyr70. L’andamento energetico nel confronto tra i tre complessi simulati A, B, C è ampiamente giustificato dal numero e dal tipo di interazioni favorevoli che la tacrina riesce ad instaurare con la proteina. Guardando poi simultaneamente i tre minimi in rapporto alla struttura proteica, si ha quasi l’impressione di un “cammino” percorso dall’inibitore dalla posizione C alla A lungo il canale d’accesso al sito attivo in evoluzione verso la situazione più stabile. 83 5. Conclusioni E’ evidente che le conclusioni del lavoro illustrato in questa tesi debbano essere considerate ampiamente preliminari. Infatti, una sola applicazione è assolutamente insufficiente per valutare appieno le potenzialità positive e/o le carenze del metodo BioDock. Inoltre, l’impiego di un campo di forze limitato come quello impiegato in questa tesi fornisce un significato solo qualitativo ad esempio alle valutazioni energetiche dei complessi simulati. Sono in corso ricerche per apportare diverse migliorie in questo senso alla metodica, ad esempio la possibilità di introdurre un termine esplicito per i legami d’idrogeno, o un termine che esprima il contributo dell’energia di desolvatazione all’energia globale del sistema. Sarebbe opportuno anche introdurre una costante dielettrica dipendente dalla distanza al posto del dielettrico continuo standard adottato in quasta tesi. Tuttavia sarà anche da valutare quanto l’introduzione di questi fattori sia vantaggiosa dal punto di vista del rapporto tra la qualità dei risultati e l’efficienza di calcolo. Sempre in rapporto al tipo di potenziale utilizzato, è allo studio l’idea di fornire all’utente la possibilità di applicare campi di forze differenti dal CVFF; inoltre la possibilità da parte dell’utente di fornire le coordinate atomiche mediante un file PDB anzichè in formato Biosym renderebbe il software di uso più generalizzato. In ogni caso si può senz’altro affermare che, nel caso del complesso acetilcolinesterasi - tacrina, la metodica BioDock si è rivelata in grado di operare una scansione estremamente dettagliata delle strutture di complessi possibili. Infatti sono stati simulati diversi milioni di strutture , da cui sono state estratte più di 600.000 modalità di interazione “utili”. Tra queste, attraverso l’analisi dei clusters, l’eliminazione delle forme ridondanti e la successiva ottimizzazione, sono 84 state individuate come probabili le tre strutture A, B, e C (vedi sopra). Tra queste poi, la struttura A è stata valutata come sostanzialmente migliore dal punto di vista dell’energia d’interazione, in ottimo accordo con i dati cristallografici. I risultati sono stati ottenuti con tempi di calcolo ragionevolmente brevi (la generazione e filtrazione di diversi milioni di strutture, l’analisi di 600.000 strutture e l’ottimizzazione hanno richiesto circa 6 giorni di calcolo su una INDIGO 2), e con un impiego efficiente dei supporti magnetici mediante memorizzazione compatta delle informazioni. Si può pertanto concludere che, almeno nella presente applicazione, BioDock si è rivelato uno strumento valido, efficiente, economico e di semplice utilizzo, ed è stato in grado di riprodurre esattamente il dato cristallografico. 85 Fig. 12 Orientamenti A, B, C della tacrina rispetto alla struttura enzimatica 86 Fig. 13 Relazione spaziale fra orientamento A e triade catalitica 87 Fig. 14 Complesso A: interazione fra tacrina e residui aminoacidici dell’acetilcolinesterasi 88 Fig. 15 Complesso B: interazione fra tacrina e residui aminoacidici dell’acetilcolinesterasi 89 Fig. 16 Complesso C: interazione fra tacrina e il residuo Tyr70 dell’enzima 90 Bibliografia 1 - Y. C. Martin, M. G. Bures, P. Willet el al., Rewiews in Comput. Chem. 1, pp 213-263, VCH, New York, NY (1990) 2 - F. C. Bernstein, T. F. Koetzle et al., J. Mol. Biol. 112, 535 (1977) 3 - W. C. Ripka, J. M. Blaney et al., “Topics in Stereochemistry” 20, pp 1-85, Wiley, New York, NY (1991) 4 - P. J. Goodford, J. Med. Chem. 28, 849 (1985) 5 - M. Von Itzstein, W. Wu, Y. Kok et al., Nature 363, 418 (1993) 6 - N. Pattabiraman, M. Levitt, T. E. Ferrin, R. Cameron, J. Comput. Chem. 6, 432 (1985) 7 - J. M. Blaney, Ph.D. Thesis, University of California, San Francisco, CA (1982) 8 - C. R. Beddel, P. J. Goodford et al., Br. J. Pharmacol. 57, 201 (1976) 9 - S. H. Rotstein, M. A. Murcko, J. Comput.-Aided Mol. Design 7 ,23 (1993) 10 - S. H. Rotstein, M. A. Murcko, J. Med. Chem. 36, 1700 (1993) 11 - F. H. Allen, S. Bellard et al., Acta Crystallogr. B35, 2331 (1979) 12 - I. D. Kuntz, Science 257, 1078 (1992) 13 - J. T. Bolin, D. J. Filman et al., J. Biol. Chem. 257, 13650 (1982) 14 - P. M. Dean, “Molecular Fundations of Drug-Receptor Interaction”, Cambridge versity Press, Cambridge (1987) 91 Uni- 15 - P. R. Andrews, M. Tintelnot, “Quantitative Drug Design” 4, pp 321-347, Pergamon Press, New York, NY (1990) 16 - A. R. Fersht, Trends Biochem. Sci. 9, 145 (1984) 17 - D. Sali, M. Bycroft, A. Fersht, “Techniques in Protein Chemistry” 2, pp 295-303, Academic Press, New York, NY (1991) 18 - A. R. Fersht, J. Shi, J. Knill-Jones et al., Nature 314, 235 (1985) 19 - J. M. Blaney, P. K. Weimer, A. Dearing, P. A. Kollman, E. C. Jorgensen, S. J. Oatley, J. M. Burridge, C. C. F. Blake, J. Am. Chem. Soc. 104, 6424 (1982) 20 - G. Vistoli, Tesi di Laurea, Milano (1994) 21 - D. Eisenberg, A. D. McLachlan, Nature 319, 199 (1986) 22 - L. Wesson, D. Eisenberg, Protein Sci. 1, 227 (1992) 23 - T. Ooi, T. Oobatake, G. Nemethy, H. A. Scheraga, Proc. Natl. Acad. Sci. USA 84, 3086 (1987) 24 - C. J. Cramer, D. G. Truhlar, Science 256, 213 (1992) 25 - H. J. Böhm, J. Comput.- Aided Mol. Design 6, 593 (1992) 26 - R. S. BoHacek, C. McMartin, J. Med. Chem. 35, 1671 (1992) 27 - I. D. Kuntz, J. M. Blaney, S. J. Oatley, R. Langridge, T. E. Ferrin, J. Mol. Biol. 161, 269 (1982) 28 - M. L. Connoly, Science 221, 709 (1983) 29 - R. L. DesJarlais, R. P. Sheridan, G. L. Seibel, J. S. Dixon, I. D. Kuntz, R. Venkataraghavan, J. Med Chem. 31, 722 (1988) 30 - B. K. Shoichet, D. L. Bodian, I. D. Kuntz, J. Comput. Chem. 13, 380 (1992) 31 - E. C. Meng, B. K. Shoichet, I. D. Kuntz, J. Comput. Chem. 13, 505 (1992) 32 - S. J. Weiner, P. A. Kollman, D. A. Case et al., J. Am. Chem. Soc. 106, 765 (1984) 92 33 - E. C. Meng, D. A. Geschwend, J. M. Blaney, I. D. Kuntz, Proteins (1993) 34 - I. A. Vakser, Protein Engeenering 8, 371 (1995) 35 - J. Singh, J. Saldanha, J. M. Thornton, Prot. Eng. 4, 251 (1991) 36 - H. Wang, J. Comp. Chem. 12, 746 (1991) 37 - B. Lee, F. M. Richards, J. Mol. Biol. 55, 379 (1991) 38 - B. K. Shoichet, I. D. Kuntz, Protein Eng. 6, 723 (1993) 39 - R. L. DesJarlais, G. L. Seibel, I.D. Kuntz, P. S. Furth et al., Proc. Natl. Acad. Sci. USA 87, 6644 (1990) 40 - A. Leach, J. Mol. Biol. (1993) 41 - R. L. DesJarlais, R. L. Sheridan, J. S. Dixon, I. D. Kuntz, R. Venkataraghaven, J. Med. Chem. 29, 2149 (1986) 42 - J. Desmet, M. Demaeyer, B. Hazes, I. Lasters, Nature 356, 539 (1992) 43 - J. S. Dixon, “Trends in QSAR and Molecular Modelling 92”, pp. 412-413, ESCOM, Leiden (1993) 44 - D. S. Goodsell, A. J. Olson, Proteins 8, 195 (1990) 45 - N. Metropolis, A.W. Rosenbluth, M. N. Rosenbluth, A. H. Teller, J. Chem. Phys. 21, 1087 (1953) 46 - T. N. Hart, R. J. Read, Proteins 13, 206 (1992) 47 - S.-Y. Yue, Protein Eng. 4, 177 (1990) 48 - A. S. Smeille, G. M. Crippen, W. G. Richards, J. Chem, Inf. Comput. Sci. 31, 386 (1991) 49 - N. Kasinos, G. A. Lilley, N. Subbarao, I. Hanfee, Protein Eng. 5, 69 (1992) 50 - M. Yamada, A. Itai, Chem. Farm. Bull. 41, 1200 (1993) 51 - M. Yamada, A. Itai, Chem. Farm. Bull. 41, 1203 (1993) 93 52 - A. Vedani, J. Comput. Chem. 9, 269 (1988) 53 - Protein Data Bank (PDB), Chemstry Department, Building 555 Brookhaven National Laboratory Upton, NY (USA) 54 - I. A. Vakser, C. Aflalo, Proteins 20, 320 (1994) 55 - M. C. Lawrence, P. C. Davis, Proteins 12, 31 (1992) 56 - D. J. Bacon, J. Moult, J. Mol. Biol. 225, 849 (1992) 57 - M. L. Connolly, Biopolymers 25,1229 (1986) 58 - A. D. McLachlan, J. Mol. Biol. 128, 49 (1979) 59 - D. Fischer, R. Norel, H. Wolfson, R. Nussinov, Proteins 16, 278 (1993) 60 - P. H. Walls, M. J. E. Sternberg, J. Mol. Biol. 228, 27 (1992) 61 - F. Jiang, S.-H. Kim, J. Mol. Biol. 219, 79 (1991) 62 - M. Billeter, T. F. Havel, I. D. Kuntz, Biopolymers 26, 777 (1987) 63 - J. Holland, “Adaptation in Natural and Artificial Systems”, Ann Arbor, University of Michigan Press (1975) 64 - T. Brodmeier, E. Pretsh, J. Comput. Chem. 15, 588 (1994) 65 - Y. L. Xiao, D. E. Williams, J. Phys. Chem. 98, 7191 66 - Y. Nishibata, A. Itai, Thetraedron 47, 8985 (1991) 67 - G. Del Re, J. Chem Soc., 4031 (1958) 68 - B. W. Kernighan, D. M. Ritchie, “The C Programming Language”, Prentice-Hall, (1978) 69 - B. W. Kernighan, “ANSI X3.159-1989, the ANSI C Standard. Programming in C-a tutorial” 70 - D. M. Ritchie, “C Reference Manual” 94 71 - Si ringrazia il Consorzio Interuniversitario di Biotecnologie (CIB) per aver concesso l’uso del computer. 72 - Si ringrazia il Sig. Carlo Penati per aver concesso l’utilizzo del suo sistema MS-DOS 73 - Biosym Technologies, 10065 Barnes Canyon Road, San Diego, CA 74 - J. P. Stewart, J. Comput.-Aided Mol. Design 4, 1 (1990) 75 - GNU - Free Software Fundation Inc., 675 Mass Ave, Cambridge MA (USA) 76 - Copyright 1992/94 Michael Sinz, 1992/93 Commodore - AMIGA Inc. 77 - Borland International Inc., 1800 Green Hills Road, Scotts Valley CA (USA) 78 - J. A. McCammon et al., J. Comput. Chem. 16, 454 (1995) 79 - B. G. Katzung, “Farmacologia generale e clinica” ed. italiana 1, pp 73-86, Piccin Nuova Libraria, Padova (1989) 80 - D. Whinker, J. Am. Med. Ass. (JAMA) 6, 1023 (1994) 81 - M. V. Majovski, G. M. Marsh, T. K. Kling, N. Eng. Med. 315, 1241 (1986) 82 - D. R. Ripoll, C.H. Faerman, P. H. Axelsen, I. Silman, Proc. Natl. Acad. Soc. USA 90, 5128 (1993) 83 - M. Harel, I. Shalk, P.H. Axelsen et al., Proc. Natl. Acad. Soc. USA 90, 9031 (1993) 95 Sommario Stato dell’arte 1. Introduzione al docking pag. 1 2. Metodi proposti pag. 4 Parte sperimentale 1. Introduzione al metodo pag. 35 2. Principi teorici 2.1 Algoritmi di docking pag. 36 2.2 Algoritmi di analisi pag. 43 2.3 Descrizione del programma 2.3.1 Struttura di BioDock pag. 46 2.3.2 Sezione “Main” pag. 49 2.3.3 Sezione “Docking” pag. 50 2.3.4 Sezione “Analyzer” pag. 52 2.4 Programmi aggiuntivi pag. 54 3. Applicazione del metodo BioDock 3.1 L’acetilcolinesterasi pag. 56 3.2 Docking del complesso tacrina - acetilcolinesterasi pag. 66 4. Risultati e discussione pag. 76 5. Conclusioni pag. 81 6. Bibliografia pag. 88 Ringraziamenti Desidero ringraziare il Prof. Luigi Villa, che ha contribuito a suscitare, sviluppare e discutere le tematiche affrontate in questa tesi con grande esperienza e spirito innovativo. Desidero inoltre ringraziare la Dott.ssa Anna Maria Villa per la pazienza e la competenza con la quale mi ha guidato durante tutto il mio lavoro. Desidero infine ringraziare il Dott. Giulio Vistoli per i preziosi consigli e il Dott. Patrizio Silvi Antonini per le fotografie. 96