A genetic algorithm for the ligand-protein docking problem Research article Genetics and Molecular Biology (2004) DOCKING E STRUCTURE-BASED RATIONAL DRUG DISCOVERY AND DESIGN • strutture 3D conosciute •predire se e come interagiranno per formare un complesso molecolare funzionale Metodi energetici Metodi geometrici Proteina: in complesso e isolata; molteplici stati conformazionali; IL DOCKING RIGID AND FLEXIBLE DOCKING DNA-Protein docking Ligand-Protein Docking: Protein-Protein docking FORZE CHIMICO-FISICHE Interazioni elettrostatiche Forze di Van der Walls E = A/(r6) - B/(r12) Legami a idrogeno DOCKING SCORES • stabilità delle forze •plausibilità della soluzione MISURA LA QUALITA’ DELLA SOLUZIONE PROPOSTA DRUG DESIGN KEY-LOCK MODEL 1. Attacco 2. Penetrazione 3. Spoliazione 4. Trascrizione 5. Replicazione 6. Traduzione dei messaggeri 7. Assemblaggio 8. Egresso DRUG DESIGN KEY-LOCK MODEL HIV VIRUS TARGET-LOCK • Trascrittasi inversa • Proteasi virale Current DRUG-KEY • AZT • Inibitori delle proteasi HIV-protease ( x-ray, 1989) Attività della proteasi Elaborazione proteolitica delle proteine strutturali ed enzimatiche per l’assemblaggio del virione MATURAZIONE DELLA PARTICELLA VIRALE:HIV Virione immaturo Virione maturo PROTEASI VIRALE Gli INIBITORI DELLE PROTEASI impediscono la maturazione della particella virale DOCKING SCREEN INPUT •Struttura 3D della proteina di interesse (target) •Database di potenziali ligandi (drug) PROGRAM • Search algorithm • Scoring function THE SEARCH SPACE TUTTI i possibili orientamenti e le possibili conformazioni della coppia di molecole •Simulazioni di dinamica molecolare propongono istantanee energeticamente favorevoli •Combinazioni di diverse strutture dello stesso target simulano flessibilità del recettore •ALGORITMI GENETICI interazioni sempre più favorevoli THE SCORING FUNCTION • Input : istantanea della coppia • Output: valore di probabilità che l’input sia un’interazione favorevole molecular mechanics force field (E) Potenziale che descrive le caratteristiche energetiche delle molecole in relazione a ciò che le circonda E = Estr + Ebend + Etors + Evdw + Eel + Ecross Class I Methods: Class II Methods: For very large molecules,only quadratic Taylor expansions and neglecting cross terms. GROMOS Higher order terms and cross terms. Higher accuracy, used for small or medium sized molecules. Parameterized from experimental data. GROMOS Pacchetto di simulazione di dinamica molecolare per studiare sistemi biologici – In soluzione o cristallizzati – Minimizzazione di energia – Analisi delle conformazioni ottenute sperimentalmente o tramite simulazioni Applicazioni: • Predizione di conformazioni • Predizione di variazioni energetiche e conformazionali al variare di aa o bp • Derivazioni di strutture 3D • Modellizzazione dinamica di complessi tramite ricerca nello spazio delle configurazioni • Predizione di proprietà in condizioni estreme di T e P IL PROBLEMA: come trattare la flessibilità in entrambe le molecole! • Ligando e recettore come molecole rigide • Flessibilità del ligando THE CHALLENGE • Docking di molecole grandi e altamente flessibili • Flessibilità del recettore LA METAFORA EVOLUZIONE PROBLEM SOLVING Ambiente Problema da risolvere Individuo Soluzione candidata Addattamento Qualità della soluzione GLI ALGORITMI GENETICI Un semplice GA consiste di tre operazioni: selezione,operazioni genetiche e sostituzione. STEADY-STATE REPLACEMENT • Solo pochi cromosomi vengono sostituiti dalla prole, i peggiori, gli altri continuano a far parte della popolazione • A ogni generazione è applicato un solo operatore genetico per volta e viene sostituito un solo individuo IN PARTICOLARE… • Grid – based methodology in the rigid and flexible ligand-docking cases • Rigid receptor structure • Highly flexible ligands, more than 10 conformational degrees of freedom • 5 HIV-1 protease-ligand complexes ( known 3D ) Implemented SSGA Ogni cromosoma ha – 3 geni per ligand translation (coordinate atomiche X Y Z ) – 4 geni per ligand orientation – Altri per ligand conformation (angoli diedri del ligando) Ligand-protein energy function used is the GROMOS96 classical force field The grid-based methodology • Il sito attivo della proteina è rappresentato all’interno di una griglia rettangolare 3D • Ogni celletta ha un punteggio in relazione alla distanza dagli atomi del sito attivo • Per ogni conformazione del ligando proposta viene calcolato il punteggio • La griglia utilizzata è la media tra tutte le griglie corrispondenti a ogni possibile conformazione del recettore Implemented SSGA • La popolazione iniziale di individui è generata casualmente all’interno della griglia con valori compresi tra la minima e la massima dimensione delle griglie • Gli individui per le generazioni successive sono poi generati attraverso perturbazioni casuali delle coordinate dei geni di traslazione • Per i geni che corrispondono ad angoli sono generati valori casuali compresi tra 0° e 360° • Per i geni di orientamento sono generati valori compresi tra -1 e +1 Implemented SSGA • I nuovi individui sono poi selezionati e mutati o ricombinati • Un nuovo individuo viene inserito nella popolazione se la sua fitness è migliore di quella peggiore della popolazione corrente • L’algoritmo procede finchè non è stato raggiunto il massimo numero di valutazioni energetiche Two – point crossing over e Non - uniform mutation a e b sono i limiti superiori e inferiori della variabile c τ è scelto casualmente tra 0 e 1 b è settato a 5 I ligandi testati hanno da 12 a 20 angoli conformazionali (diedri) la griglia è stata centrata nel sito attivo della proteina Le gli Le gli frecce curve indicano angoli diedri frecce dritte indicano atomi di riferimento o radice quadratica media della A ligand in the HIV-1 deviazione tra gli protease atomi del active site modello e della proteina dopo che le due strutture sono state sovrapposte nel modo migliore possibile • Il successo dell’algoritmo è stato misurato attraverso il RMSD (root mean square deviation) tra la conformazione cristallografica (PDB file) e quella trovata dall’algoritmo • RMSD < 2Ǻ = DOCKED … risultato molto buono • RMSD < 3Ǻ = partially DOCKED • La % di successo è il numero di conformazioni trovate con RMSD<2Ǻ in 10 tentativi RIGID DOCKING TESTS • Angoli diedri dei ligandi fissi in posizione “cristallografica” • Movimenti di traslazione e orientamento i cromosomi hanno solo i geni di traslazione e orientamento e gli ultimi due termini della funzione energetica non sono considerati 500 individui 200,000 valutazioni energetiche p = 0,3 per crossing-over p= 0,7 per mutazione LIGANDI DMP323 NELFINA RITONA VIR VIR INDINA VIR SAQUIN AVIR RMSD ME DIA (Ǻ) 0.046 0.068 0.099 0.053 0.077 ENERGIA MEDIA (Kcal/mol ) -58 -82 -100 -87 -87 % DI SUCCESS O 100 100 100 100 100 Lo SSGA è in grado di trovare le conformazioni corrispondenti alle strutture cristallografiche per tutti i ligandi testati FLEXIBLE DOCKING TESTS Tutti i termini energetici sono stati considerati 1,000 individui 1,000,000 di valutazioni energetiche p = 0,3 per crossing-over p= 0,7 per mutazione DMP323 flexible docking results ANGOLI DIEDRI CONSIDERATI 10 14 RMSD MEDIO (Ǻ) 0,373 0,596 ENERGIA MEDIA (Kcal/mol) -32 -33 % DI SUCCESSO 100 100 flexible docking results LIGANDI DMP323 NELFINA RITONA VIR VIR INDINA VIR SAQUIN AVIR ANGOLI DIEDRI CONSIDE RATI 14 12 20 14 15 RMSD ME DIA (Ǻ) 0.596 4.185 4.237 5.755 3.585 ENERGIA MEDIA (Kcal/mol ) -32 -26 -41 36 -19 % DI SUCCESSO per rmsd < di 2 e 3 Ǻ 100 30 10 10 10 100 50 10 10 60 flexible docking results fissando alcuni angoli diedri più interni LIGANDI DMP323 NELFINA RITONA VIR VIR INDINA VIR SAQUIN AVIR ANGOLI DIEDRI CONSIDE RATI 14 10 17 12 13 RMSD ME DIA (Ǻ) 0.596 1.449 3.733 3.118 3.106 ENERGIA MEDIA (Kcal/mol ) -32 -53 -70 -17 -26 % DI SUCCESSO per rmsd < di 2 e 3 Ǻ 100 90 30 20 20 100 90 60 60 50 CONCLUSIONI La performance migliore di DMP323 rispetto agli altri ligandi può dipendere dalla minore dipendenza tra i suoi angoli diedri e dal fatto che la sua esatta conformazione è al centro del sito attivo della proteina Gli altri ligandi hanno una geometria più “aperta” e quindi maggior dipendenda tra gli angoli diedri, soprattutto quelli più interni Questo sembra essere dovuto al fatto che variazioni negli angoli interni provocano variazioni maggiori nell’intera molecola CONCLUSIONI I risultati ottenuti mostrano la difficoltà di trattare con ligandi altamente flessibili, cioè con molti gradi di libertà conformazionali Tutti i programmi di docking attuali mostrano una performance che diminuisce con l’aumentare del numero di gradi di libertà conformazionale considerati SSGA: buono per docking rigido (5 minuti) da migliorare per il docking flessibile Servono nuovi operatori che prendano in considerazione i cambiamenti degli angoli diedri più interni