A genetic algorithm for the
ligand-protein docking problem
Research article
Genetics and Molecular Biology
(2004)
DOCKING E STRUCTURE-BASED
RATIONAL DRUG DISCOVERY AND
DESIGN
• strutture 3D conosciute
•predire se e come
interagiranno per formare
un complesso molecolare
funzionale
Metodi energetici
Metodi geometrici
Proteina: in complesso e
isolata;
molteplici stati
conformazionali;
IL DOCKING
RIGID AND FLEXIBLE DOCKING
DNA-Protein docking
Ligand-Protein Docking:
Protein-Protein docking
FORZE CHIMICO-FISICHE
Interazioni elettrostatiche
Forze di Van der Walls
E = A/(r6) - B/(r12)
Legami a idrogeno
DOCKING SCORES
• stabilità delle forze
•plausibilità della soluzione
MISURA LA QUALITA’ DELLA
SOLUZIONE PROPOSTA
DRUG DESIGN
KEY-LOCK MODEL
1. Attacco
2. Penetrazione
3. Spoliazione
4. Trascrizione
5. Replicazione
6. Traduzione dei
messaggeri
7. Assemblaggio
8. Egresso
DRUG DESIGN
KEY-LOCK MODEL
HIV VIRUS
TARGET-LOCK
• Trascrittasi inversa
• Proteasi virale
Current DRUG-KEY
• AZT
• Inibitori delle proteasi
HIV-protease
( x-ray, 1989)
Attività della proteasi
Elaborazione proteolitica delle proteine strutturali
ed enzimatiche per l’assemblaggio del virione
MATURAZIONE DELLA PARTICELLA
VIRALE:HIV
Virione immaturo
Virione maturo
PROTEASI
VIRALE
Gli INIBITORI DELLE PROTEASI impediscono
la maturazione della particella virale
DOCKING SCREEN
INPUT
•Struttura 3D della proteina di
interesse (target)
•Database di potenziali ligandi
(drug)
PROGRAM
• Search algorithm
• Scoring function
THE SEARCH SPACE
TUTTI i possibili orientamenti e
le possibili conformazioni
della coppia di molecole
•Simulazioni di
dinamica molecolare
propongono istantanee
energeticamente favorevoli
•Combinazioni di diverse
strutture dello stesso target
simulano flessibilità
del recettore
•ALGORITMI GENETICI
interazioni sempre
più favorevoli
THE SCORING FUNCTION
• Input : istantanea della coppia
• Output: valore di probabilità che l’input sia
un’interazione favorevole
molecular mechanics force field (E)
Potenziale che descrive le caratteristiche energetiche
delle molecole in relazione a ciò che le circonda
E = Estr + Ebend + Etors + Evdw + Eel + Ecross
Class I Methods:
Class II Methods:
For very large molecules,only
quadratic Taylor expansions and
neglecting cross terms.
GROMOS
Higher order terms and cross
terms. Higher accuracy, used
for small or medium sized
molecules. Parameterized from
experimental data.
GROMOS
Pacchetto di simulazione di
dinamica molecolare per
studiare sistemi biologici
– In soluzione o
cristallizzati
– Minimizzazione di energia
– Analisi delle
conformazioni ottenute
sperimentalmente o
tramite simulazioni
Applicazioni:
• Predizione di conformazioni
• Predizione di variazioni
energetiche e
conformazionali al variare di
aa o bp
• Derivazioni di strutture 3D
• Modellizzazione dinamica di
complessi tramite ricerca
nello spazio delle
configurazioni
• Predizione di proprietà in
condizioni estreme di T e P
IL PROBLEMA: come
trattare la flessibilità in
entrambe le molecole!
• Ligando e recettore come
molecole rigide
• Flessibilità del ligando
THE CHALLENGE
• Docking di molecole grandi e altamente flessibili
• Flessibilità del recettore
LA METAFORA
EVOLUZIONE
PROBLEM SOLVING
Ambiente
Problema da risolvere
Individuo
Soluzione candidata
Addattamento
Qualità della soluzione
GLI ALGORITMI GENETICI
Un semplice GA consiste di tre
operazioni:
selezione,operazioni genetiche
e sostituzione.
STEADY-STATE REPLACEMENT
• Solo pochi cromosomi
vengono sostituiti dalla prole,
i peggiori, gli altri continuano
a far parte della popolazione
• A ogni generazione è
applicato un solo operatore
genetico per volta e viene
sostituito un solo individuo
IN PARTICOLARE…
• Grid – based methodology in the rigid and
flexible ligand-docking cases
• Rigid receptor structure
• Highly flexible ligands, more than 10
conformational degrees of freedom
• 5 HIV-1 protease-ligand complexes ( known
3D )
Implemented SSGA
Ogni cromosoma ha
– 3 geni per ligand translation (coordinate atomiche X Y Z )
– 4 geni per ligand orientation
– Altri per ligand conformation (angoli diedri del ligando)
Ligand-protein energy function used is the
GROMOS96 classical force field
The grid-based methodology
• Il sito attivo della proteina è rappresentato all’interno
di una griglia rettangolare 3D
• Ogni celletta ha un punteggio in relazione alla distanza
dagli atomi del sito attivo
• Per ogni conformazione del ligando proposta viene
calcolato il punteggio
• La griglia utilizzata è la media tra tutte le griglie
corrispondenti a ogni possibile conformazione del
recettore
Implemented SSGA
• La popolazione iniziale di individui è generata
casualmente all’interno della griglia con valori
compresi tra la minima e la massima dimensione delle
griglie
• Gli individui per le generazioni successive sono poi
generati attraverso perturbazioni casuali delle
coordinate dei geni di traslazione
• Per i geni che corrispondono ad angoli sono generati
valori casuali compresi tra 0° e 360°
• Per i geni di orientamento sono generati valori
compresi tra -1 e +1
Implemented SSGA
• I nuovi individui sono poi selezionati e mutati o
ricombinati
• Un nuovo individuo viene inserito nella
popolazione se la sua fitness è migliore di
quella peggiore della popolazione corrente
• L’algoritmo procede finchè non è stato
raggiunto il massimo numero di valutazioni
energetiche
Two – point crossing over e Non - uniform mutation
a e b sono i limiti superiori e inferiori della
variabile c
τ è scelto casualmente tra 0 e 1
b è settato a 5
I ligandi testati hanno da 12 a 20 angoli
conformazionali (diedri)
la griglia è stata centrata nel sito attivo
della proteina
Le
gli
Le
gli
frecce curve indicano
angoli diedri
frecce dritte indicano
atomi di riferimento
o
radice quadratica media della
A ligand
in the HIV-1
deviazione
tra gli protease
atomi del active site
modello e della proteina dopo che
le due strutture sono state
sovrapposte nel modo migliore
possibile
• Il successo dell’algoritmo è stato misurato attraverso
il RMSD (root mean square deviation) tra la
conformazione cristallografica (PDB file) e quella
trovata dall’algoritmo
• RMSD < 2Ǻ = DOCKED … risultato molto buono
• RMSD < 3Ǻ = partially DOCKED
• La % di successo è il numero di conformazioni trovate
con RMSD<2Ǻ in 10 tentativi
RIGID DOCKING TESTS
• Angoli diedri dei ligandi fissi in posizione
“cristallografica”
• Movimenti di traslazione e orientamento
i cromosomi hanno solo i geni di traslazione e
orientamento e gli ultimi due termini della
funzione energetica non sono considerati
500 individui
200,000 valutazioni energetiche
p = 0,3 per crossing-over
p= 0,7 per mutazione
LIGANDI
DMP323
NELFINA RITONA
VIR
VIR
INDINA
VIR
SAQUIN
AVIR
RMSD
ME DIA
(Ǻ)
0.046
0.068
0.099
0.053
0.077
ENERGIA
MEDIA
(Kcal/mol
)
-58
-82
-100
-87
-87
% DI
SUCCESS
O
100
100
100
100
100
Lo SSGA è in grado di trovare le conformazioni
corrispondenti alle strutture cristallografiche per tutti
i ligandi testati
FLEXIBLE DOCKING TESTS
Tutti i termini energetici sono stati considerati
1,000 individui
1,000,000 di valutazioni energetiche
p = 0,3 per crossing-over
p= 0,7 per mutazione
DMP323 flexible docking results
ANGOLI DIEDRI
CONSIDERATI
10
14
RMSD MEDIO (Ǻ)
0,373
0,596
ENERGIA MEDIA
(Kcal/mol)
-32
-33
% DI SUCCESSO
100
100
flexible docking results
LIGANDI
DMP323
NELFINA RITONA
VIR
VIR
INDINA
VIR
SAQUIN
AVIR
ANGOLI
DIEDRI
CONSIDE
RATI
14
12
20
14
15
RMSD
ME DIA
(Ǻ)
0.596
4.185
4.237
5.755
3.585
ENERGIA
MEDIA
(Kcal/mol
)
-32
-26
-41
36
-19
% DI
SUCCESSO
per rmsd <
di 2 e 3 Ǻ
100
30
10
10
10
100
50
10
10
60
flexible docking results fissando alcuni angoli
diedri più interni
LIGANDI
DMP323
NELFINA RITONA
VIR
VIR
INDINA
VIR
SAQUIN
AVIR
ANGOLI
DIEDRI
CONSIDE
RATI
14
10
17
12
13
RMSD
ME DIA
(Ǻ)
0.596
1.449
3.733
3.118
3.106
ENERGIA
MEDIA
(Kcal/mol
)
-32
-53
-70
-17
-26
% DI
SUCCESSO
per rmsd <
di 2 e 3 Ǻ
100
90
30
20
20
100
90
60
60
50
CONCLUSIONI
La performance migliore di DMP323 rispetto agli altri
ligandi può dipendere dalla minore dipendenza tra i
suoi angoli diedri e dal fatto che la sua esatta
conformazione è al centro del sito attivo della
proteina
Gli altri ligandi hanno una geometria più “aperta” e
quindi maggior dipendenda tra gli angoli diedri,
soprattutto quelli più interni
Questo sembra essere dovuto al fatto che variazioni
negli angoli interni provocano variazioni maggiori
nell’intera molecola
CONCLUSIONI
I risultati ottenuti mostrano la difficoltà di trattare con ligandi
altamente flessibili, cioè con molti gradi di libertà
conformazionali
Tutti i programmi di docking attuali mostrano una performance
che diminuisce con l’aumentare del numero di gradi di libertà
conformazionale considerati
SSGA:
buono per docking rigido (5 minuti)
da migliorare per il docking flessibile
Servono nuovi operatori che prendano in considerazione i
cambiamenti degli angoli diedri più interni
Scarica

Valentina Balbi