Analisi QSAR
di
Chiara Cappelletti, Davide Cittaro, Morena Spreafico, Marco Stefani
INTRODUZIONE
Dato un insieme di molecole congeneri vogliamo quantificare le differenze dell’attività biologica in
termini di differenze strutturali. A tale scopo abbiamo utilizzato il metodo di regressione lineare dei
Minimi Quadrati Ordinari formulando dei modelli QSAR.
Le differenze strutturali vengono rappresentate da un insieme di descrittori molecolari
appositamente scelti in modo da rendere il più completa possibile la rappresentazione delle
molecole. Con un numero di descrittori grande, probabilmente riusciremo ad ottenere una buona
descrizione della realtà in esame, ma il modello quasi sicuramente incorrerà nel fenomeno
dell’over-fitting, riducendo anche drasticamente la capacità predittiva per le nuove molecole. Un
buon modello mantiene generalmente il rapporto variabili-oggetti inferiore a 5, perciò diventa
indispensabile selezionare adeguatamente i descrittori in modo da ottenere un modello con una
buona capacità sia descrittiva che predittiva. Un ulteriore vincolo è dato dall’uso del metodo dei
minimi quadrati, che impone l’eliminazione delle variabili troppo correlate.
L’esplorazione esaustiva di tutte le possibili combinazioni di un insieme realistico (varie decine o
centinaia) di descrittori richiederebbe un tempo di calcolo troppo elevato; di fatto, ciò impedisce di
utilizzare degli algoritmi deterministici in grado di garantire la soluzione ottimale, e quindi
s’impone l’utilizzo di metodi approssimati. La nostra scelta ricade sugli algoritmi genetici che
permettono di esplorare in tempi ragionevoli lo spazio delle soluzioni.
Ottenuto il modello, un passo molto importante consiste nella validazione del modello stesso, cioè
la verifica della sua capacità predittiva nei confronti di molecole che non sono state utilizzate per la
costruzione del modello. Se il modello è robusto, il passo successivo consiste nell’interpretazione
del ruolo dei descrittori scelti.
ALGORITMI GENETICI PER LA SELEZIONE DELLE VARIABILI
Gli algoritmi genetici, proposti da Holland nel 1975, sono una strategia di ottimizzazione che si
ispira alla genetica delle popolazioni. Il processo di ricerca di una soluzione avviene tramite un
particolare bilanciamento tra l’esigenza di esplorare nuove regioni nello spazio delle soluzioni, e
quella di sfruttare con una ricerca locale le informazioni a disposizione.
La descrizione dei valori che ogni variabile può assumere avviene mediante un codice binario, ove
ciascun termine binario costituisce un bit, cioè un numero uguale a 0 o 1. Il linguaggio degli
algoritmi genetici ha un lessico appropriato in analogia con la genetica delle popolazioni:
o Gene: ciascuna codifica binaria di un numero (una variabile, un parametro numerico)
o Individuo o Cromosoma: l’insieme di più geni, cioè la concatenazione di più bits, ed è
associato ad una particolare soluzione
o Popolazione: l’insieme di individui o cromosomi
o Riproduzione, Cross-over, Mutazione: rappresentano gli operatori genetici che regolano
il processo di ricerca della soluzione ottima
Gli algoritmi genetici sono organizzati in tre fasi:
1. Fase iniziale: viene effettuata una codifica delle variabili mediante il codice
binario. Ciascuna condizione viene rappresentata da una stringa di 0 o di 1. Nella
selezione delle variabili che ottimizzano un modello di regressione, lo 0 indica
l’assenza della variabile nel modello mentre l’1 indica la presenza. Viene estratto
un certo numero di cromosomi a caso e per ciascuno di essi viene calcolata la
risposta corrispondente; i migliori entrano a far parte della popolazione iniziale.
2. Fase evolutiva: è costituita da una fase di generazione di cromosomi che
derivano dall’accoppiamento dei cromosomi presenti nella popolazione e calcolo
delle risposte corrispondenti, e da una fase di mutazione dove ciascun
cromosoma può casualmente subire delle mutazioni. In questo caso, viene
calcolata la corrispondente risposta. Se le risposte calcolate sono migliori della
risposta corrispondente all’ultimo cromosoma della popolazione (il peggiore
della popolazione esistente), i cromosomi corrispondenti entrano a far parte della
popolazione, nella posizione che loro compete in base alla qualità della risposta.
In caso contrario, i cromosomi vengono scartati. Esaminando più nel dettaglio,
durante la riproduzione sono estratti dei cromosomi destinati
all’accoppiamento, con probabilità proporzionale alla qualità del cromosoma.
Durante il cross-over vengono generati i cromosomi derivanti
dall’accoppiamento, scambiando i geni dei cromosomi genitori con una
probabilità prefissata (cross-over probability). Durante la mutazione alcuni geni
cambiano il loro valore da 0 a 1 e viceversa, secondo una determinata probabilità
(mutation probability). La fase evolutiva procede fino a che non si raggiunge
una condizione che pone termine alla procedura.
3. Fase finale: la procedura viene fermata in base a criteri prestabiliti, quali, ad
esempio, il raggiungimento di un numero massimo di iterazioni o quando la
popolazione non si rinnova per un certo numero di iterazioni.
Al termine della procedura si ottiene la selezione delle variabili migliori tra quelle che l’algoritmo
ha considerato; se tutto lo spazio delle soluzioni possibili è stato indagato, quella proposta è la
soluzione ottima.
DESCRIZIONE DEL PROBLEMA
Le molecole utilizzate per lo studio sono 14 isomeri delle PCDD (Poli-Cloro-dibenzo-diossina); è
importante sottolineare che le molecole analizzate sono strettamente congeneri e differiscono
solamente nel numero e nella posizione degli atomi di Cloro, pertanto rappresentano un set molto
omogeneo di composti per il quale ci si può aspettare una buona correlazione tra le strutture e la
attività biologica.
La risposta biologica per la quale viene costruito un modello di regressione è l’affinità di binding.
Al fine di calcolare i descrittori molecolari le 14 diossine sono state disegnate con il programma
MOE (Molecular Operating Environment) e successivamente sono state minimizzate attraverso i
metodi della meccanica molecolare. In particolare è stato utilizzato il campo di forza MMFF94
adatto a descrivere le proprietà di piccole molecole organiche.
I DESCRITTORI MOLECOLARI
La conformazione spaziale delle 14 molecole minimizzate è il punto di partenza per il calcolo
dell’insieme dei descrittori molecolari, effettuato con DRAGON.
Il linguaggio con cui descriviamo la realtà non coincide con la realtà stessa: per questo motivo le
parole che utilizziamo per esprimerci svolgono un ruolo importantissimo nella rappresentazione
della realtà. Nella costruzione di modelli QSAR i descrittori molecolari svolgono lo stesso compito
delle parole in un discorso: la qualità del modello finale, che ha lo scopo di rappresentare una parte
di realtà, nella fattispecie l’attività biologica dei composti analizzati, dipende strettamente dai
descrittori utilizzati. Essi sono il modo attraverso il quale l’informazione chimica è trasformata e
codificata. Ognuno di essi è un numero che descrive un aspetto strutturale della molecola: più un
descrittore sarà in grado di spiegare bene quell’aspetto, ovvero più il linguaggio è accurato e chiaro,
più il modello sarà buono.Per questo motivo la scelta dei descrittori riveste un ruolo fondamentale
nella formulazione di un modello.
Le classi di descrittori utilizzate in questo lavoro sono:
COSTITUZIONALI
Sono descrittori molto semplici, indipendenti dalla connettività e dalla conformazione. Indicano
il numero di alcuni atomi, o di legami, o la somma di alcune proprietà (volumi, elettronegatività,
polarizzabilità, etc.). Sono facili da ricavare ma la descrizione che danno della molecola è
piuttosto generica. Tuttavia, ciò non vuol dire che apportino un’informazione poco importante,
sono infatti descrittori molto semplici che si ritrovano spesso nei modelli calcolati.
TOPOLOGICI
Largamente utilizzati negli studi QSAR, sono descrittori 2D che derivano dal grafo molecolare
(solitamente tolti gli atomi di idrogeno) e dalle matrici di connettività. Sono prevalentemente
fondati sui concetti di entropia e di contenuto di informazione ed hanno la proprietà di essere
invarianti al grafo molecolare, cioè il loro valore è indipendente da come vengono numerati i
vertici del grafo. Sono semplici da calcolare ma i loro limiti più evidenti sono legati alla totale
mancanza di informazione riguardo alla geometria 3D e agli aspetti conformazionali, e alla non
sempre chiara interpretabilità chimica. A dispetto di ciò, si dimostrano spesso estremamente
efficaci per il loro alto potere modellante.
WHIM
Il calcolo di questi descrittori prevede la centratura della molecola nel centro delle coordinate e,
mediante l’analisi delle componenti principali, la determinazione degli assi principali. La
rappresentazione della molecola avviene mediante una proiezione degli atomi sui tre assi
principali e sul calcolo di alcuni parametri statistici (gli indici WHIM) per ciascuno di questi
assi, senza applicare schemi di pesatura oppure pesando attraverso le masse atomiche, i volumi
di Van der Waals, l’elettronegatività atomica di Mulliken, la polarizzabilità atomica o gli indici
elettrotopologici di Kier. Si ottengono così dei descrittori WHIM direzionali, che, per ogni
schema di pesatura, possono poi dar luogo anche ad indici globali, cioè non direzionali.
GETAWAY
Sono dei descrittori basati su una matrice d’influenza, chiamata Molecular Influence Matrix,
simile alla matrice dei Leverages solitamente usata nella regressione. Un primo set di
descrittori, chiamato H-GETAWAY, viene ottenuto utilizzando solo le informazioni provenienti
dalla Molecular Influence Matrix, mentre un secondo set, chiamato R-GETAWAY, combina
questa informazione con le distanze interatomiche nella molecola.
Le tre tipologie di descrittori sono state trattate separatamente considerando per ciascun insieme i
descrittori con una correlazione pairwise inferiore al 95%. Sono state ottenute rispettivamente 39,
11 e 22 variabili.
I PARAMETRI DI PERFORMANCE
Per ciascuno dei tre insiemi di descrittori abbiamo utilizzato gli algoritmi genetici per selezionare la
migliore combinazione di descrittori. Ogni modello è identificato da un cromosoma di lunghezza
pari al numero di descrittori per ogni insieme; il numero di descrittori selezionati in ciascun
cromosoma può variare tra 3 e 5. La popolazione è costituita da 100 individui e sono state effettuate
10000 iterazioni per ogni insieme di descrittori. La bontà dei modelli è valutata mediante un
parametro di fitting, il coefficiente di determinazione R2, e due parametri di validazione, R2cv e
R2LOO.
Il coefficiente di determinazione R² viene definito come:
( yi − yˆ i ) 2
RSS
∑
R = 1−
= 1−
TSS
∑ ( yi − y i ) 2
2
Questo valore, moltiplicato per 100, rappresenta la varianza percentuale spiegata dal modello in
fitting. La radice quadrata del parametro precedente è una quantità nota come coefficiente di
correlazione multipla, R, e rappresenta la correlazione tra la risposta sperimentale e i predittori.
Oltre a questi parametri, che misurano il fitting, ve ne sono altri che misurano la capacità predittiva
del modello.
Il parametro definito PRESS (Predictive Error Sum of Squares) è formalmente analogo a RSS, con
la differenza che al posto delle risposte calcolate vengono utilizzate le risposte predette.
PRESS =
∑ (y
i
i
− yˆ i / i ) 2
Analogamente al parametro R², sostituendo RSS con PRESS, viene definita la varianza spiegata dal
modello in predizione, ovvero:
Q2 = R2cv = 1-
PRESS
TSS
Diversamente da R2, questo parametro presenta un massimo per la complessità ottimale del modello
e ridiscende ogni volta che aggiungiamo al modello variabili non predittive. Inoltre Q2 viene
esplicitamente valutato rispetto al potere predittivo e non al livello di fitting del modello. E’ perciò
un parametro molto importante, soprattutto nel caso in cui il modello presuppone un suo utilizzo per
applicazioni successive su dati la cui risposta non è ancora nota.
La validazione è stata fatta secondo due diverse tecniche: attraverso il metodo Leave One Out,
sintetizzata dal parametro R2LOO, e attraverso il metodo Leave Many Out, descritta da R2cv.
Entrambe sono tecniche di cross validation; con questo termine si indica una validazione incrociata,
in cui un oggetto o un gruppo di oggetti viene utilizzato per la predizione una sola volta.
METODO LEAVE ONE OUT
Secondo questo metodo, dati n oggetti, si calcolano n modelli in ciascuno dei quali viene escluso un
oggetto alla volta: ciascun modello viene calcolato con gli n-1 oggetti restanti e viene utilizzato per
predire la risposta, che può essere di tipo qualitativo in un modello di classificazione o quantitativo
in un modello di regressione. Lo scarto tra la risposta predetta e quella sperimentale viene
accumulato per tutti gli oggetti che a turno vengono esclusi dal modello. Solitamente il modello
finale viene costruito considerando comunque tutti gli oggetti, in modo da sfruttare tutta
l’informazione disponibile. Questo metodo è l’unico che consente un confronto univoco tra modelli
ottenuti con metodi diversi, ed è quello che comporta la minima perturbazione in quanto viene
escluso un solo oggetto per volta, e per questo motivo talvolta fornisce risultati troppo ottimistici.
METODO LEAVE MANY OUT
E’ una generalizzazione del metodo precedente. Infatti i dati vengono suddivisi in G gruppi di
cancellazione in modo tale che k oggetti pari a n/G vengono assegnati all’insieme di valutazione e
quindi sono esclusi dal training set: il modello, stimato da un training set costituito da n-k oggetti,
viene utilizzato per predire la risposta dei k esclusi. I k oggetti vengono esclusi una volta soltanto;
una volta esclusi, vengono successivamente reinseriti nel modello e ne vengono esclusi altri k.
Rispetto al metodo precedente, questo è più perturbativo, e valuta in modo più severo la predittività,
ma i risultati ottenuti dipendono dalla ripartizione degli oggetti all’interno dei gruppi di
cancellazione.
La funzione obiettivo che guida la selezione delle variabili negli Algoritmi Genetici è il parametro
R2LOO e utilizza il metodo di regressione lineare dei Minimi Quadrati Ordinari.
RISULTATI
Riportiamo il miglior modello a 3, 4 e 5 variabili per ciascun insieme di descrittori. I modelli scelti
sono quelli che si comportano meglio per i tre parametri.
Costituzionali e Topologici
Getaway
WHIM
R2
0.994
0.943
0.978
0.921
0.952
0.924
0.638
0.635
R2LOO
0.938
0.894
0.93
0.858
0.912
0.125
0.173
0.335
R2cv
0.984
0.88
0.891
0.845
0.372
-0.921
0.122
0.288
N
5
4
5
4
3
5
4
3
Tabella 1 – Performance dei migliori modelli calcolati
Il fatto che nel gruppo Costituzionali e Topologici non vengano selezionati modelli a tre variabili ci
fa supporre che tre sole variabili non siano sufficienti a raggiungere la qualità dei modelli a 4 e 5
variabili.
I descrittori WHIM hanno una performance decisamente peggiore rispetto agli altri due insiemi. Il
valore negativo di R2cv per il modello a 5 variabili significa che i residui del modello sono tanto
superiori ai residui calcolati sul valor medio da far preferire il modello Zero, che seglie sempre il
valore medio. Il suo alto valore di fitting non è sufficiente a renderlo un buon modello per la
pessima capacità predittiva.
I modelli con basso numero di variabili sono preferibili perchè più semplici e più facilmente
interpretabili, e per la consuetudine di mantenere il rapporto oggetti/variabili superiore a 5, i modelli
a 3 variabili sarebbero stati preferibili. Nel nostro caso però il modello a 3 variabili ha un R2cv così
basso da escluderne la scelta. I descrittori Costituzionali e Topologici si comportano
complessivamente meglio e quindi saranno analizzati più nel dettaglio.
ID
1
2
3
4
5
6
7
8
R2
0.994
0.983
0.986
0.943
0.943
0.952
0.928
0.92
R2LOO
0.938
0.844
0.905
0.893
0.894
0.823
0.861
0.812
R2cv N
0.984 5
0.95 5
0.933 5
0.888 5
0.88 4
0.821 4
0.794 4
0.089 4
1
1
1
3
3
4
3
1
3
3
3
11
11
17
11
20
Variabili
20
20
15
20
25
25
20
25
23
21
20
25
36
29
25
29
37
37
37
36
Tabella 2 – Modelli per i descrittori Costituzionali e Topologici
Osserviamo che negli otto modelli selezionati solo 1/3 dei descrittori totali è rappresentato. Il fatto
che pochi descrittori ricorrano frequentemente è indice di robustezza dei modelli. Secondo noi il
miglior modello è il numero 5, perché ha 4 variabili e perché tra i modelli a 4 variabili ha la
migliore performance, sia in fitting che in predizione.
L’equazione del modello è la seguente:
y = 36.324 - 0.009 * MSD -328.954 * TIE -10.725 * Xindex + 2.351 * PCR
Riportiamo anche l’equazione in forma standardizzata:
y =
-2.692 * MSD -1.053 * TIE -1.377 * Xindex + 0.422 * PCR
Risposta predetta - sperimentale
9
Valore predetto
8
7
6
5
4
3
3
4
5
6
7
8
9
Valore sperimentale
Figura 1 – Risposta predetta – sperimentale per il modello scelto
Nel grafico si osserva il confronto tra risposta sperimentale e risposta predetta dal modello. I punti
più vicini alla bisettrice sono quelli meglio predetti. Si osserva un buon accordo del modello con i
dati sperimentali per tutte le molecole:
Molecola
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Valore sperimentale Valore predetto
8.00
7.73
7.15
7.39
7.10
7.05
6.79
6.96
6.92
6.79
6.55
5.94
6.10
6.03
5.96
6.13
5.88
5.91
5.49
5.27
5.19
5.69
5.00
5.10
4.89
4.86
4.00
3.83
Tabella 3 – Valori predetti dal modello
I descrittori coinvolti sono:
•
•
•
•
MSD: mean square distance index (Balaban)
TIE: E-state topological parameter
Xindex: Balaban X index
PCR: ratio of multiple path counts to path counts
I descrittori selezionati appartengono tutti alla categoria dei Topologici e con le nostre conoscenze
non è possibile interpretare il loro significato riguardo all’attività biologica.
L’omogeneità dei descrittori all’interno di ciascuno dei tre gruppi studiati ci offre una visione
parziale della realtà analizzata, limitando la comprensione del fenomeno biologico. Un approccio
differente potrebbe essere quello di creare dei gruppi “misti”, che tengano conto di informazioni di
diverso tipo, per avere una migliore visione d’insieme e un modello predittivo più completo.
Nonostante l’utilizzo di descrittori relativamente omogenei, i risultati ottenuti sono decisamente
buoni. Questo comportamento potrebbe essere spiegato da un lato con la congenericità dei composti
analizzati, dall’altro con l’efficacia degli Algoritmi Genetici nella selezione delle variabili.
Scarica

Analisi QSAR di Chiara Cappelletti, Davide Cittaro