Predire la struttura terziaria
E di gran lunga la predizione più complessa che si possa fare su
una proteina.
Esistono 3 metodi principali di predizione:
1 - Homology modelling:
se si conoscono proteine simili con struttura nota
2 – Fold recognition:
se si va alla ricerca di strutture simili, cercando il folding migliore
3 - Ab initio:
simulazioni di ripiegamento in silicio, molto complesse dato che
si valutano tutte le possibili interazioni di tutti gli atomi con il
solvente
Confronto con banche dati di sequenze proteiche
Allineamento delle sequenze.
E’ nota la struttura?
Predizione della struttura
secondaria
Ricerca di motivi
Homology modeling
con le coordinate
delle strutture note
Threading
Foding ab initio
Valutare l’accuratezza della predizione
Homology modelling
Assunzione di base: due proteine che presentano una identità del
30% circa, molto probabilmente avranno una struttura simile.
Si va a valutare la
r.m.s.d. (root mean square deviation)
cioè la distanza quadratica media tra gli atomi, generalmente i
carboni alpha, ma si può calcolare anche su tutti gli atomi.
Minore è il r.m.s.d. maggiore è la similarità
strutturale
=> è stato osservato che proteine che condividono un’identità
di sequenza del 50% mantengono circa il 90% dei residui
in posizioni conservate
L’approccio all’homology modeling è abbastanza intuitivo, ma è
bene seguire delle considerazioni pratiche che possono essere
definite
Linee guida per costruire un buon modello:
1- Analizzare la struttura secondaria prima di quella tridimensionale,
dato che se ci sono regioni fortemente random-coil, è bene
escluderle dalla modellazione (sono, per definizione, non
modellabili).
2 - Identificare in banca dati una proteina a struttura nota che abbia
una alta identità (> 50%) con la propria, o identità globale o identità
locale.
3 - Allineare al meglio le due proteine. Rifinire l’allineamento a
mano, se necessario. Questa tappa è critica, perchè la modellazione
verrà fatta sulle proteine allineate.
4 - Cercare in banca dati il più alto numero di proteine simili tra
loro e identificare dopo il multiallineamento le regioni di struttura
secondaria conservate (in genere se ci sono dal multiallineamento si
vede). Si costruisce così un pre-modello.
5 - Modellare per prima cosa le regioni altamente variabili (in
genere i loops) che connettono regioni a struttura secondaria
definita. Esistono database anche dei loops (tutti i loops osservati),
quindi non si modella a caso, ma si cerca la struttura di un loop già
presente. Se non c’è, o se ce ne sono più di uno compatibile,
osservare le regioni pre-loop e post-loop.
6 - Modellare le catene laterali sulla base delle catene della proteina
nota. Esistono per questo delle librerie di ROTAMERI, cioè
isomeri delle catene laterali con angoli di torsione adeguati alle
torsioni del backbone.
7 – Risolvere, se possibile, i problemi relativi alle collisioni dei vari
atomi, o manualmente o con programmi che indicano l’energia
minima delle strutture. Alla fine gli atomi di una proteina non
dovranno collidere, e la proteina dovrà essere alla minor energia
possibile.
Nonostante ci siano delle regole abbastanza precise,
l’homology modelling è molto complesso e richiede
un grande lavoro e molto tempo.
Fold recognition (threading)
Il concetto di fondo è che:
le proteine presenti in natura hanno un numero finito
di strutture possibili, o almeno un numero finito di
topologie (<1000).
David Heisenberg ha sviluppato il metodo dei profili 1D-3D. Si
tratta di catalogare tutti i FOLD possibli in termini di INTORNO
per ogni posizione di ogni fold.
L’intorno è definito con
1 - Struttura secondaria.
2 - Accessibilità al solvente.
3 - Tipo di residui circostanti (polari, apolari).
Ogni fold viene descritto come una sequenza (1D) di simboli
associati a frequenze di ritrovamento in una data struttura
E’ possibile così confrontare una sequenza proteica allineandola
con tutti i possibili profili di tutti i fold conosciuti, ricavando un
punteggio che valuti il best fitting della sequenza.
Facendo così si è in grado di identificare strutture di proteine
anche molto divergenti tra loro, al punto di non essere riconosciute
da nessun programma di allineamento o di similarity search.
Un esempio tipico è l’individuazione della struttura di proteine che
hanno la stessa funzione a causa di una evoluzione convergente:
originandosi da geni diversi non correlati, la sequenza (sia
aminoacidica, sia nucleotidica) saranno molto diverse, ma la
struttura terziaria, almeno nell’intorno del sito catalitico, deve
essere costante per garantire una stessa funzionalità
Metodo di Rosetta
Messo a punto dal gruppo di David Baker, non si basa sulle banche
dati di fold di riferimento predeterminati, ma segue tre fasi
empiriche con alta capacità predittiva:
1 - Divide la sequenza primaria in gruppi (da 3 a 9) residui, ed
effettua una ricerca tra le proteine a struttura nota. Si generano così,
per ogni frammento, una serie di strutture 3D possibili.
2 - Tutte le possibili combinazioni di strutture 3D locali vengono
generate, e considerate inizialmente ugualmente possibili.
3 - Si applicano funzioni di scoring, di minima energia, di
comparazione, per assegnare dei punteggi che indicano la qualità di
ogni struttura.
=> tra i sistemi di fold recognition, è quello che ha ottenuto i
migliori risultati al CASP.
CASP
Critical Assessment of techniques for protein Structure Prediction
E’ una gara tra i gruppi che sviluppano metodiche di
modeling 3D e 2D che si basa sulla predizione delle
strutture data una serie di sequenze proteica e basta.
I modelli migliori vengono valutati sulla base
della loro somiglianza con le strutture 3D ottenute sperimentalmente
ma tenute segrete fino al giorno delle presentazioni.
Vengono valutati separatamente i tre diversi modi di fare predizioni
di struttura.
Il CASP permette di valutare quale è il miglior metodo per generare
un modello proteico, tenendo aggiornati tutti sui progressi dei vari
gruppi di ricerca e garantendo così agli utenti finali, per esempio voi,
di utilizzare la tecnica predittiva più aggiornata e più affidabile.
Inoltre, essendo una competizione, stimola la ricerca e la continua
innovazione alla ricerca del metodo predittivo perfetto
Swiss-PDB Viewer
E’ molto più complesso e con una interfaccia meno immediata di
RasMol, ma ha delle potenzialità enormi da un punto di vista di
analisi, modellazione e rendering 3D delle proteine.
Vengono implementati tutti i metodi per
1 - homology modeling
2 - structure alignment
3 - manual refining delle strutture
4 - calcolo delle energie minime
5 - introduzione delle mutazioni strutturali
Possiede 2 finestre di lavoro principali:
1 - Control panel: dal quale si guidano
tutte le impostazioni grafiche di
visualizzazione e di colorazione
2 - Graphic window: nella quale viene
visualizzata la struttura della proteina
Imparare come lavorare con il control panel è, per la parte di
visualizzazione, la cosa più importante, dato che non è intuitivo
su quale layer si sta lavorando
layer visibile e/o layer mobile
gruppo, inteso come residuo, quello corrente
è in grassetto, quelli selezionati sono rossi.
Nella colonna viene riportata la struttura
secondaria ricavata dal file PDB
show: l’elemento selezionato è visibile.
side: la sua catena laterale è visibile.
labl: la sua atichetta (group) è visibile.
controllo della superficie, che va prima calcolata:
Van der Waals: una sfera punteggiata
Superficie molecolare: renderizzabile
Superficie accessibile: al solvente
Superficie
molecolare
Superficie di Van der Waals
Superficie molecoare (rendered view)
La superficie accessibile va vista come la linea che percorrerebbe il
centro di una una sfera di solvente a raggio fissato (es. 1.4Å),
quindi è uguale alla superficie molecolare + 1.4Å.
Superficie molecolare
r = 1.4Å
Molecola
Superficie accessibile
Superficie di Van der Waals
Ribn: controllo dei “nastri” (ribbons): il gruppo
selezionato avrà il suo ribbon visualizzato, se
sono accesi e configurati i ribbons.
Visualizzazioni: si configurano tutti i tipi di
visualizzazione, definendo le proprietà per
ognuno dei diversi tipi.
La configurazione delle visualizzazioni e il fatto che esse siano
visibili oppure no non sono dipendenti nel control panel: questo
permette di configurare tutto all’inizio e poi decidere cosa e come
visualizzarlo.
Ogni tipo elemento può essere visualizzato contemporaneamente
nella finestra grafica.
La gestione dei colori è una cosa particolarmente
importante e complicata in Swiss PDB Viewer: dato che
molte cose possono essere visualizzate
contemporaneamente, tramite la colonna colori si
impostano tutte una per volta.
Ogni residuo ha il suo colore, ma il colore che si sceglie è
subordinato alla struttura che ho selezionato prima con la
scelta delle visualizzazioni.
Per selezionare tutta la colonna si usa il tasto destro del
mouse oppure si trascina una selezione su tutta la colonna.
IMPORTANTE: se si seleziona un altra visualizzazione,
sarà visibile la colorazione per quella visualizazione
soltanto. Tutte le altre, anche se non sono visibili,
rimangono, però.
Porta la proteina al
centro, dovunque si
trovi
Visualizza il testo
nel file PDB
Lega il bottone
sinistro del mouse
alla rotazione
della proteina
Lega il bottone sinistro del
mouse alla traslazione della
proteina
Lega il bottone sinistro del
mouse allo zoom
Distanza tra
due atomi
Angolo tra Angoli diedri
due atomi tra i legami
dell’atomo
Etichetta
Le informazioni richieste vengono
visualizzate sotto i bottoni
Mai capito
Seleziona
Posiziona al
atomi
centro
compresi in
un raggio r dall’atomo
selezionato e viene
chiesto che operazione
fare
Selezioni predefinite
Colori predefiniti
Personalizzazione
La superficie molecolare e altre
cose vanno calcolar eprima di
pterle usare (es. colorare)
Visto che il programma non è dedicato esclusivamente alla parte
grafica, come RasMol, il rendering può essere acceso o spento per
risparmiare risorse per il calcolo. Per vedere i ribbons
tridimensionali, le superfici ed altro, il rendering deve essere acceso
a mano o con quegli acceleratori. Se il rendering è spento, solo la
visualizzazione wireframe è disponibile, MA QUI NON SI
CHIAMA WIREFRAME, non hanno un nome le visualizzazioni!
Scarica

Superficie molecolare