Predizione della struttura di una proteina
In generale, la sequenza amminoacidica di una
proteina codifica la sua struttura tridimensionale
dovrebbe quindi essere possibile disegnare un
algoritmo per predire la struttura 3D di una
proteina a partire dalla sua sequenza 1D
questo è l’obiettivo più ambizioso e complesso
della bioinformatica, e non è ancora stato
raggiunto
i metodi sperimentali per la determinazione della sequenza di
una proteina sono estremamente rapidi (l’ordine di grandezza
è il giorno) e relativamente economici
la risoluzione della struttura tridimensionale di una proteina
richiede invece l’uso di strumenti più complessi, e talvolta
mesi di lavoro
Swiss-Prot + TrEMBL 700.000 sequenze
PDB (Protein Data Bank) 17.000 strutture
gran parte delle ricerche in biologia strutturale è quindi volta
allo studio delle leggi fondamentali del folding delle proteine e
la biologia computazionale dedica molte energie e risorse allo
sviluppo di metodi per la predizione della struttura delle
proteine
perchè è interessante studiare la struttura di una proteina
in molti casi è vero che solo l’analisi della struttura
tridimensionale di una macromolecola può aiutarci a
comprendere in quale modo e per quale motivo una
determinata sequenza (avvolta in una specifica
struttura) possa codificare una ben precisa funzione
vediamo per esempio la struttura 3D della
chimotripsina, mettendo in evidenza i residui della
triade catalitica, che non sono contigui nella sequenza
proteica
la contiguità dei residui in struttura determina la
funzione
Ribonuclease A - PDB 5RSA
1 KETAAAKFER Q HMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES
51 LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT
101 QANKHIIVAC EGNPYVPV HF DASV
Ribonuclease T1 – PDB 1RLS
1 ACDYTCGSNC YSSSDVSTAQ AAGYQLHEDG ETVGSNSYP H KYNNYEGFDF
51 SVSSPYYEWP ILSSGDVYSG GSPGAD RVVF NENNQLAGVI T HTGASGNNF
101 VECT
PR4 - Weatwin1 - PDB 1C2Z
1 QQATNVRATY HYYRPAQNNW DLGAPAVSAY CATWDASKPL SWRSGYGWTA
51 FCGPAGAHGQ ASCGKCLQVT NPATGAQITA RIVDQCANGG L DLDWDTVFT
101 KIDTNGIGYQ QG HLNVNYQF VDCRD
RNase A (A)
RNase T1 (B)
Wheatwin1 (C)
Metodi per la predizione
della struttura secondaria
Il metodo Chou-Fasman
a elica
foglietto b
ripiegamento b
aa
C&
F
L
pr
aa
C&
F
L
pr
aa
C&
F
L
Glu
1.51
1.44
++
Val
1.70
1.49
++
Asn
1.56
1.28
Met
1.45
1.47
++
Ile
1.60
1.45
++
Gly
1.56
1.64
Ala
1.42
1.29
++
Tyr
1.47
1.25
++
Pro
1.52
1.91
Leu
1.21
1.30
++
Phe
1.38
1.32
+
Asp
1.46
1.41
Lys
1.16
1.23
+
Trp
1.37
1.14
+
Ser
1.43
1.32
Phe
1.13
1.07
+
Leu
1.30
1.02
+
Cys
1.19
0.81
Gln
1.11
1.27
+
Cys
1.19
0.74
+
Tyr
1.14
1.05
Trp
1.08
0.99
+
Thr
1.19
1.21
+
Lys
1.01
0.96
Ile
1.08
0.97
+
Gln
1.10
0.80
+
Gln
0.98
0.98
Val
1.06
0.91
+
Met
1.05
0.97
+
Thr
0.96
1.04
Asp
1.01
1.04
=
Arg
0.93
0.99
=
Trp
0.96
0.76
His
1.00
1.22
=
Asn
0.89
0.76
=
Arg
0.95
0.88
Arg
0.98
0.96
=
His
0.87
1.08
=
His
0.95
0.68
Thr
0.83
0.82
=
Ala
0.83
0.90
-
Glu
0.74
0.99
Ser
0.77
0.82
=
Ser
0.75
0.95
-
Ala
0.66
0.77
Cys
0.70
1.11
=
Gly
0.75
0.92
-
Met
0.60
0.41
Tyr
0.69
0.72
-
Lys
0.74
0.77
-
Phe
0.60
0.59
Asn
0.67
0.90
-
Pro
0.55
0.64
--
Leu
0.59
0.58
Pro
0.57
0.52
--
Asp
0.54
0.72
--
Val
0.50
0.47
Gly
0.57
0.56
--
Glu
0.37
0.75
--
Ile
0.47
0.51
Tabella 5.1. Propensione dei
residui aminoacidici a formare
elementi di struttura secondaria
come riportato da Chou-Fasman
(1978b) (C&F) e Levitt (1978) (L).
La colonna “pr” classifica i residui
come
indifferenti
(=)
o
stabilizzatori/destabilizzatori forti
(++/--) e deboli (+/-) della struttura
secondaria.
Metodi di predizione della struttura secondaria delle proteine:
Metodi di Chou-Fasman si basa sull’analisi statistica della composizione in
residui delle strutture secondarie presenti nella PDB.
(http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1)
GOR si basa sull’analisi statistica della composizione in residui delle strutture
secondarie presenti nella PDB.
(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html)
AGADIR per predire la percentuale di residui in elica
(http://www.embl-heidelberg.de/Services/serrano/agadir/agadir-start.html)
PHD prende in input o una sequenza o un allineamento multiplo ed usa le reti
neurali.
(http://www.embl-heidelberg.de/predictprotein/predictprotein.html) Vuole una
registrazione
PSIPRED utilizza un sistema di due reti neurali. (http://bioinf.cs.ucl.ac.uk/psipred/)
PREDATOR si basa sull’applicazione del metodo del k-esimo vicino che usa le
reti neurali
(http://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html)
JPRED3 (http://www.compbio.dundee.ac.uk/Software/JPred/jpred.html) fa un
consensus di vari metodi
I migliori programmi di predizione della struttura secondaria
sono stati sviluppati utilizzando metodi di apprendimento
automatico (machine learning methods)
i metodi di apprendimento automatico più utilizzati in
bioinformatica sono le reti neurali e gli Hidden Markov
Models (HMM)
una caratteristica peculiare delle reti neurali è che sono in
grado di apprendere, in un tentativo di simulare il
comportamento del cervello umano
vengono addestrate utilizzando un opportuno insieme di dati
detto training set (un insieme di a-eliche, filamenti b e
elementi non-a non-b)
e possono poi venire utilizzate per riconoscere a-eliche da
filamenti b e da elementi non-a non-b
output di PredictProtein (PHD)
un programma di predizione della struttura secondaria e
accessibilità al solvente
....,....1....,....2....,....3....,....4....,....5....,....6
AA
|MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG|
PHD sec | EEEEEEEE
HHHHHHHHHHH
EEEEE
HHHHHHH |
Rel sec |938999997389866589987789761323468771112352599447744156773166|
detail:
prH
prE
prL
subset: SUB
sec
sec
sec
sec
|000000000000112689987888874211210014443211100100122367885522|
|068999998310000000011100101232110100011115688621101210000000|
|931000001688877210000000014545578774444563200268766311113477|
|L.EEEEEEE.LLLLLHHHHHHHHHHH.....LLLL.....L.EEE..LL...HHHH..LL|
....,....7....,....8....,....9....,....10...,....11...,....12
AA
|QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL|
PHD sec | HHHHHHHHHHHHH
EEEEEE
HHHHHHHHHHHHHHH
EEEEEE
HH|
Rel sec |225799999998713662699997299964789999999998634699828987357125|
detail:
prH
prE
prL
subset: SUB
sec
sec
sec
sec
|456899999998753101000000000026889999999998752100000000001456|
|011000000000000113789998400000000000000000111000058888521000|
|531100000001145675100001599872110000000001126799831001377442|
|..HHHHHHHHHHH..LL.EEEEEE.LLLL.HHHHHHHHHHHHH..LLLL.EEEE.LL..H|
riconoscimento del fold (fold recognition)
banca dati di
fold possibili
sequenza query
input
output
+
sequenza
struttura
allineamento
a-elica
foglietto b
filamento b
perchè è interessante studiare la struttura di una proteina
il confronto tra sequenze proteiche può essere utilizzato per
mettere in luce relazioni evolutive tra proteine e la similarità
tra sequenze può essere utilizzata come una misura della
distanza evolutiva tra gli organismi
come abbiamo visto, le proteine che si confrontano possono
talvolta essere così diverse che diventa difficile metterne in
evidenza la comune origine evolutiva attraverso il solo
confronto tra sequenze
cambiamenti nella struttura delle proteine sono invece più
conservativi: l’evoluzione delle proteine avviene in modi che in
genere non alterano il ripiegamento (fold) della struttura
proteica, che quindi può conservare tracce di un’origine
comune
Come si può studiare la struttura di una proteina
i metodi sperimentali classici per la risoluzione della
struttura tridimensionale di una proteina sono:
• la cristallografia a raggi X
• la spettroscopia a risonanza magnetica e
nucleare (Nuclear Magnetic Resonance, NMR)
diffrazione
ai raggi X
cellula batterica
DNA esogeno
plasmide
NMR
moltiplicazione
del clone
formazione
di cristalli
purificazione
della proteina
nome
composto
organismo
autore
referenze
risoluzione
sequenza
residuo 1
residuo 2
HEADER
TRANSCRIPTION REGULATION
25-AUG-94
1RPO
COMPND
ROP (COLE1 REPRESSOR OF PRIMER) MUTANT WITH ALA INSERTED ON
COMPND
2 EITHER SIDE OF ASP 31 (INS (A-D31-A))
SOURCE
(ESCHERICHIA COLI)
AUTHOR
M.VLASSI,M.KOKKINIDIS
REVDAT
2
15-MAY-95 1RPOA
1
REMARK
REVDAT
1
14-FEB-95 1RPO
0
JRNL
AUTH
M.VLASSI,C.STEIF,P.WEBER,D.TSERNOGLOU,K.WILSON,
JRNL
AUTH 2 H.J.HINZ,M.KOKKINIDIS
JRNL
TITL
RESTORED HEPTAD PATTERN CONTINUITY DOES NOT
JRNL
TITL 2 ALTER THE FOLDING OF A 4-ALPHA-HELICAL BUNDLE
JRNL
REF
NAT.STRUCT.BIOL.
V.
1
706 1994
JRNL
REFN
ASTM NSBIEW US ISSN 1072-8368
2024
REMARK
1
REMARK
1 REFERENCE 1
REMARK
1 AUTH
M.KOKKINIDIS,M.VLASSI,Y.PAPANIKOLAOU,D.KOTSIFAKI,
REMARK
1 AUTH 2 A.KINGSWELL,D.TSERNOGLOU,H.J.HINZ
REMARK
1 TITL
CORRELATION BETWEEN PROTEIN STABILITY AND CRYSTAL
REMARK
1 TITL 2 PROPERTIES OF DESIGNED ROP VARIANTS
REMARK
1 REF
PROTEINS.STRUCT.,FUNCT.,
V. 16
214 1993
REMARK
1 REF 2 GENET.
REMARK
1 REFN
ASTM PSFGEY US ISSN 0887-3585
0867
REMARK
2
REMARK
2 RESOLUTION. 1.4 ANGSTROMS.
REMARK
REMARK 999 SEQUENCE NUMBER IS ALSO THAT FROM PDB ENTRY
SEQRES
1
65 MET THR LYS GLN GLU LYS THR ALA LEU ASN MET ALA ARG
SEQRES
2
65 PHE ILE ARG SER GLN THR LEU THR LEU LEU GLU LYS LEU
SEQRES
3
65 ASN GLU LEU ALA ASP ALA ALA ASP GLU GLN ALA ASP ILE
SEQRES
4
65 CYS GLU SER LEU HIS ASP HIS ALA ASP GLU LEU TYR ARG
SEQRES
5
65 SER CYS LEU ALA ARG PHE GLY ASP ASP GLY GLU ASN LEU
1RPO
2
1RPO
3
1RPO
4
1RPO
5
1RPO
6
1RPOA 1
1RPO
7
1RPO
8
1RPO
9
1RPO 10
1RPO 11
1RPO 12
1RPO 13
1RPO 14
1RPO 15
1RPO 16
1RPO 17
1RPO 18
1RPO 19
1RPOA 2
1RPOA 3
1RPO 22
1RPO 29
1RPO 30
1RPO 94
1RPO 95
1RPO 96
1RPO 97
1RPO 98
1RPO 99
1RPO 100
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
ATOM
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
1RPO
num.atomo
tipo atomo
tipo residuo
num. residuo
1
2
3
4
5
6
7
7
8
9
10
11
N
CA
C
O
CB
CG
SD
SD
CE
N
CA
C
MET
MET
MET
MET
MET
MET
MET
MET
MET
THR
THR
THR
1
1
1
1
1
1
1
1
1
2
2
2
1.132
2.398
3.091
2.642
3.281
3.718
4.491
4.491
3.039
4.142
4.851
5.719
x
3.053
3.546
2.466
1.298
3.936
2.760
3.371
3.371
3.650
2.833
1.806
1.011
y
2.801
2.283
1.442
1.451
3.463
4.291
5.797
5.797
6.762
0.689
-0.025
0.950
z
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
1.00
25.53
27.85
21.34
19.29
23.96
27.52
26.29
26.29
25.19
13.20
12.76
14.35
115
116
117
118
119
120
121
121
122
123
124
125
myoglobin AND aplysia
utilizzo di un semplice programma di
grafica molecolare RasMol
Metodi computazionali per la predizione della
struttura tridimensionale proteica:
quali sono e che grado di affidabilità offrono?
i metodi ab initio sono i più ambiziosi, ma i tempi di
calcolo sono ancora TROPPO LUNGHI perché
possano anche avere un interesse pratico
i metodi knowledge based sono attualmente quelli
che sembrano funzionare meglio, anche se sono
meno soddisfacenti dal punto di vista della
comprensione ultima dei meccanismi naturali del
folding delle proteine
obiettivi intermedi e meno ambiziosi
la predizione della struttura secondaria:
quali segmenti della sequenza formano a-eliche e quali
filamenti b o anse?
il riconoscimento del fold (fold recognition o
threading):
data una sequenza proteica e un insieme di possibili fold
tridimensionali, è possibile identificare il fold più simile
a quello davvero assunto dalla sequenza?
il modelling per omologia (homology modelling):
se una proteina a struttura non nota è omologa ad una
proteina a struttura nota, possiamo assumere che le due
strutture siano simili e usare l’una per generare un
modello dell’altra?
modelling per omologia (homology modelling)
La qualità del modello dipende dalla similarità tra le
sequenze delle due proteine
in generale, a maggiore identità di sequenza tra due
proteine, corrisponde maggiore similarità tra le
corrispondenti strutture
se l’identità tra due sequenze proteiche è superiore
al 30%, si può assumere che le loro strutture saranno
simili
se una proteina a struttura non nota ha almeno il 30%
di identità con una proteina a struttura nota, si può
usare la seconda come templato per generare un
modello per omologia della prima
Come nel confronto di sequenze e’ necessario allinearle, nel
confronto di strutture 3D e’ necessario sovrapporle come
corpi rigidi scegliendo una regola di corrispondenza tra
coppie di atomi o di residui nelle due strutture. La prima
difficolta’ consiste nel fatto che le due proteine molto
spesso non hanno lo stesso numero di residui. Per la
sovrapposizione si possono utilizzare le catene dei carboni
alfa appartenenti agli elementi di struttura secondaria
perche’ in genere le inserzioni e delezioni si accumulano nei
loops che possono semplicemente venire esclusi dalla
sovrapposizione. I metodi di confronto 3D utilizzano l’
allineamento delle sequenze per decidere la regola di
corrispondenza alla base della sovrapposizione strutturale
Un allineamento strutturale può essere valutato in base alla
deviazione quadratica media (root mean square deviation o
r.m.s.d.), al numero di atomi che sono stati accoppiati nella
sovrapposizione e alla valutazione della similarità dei residui
sovrapposti.
L’r.m.s.d. o r.m.s. di una sovrapposizione tridimensionale è la
distanza media tra gli atomi di tutte le coppie che hanno
partecipato all’allineamento strutturale, per cui tanto più
bassa è l’r.m.s. tanto migliore sarà l’allineamento strutturale
calcolato
N
r.m.s.d =
åD
2
i
N
i =1
D = distanza tra coppie di atomi appaiati
N = numero di coppie considerate
valutazione dell’allineamento strutturale
un altro criterio di valutazione di un allineamento strutturale è
rappresentato dal numero di atomi o di residui che sono stati
accoppiati
si cerca di massimizzare il numero di atomi accoppiati e di
minimizzare la corrispondente r.m.s.
a parità di numero di residui accoppiati, il migliore allineamento
strutturale sarà quello con minore r.m.s.
a parità di r.m.s. verrà considerato migliore l’allineamento
strutturale operato con un maggior numero di atomi accoppiati
oltre a questi due valori tipici delle sovrapposizioni
tridimensionali, si può anche considerare il punteggio di
similarità dei residui accoppiati
r.m.s.d.tra atomi della catena principale del core
Grafico identità di sequenza/rms tra le strutture
2,5
2,0
1,5
1,0
0,5
0,0
100
75
50
25
% di residui identici nel core proteico
0
Lisozima di pollo
Alpha-lactalbumina
di babbuino
37% identità
di sequenza
1
1
98
101
KQFTKCELSQ NLYD--IDGY GRIALPELIC TMFHTSGYDT QAIVENDE-S TEYGLFQISN ALWCKSSQSP QSRNICDITC DKFLDDDITD DIMCAKKILD
KVFGRCELAA AMKRHGLDNY RGYSLGNWVC AAKFESNFNT QATNRNTDGS TDYGILQINS RWWCNDGRTP GSRNLCNIPC SALLSSDITA SVNCAKKIVS
* * .***.
.
.* *
.* . .* .
* ..* **
* . * *.**..**..
**. ...* ***.*.* *
.* ***
. *****.
IK-GIDYWIA HKALCT-EKL EQWL--CEKDGNGMNAWVA WRNRCKGTDV QAWIRGCRL
*.. *.* . *
. . *. *
Predizione della struttura terziaria - diagramma di flusso
Confronto con banche dati di sequenze proteiche
sì
Allineamento di sequenze.
E’ nota la struttura?
no
no
Predizione di struttura secondaria
sì
Modelling per omologia
usando coordinate di proteina
a struttura nota
Ricerche di motivi,
fold recognition, ab initio
Valutazione accuratezza della predizione
per costruire modelli per omologia di proteine che abbiamo
una alta identità di sequenza con una proteina a struttura
nota, si può utilizzare il server automatico SwissModel
SwissModel è disponibile all’indirizzo:
http://www.expasy.ch/swissmod/SWISS-MODEL.html
prende in input una sequenza proteica e l’indirizzo di posta
elettronica della persona che sottomette la sequenza
cerca nel PDB possibili strutture che possano fare da templato
(che abbiano cioè una buona identità di sequenza con la
proteina query)
spedisce con la posta elettronica le coordinate del modello o le
motivazioni della propria incapacità a produrne uno di buona
affidabilità
Scarica

La predizione di strutture 3D