Analisi delle
strutture
RMSD
rai e rbi sono le posizioni dell´ atomo i nelle strutture a e b,
n è il numero di atomi nelle strutture.

Root-mean-square deviation

Deviazione quadratica media

Serve per paragonare strutture identiche, eccetto rotazioni e
traslazioni

Cosa fare se le strutture sono diverse?
Similarità strutturale

DALI


SSAP


Usato per FSSP
Usato per CATH
CE

Liberamente disponibile, più “informatico“
DALI
Strategia: Dividi matrice di distanze delle due proteine in sottomatrici 6 x
6.Cerca la soluzione massimale delle sottomatrici simili.
Evoluzione convergente

1vid - Transferase (EC
2.1.1.6)

Rattus norvegicus
 Inattivazione di
neurotrasmettitori

1chd - Methylesterase (EC
3.1.1.61)

Salmonella typhimurium
 Risposta sensorica della
cellula
1vid
1chd
TKEQRILRYVQQNAKPGDPQSVLEAIDTYCTQKEWAMNVGDAKGQIMDAVIREYSPSLVL
...................................................llsseKLIA
1vid
1chd
ELGAYC.GYSAVRMARLLQ.PGARLLTMEMNP.DYAAITQQMLNFA.GLQD.........
IGAstggTEAIRHVLQPLPlSSPAVIITQHMPpGFTRSFAERLNKLcQISVkeaedgerv
1vid
1chd
...KVTILN............................GASQDLIPQLKKKYDVDTLDMVF
lpgHAYIAPgdkhmelarsganyqikihdgppvnrhrPSVDVLFHSVAK..HAGRnAVGV
1vid
1chd
LDHWKDRYLPDTLLLEK.CGLLRKGTVLLADNVIVPGTPDFLAYVRGSSSFECTHYSSYL
ILTGMGN..dGAAGMLAmYQAG...aWTIAQNEA....................scvvfg
1vid
1chd
EYMKVVDGLEKAIYQGPSX.................
mpreainmggVSEVvdlsqvsqqmlakisagqairi
1vid
•
Rossmann fold
•
•
10% identità di sequenza
RMSD 3.0 Å per 104 su 198 residui
1chd
Similarità di sequenza –
similarità di struttura?
Coppie di proteine con struttura simile
(Rost, 1999)
Coppie di proteine con struttura diversa
Osservazione: Se un allineamento contiene più del 30% ca. di residui identici, allora
le strutture molto probabilmente apparterranno allo stesso fold. Per allineamenti più
corti la soglia è più alta.
Però: in alcuni casi proteine con meno del 20% di identità di sequenza appartengono
alla stessa classe di fold (“twilight zone”).
Classificazioni
strutturali
Manuale
Semiautomatica
Automatica
SCOP
CATH
FSSP
Structural
Classification
Of
Proteins
Class,
Architecture,
Topology,
Homology
Families of
Structurally
Similar
Proteins
Classificazione delle proteine:

SCOP (Structural Classification of Proteins,
scop.mrc-lmb.cam.ac.uk/scop/, Murzin et. al.):
1195 folds (major structural similarity in terms of secondary
structures e.g. globin-like, Rossman fold); 3902 families (clear
evolutionary relationship or homology e.g. globins, Ras)

CATH (Class, Architecture, Topology, Homologous
Superfamily, www.biochem.ucl.ac.uk/bsm/cath/, Orengo et. al):
40 architectures (gross arrangment of secondary structures
e.g. non-bundle, sandwich); 1282 topologies (connectivity of
secondary structures e.g. globin-like, Rossman fold); 2549
families (clear homology, same function)
Esempi di categorie di fold (CATH architectures)
SCOP

URL: http://scop.mrc-lmb.cam.ac.uk/scop/

Class


(Common) Fold


Omologia
Family


Similarità strutturale
Superfamily


a, b, a/b, a+b, ...
Omologia e funzione
Principalmente annotata a mano

Alexey Murzin
 “Gold standard“
Structural Classification Of Proteins
CATH

URL: http://www.biochem.ucl.ac.uk/bsm/cath/


Class
Architecture
Topology
Homologous superfamily

Semiautomatica



Solo Architecture viene assegnata manualmente
CATH
DHS
PDBsum
FSSP

URL: http://www.ebi.ac.uk/dali/fssp/

Allineamenti strutturali


Utilizza DALI
Completamente automatico
Esercizi
CATH: http://www.cathdb.info/
SCOP: http://scop.mrc-lmb.cam.ac.uk/scop/
Ricerca con SRS in FSSP
http://www.ebi.ac.uk/dali/
Predizione della
struttura
secondaria
Predizione della struttura secondaria e terziaria
Predire la struttura secondaria
di una proteina è un primo
passo comunemente utilizzato
per la sua classificazione ed il
modelling.


Tre stati sono generalmente predetti:
a-elica (‘H‘)
filamento b (‘E‘, per ‘extended‘)
coil/loop (‘C‘ o ‘.‘)
Come si determina la struttura
secondaria nei file PDB?
b-strand
a-helix
DSSP

Dictionary of secondary structure in proteins (Kabsch & Sander,
1983)

DSSP cerca ponti di idrogeno per assegnare a-eliche e filamenti
b.

La definizione può essere ambigua.

Le strutture secondarie assegnate da DSSP ed altri metodi (p.es.
STRIDE) sono identiche solo nel 85-90% dei casi.

Questo è quindi il limite teorico per qualsiasi metodo di
predizione.

DSSP è comunque il “gold standard“ per determinare la struttura
secondaria di strutture PDB.
==== Secondary Structure Definition by the program DSSP, updated CMBI version by ElmK / April 1,2000 ==== DATE=9-JUN-2003
REFERENCE W. KABSCH AND C.SANDER, BIOPOLYMERS 22 (1983) 2577-2637
HEADER
ONCOGENE PROTEIN
06-JUN-91
121P
COMPND
H-RAS P21 PROTEIN COMPLEX WITH GUANOSINE-5'-[B,G-METHYLENE]
SOURCE
HUMAN (HOMO SAPIENS) CELLULAR HARVEY-RAS GENE TRUNCATED AND
AUTHOR
U.KRENGEL,K.SCHEFFZEK,A.SCHERER,W.KABSCH,A.WITTINGHOFER,
166 1 0 0 0 TOTAL NUMBER OF RESIDUES, NUMBER OF CHAINS, NUMBER OF SS-BRIDGES(TOTAL,INTRACHAIN,INTERCHAIN)
8891.0
ACCESSIBLE SURFACE OF PROTEIN (ANGSTROM**2)
125 75.3
TOTAL NUMBER OF HYDROGEN BONDS OF TYPE O(I)-->H-N(J) , SAME NUMBER PER 100 RESIDUES
24 14.5
TOTAL NUMBER OF HYDROGEN BONDS IN
PARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES
11 6.6
TOTAL NUMBER OF HYDROGEN BONDS IN ANTIPARALLEL BRIDGES, SAME NUMBER PER 100 RESIDUES
...
#
RESIDUE
1
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10
11
11
12
12
13
13
14
14
15
15
16
16
17
17
18
18
19
19
20
20
AA
M
T
E
Y
K
L
V
V
V
G
A
G
G
V
G
K
S
A
L
T
STRUCTURE BP1 BP2 ACC
0
0 120
E
-a
51
0A 61
E
-a
52
0A 93
E
-a
53
0A 13
E
-a
54
0A 36
E
-ab 55 77A
2
E
-ab 56 78A
0
E
+ab 57 79A
0
E
+ b
0 80A
0
0
0
1
S > S0
0
9
T 3 S+
0
0
56
T 3 S+
0
0
61
S < S0
0
3
S > S+
0
0
15
H > S+
0
0
12
H > S+
0
0
26
H > S+
0
0
11
H X S+
0
0
1
H X S+
0
0
0
N-H-->O
0, 0.0
48,-0.6
48,-0.2
48,-3.1
-2,-0.5
48,-2.4
70,-2.0
48,-2.6
70,-2.5
-2,-0.3
70,-0.5
48,-0.4
-3,-0.1
-3,-1.5
-4,-0.2
-5,-0.3
2,-0.2
1,-0.2
-4,-2.6
-4,-2.1
Struttura secondaria
Numerazione residui
O-->H-N
2,-0.2
50,-2.7
2,-0.5
50,-2.7
71,-2.8
50,-2.6
72,-2.6
50,-1.3
72,-2.7
72,-0.1
3,-1.5
-1,-0.2
-1,-0.2
70,-0.1
4,-2.6
4,-2.1
4,-2.9
4,-2.0
4,-2.3
4,-3.2
N-H-->O
0, 0.0
2,-0.0
-2,-0.2
-2,-0.4
48,-0.2
-2,-0.9
-2,-0.3
-2,-0.4
-2,-0.6
49,-0.3
78,-0.3
1,-0.2
-2,-0.1
67,-0.1
66,-0.1
1,-0.2
1,-0.2
2,-0.2
2,-0.2
-5,-0.2
O-->H-N
50,-0.1
2,-0.4
50,-0.2
2,-0.9
72,-1.4
2,-0.4
2,-0.6
2,-0.3
2,-0.2
3,-0.1
5,-0.3
77,-0.1
-2,-0.1
-2,-0.1
5,-0.2
5,-0.1
5,-0.3
-1,-0.2
-2,-0.2
5,-0.3
Accessibilità
TCO
0.000
-0.425
-0.926
-0.984
-0.818
-0.807
-0.989
-0.917
-0.859
-0.769
-0.035
-0.287
0.488
0.656
0.637
0.933
0.902
0.893
0.969
0.898
KAPPA ALPHA PHI
360.0 360.0 360.0
360.0-161.0 -62.9
5.2-154.9-114.4
7.3-150.5-117.8
23.2-177.6 -97.0
12.1-159.7-105.8
5.7-152.9-130.1
27.0 167.6-104.2
11.3 110.3-132.1
62.0 -48.8 147.6
72.5 -71.3 -59.5
113.6
9.3 -60.7
83.8 121.2 85.1
88.2 -99.1 -77.9
71.8 144.9 108.4
81.4 41.1 -53.7
112.1 53.2 -68.2
109.8 50.4 -61.1
112.7 45.5 -62.7
113.5 48.0 -60.1
PSI
162.6
132.1
142.4
122.8
104.1
146.7
130.4
120.7
163.3
166.5
161.3
128.1
7.0
-14.8
24.2
-50.0
-44.3
-37.2
-52.2
-41.3
X-CA
-5.9
-4.8
-4.5
-2.5
-3.6
-0.5
-0.3
2.9
2.8
5.3
6.2
6.6
9.6
10.9
10.6
7.3
6.7
10.2
10.2
6.9
Angoli torsionali
(f,y)
.
.
.
.
.
.
.
.
.
.
.
Y-CA
31.9
28.9
29.7
27.5
27.6
27.0
26.7
27.2
25.2
24.3
25.0
28.4
30.4
28.2
31.0
30.4
34.1
35.1
32.5
33.8
Z-CA
-6.7
-4.8
-1.1
1.3
5.0
7.0
10.8
12.9
16.2
18.9
22.5
24.1
23.1
20.2
17.7
15.9
15.6
14.7
11.9
10.5
Accuratezza

La misura più intuitiva e diffusa è il Q3, ossia la percentuale di
residui correttamente predetta.

La formula è:
Q3 = 100 * 1/N *
S
i=a,b,loop
Mi
N è il numero totale di residui,
Mi sono le predizioni corrette (a, b, loop).

Un‘altra misura utilizzata è il SOV (segment overlap) che tende a
penalizzare ulteriormente la presenza e/o assenza di interi
elementi di struttura secondaria. (La formula è troppo complessa
per essere spiegata brevemente)

Generalmente i valori di SOV sono ca. 5-6% sotto quelli di Q3.
ALA
TRP
PRO
Metodo di Chou & Fasman
(1974)

Gli aminoacidi hanno
propensioni diverse a
formare strutture a-eliche
e filamenti b.

La prolina p.es.
interrompe le a-eliche

L‘approccio si può
migliorare considerando il
contesto locale dei
residui.

I risultati migliorano
notevolmente utilizzando
metodi di machine
learning.
Machine learning
Fase di apprendimento
Fase di predizione
Struttura secondaria
Struttura secondaria
Black box
(rete neurale)
Black box
(rete neurale)
Sequenze
Sequenze
Reti neurali
Reti neurali

Tutti i migliori metodi di predizione di struttura secondaria (eccetto i
metodi consensus) utilizzano reti neurali.

La parametrizzazione delle reti neurali richiede molti esempi (fino a
2000) di proteine non omologhe.

Per la predizione del residuo i della proteina si utilizza il contesto
locale (p.es. i-6, ..., i-1, i, i+1, ..., i+6)

Ogni residuo è codificato in modo sparso. 21 unità per ogni posizione:
20 per ogni tipo di residuo, uno per l‘assenza (gap).
Profile HeiDelberg (PHD)

Il primo metodo di “terza generazione“. (Rost & Schneider, 1993)
Q3 al 72% ca.

Due novità importanti:



Utilizzo di informazioni sulle sequenze omologhe (estratte da HSSP).
Utilizzo di tre livelli di predizione per ridurre gli errori di predizione.
PHD
Oltre PHD

Negli ultimi anni sono usciti nuovi programmi in grado di incrementare
il valore medio di Q3 fino al 76-77% ca.

Un esempio è PSIPRED (Jones 2000) che utilizza i profile di PSIBLAST per migliorare l‘informazione derivante dall‘omologia a
disposizione della rete neurale. Inoltre utilizza molti più esempi per la
fase di training. http://bioinf.cs.ucl.ac.uk/psipred/

JPRED (Cuff & Barton, 1999) è un esempio di metodo consensus.
Invece di creare un nuovo predittore, si cerca di combinare i risultati di
altri metodi di successo per migliorare il risultato finale. Non è più stato
attualizzato da oltre due anni.
PSIPRED
I metodi consensus incrementano l‘affidabilità delle regioni predette in
modo unanime.
Il Q3 medio per queste regioni arriva al 82-84%, quello complessivo è
attorno al 77-78%, superando i migliori metodi singoli di 1-2%. (Albrecht &
Tosatto, 2003)
Scarica

Struttura delle proteine (II)