Dottorato di ricerca in Biologia Computazionale (XVI ciclo)
Dott.ssa Costantini Susan
Basi molecolari dell’attività biologica
delle proteine:
l’approccio computazionale e bioinformatico
alla comprensione della relazione
Struttura-Funzione
20 dicembre 2004
Sequenza – Struttura - Funzione
MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDP
ENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARL
NVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDE
YANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDP
IRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE
YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNII
QAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEM
AENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVN
YYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFG
WEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY
YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMR
FGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNS
VPPVKPLRH
Genoma
Sequenze-proteine
Strutture-proteine
Funzioni
• Meccanismo d’azione
• Specificità per ligandi
• Interazioni proteina-proteina
20 dicembre 2004
Struttura tridimensionale delle proteine
Metodi Sperimentali
• Diffrazione ai Raggi X (RX)
• Risonanza Magnetica Nucleare (NMR)
Metodi Computazionali
• Riconoscimento di fold
• Folding ab-initio
• Modellamento
Modellamento Comparativo
Comparativo
20 dicembre 2004
Modellamento Comparativo
Permette di costruire il modello 3D di una proteina (‘target’)
a partire da proteine omologhe (‘template’), la cui struttura è
stata caratterizzata sperimentalmente.
La percentuale di identità di sequenza tra la proteina target
e quelle template deve essere superiore al 20-40%.
Alta identità di sequenza
buon allineamento delle sequenze
buoni modelli ottenuti per omologia
20 dicembre 2004
Modellamento Comparativo
Il modellamento per omologia richiede l’utilizzo di numerosi
strumenti bioinformatici e computazionali:
- per l’estrazione di informazioni da banche dati di sequenze
(UNIPROT) e di strutture tridimensionali (PDB)
- per il confronto e l’allineamento delle sequenze (BLAST e
CLUSTAL)
- per la costruzione dei modelli strutturali per la proteina in esame
(MODELER,QUANTA, INSIGHT)
- per la valutazione della loro qualità (PROCHECK e PROSA).
20 dicembre 2004
Modellamento comparativo
TARGET:
AQYSKRREVQCSVTDSEKRSLVLVPNSMELHAVM……
PROTEINA TARGET
BLAST
RICERCA DEL TEMPLATE
TEMPLATE:
VPIRQLHYRLRDEQQKSLVLSDPYELKALHLNGQN…
CLUSTALW
---VPIRQLHYRLRDEQQKSLVLSDP-YELKALHLNGQNINQQVIF
AQYSKRREVQCSVTDSEKRSLVLVPNSMELHAVMLQGGSDRCKVQL
ALLINEAMENTO MULTIPLO
TARGET-TEMPLATE
SMSFVQ--GEPSNDKIPVALGLKGKNLYLSCVMKDGTPTLQLESVD
NMSTYLDRTP-SAEAQTVALGIKGTNYYLSCHKDGEEPTLHLEVVD
MODELLER
PKQYPKKKM----EKRFVFNKIEV-KSKVEFESAEFPNWYISTSQA
MODELLO DELLA PROTEINA
-KASLANITSDSDMVRFLFYKQDSGLNISTLTSVPFSNWYISTAEE
TARGET A PARTIRE DALLA
STRUTTURA TEMPLATEEHKPVFLGNNSG-QDIIDKFTMESVS
NNRPVQMCQESAR-RHRAFNIDNLKV
PROCHECK
VALUTAZIONE DEL MODELLO
20 dicembre 2004
Scopo della tesi
Applicazioni di metodi computazionali, già noti, per
studiare le proprietà strutturali e funzionali delle
proteine.
Sviluppo di nuovi strumenti di analisi e predizione, al
fine di migliorare quelli già esistenti.
20 dicembre 2004
Applicazioni dei metodi computazionali
1. Modellamento di complessi tra interleuchine-1b ed
i loro recettori.
2. Studio della struttura e dell’interazione tra le
proteine coinvolte nella malattia celiaca.
3. Simulazioni, mediante l’utilizzo del modellamento
comparativo, dei cambiamenti conformazionali che si
verificano quando le proteine interagiscono tra loro.
20 dicembre 2004
1. Modellamento di complessi tra interleuchine1b ed i loro recettori
Interleuchina-1 (IL-1) è un mediatore della risposta immunitaria
IL-1
IL-1a , IL-1b, IL-1ra
L’attività biologica di IL-1
conseguenza del “binding” con il proprio recettore
formazione del complesso IL-1/IL-1R.
Esistono due recettori: IL-1RI e IL-1RII
20 dicembre 2004
1. Modellamento di complessi tra interleuchine1b ed i loro recettori
Predizione della struttura tridimensionale
- di IL-1b di spigola e di trota
- dei recettori di tipo I (IL-1RI) di trota e topo.
Simulazione dei complessi IL-1b/IL-1RI in trota e topo.
Simulazione del complesso IL-1b (trota)/IL-1RI (topo)
al fine di dare una interpretazione a livello molecolare dei dati
sperimentali circa l’attività biologica di rIL-1b di trota.
20 dicembre 2004
IL-1b di spigola e trota
Ricerca dei template con BLAST:
IL-1b umana [PDB: 1IOB]
IL-1b topo
[PDB: 2MIB]
IL-1b
uomo
topo
trota
spigola
uomo
100
78 (86)
34 (49)
37 (51)
100
36 (49)
32 (50)
100
54 (71)
topo
trota
spigola
100
In tabella sono riportate le % di identità di sequenza e tra parentesi
le similarità.
20 dicembre 2004
IL-1b di spigola
N-end
IL-1b di trota
N-end
b-bulge loop
C-end
PDB: 1K5L
C-end
b-bulge loop
PDB: 1OOX
Entrambi sono caratterizzati da una piccola a-elica (5% della
sequenza) e da 12 b-strand antiparalleli (40% della sequenza),
definendo la struttura come “mainly-beta” con topologia di tipo
b-trefoil, in accordo con la classificazione di CATH e SCOP.
20 dicembre 2004
IL-1RI di topo e trota
Ricerca del template con BLAST: IL-1RI umano [catena B in
1ITB dove è presente il complesso umano]
IL-1RI
uomo
topo
trota
uomo
100
64 (81)
22 (40)
100
20 (39)
topo
trota
100
In tabella sono riportate le % di identità di sequenza e tra parentesi
le similarità.
20 dicembre 2004
N-end
a
Dominio I
C-end
IL-1RI di trota
Dominio III
PDB: 1OU1
Dominio II
b
IL-1b
IL-1b/IL-1RI trota
IL-1RI
……anche per topo: è stato simulato il complesso utilizzando IL-1b
caratterizzato ai RX [PDB: 2MIB] ed IL-1RI modellato per omologia
[PDB: 1OU3].
20 dicembre 2004
Da dati bibliografici ……
IL-1b di trota è stata prodotta come proteina ricombinante in
Escherichia coli.
Test di attività biologica:
rIL-1b è risultata capace di aumentare la proliferazione cellulare
nelle cellule murine D10.G4.1.
Lo stesso livello di proliferazione è stato indotto da rIL-1b umana
utilizzandone una quantità 1000 volte più bassa di quella
necessaria per rIL-1b di trota.
Questo fatto può essere una conseguenza delle differenze
strutturali tra IL-1 nei mammiferi e nei pesci.
Ciò rende rIL-1b di trota meno affine al recettore (IL-1RI) di topo.
Obiettivo: comprensione a livello molecolare del fenomeno biologico.
20 dicembre 2004
Complesso IL-1b trota/IL-1RI topo
IL-1b
IL-1RI
Complessi
Van der Waals
Elettrostatico
Energia
totale
IL-1b (trota) / IL-1RI (trota)
- 164.85
- 951.09
- 1115.94
IL-1b (topo) /IL-1RI (topo)
- 129.69
- 1039.57
- 1169.26
IL-1b (trota) / IL-1RI (topo)
- 155.45
- 583.54
- 738.99
* Le Energie sono espresse in Kcal/mol
20 dicembre 2004
Esposizione al solvente degli AA dell’IL-1b di trota nei due complessi
AA
Posizione
% esposizione con
IL-1R di trota
% esposizione con
IL-1R di topo
Differenze
ALA
153
36,5
93,3
-56,8
SER
6
7,2
47,7
-40,5
GLU
11
6,9
37,8
-30,9
THR
117
41,6
69,8
-28,2
MET
138
14,8
42,4
-27,6
SER
5
6,2
33,7
-27,5
GLU
91
68
91,8
-23,8
GLY
39
64,3
87,6
-23,3
.....
....
...
..
....
ASP
141
27,2
10,9
16,3
GLU
61
39,7
23,3
16,4
PRO
55
82,9
65,4
17,5
ASN
166
69,8
50,8
19
ILE
58
23,7
3,5
20,2
THR
86
31,5
11,3
20,2
THR
60
38,6
15,7
22,9
MET
25
25,4
0,9
24,5
ASN
26
62,4
29,6
32,8
20 dicembre 2004
- Risultati L’energia di interazione nell’eterocomplesso tra IL-1b (trota) e IL-1RI
(topo) è risultata più alta di quella nell’omocomplesso, indicando
che il legame tra IL-1b di trota ed IL-1RI di topo è molto debole.
Le interazioni elettrostatiche sono risultate molto ridotte
nell’eterocomplesso e questa è probabilmente una conseguenza
delle differenze amminoacidiche, che provocano una perdita di
catene laterali cariche e, quindi, di ponti salini.
Misurando l’esposizione al solvente degli amminoacidi di IL-1b di
trota nell’omocomplesso e nell’eterocomplesso, abbiamo anche
verificato come alcuni residui hanno valori completamente differenti
una diversa capacità dell’IL-1b di trota di legarsi ai due recettori, in
accordo con quanto riportato in letteratura.
Scapigliati G, Costantini S, Colonna G, Facchiano A, Buonocore F,
Bossù P, Cunningham C, Holland JW and Secombes CJ. (2004)
Modelling of fish interleukin-1 and its receptor. Dev. Comp.
Immunol. 28, 429-441.
20 dicembre 2004
2. Studio della struttura e dell’interazione tra le
proteine coinvolte nella malattia celiaca
La celiachia si manifesta, in individui geneticamente predisposti,
in seguito ad ingestione di gliadina, il maggiore costituente del
glutine del grano.
Essa è associata ai geni dell’HLA codificanti per gli eterodimeri
DQ2 e DQ8, che sono esposti sulla superficie delle cellule APC
(Cellule Presentanti l’Antigene).
Queste molecole legano
modo non covalente i peptidi
gliadina ( ) e li espongono
riconoscimento dei linfociti
(CD4+).
in
di
al
T
20 dicembre 2004
Un peptide antigenico (peptide di gliadina) si lega in modo più efficace
alle molecole DQ2 o DQ8 quando possiede dei residui amminocidici con
carica negativa in determinate posizioni di ancoraggio.
Recettore Cellule T
Peptide
DQ2
Sollid LM Ann Rev Immunol 2000:
53-81
I peptidi di gliadina non hanno molti amminoacidi carichi
negativamente. Ma se sono sottoposti a reazioni di deammidazione o
nell’ambiente acido dello stomaco o ad opera della transglutaminasi
tissutale, alcuni residui di glutammina sono convertiti in acido
glutammico.
20 dicembre 2004
2. Studio della struttura e dell’interazione tra le
proteine coinvolte nella malattia celiaca
Modellamento per omologia della struttura 3D del dimero DQ2,
presente in individui celiaci.
Simulazione del complesso con vari peptidi di glutine per
investigare le basi molecolari di questa interazione.
Simulazione degli effetti della deammidazione di residui di
glutammina nelle posizioni di ancoraggio e di altre modifiche al
fine di dare una spiegazione a livello molecolare di risultati
sperimentali relativi all’affinità di questi peptidi per il dimero
DQ2.
20 dicembre 2004
Dimero DQ2
Le sequenze delle due catene del DQ2 sono state modellate per omologia
utilizzando come riferimento quelle del dimero DQ8 (percentuale di
identità di sequenza del 91%).
Dominio N-terminale – catena b
Domini C-terminali
Sito di legame
Dominio N-terminale – catena a
PDB: 1NBN
20 dicembre 2004
Peptidi di glutine usati nelle simulazioni
Peptide PDB
Alfa-I
Alfa-II
Alfa-III
Glia-a20
Glia-g2
Gamma-I
Gamma-II
Gamma-III
Gamma-IV
Glt-156
Glt-17
P1
P9
|
|
LVEALYLVCGERGG
QLQPFPQPQLPY
PQPQLPYPQPQ
PYPQPQLPY
FRPQQPYPQ
PYPQQPQQP
PQQPQQSFPQQQRP
IIQPQQPAQ
FPQQPQQPYPQQP
FSQPQQQFPQPQ
PFSQQQQSPF
PFSQQQQPV
Le sequenze dei peptidi di glutine usati nelle simulazioni sono allineate a
quella del peptide di insulina presente nel modello del DQ8 usato come
riferimento (template) [PDB: 1JK8].
I residui di glutammina che vengono deammidati sono riportati in rosso.
20 dicembre 2004
-----E-------K--P6 Alfa-I
-----G--QLQPFPQPQLPY
Alfa-I
Alfa-I
--------E--FRPQQPYPQ Alfa-II
Glia-a20
Energie di interazione
--------K--QLQPFPQPQLPY
Alfa-I
---E------------G--tra il dimero DQ2 ed i
--------E-----K------------K-----G----peptidi di glutine
PQPQLPYPQPQ
Alfa-II (62
--------G--Alfa-III
---E------P4
PYPQQPQQP
Glia-g2
---K------PQPQLPYPQPQ
Alfa-II (62-72)
Q
---E----Alfa-II
Glia-a20
---G---------E------------E-----E--------K---------E--E-- Glia-g2
----K--------G------P-2
P7 P9
----G---------E-----Q
Q Q
PQQPQQSFPQQQRP
Gamma-I
---E------E
Gamma-I
----K--------------E------EK-----EGamma-I
----G--------------K------EG-----E
---E------E
---------G------EE-----E
---EK-----E
-----------E----EG-----E
-----------K-Gamma-II
PYPQPQLPY
Alfa-III
---EE-----E
-----------G----E----Gamma-III
---------E-E----K----PYPQPQLPY -E-----------Alfa-III
---G----Gamma-IV
---E----- -E-------E-E------E-----K----- -E-------K-E-Glt-156
---G----------K---E-------E-K------E--------G---E------KE-E-Glt-17
-----K--- -E------GE-E-Glia-a20
-----G---FRPQQPYPQ
---E----Le barre rappresentano la differenza di energia di interazione
tra il peptide naturale
e quelli
IIQPQQPAQ
Gamma-II
---K----FRPQQPYPQ ----E---Glia-a2020 dicembre 2004
modificati.
---G-----600
-500
-400
-300
-200
-100
0
QLQPFPQPQLPY
--------E----------K----------G---
Alfa-I
PQPQLPYPQPQ
---E---------K---------G----------E---------K---------G--------E------E
---EK-----E
---EG-----E
---EE-----E
Alfa-II (62-72)
PYPQPQLPY
---E-------K-------G---------E-------K-------G---
Alfa-III
FRPQQPYPQ
---E-------K-------G-----
Glia-a20
PYPQQPQQP
---E----------E----E--E--
Glia-g2
PQQPQQSFPQQQRP
---------E------------K------------G--------------E------------K------------G----------E-E--E------------E-------E-E--E-------K-E--E-------E-K--E------KE-E--E------GE-E--
Gamma-I
IIQPQQPAQ
----E-------K-------G----
Gamma-II
FPQQPQQPYPQQP
--E--------------E--------E--E-------
Gamma-III
FSQPQQQFPQPQ
----E------------E--------E-E-----
Gamma-IV
PFSQQQQSPF
---E-----------E-----E--E---
Glt-156
PFSQQQQPV
---E---------E-----E-E---
Glt-17
Dettaglio della superficie del sito di legame del dimero
DQ2 con il peptide alfa II.
Region N-terminale del peptide
Posizione P4
Regione C-terminale del peptide
Lys b71
Posizione P7
20 dicembre 2004
- Risultati (1) La deammidazione dei peptidi nelle posizioni p4, p6 e p7 rende
i complessi più stabili.
La presenza di una carica positiva (Lys) in p6 e p7 nei peptidi
riduce la loro affinità per il dimero.
I nostri risultati confermano in gran parte i dati sperimentali
riportati in letteratura.
I nostri risultati ci danno delle informazioni riguardo altri peptidi
(gamma-III, gamma-IV e glt-156) per i quali non ci sono analoghi
dati sperimentali:
1.
le loro probabili posizioni di ancoraggio.
2. la sostituzione glutammina-glutammico
l’interazione DQ2/peptide per questi peptidi
può
migliorare
20 dicembre 2004
- Risultati (2) -
S. Costantini, G. Colonna, M. Rossi, A.M. Facchiano: “Binding of
gluten peptides to the coeliac disease-associated HLA-DQ2
molecule by computational methods”, In Proceedings of the 8th
Gluten Workshop, edited by D. La Fiandra, S. Masci and R. D’Ovidio,
The Royal Society of Chemistry, Cambridge, UK, 2004, pp.391-394.
Susan Costantini, Mauro Rossi, Giovanni Colonna, and Angelo M.
Facchiano: "Modelling of HLA-DQ2 and of its interaction with
gluten peptides to explain molecular recognition in celiac
disease”, submitted
20 dicembre 2004
3.
Simulazioni mediante l’utilizzo del modellamento
comparativo dei cambiamenti conformazionali che si
verificano quando le proteine interagiscono tra loro
Ad esempio le IL-1b
IL-1b umana da sola
[PDB: 1IOB]
IL-1b umana complessata
con il suo recettore
[PDB: 1ITB]
20 dicembre 2004
Differenze tra i modelli ottenuti per omologia usando
template diversi.
Se usiamo come template
l’IL-1b da sola?
Se usiamo come template
l’IL-1b complessata?
Se usiamo come template
entrambi i modelli sperimentali di
IL-1b?
20 dicembre 2004
3. Simulazioni mediante l’utilizzo del modellamento
comparativo dei cambiamenti conformazionali che
si verificano quando le proteine interagiscono tra
1
20
40
60
|
|
|
|
|
|
loro |
human
1IOB
APVRSLNCTLRDSQQKSLVMSGPYELKALHLQGQDMEQQVVFSMSFVQGEESNDKIPVAL
1ITBA
61
80 strutture umane
100
120
● Confronto
tra |le due
di IL-1b
riportate nella
|
|
|
|
|
|
human
GLKEKNLYLSCVLKDDKPTLQLESVDPKNYPKKKMEKRFVFNKIEINNKLEFESAQFPNW
banca
dati
PDB.
1IOB
1ITBA
● Modello 121
teorico umano
ottenuto per omologia utilizzando
140
|
|
|
|
human
YISTSQAENMPVFLGGTKGGQDITDFTMQFVSS
entrambe
le
strutture
sperimentali
(indicato come h-ThM).
1IOB
1ITBA
● Simulazione dei complessi del modello sperimentale [PDB:
1IOB] e di quello teorico h-ThM con il recettore, sulla base
del complesso sperimentale umano [PDB: 1ITB].
● Confronto tra i due complessi teorici e quello sperimentale.
20 dicembre 2004
Energie di
interazione tra
IL-1b e IL-1RI
1IOB/1ITBB
1ITB
h-ThM/1ITBB
-1500
-1000
-500
0
Van der Waals
Electrostatic
Complessi
Complessi
ASA
ASA
all’interfaccia
all’interfaccia
(Å
(Å22))
Numero di
legami
ad idrogeno
1IOB/1ITBB
1IOB/1ITBB
2157.62
2157.62
31
1ITB
1ITB
2337.15
2337.15
36
h-ThM/1ITBB
h-ThM/1ITBB
2240.38
2240.38
33
* ASA è l’area di superficie accessibile al solvente all’interfaccia per l’interleuchina
20 dicembre 2004
- Risultati (1) La migliore interazione è quella relativa al complesso
sperimentale.
L’ interazione nel complesso con h-ThM è migliore
di quella nel complesso con 1IOB.
Le differenze conformazionali tra i due modelli sperimentali
di IL-1b hanno effetto sull’interazione con il recettore.
Il complesso con h-ThM risente del fatto che è stato ottenuto
da entrambe le strutture sperimentali.
20 dicembre 2004
Simulazione dell’interazione IL-1b/IL-1RI
in trota e topo:
● Modellamento per omologia delle sequenze di IL-1b di topo
e trota usando come template i due modelli sperimentali
umani, 1IOB e 1ITBA.
trota
topo
t-ThF e t-ThC
m-ThF e m-ThC
● Simulazione per ciascun organismo dei complessi tra il
recettore ed i due modelli di IL-1b ottenuti.
trota
topo
t-ThCOMPL-F e t-ThCOMPL-C
m-ThCOMPL-F e m-ThCOMPL-C
20 dicembre 2004
Energie di interazione IL-1b/IL-1RI nei
complessi in topo e trota
m-ThCOMPL-F
m-ThCOMPL-F
m-ThCOMPL-C
m-ThCOMPL-C
t-ThCOMPL-F
t-ThCOMPL-F
t-ThCOMPL-C
t-ThCOMPL-C
-1400 -1200 -1000
-800
-600
-400
-200
0
Van der Waals
Electrostatic
I complessi ottenuti usando l’IL-1b umana nella forma complessata
(t-ThCOMPL-C e m-ThCOMPL-C) hanno valori di energia di
interazione più favorevoli.
20 dicembre 2004
Complessi in topo e trota
ASA
all’interfaccia
(Å2)
Numero di
legami
ad idrogeno
m-ThCOMPL-F
2121.84
26
m-ThCOMPL-C
2259.20
32
t-ThCOMPL-F
2394.40
40
t-ThCOMPL-C
2764.61
41
Complessi in topo
Complessi in trota
Le conformazioni di IL-1b di topo e trota, ottenute utilizzando
come riferimento la struttura sperimentale della proteina umana
nella sua forma complessata, sono quelle più adatta ad interagire
con il recettore.
20 dicembre 2004
- Risultati (2) Il modellamento comparativo può essere applicato
con migliori risultati per predire i modelli di proteine,
che devono essere utilizzati per approfondire studi di
interazione proteina-proteina,
quando come riferimento viene utilizzata la struttura
tridimensionale di una proteina omologa nello stato
complessato.
Susan Costantini, Giovanni Colonna and Angelo M. Facchiano:
“Comparative modelling simulates conformational changes
occurring in protein-protein interaction”, submitted.
20 dicembre 2004
Scopo della tesi
Applicazioni di metodi computazionali, già noti, per
studiare le proprietà strutturali e funzionali delle
proteine.
Sviluppo di nuovi strumenti di analisi e predizione, al
fine di migliorare quelli già esistenti.
20 dicembre 2004
Sviluppo di nuovi strumenti di analisi e predizione
a. Propensità degli amminoacidi per i vari tipi di struttura
secondaria in proteine che appartengono a differenti
classi strutturali.
b. Frequenze di coppie di amminoacidi nelle proteine.
20 dicembre 2004
a. Propensità degli amminoacidi
Set di 2168 proteine derivato dalla lista PDBselect (non ridondante e
con percentuale di identità di sequenza minore del 25%).
La struttura secondaria è stata assegnata mediante il programma
DSSP considerando “H”, “G” ed “I” come eliche, “B” ed “E” come
struttura beta e le altre come “coil”.
Le propensità degli amminoacidi nei differenti tipi di struttura
secondaria (Pij)
rapporto tra la frequenza con cui un dato
residuo si trova in eliche, b-strand e “coil” rispetto alla frequenza
con cui tale residuo si trova nel set di proteine considerato.
 nij 


n
i

Pij  
Nj



N
T


dove nij è il numero dei residui di tipo i in struttura di tipo j, ni è il
numero totale di residui di tipo i, Nj è il numero totale di residui in
struttura di tipo j ed NT è il numero totale di residui.
20 dicembre 2004
Predizione della struttura secondaria
A partire dalla regione N-terminale di ogni sequenza proteica, noi abbiamo
considerato una running window di n amminoacidi
Per n=7
AELMDPRSTWMNALEATGFQE …………
valore più alto tra <Pa>, <Pb>, <Pc>
con <Pa>, <Pb> e <Pc> indichiamo il valore medio delle propensità in elica,
b-strand e coil.
Queste propensità sono state calcolate usando finestre di lunghezza differente
per i tre tipi di struttura secondaria (wa, wb, wc), che sono state, poi, moltiplicate
per differenti coefficienti (coeffa, coeffb, coeffc).
20 dicembre 2004
La qualità delle nostre predizioni è stata valutata ……..
Resubstitution test
Gli elementi di struttura secondaria per ciascuna proteina
nel set studiato vengono predetti usando le propensità
derivate dallo stesso set.
Jackknife test
Gli elementi di struttura secondaria per ciascuna “proteina
test” vengono predetti dalle propensità calcolate da un set
di proteine che include tutte tranne la stessa “proteina
test”.
20 dicembre 2004
Accuratezza predittiva
Metodi
nkQcoil
Qk  % k  100 
Nk
Qa
Qb
Q3
Resubstitution
test le regioni
60.0 in52.7
dove
k rappresenta
elica, 55.9
beta e 56.7
“coil” nella
proteina, nk è il numero di residui predetti correttamente
nello
stato k test
e Nk è il numero
residui 56.7
nello stato
Jackknife
60.1 totale
52.5 di 55.9
conformazionale k nella proteina.
Chou e Fasman
55.3

48.2N
Q3  % N  100 
T
50.9
N
x
 51.9
T
dove Qa, Qb e Qcoil sono rispettivamente le N
percentuali
di residui
predetti correttamente
in eliche,
b-strand
e “coil”;
3 è la percentuale
dove NT è il numero
totale
di residui
nellaQproteina
ed Nx
totale di èresidui
predetti
correttamente.
il numero
totale
di residui predetti in modo non corretto
nella proteina.
20 dicembre 2004
Assegnazione classe strutturale
Secondo Nakashima et al.(1986)
Proteine alfa:
contenuto di eliche >15% e b-strand <10%
Proteine beta:
contenuto di eliche <15% e b-strand >10%
Proteine alfa-beta:
contenuto di eliche >15% e b-strand >10%
Secondo Chou (1995)
Proteine alfa:
contenuto di eliche >40% e b-strand <5%
Proteine beta:
contenuto di eliche <5% e b-strand >40%
Proteine alfa-beta:
contenuto di eliche >15% e b-strand >15%
20 dicembre 2004
Per ogni classe:
● Propensità degli amminoacidi nei tre tipi di struttura
secondaria (eliche, b-strand e coil).
● Predizione degli elementi di struttura secondaria:
resubstitution test
jackknife test
● Valutazione dell’accuratezza predittiva.
● Confronto con le predizioni di Chou e Fasman.
20 dicembre 2004
Accuratezza predittiva
Qa
Qb
Q
Qcoil
coil
Q3
69.7
47.3
49.2
62.2
69.5
47.0
49.2
62.0
Chou e Fasman
Beta (552)
54.7
45.3
47.7
52.1
Resubstitution test
Jackknife test
44.2
58.0
58.6
57.1
43.9
58.0
58.6
57.0
Chou e Fasman
47.2
46.8
55.3
51.1
Resubstitution test
Jackknife test
60.2
55.1
55.2
57.0
60.1
55.1
55.2
57.0
Chou e Fasman
56.5
49.4
49.8
52.2
Classi
Classi
Alfa (627)
Resubstitution test
Jackknife test
Alfa-beta (912)
Classificazione secondo Nakashima et al. (1986)
20 dicembre 2004
Accuratezza predittiva
Qa
Qb
Q
Qcoil
coil
Q3
Resubstitution test
Jackknife test
70.5
47.0
43.1
62.2
70.5
43.9
42.7
62.1
Chou e Fasman
Beta (167)
54.6
41.8
46.3
52.1
Resubstitution test
Jackknife test
35.9
66.3
57.8
61.3
33.3
66.0
57.4
61.0
Chou e Fasman
40.2
46.2
57.3
50.9
Resubstitution test
Jackknife test
59.2
55.3
56.5
57.2
59.1
55.3
56.5
57.1
Chou e Fasman
57.0
49.2
50.1
52.3
Classi
Classi
Alfa (470)
Alfa-beta (696)
Classificazione secondo Chou (1995)
20 dicembre 2004
- Risultati (1) ● Le propensità degli amminoacidi sono differenti nelle tre
classi strutturali (alfa, beta ed alfa-beta).
● Se per una data proteina può essere assegnata la classe
strutturale, gli elementi di struttura secondaria per quella
proteina possono essere predetti con migliori risultati,
usando le propensità degli amminoacidi calcolate per la
sua stessa classe e valori ottimizzati di coefficienti e
finestre.
20 dicembre 2004
- Risultati (2) -
Nell’ambito di questo studio è stato necessario sviluppare
dei software che automaticamente e velocemente fossero
in grado di analizzare un numero così alto di proteine.
Susan Costantini, Giovanni Colonna and Angelo M.
Facchiano: “The amino acid conformation potentials in proteins
belonging to different secondary structural classes”, in
preparation.
20 dicembre 2004
b. Frequenze di coppie di amminoacidi nelle proteine
Utilizzando il set di 2168 proteine, suddiviso nelle tre classi strutturali
● Frequenza dei doppietti valutata come rapporto tra il numero di
volte in cui il residuo x si trova vicino a quello a, Sx(a), ed il
numero totale di coppie possibili (ntot)
F
x(a)
x(a)


 100
ntot
Per le proteine, classificate secondo Nakashima et al. (1986),
alfa
beta
alfa-beta
AA, AL, EL, LA, LE ed LK,
SG, GK, DG, VT e GS
AA, AL, LA, LL
20 dicembre 2004
Confrontando le frequenze dei doppietti nelle tre classi:
I doppietti AA, AL, LA, LE ed LL sono più frequenti nelle
proteine alfa che in quelle beta ed alfa-beta.
I doppietti GS, SG, SS, VT, TV sono più presenti nelle
proteine beta.
È possibile sfruttare questa informazione per predire
la Classe Strutturale di proteine?
20 dicembre 2004
Predizione della Classe Strutturale
Per ciascuna proteina è stata predetta la classe strutturale, utilizzando
il metodo della regressione lineare.
Sono stati calcolati i coefficienti di correlazione tra l’insieme dei
valori relativi alle frequenze delle coppie di residui per la proteina in
esame e per le proteine classificate come alfa, beta ed alfa-beta.
Frequenze dei doppietti:
Alfa
Beta
Alfa-beta
Proteina in
esame
rx/alfa
rx/beta
rx/alfa-beta
La classe strutturale è assegnata in base al valore più alto
tra i tre coefficienti.
20 dicembre 2004
Accuratezza predittiva
Proteineclass
Proteinepred
Q%
jackknife
alfa
627
444
71
68
beta
552
375
68
65
alfa-beta
912
538
59
56
Nakashima
65%
Chou
alfa
470
361
77
73
beta
167
124
74
64
alfa-beta
696
445
64
61
70%
20 dicembre 2004
- Risultati -
I risultati ottenuti dalle predizioni di classe strutturale sono
incoraggianti, anche perché si basano solo sulle frequenze
dei doppietti nelle proteine.
Dalla sola sequenza amminoacidica di una proteina, è
possibile ottenere sempre più informazioni riguardo il suo
fold.
Questo studio può essere molto utile per migliorare
l’accuratezza dei metodi di predizione di struttura
secondaria.
20 dicembre 2004
- Conclusioni Il lavoro svolto suggerisce come l’applicazione dei metodi
computazionali sia ormai diventata di estrema utilità per
fornire chiarimenti strutturali e funzionali riguardo le
proteine e per formulare ipotesi sulla loro attività biologica,
anche se qualunque applicazione pratica di quanto
ipotizzato può essere realizzata solo mediante ulteriori studi
di tipo sperimentale.
Questo lavoro mostra la necessità di sviluppare sempre
nuovi strumenti di analisi e di predizioni, capaci di
migliorare quelli esistenti, anche nella prospettiva di dover
gestire l’impressionante quantità di informazioni, derivate
dalla ricerca genomica e proteomica.
20 dicembre 2004
Comunicazioni
Comunicazioniaa Congressi
Congressi
♦
♦ Susan
Susan Costantini,
Costantini, Angelo
Angelo M.
M. Facchiano,
Facchiano, Giovanni
Giovanni Colonna:
Colonna: “Prediction
“Prediction of
of the
the three-dimensional
three-dimensional structures
structures of
of proteins
proteins by
by
Homology
Homology Modelling”,
Modelling”, Gruppo
Gruppo di
di Cooperazione
Cooperazione Bioinformatica
Bioinformatica tra
tra ilil 15
15 ee ilil 17
17 marzo
marzo 2002.
2002.
♦
♦ S.S. Costantini,
Costantini, A.M.
A.M. Facchiano,
Facchiano, G.
G. Colonna:
Colonna: “Metodi
“Metodi computazionali
computazionali ee bioinformatici
bioinformatici per
per la
la predizione
predizione della
della struttura
struttura
tridimensionale
tridimensionale di
di proteine”,
proteine”, Giornate
Giornate Scientifiche
Scientifiche della
della Facoltà
Facoltà di
di Medicina
Medicina,, Seconda
Seconda Università
Università di
di Napoli,
Napoli, 4-6
4-6 giugno
giugno 2002.
2002.
♦
♦ S.S. Costantini,
Costantini, G.
G. Colonna,
Colonna, A.M.
A.M. Facchiano:
Facchiano: “Coeliac
“Coeliac disease:
disease: studying
studying the
the interaction
interaction of
of HLA-DQ2
HLA-DQ2 molecule
molecule with
with gluten
gluten
peptides
peptides by
by computational
computational methods”,
methods”, Meeting
Meeting “Gruppo
“Gruppo di
di Cooperazione
Cooperazione Bioinformatica”
Bioinformatica” -- Frascati
Frascati –– March
March 28-29,
28-29, 2003.
2003.
♦
♦ Costantini
Costantini S.,
S., Facchiano
Facchiano A.M.
A.M. and
and Colonna
Colonna G.:
G.: “Studio
“Studio della
della struttura
struttura ee dell’interazione
dell’interazione tra
tra le
le proteine
proteine coinvolte
coinvolte nella
nella
malattia
malattia celiaca
celiaca mediante
mediante metodi
metodi computazionali”,
computazionali”, Giornate
Giornate Scientifiche
Scientifiche della
della Facoltà
Facoltà di
di Medicina
Medicina,, 4-6
4-6 giugno
giugno 2003.
2003.
♦
♦ Ceci
Ceci G.,
G., Mucherino
Mucherino A.,
A., D’Apuzzo
D’Apuzzo M.,
M., di
di Serafino
Serafino D.,
D., Costantini
Costantini S.,
S., Facchiano
Facchiano A.M.
A.M. and
and Colonna
Colonna G.:
G.: “Folding
“Folding ab-initio
ab-initio di
di
proteine:
proteine: un
un approccio
approccio topologico”,
topologico”, Giornate
Giornate Scientifiche
Scientifiche della
della Facoltà
Facoltà di
di Medicina
Medicina,, Seconda
Seconda Università
Università di
di Napoli,
Napoli, 4-6
4-6 giugno
giugno 2003.
2003.
♦
♦ Ceci
Ceci G.,
G., Mucherino
Mucherino A.,
A., D’Apuzzo
D’Apuzzo M.,
M., di
di Serafino
Serafino D.,
D., Costantini
Costantini S.,
S., Facchiano
Facchiano A.M.
A.M. and
and Colonna
Colonna G.:
G.: “Computational
“Computational issues
issues of
of aa
topological
topological approach
approach to
to protein
protein folding”,
folding”, Sheffield,
Sheffield, 20-22
20-22 July
July 2003.
2003.
♦
♦ Susan
Susan Costantini,
Costantini, Giovanni
Giovanni Colonna,
Colonna, Mauro
Mauro Rossi
Rossi and
and Angelo
Angelo M.
M. Facchiano:
Facchiano: “Binding
“Binding of
of gluten
gluten peptides
peptides to
to the
the celiac
celiac
disease
disease associated
associated HLA-DQ2
HLA-DQ2 molecule
molecule by
by computational
computational methods”,
methods”, 8th
8th Gluten
Gluten Workshop
Workshop,, Viterbo,
Viterbo, 8-10
8-10 settembre
settembre 2003.
2003.
♦
♦ Costantini
Costantini S.,
S., Facchiano
Facchiano A.M.
A.M. and
and Colonna
Colonna G.:
G.: “Analysis
“Analysis of
of the
the three-dimensional
three-dimensional structure
structure of
of Il-1beta/IL-1
Il-1beta/IL-1 receptor
receptor
complexes
complexes by
by computational
computational methods”,
methods”, SIB2003
SIB2003,, Ferrara,
Ferrara, 15-18
15-18 Settembre
Settembre 2003.
2003.
♦
♦ Susan
Susan Costantini,
Costantini, Giovanni
Giovanni Colonna
Colonna and
and Angelo
Angelo M.
M. Facchiano:
Facchiano: “Comparative
“Comparative modelling
modelling for
for predicting
predicting the
the different
different
conformations
conformations assumed
assumed by
by aa protein
protein during
during its
its different
different activities”,
activities”, Bits
Bits 2004
2004,, Padova
Padova 26-27
26-27 March
March 2004.
2004.
♦
♦ Ceci
Ceci G.,
G., Mucherino
Mucherino A.,
A., D’Apuzzo
D’Apuzzo M.,
M., di
di Serafino
Serafino D.,
D., Costantini
Costantini S.,
S., Facchiano
Facchiano A.M.
A.M. and
and Colonna
Colonna G.:
G.: “A
“A geometrical
geometrical approach
approach
for
for protein
protein secondary
secondary structure
structure simulations:
simulations: computational
computational issues”,
issues”, 2-5
2-5 April
April 2004,
2004, Neuchatel,
Neuchatel, Switzerland.
Switzerland.
♦
♦ S.S. Costantini,
Costantini, G.
G. Colonna
Colonna and
and A.M.
A.M. Facchiano:
Facchiano: “Comparative
“Comparative modelling
modelling for
for predicting
predicting the
the different
different conformations
conformations assumed
assumed
by
by aa protein
protein during
during its
its different
different activities”,
activities”, SIB-Proteine
SIB-Proteine 2004
2004,, Viterbo
Viterbo 20-22
20-22 May
May 2004.
2004.
♦
♦ E.E. Randelli,
Randelli, M.
M. Forlenza,
Forlenza, S.
S. Meloni,
Meloni, S.
S. Benedetti,
Benedetti, C.J.
C.J. Secombes,
Secombes, J.J. Zou,
Zou, G.
G. Scapigliati,
Scapigliati, S.
S. Costantini,
Costantini, A.
A. Facchiano,
Facchiano, F.F.
Buonocore:
Buonocore: “Potential
“Potential application
application of
of sea
sea bass
bass recombinant
recombinant interleukin-1
interleukin-1 in
in fish
fish vaccination”,
vaccination”, SIB-Proteine
SIB-Proteine 2004
2004..
♦
♦ Costantini
Costantini S.,
S., Facchiano
Facchiano A.M.,
A.M., Rossi
Rossi M.,
M., Colonna
Colonna G.:
G.: “Metodi
“Metodi computazionali
computazionali per
per lo
lo studio
studio della
della struttura
struttura ee dell’interazione
dell’interazione
tra
tra le
le proteine
proteine coinvolte
coinvolte nella
nella malattia
malattia celiaca”,
celiaca”, Giornate
Giornate Scientifiche
Scientifiche della
della Facoltà
Facoltà di
di Medicina,
Medicina, 9-11
9-11 giugno
giugno 2004.
2004.
♦
♦ Ceci
Ceci G.,
G., Mucherino
Mucherino A.,
A., D’Apuzzo
D’Apuzzo M.,
M., di
di Serafino
Serafino D.,
D., Costantini
Costantini S.,
S., Facchiano
Facchiano A.M.
A.M. and
and Colonna
Colonna G.:
G.: “Un
“Un approccio
approccio ab-initio
ab-initio per
per
la
la simulazione
simulazione di
di strutture
strutture secondarie
secondarie di
di proteine”,
proteine”, Giornate
Giornate Scientifiche
Scientifiche della
della Facoltà
Facoltà di
di Medicina
Medicina,, 9-11
9-11 giugno
giugno 2004.
2004.
♦
♦ Angelo
Angelo M.
M. Facchiano,
Facchiano, Susan
Susan Costantini,
Costantini, Mauro
Mauro Rossi,
Rossi, Giovanni
Giovanni Colonna:
Colonna: “Simulation
“Simulation of
of the
the Interaction
Interaction of
of Gluten
Gluten Peptides
Peptides
with
with HLA-DQ2
HLA-DQ2 Molecule
Molecule to
to Investigate
Investigate the
the Molecolar
Molecolar Basis
Basis of
of Coeliac
Coeliac Disease”
Disease” ISMB-ECCB
ISMB-ECCB 2004
2004,, Glasgow,
Glasgow, Scotland,
Scotland, UK,
UK, July
July 3131August
August 4,
4, 2004.
2004.
♦
♦ Susan
Susan Costantini,
Costantini, Giovanni
Giovanni Colonna,
Colonna, Angelo
Angelo M.
M. Facchiano:
Facchiano: “Prediction
“Prediction of
of the
the secondary
secondary structure
structure of
of proteins:
proteins: the
the amino
amino
acid
acid propensities
propensities in
in proteins
proteins belonging
belonging to
to deifferent
deifferent secondary
secondary structural
structural classes”,
classes”, Nettab
Nettab 2004
2004 –– Network
Network Tools
Tools and
and Applications
Applications
in
in Biology,
Biology, Camerino,
Camerino, Italy,
Italy, September
September 5-7,
5-7, 2004.
2004.
- Ringraziamenti Tutor:
Prof. Giovanni Colonna
- SUN -
Dott. Angelo Facchiano
ISA-CNR, Avellino
Dott. Francesco Buonocore
Dott. Mauro Rossi
Università della Tuscia
ISA – CNR, Avellino
Marilù Chiusano
Gruppo di Bioinformatica dell’ISA-CNR, Avellino
Gruppo di ricerca del prof. Malorni del CESMA-ProBio, Avellino
20 dicembre 2004
Scarica

Jackknife test - Angelo Facchiano