Dottorato di ricerca in Biologia Computazionale (XVI ciclo) Dott.ssa Costantini Susan Basi molecolari dell’attività biologica delle proteine: l’approccio computazionale e bioinformatico alla comprensione della relazione Struttura-Funzione 20 dicembre 2004 Sequenza – Struttura - Funzione MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDP ENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARL NVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDE YANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDP IRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDE YSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNII QAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEM AENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVN YYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFG WEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPY YLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMR FGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNS VPPVKPLRH Genoma Sequenze-proteine Strutture-proteine Funzioni • Meccanismo d’azione • Specificità per ligandi • Interazioni proteina-proteina 20 dicembre 2004 Struttura tridimensionale delle proteine Metodi Sperimentali • Diffrazione ai Raggi X (RX) • Risonanza Magnetica Nucleare (NMR) Metodi Computazionali • Riconoscimento di fold • Folding ab-initio • Modellamento Modellamento Comparativo Comparativo 20 dicembre 2004 Modellamento Comparativo Permette di costruire il modello 3D di una proteina (‘target’) a partire da proteine omologhe (‘template’), la cui struttura è stata caratterizzata sperimentalmente. La percentuale di identità di sequenza tra la proteina target e quelle template deve essere superiore al 20-40%. Alta identità di sequenza buon allineamento delle sequenze buoni modelli ottenuti per omologia 20 dicembre 2004 Modellamento Comparativo Il modellamento per omologia richiede l’utilizzo di numerosi strumenti bioinformatici e computazionali: - per l’estrazione di informazioni da banche dati di sequenze (UNIPROT) e di strutture tridimensionali (PDB) - per il confronto e l’allineamento delle sequenze (BLAST e CLUSTAL) - per la costruzione dei modelli strutturali per la proteina in esame (MODELER,QUANTA, INSIGHT) - per la valutazione della loro qualità (PROCHECK e PROSA). 20 dicembre 2004 Modellamento comparativo TARGET: AQYSKRREVQCSVTDSEKRSLVLVPNSMELHAVM…… PROTEINA TARGET BLAST RICERCA DEL TEMPLATE TEMPLATE: VPIRQLHYRLRDEQQKSLVLSDPYELKALHLNGQN… CLUSTALW ---VPIRQLHYRLRDEQQKSLVLSDP-YELKALHLNGQNINQQVIF AQYSKRREVQCSVTDSEKRSLVLVPNSMELHAVMLQGGSDRCKVQL ALLINEAMENTO MULTIPLO TARGET-TEMPLATE SMSFVQ--GEPSNDKIPVALGLKGKNLYLSCVMKDGTPTLQLESVD NMSTYLDRTP-SAEAQTVALGIKGTNYYLSCHKDGEEPTLHLEVVD MODELLER PKQYPKKKM----EKRFVFNKIEV-KSKVEFESAEFPNWYISTSQA MODELLO DELLA PROTEINA -KASLANITSDSDMVRFLFYKQDSGLNISTLTSVPFSNWYISTAEE TARGET A PARTIRE DALLA STRUTTURA TEMPLATEEHKPVFLGNNSG-QDIIDKFTMESVS NNRPVQMCQESAR-RHRAFNIDNLKV PROCHECK VALUTAZIONE DEL MODELLO 20 dicembre 2004 Scopo della tesi Applicazioni di metodi computazionali, già noti, per studiare le proprietà strutturali e funzionali delle proteine. Sviluppo di nuovi strumenti di analisi e predizione, al fine di migliorare quelli già esistenti. 20 dicembre 2004 Applicazioni dei metodi computazionali 1. Modellamento di complessi tra interleuchine-1b ed i loro recettori. 2. Studio della struttura e dell’interazione tra le proteine coinvolte nella malattia celiaca. 3. Simulazioni, mediante l’utilizzo del modellamento comparativo, dei cambiamenti conformazionali che si verificano quando le proteine interagiscono tra loro. 20 dicembre 2004 1. Modellamento di complessi tra interleuchine1b ed i loro recettori Interleuchina-1 (IL-1) è un mediatore della risposta immunitaria IL-1 IL-1a , IL-1b, IL-1ra L’attività biologica di IL-1 conseguenza del “binding” con il proprio recettore formazione del complesso IL-1/IL-1R. Esistono due recettori: IL-1RI e IL-1RII 20 dicembre 2004 1. Modellamento di complessi tra interleuchine1b ed i loro recettori Predizione della struttura tridimensionale - di IL-1b di spigola e di trota - dei recettori di tipo I (IL-1RI) di trota e topo. Simulazione dei complessi IL-1b/IL-1RI in trota e topo. Simulazione del complesso IL-1b (trota)/IL-1RI (topo) al fine di dare una interpretazione a livello molecolare dei dati sperimentali circa l’attività biologica di rIL-1b di trota. 20 dicembre 2004 IL-1b di spigola e trota Ricerca dei template con BLAST: IL-1b umana [PDB: 1IOB] IL-1b topo [PDB: 2MIB] IL-1b uomo topo trota spigola uomo 100 78 (86) 34 (49) 37 (51) 100 36 (49) 32 (50) 100 54 (71) topo trota spigola 100 In tabella sono riportate le % di identità di sequenza e tra parentesi le similarità. 20 dicembre 2004 IL-1b di spigola N-end IL-1b di trota N-end b-bulge loop C-end PDB: 1K5L C-end b-bulge loop PDB: 1OOX Entrambi sono caratterizzati da una piccola a-elica (5% della sequenza) e da 12 b-strand antiparalleli (40% della sequenza), definendo la struttura come “mainly-beta” con topologia di tipo b-trefoil, in accordo con la classificazione di CATH e SCOP. 20 dicembre 2004 IL-1RI di topo e trota Ricerca del template con BLAST: IL-1RI umano [catena B in 1ITB dove è presente il complesso umano] IL-1RI uomo topo trota uomo 100 64 (81) 22 (40) 100 20 (39) topo trota 100 In tabella sono riportate le % di identità di sequenza e tra parentesi le similarità. 20 dicembre 2004 N-end a Dominio I C-end IL-1RI di trota Dominio III PDB: 1OU1 Dominio II b IL-1b IL-1b/IL-1RI trota IL-1RI ……anche per topo: è stato simulato il complesso utilizzando IL-1b caratterizzato ai RX [PDB: 2MIB] ed IL-1RI modellato per omologia [PDB: 1OU3]. 20 dicembre 2004 Da dati bibliografici …… IL-1b di trota è stata prodotta come proteina ricombinante in Escherichia coli. Test di attività biologica: rIL-1b è risultata capace di aumentare la proliferazione cellulare nelle cellule murine D10.G4.1. Lo stesso livello di proliferazione è stato indotto da rIL-1b umana utilizzandone una quantità 1000 volte più bassa di quella necessaria per rIL-1b di trota. Questo fatto può essere una conseguenza delle differenze strutturali tra IL-1 nei mammiferi e nei pesci. Ciò rende rIL-1b di trota meno affine al recettore (IL-1RI) di topo. Obiettivo: comprensione a livello molecolare del fenomeno biologico. 20 dicembre 2004 Complesso IL-1b trota/IL-1RI topo IL-1b IL-1RI Complessi Van der Waals Elettrostatico Energia totale IL-1b (trota) / IL-1RI (trota) - 164.85 - 951.09 - 1115.94 IL-1b (topo) /IL-1RI (topo) - 129.69 - 1039.57 - 1169.26 IL-1b (trota) / IL-1RI (topo) - 155.45 - 583.54 - 738.99 * Le Energie sono espresse in Kcal/mol 20 dicembre 2004 Esposizione al solvente degli AA dell’IL-1b di trota nei due complessi AA Posizione % esposizione con IL-1R di trota % esposizione con IL-1R di topo Differenze ALA 153 36,5 93,3 -56,8 SER 6 7,2 47,7 -40,5 GLU 11 6,9 37,8 -30,9 THR 117 41,6 69,8 -28,2 MET 138 14,8 42,4 -27,6 SER 5 6,2 33,7 -27,5 GLU 91 68 91,8 -23,8 GLY 39 64,3 87,6 -23,3 ..... .... ... .. .... ASP 141 27,2 10,9 16,3 GLU 61 39,7 23,3 16,4 PRO 55 82,9 65,4 17,5 ASN 166 69,8 50,8 19 ILE 58 23,7 3,5 20,2 THR 86 31,5 11,3 20,2 THR 60 38,6 15,7 22,9 MET 25 25,4 0,9 24,5 ASN 26 62,4 29,6 32,8 20 dicembre 2004 - Risultati L’energia di interazione nell’eterocomplesso tra IL-1b (trota) e IL-1RI (topo) è risultata più alta di quella nell’omocomplesso, indicando che il legame tra IL-1b di trota ed IL-1RI di topo è molto debole. Le interazioni elettrostatiche sono risultate molto ridotte nell’eterocomplesso e questa è probabilmente una conseguenza delle differenze amminoacidiche, che provocano una perdita di catene laterali cariche e, quindi, di ponti salini. Misurando l’esposizione al solvente degli amminoacidi di IL-1b di trota nell’omocomplesso e nell’eterocomplesso, abbiamo anche verificato come alcuni residui hanno valori completamente differenti una diversa capacità dell’IL-1b di trota di legarsi ai due recettori, in accordo con quanto riportato in letteratura. Scapigliati G, Costantini S, Colonna G, Facchiano A, Buonocore F, Bossù P, Cunningham C, Holland JW and Secombes CJ. (2004) Modelling of fish interleukin-1 and its receptor. Dev. Comp. Immunol. 28, 429-441. 20 dicembre 2004 2. Studio della struttura e dell’interazione tra le proteine coinvolte nella malattia celiaca La celiachia si manifesta, in individui geneticamente predisposti, in seguito ad ingestione di gliadina, il maggiore costituente del glutine del grano. Essa è associata ai geni dell’HLA codificanti per gli eterodimeri DQ2 e DQ8, che sono esposti sulla superficie delle cellule APC (Cellule Presentanti l’Antigene). Queste molecole legano modo non covalente i peptidi gliadina ( ) e li espongono riconoscimento dei linfociti (CD4+). in di al T 20 dicembre 2004 Un peptide antigenico (peptide di gliadina) si lega in modo più efficace alle molecole DQ2 o DQ8 quando possiede dei residui amminocidici con carica negativa in determinate posizioni di ancoraggio. Recettore Cellule T Peptide DQ2 Sollid LM Ann Rev Immunol 2000: 53-81 I peptidi di gliadina non hanno molti amminoacidi carichi negativamente. Ma se sono sottoposti a reazioni di deammidazione o nell’ambiente acido dello stomaco o ad opera della transglutaminasi tissutale, alcuni residui di glutammina sono convertiti in acido glutammico. 20 dicembre 2004 2. Studio della struttura e dell’interazione tra le proteine coinvolte nella malattia celiaca Modellamento per omologia della struttura 3D del dimero DQ2, presente in individui celiaci. Simulazione del complesso con vari peptidi di glutine per investigare le basi molecolari di questa interazione. Simulazione degli effetti della deammidazione di residui di glutammina nelle posizioni di ancoraggio e di altre modifiche al fine di dare una spiegazione a livello molecolare di risultati sperimentali relativi all’affinità di questi peptidi per il dimero DQ2. 20 dicembre 2004 Dimero DQ2 Le sequenze delle due catene del DQ2 sono state modellate per omologia utilizzando come riferimento quelle del dimero DQ8 (percentuale di identità di sequenza del 91%). Dominio N-terminale – catena b Domini C-terminali Sito di legame Dominio N-terminale – catena a PDB: 1NBN 20 dicembre 2004 Peptidi di glutine usati nelle simulazioni Peptide PDB Alfa-I Alfa-II Alfa-III Glia-a20 Glia-g2 Gamma-I Gamma-II Gamma-III Gamma-IV Glt-156 Glt-17 P1 P9 | | LVEALYLVCGERGG QLQPFPQPQLPY PQPQLPYPQPQ PYPQPQLPY FRPQQPYPQ PYPQQPQQP PQQPQQSFPQQQRP IIQPQQPAQ FPQQPQQPYPQQP FSQPQQQFPQPQ PFSQQQQSPF PFSQQQQPV Le sequenze dei peptidi di glutine usati nelle simulazioni sono allineate a quella del peptide di insulina presente nel modello del DQ8 usato come riferimento (template) [PDB: 1JK8]. I residui di glutammina che vengono deammidati sono riportati in rosso. 20 dicembre 2004 -----E-------K--P6 Alfa-I -----G--QLQPFPQPQLPY Alfa-I Alfa-I --------E--FRPQQPYPQ Alfa-II Glia-a20 Energie di interazione --------K--QLQPFPQPQLPY Alfa-I ---E------------G--tra il dimero DQ2 ed i --------E-----K------------K-----G----peptidi di glutine PQPQLPYPQPQ Alfa-II (62 --------G--Alfa-III ---E------P4 PYPQQPQQP Glia-g2 ---K------PQPQLPYPQPQ Alfa-II (62-72) Q ---E----Alfa-II Glia-a20 ---G---------E------------E-----E--------K---------E--E-- Glia-g2 ----K--------G------P-2 P7 P9 ----G---------E-----Q Q Q PQQPQQSFPQQQRP Gamma-I ---E------E Gamma-I ----K--------------E------EK-----EGamma-I ----G--------------K------EG-----E ---E------E ---------G------EE-----E ---EK-----E -----------E----EG-----E -----------K-Gamma-II PYPQPQLPY Alfa-III ---EE-----E -----------G----E----Gamma-III ---------E-E----K----PYPQPQLPY -E-----------Alfa-III ---G----Gamma-IV ---E----- -E-------E-E------E-----K----- -E-------K-E-Glt-156 ---G----------K---E-------E-K------E--------G---E------KE-E-Glt-17 -----K--- -E------GE-E-Glia-a20 -----G---FRPQQPYPQ ---E----Le barre rappresentano la differenza di energia di interazione tra il peptide naturale e quelli IIQPQQPAQ Gamma-II ---K----FRPQQPYPQ ----E---Glia-a2020 dicembre 2004 modificati. ---G-----600 -500 -400 -300 -200 -100 0 QLQPFPQPQLPY --------E----------K----------G--- Alfa-I PQPQLPYPQPQ ---E---------K---------G----------E---------K---------G--------E------E ---EK-----E ---EG-----E ---EE-----E Alfa-II (62-72) PYPQPQLPY ---E-------K-------G---------E-------K-------G--- Alfa-III FRPQQPYPQ ---E-------K-------G----- Glia-a20 PYPQQPQQP ---E----------E----E--E-- Glia-g2 PQQPQQSFPQQQRP ---------E------------K------------G--------------E------------K------------G----------E-E--E------------E-------E-E--E-------K-E--E-------E-K--E------KE-E--E------GE-E-- Gamma-I IIQPQQPAQ ----E-------K-------G---- Gamma-II FPQQPQQPYPQQP --E--------------E--------E--E------- Gamma-III FSQPQQQFPQPQ ----E------------E--------E-E----- Gamma-IV PFSQQQQSPF ---E-----------E-----E--E--- Glt-156 PFSQQQQPV ---E---------E-----E-E--- Glt-17 Dettaglio della superficie del sito di legame del dimero DQ2 con il peptide alfa II. Region N-terminale del peptide Posizione P4 Regione C-terminale del peptide Lys b71 Posizione P7 20 dicembre 2004 - Risultati (1) La deammidazione dei peptidi nelle posizioni p4, p6 e p7 rende i complessi più stabili. La presenza di una carica positiva (Lys) in p6 e p7 nei peptidi riduce la loro affinità per il dimero. I nostri risultati confermano in gran parte i dati sperimentali riportati in letteratura. I nostri risultati ci danno delle informazioni riguardo altri peptidi (gamma-III, gamma-IV e glt-156) per i quali non ci sono analoghi dati sperimentali: 1. le loro probabili posizioni di ancoraggio. 2. la sostituzione glutammina-glutammico l’interazione DQ2/peptide per questi peptidi può migliorare 20 dicembre 2004 - Risultati (2) - S. Costantini, G. Colonna, M. Rossi, A.M. Facchiano: “Binding of gluten peptides to the coeliac disease-associated HLA-DQ2 molecule by computational methods”, In Proceedings of the 8th Gluten Workshop, edited by D. La Fiandra, S. Masci and R. D’Ovidio, The Royal Society of Chemistry, Cambridge, UK, 2004, pp.391-394. Susan Costantini, Mauro Rossi, Giovanni Colonna, and Angelo M. Facchiano: "Modelling of HLA-DQ2 and of its interaction with gluten peptides to explain molecular recognition in celiac disease”, submitted 20 dicembre 2004 3. Simulazioni mediante l’utilizzo del modellamento comparativo dei cambiamenti conformazionali che si verificano quando le proteine interagiscono tra loro Ad esempio le IL-1b IL-1b umana da sola [PDB: 1IOB] IL-1b umana complessata con il suo recettore [PDB: 1ITB] 20 dicembre 2004 Differenze tra i modelli ottenuti per omologia usando template diversi. Se usiamo come template l’IL-1b da sola? Se usiamo come template l’IL-1b complessata? Se usiamo come template entrambi i modelli sperimentali di IL-1b? 20 dicembre 2004 3. Simulazioni mediante l’utilizzo del modellamento comparativo dei cambiamenti conformazionali che si verificano quando le proteine interagiscono tra 1 20 40 60 | | | | | | loro | human 1IOB APVRSLNCTLRDSQQKSLVMSGPYELKALHLQGQDMEQQVVFSMSFVQGEESNDKIPVAL 1ITBA 61 80 strutture umane 100 120 ● Confronto tra |le due di IL-1b riportate nella | | | | | | human GLKEKNLYLSCVLKDDKPTLQLESVDPKNYPKKKMEKRFVFNKIEINNKLEFESAQFPNW banca dati PDB. 1IOB 1ITBA ● Modello 121 teorico umano ottenuto per omologia utilizzando 140 | | | | human YISTSQAENMPVFLGGTKGGQDITDFTMQFVSS entrambe le strutture sperimentali (indicato come h-ThM). 1IOB 1ITBA ● Simulazione dei complessi del modello sperimentale [PDB: 1IOB] e di quello teorico h-ThM con il recettore, sulla base del complesso sperimentale umano [PDB: 1ITB]. ● Confronto tra i due complessi teorici e quello sperimentale. 20 dicembre 2004 Energie di interazione tra IL-1b e IL-1RI 1IOB/1ITBB 1ITB h-ThM/1ITBB -1500 -1000 -500 0 Van der Waals Electrostatic Complessi Complessi ASA ASA all’interfaccia all’interfaccia (Å (Å22)) Numero di legami ad idrogeno 1IOB/1ITBB 1IOB/1ITBB 2157.62 2157.62 31 1ITB 1ITB 2337.15 2337.15 36 h-ThM/1ITBB h-ThM/1ITBB 2240.38 2240.38 33 * ASA è l’area di superficie accessibile al solvente all’interfaccia per l’interleuchina 20 dicembre 2004 - Risultati (1) La migliore interazione è quella relativa al complesso sperimentale. L’ interazione nel complesso con h-ThM è migliore di quella nel complesso con 1IOB. Le differenze conformazionali tra i due modelli sperimentali di IL-1b hanno effetto sull’interazione con il recettore. Il complesso con h-ThM risente del fatto che è stato ottenuto da entrambe le strutture sperimentali. 20 dicembre 2004 Simulazione dell’interazione IL-1b/IL-1RI in trota e topo: ● Modellamento per omologia delle sequenze di IL-1b di topo e trota usando come template i due modelli sperimentali umani, 1IOB e 1ITBA. trota topo t-ThF e t-ThC m-ThF e m-ThC ● Simulazione per ciascun organismo dei complessi tra il recettore ed i due modelli di IL-1b ottenuti. trota topo t-ThCOMPL-F e t-ThCOMPL-C m-ThCOMPL-F e m-ThCOMPL-C 20 dicembre 2004 Energie di interazione IL-1b/IL-1RI nei complessi in topo e trota m-ThCOMPL-F m-ThCOMPL-F m-ThCOMPL-C m-ThCOMPL-C t-ThCOMPL-F t-ThCOMPL-F t-ThCOMPL-C t-ThCOMPL-C -1400 -1200 -1000 -800 -600 -400 -200 0 Van der Waals Electrostatic I complessi ottenuti usando l’IL-1b umana nella forma complessata (t-ThCOMPL-C e m-ThCOMPL-C) hanno valori di energia di interazione più favorevoli. 20 dicembre 2004 Complessi in topo e trota ASA all’interfaccia (Å2) Numero di legami ad idrogeno m-ThCOMPL-F 2121.84 26 m-ThCOMPL-C 2259.20 32 t-ThCOMPL-F 2394.40 40 t-ThCOMPL-C 2764.61 41 Complessi in topo Complessi in trota Le conformazioni di IL-1b di topo e trota, ottenute utilizzando come riferimento la struttura sperimentale della proteina umana nella sua forma complessata, sono quelle più adatta ad interagire con il recettore. 20 dicembre 2004 - Risultati (2) Il modellamento comparativo può essere applicato con migliori risultati per predire i modelli di proteine, che devono essere utilizzati per approfondire studi di interazione proteina-proteina, quando come riferimento viene utilizzata la struttura tridimensionale di una proteina omologa nello stato complessato. Susan Costantini, Giovanni Colonna and Angelo M. Facchiano: “Comparative modelling simulates conformational changes occurring in protein-protein interaction”, submitted. 20 dicembre 2004 Scopo della tesi Applicazioni di metodi computazionali, già noti, per studiare le proprietà strutturali e funzionali delle proteine. Sviluppo di nuovi strumenti di analisi e predizione, al fine di migliorare quelli già esistenti. 20 dicembre 2004 Sviluppo di nuovi strumenti di analisi e predizione a. Propensità degli amminoacidi per i vari tipi di struttura secondaria in proteine che appartengono a differenti classi strutturali. b. Frequenze di coppie di amminoacidi nelle proteine. 20 dicembre 2004 a. Propensità degli amminoacidi Set di 2168 proteine derivato dalla lista PDBselect (non ridondante e con percentuale di identità di sequenza minore del 25%). La struttura secondaria è stata assegnata mediante il programma DSSP considerando “H”, “G” ed “I” come eliche, “B” ed “E” come struttura beta e le altre come “coil”. Le propensità degli amminoacidi nei differenti tipi di struttura secondaria (Pij) rapporto tra la frequenza con cui un dato residuo si trova in eliche, b-strand e “coil” rispetto alla frequenza con cui tale residuo si trova nel set di proteine considerato. nij n i Pij Nj N T dove nij è il numero dei residui di tipo i in struttura di tipo j, ni è il numero totale di residui di tipo i, Nj è il numero totale di residui in struttura di tipo j ed NT è il numero totale di residui. 20 dicembre 2004 Predizione della struttura secondaria A partire dalla regione N-terminale di ogni sequenza proteica, noi abbiamo considerato una running window di n amminoacidi Per n=7 AELMDPRSTWMNALEATGFQE ………… valore più alto tra <Pa>, <Pb>, <Pc> con <Pa>, <Pb> e <Pc> indichiamo il valore medio delle propensità in elica, b-strand e coil. Queste propensità sono state calcolate usando finestre di lunghezza differente per i tre tipi di struttura secondaria (wa, wb, wc), che sono state, poi, moltiplicate per differenti coefficienti (coeffa, coeffb, coeffc). 20 dicembre 2004 La qualità delle nostre predizioni è stata valutata …….. Resubstitution test Gli elementi di struttura secondaria per ciascuna proteina nel set studiato vengono predetti usando le propensità derivate dallo stesso set. Jackknife test Gli elementi di struttura secondaria per ciascuna “proteina test” vengono predetti dalle propensità calcolate da un set di proteine che include tutte tranne la stessa “proteina test”. 20 dicembre 2004 Accuratezza predittiva Metodi nkQcoil Qk % k 100 Nk Qa Qb Q3 Resubstitution test le regioni 60.0 in52.7 dove k rappresenta elica, 55.9 beta e 56.7 “coil” nella proteina, nk è il numero di residui predetti correttamente nello stato k test e Nk è il numero residui 56.7 nello stato Jackknife 60.1 totale 52.5 di 55.9 conformazionale k nella proteina. Chou e Fasman 55.3 48.2N Q3 % N 100 T 50.9 N x 51.9 T dove Qa, Qb e Qcoil sono rispettivamente le N percentuali di residui predetti correttamente in eliche, b-strand e “coil”; 3 è la percentuale dove NT è il numero totale di residui nellaQproteina ed Nx totale di èresidui predetti correttamente. il numero totale di residui predetti in modo non corretto nella proteina. 20 dicembre 2004 Assegnazione classe strutturale Secondo Nakashima et al.(1986) Proteine alfa: contenuto di eliche >15% e b-strand <10% Proteine beta: contenuto di eliche <15% e b-strand >10% Proteine alfa-beta: contenuto di eliche >15% e b-strand >10% Secondo Chou (1995) Proteine alfa: contenuto di eliche >40% e b-strand <5% Proteine beta: contenuto di eliche <5% e b-strand >40% Proteine alfa-beta: contenuto di eliche >15% e b-strand >15% 20 dicembre 2004 Per ogni classe: ● Propensità degli amminoacidi nei tre tipi di struttura secondaria (eliche, b-strand e coil). ● Predizione degli elementi di struttura secondaria: resubstitution test jackknife test ● Valutazione dell’accuratezza predittiva. ● Confronto con le predizioni di Chou e Fasman. 20 dicembre 2004 Accuratezza predittiva Qa Qb Q Qcoil coil Q3 69.7 47.3 49.2 62.2 69.5 47.0 49.2 62.0 Chou e Fasman Beta (552) 54.7 45.3 47.7 52.1 Resubstitution test Jackknife test 44.2 58.0 58.6 57.1 43.9 58.0 58.6 57.0 Chou e Fasman 47.2 46.8 55.3 51.1 Resubstitution test Jackknife test 60.2 55.1 55.2 57.0 60.1 55.1 55.2 57.0 Chou e Fasman 56.5 49.4 49.8 52.2 Classi Classi Alfa (627) Resubstitution test Jackknife test Alfa-beta (912) Classificazione secondo Nakashima et al. (1986) 20 dicembre 2004 Accuratezza predittiva Qa Qb Q Qcoil coil Q3 Resubstitution test Jackknife test 70.5 47.0 43.1 62.2 70.5 43.9 42.7 62.1 Chou e Fasman Beta (167) 54.6 41.8 46.3 52.1 Resubstitution test Jackknife test 35.9 66.3 57.8 61.3 33.3 66.0 57.4 61.0 Chou e Fasman 40.2 46.2 57.3 50.9 Resubstitution test Jackknife test 59.2 55.3 56.5 57.2 59.1 55.3 56.5 57.1 Chou e Fasman 57.0 49.2 50.1 52.3 Classi Classi Alfa (470) Alfa-beta (696) Classificazione secondo Chou (1995) 20 dicembre 2004 - Risultati (1) ● Le propensità degli amminoacidi sono differenti nelle tre classi strutturali (alfa, beta ed alfa-beta). ● Se per una data proteina può essere assegnata la classe strutturale, gli elementi di struttura secondaria per quella proteina possono essere predetti con migliori risultati, usando le propensità degli amminoacidi calcolate per la sua stessa classe e valori ottimizzati di coefficienti e finestre. 20 dicembre 2004 - Risultati (2) - Nell’ambito di questo studio è stato necessario sviluppare dei software che automaticamente e velocemente fossero in grado di analizzare un numero così alto di proteine. Susan Costantini, Giovanni Colonna and Angelo M. Facchiano: “The amino acid conformation potentials in proteins belonging to different secondary structural classes”, in preparation. 20 dicembre 2004 b. Frequenze di coppie di amminoacidi nelle proteine Utilizzando il set di 2168 proteine, suddiviso nelle tre classi strutturali ● Frequenza dei doppietti valutata come rapporto tra il numero di volte in cui il residuo x si trova vicino a quello a, Sx(a), ed il numero totale di coppie possibili (ntot) F x(a) x(a) 100 ntot Per le proteine, classificate secondo Nakashima et al. (1986), alfa beta alfa-beta AA, AL, EL, LA, LE ed LK, SG, GK, DG, VT e GS AA, AL, LA, LL 20 dicembre 2004 Confrontando le frequenze dei doppietti nelle tre classi: I doppietti AA, AL, LA, LE ed LL sono più frequenti nelle proteine alfa che in quelle beta ed alfa-beta. I doppietti GS, SG, SS, VT, TV sono più presenti nelle proteine beta. È possibile sfruttare questa informazione per predire la Classe Strutturale di proteine? 20 dicembre 2004 Predizione della Classe Strutturale Per ciascuna proteina è stata predetta la classe strutturale, utilizzando il metodo della regressione lineare. Sono stati calcolati i coefficienti di correlazione tra l’insieme dei valori relativi alle frequenze delle coppie di residui per la proteina in esame e per le proteine classificate come alfa, beta ed alfa-beta. Frequenze dei doppietti: Alfa Beta Alfa-beta Proteina in esame rx/alfa rx/beta rx/alfa-beta La classe strutturale è assegnata in base al valore più alto tra i tre coefficienti. 20 dicembre 2004 Accuratezza predittiva Proteineclass Proteinepred Q% jackknife alfa 627 444 71 68 beta 552 375 68 65 alfa-beta 912 538 59 56 Nakashima 65% Chou alfa 470 361 77 73 beta 167 124 74 64 alfa-beta 696 445 64 61 70% 20 dicembre 2004 - Risultati - I risultati ottenuti dalle predizioni di classe strutturale sono incoraggianti, anche perché si basano solo sulle frequenze dei doppietti nelle proteine. Dalla sola sequenza amminoacidica di una proteina, è possibile ottenere sempre più informazioni riguardo il suo fold. Questo studio può essere molto utile per migliorare l’accuratezza dei metodi di predizione di struttura secondaria. 20 dicembre 2004 - Conclusioni Il lavoro svolto suggerisce come l’applicazione dei metodi computazionali sia ormai diventata di estrema utilità per fornire chiarimenti strutturali e funzionali riguardo le proteine e per formulare ipotesi sulla loro attività biologica, anche se qualunque applicazione pratica di quanto ipotizzato può essere realizzata solo mediante ulteriori studi di tipo sperimentale. Questo lavoro mostra la necessità di sviluppare sempre nuovi strumenti di analisi e di predizioni, capaci di migliorare quelli esistenti, anche nella prospettiva di dover gestire l’impressionante quantità di informazioni, derivate dalla ricerca genomica e proteomica. 20 dicembre 2004 Comunicazioni Comunicazioniaa Congressi Congressi ♦ ♦ Susan Susan Costantini, Costantini, Angelo Angelo M. M. Facchiano, Facchiano, Giovanni Giovanni Colonna: Colonna: “Prediction “Prediction of of the the three-dimensional three-dimensional structures structures of of proteins proteins by by Homology Homology Modelling”, Modelling”, Gruppo Gruppo di di Cooperazione Cooperazione Bioinformatica Bioinformatica tra tra ilil 15 15 ee ilil 17 17 marzo marzo 2002. 2002. ♦ ♦ S.S. Costantini, Costantini, A.M. A.M. Facchiano, Facchiano, G. G. Colonna: Colonna: “Metodi “Metodi computazionali computazionali ee bioinformatici bioinformatici per per la la predizione predizione della della struttura struttura tridimensionale tridimensionale di di proteine”, proteine”, Giornate Giornate Scientifiche Scientifiche della della Facoltà Facoltà di di Medicina Medicina,, Seconda Seconda Università Università di di Napoli, Napoli, 4-6 4-6 giugno giugno 2002. 2002. ♦ ♦ S.S. Costantini, Costantini, G. G. Colonna, Colonna, A.M. A.M. Facchiano: Facchiano: “Coeliac “Coeliac disease: disease: studying studying the the interaction interaction of of HLA-DQ2 HLA-DQ2 molecule molecule with with gluten gluten peptides peptides by by computational computational methods”, methods”, Meeting Meeting “Gruppo “Gruppo di di Cooperazione Cooperazione Bioinformatica” Bioinformatica” -- Frascati Frascati –– March March 28-29, 28-29, 2003. 2003. ♦ ♦ Costantini Costantini S., S., Facchiano Facchiano A.M. A.M. and and Colonna Colonna G.: G.: “Studio “Studio della della struttura struttura ee dell’interazione dell’interazione tra tra le le proteine proteine coinvolte coinvolte nella nella malattia malattia celiaca celiaca mediante mediante metodi metodi computazionali”, computazionali”, Giornate Giornate Scientifiche Scientifiche della della Facoltà Facoltà di di Medicina Medicina,, 4-6 4-6 giugno giugno 2003. 2003. ♦ ♦ Ceci Ceci G., G., Mucherino Mucherino A., A., D’Apuzzo D’Apuzzo M., M., di di Serafino Serafino D., D., Costantini Costantini S., S., Facchiano Facchiano A.M. A.M. and and Colonna Colonna G.: G.: “Folding “Folding ab-initio ab-initio di di proteine: proteine: un un approccio approccio topologico”, topologico”, Giornate Giornate Scientifiche Scientifiche della della Facoltà Facoltà di di Medicina Medicina,, Seconda Seconda Università Università di di Napoli, Napoli, 4-6 4-6 giugno giugno 2003. 2003. ♦ ♦ Ceci Ceci G., G., Mucherino Mucherino A., A., D’Apuzzo D’Apuzzo M., M., di di Serafino Serafino D., D., Costantini Costantini S., S., Facchiano Facchiano A.M. A.M. and and Colonna Colonna G.: G.: “Computational “Computational issues issues of of aa topological topological approach approach to to protein protein folding”, folding”, Sheffield, Sheffield, 20-22 20-22 July July 2003. 2003. ♦ ♦ Susan Susan Costantini, Costantini, Giovanni Giovanni Colonna, Colonna, Mauro Mauro Rossi Rossi and and Angelo Angelo M. M. Facchiano: Facchiano: “Binding “Binding of of gluten gluten peptides peptides to to the the celiac celiac disease disease associated associated HLA-DQ2 HLA-DQ2 molecule molecule by by computational computational methods”, methods”, 8th 8th Gluten Gluten Workshop Workshop,, Viterbo, Viterbo, 8-10 8-10 settembre settembre 2003. 2003. ♦ ♦ Costantini Costantini S., S., Facchiano Facchiano A.M. A.M. and and Colonna Colonna G.: G.: “Analysis “Analysis of of the the three-dimensional three-dimensional structure structure of of Il-1beta/IL-1 Il-1beta/IL-1 receptor receptor complexes complexes by by computational computational methods”, methods”, SIB2003 SIB2003,, Ferrara, Ferrara, 15-18 15-18 Settembre Settembre 2003. 2003. ♦ ♦ Susan Susan Costantini, Costantini, Giovanni Giovanni Colonna Colonna and and Angelo Angelo M. M. Facchiano: Facchiano: “Comparative “Comparative modelling modelling for for predicting predicting the the different different conformations conformations assumed assumed by by aa protein protein during during its its different different activities”, activities”, Bits Bits 2004 2004,, Padova Padova 26-27 26-27 March March 2004. 2004. ♦ ♦ Ceci Ceci G., G., Mucherino Mucherino A., A., D’Apuzzo D’Apuzzo M., M., di di Serafino Serafino D., D., Costantini Costantini S., S., Facchiano Facchiano A.M. A.M. and and Colonna Colonna G.: G.: “A “A geometrical geometrical approach approach for for protein protein secondary secondary structure structure simulations: simulations: computational computational issues”, issues”, 2-5 2-5 April April 2004, 2004, Neuchatel, Neuchatel, Switzerland. Switzerland. ♦ ♦ S.S. Costantini, Costantini, G. G. Colonna Colonna and and A.M. A.M. Facchiano: Facchiano: “Comparative “Comparative modelling modelling for for predicting predicting the the different different conformations conformations assumed assumed by by aa protein protein during during its its different different activities”, activities”, SIB-Proteine SIB-Proteine 2004 2004,, Viterbo Viterbo 20-22 20-22 May May 2004. 2004. ♦ ♦ E.E. Randelli, Randelli, M. M. Forlenza, Forlenza, S. S. Meloni, Meloni, S. S. Benedetti, Benedetti, C.J. C.J. Secombes, Secombes, J.J. Zou, Zou, G. G. Scapigliati, Scapigliati, S. S. Costantini, Costantini, A. A. Facchiano, Facchiano, F.F. Buonocore: Buonocore: “Potential “Potential application application of of sea sea bass bass recombinant recombinant interleukin-1 interleukin-1 in in fish fish vaccination”, vaccination”, SIB-Proteine SIB-Proteine 2004 2004.. ♦ ♦ Costantini Costantini S., S., Facchiano Facchiano A.M., A.M., Rossi Rossi M., M., Colonna Colonna G.: G.: “Metodi “Metodi computazionali computazionali per per lo lo studio studio della della struttura struttura ee dell’interazione dell’interazione tra tra le le proteine proteine coinvolte coinvolte nella nella malattia malattia celiaca”, celiaca”, Giornate Giornate Scientifiche Scientifiche della della Facoltà Facoltà di di Medicina, Medicina, 9-11 9-11 giugno giugno 2004. 2004. ♦ ♦ Ceci Ceci G., G., Mucherino Mucherino A., A., D’Apuzzo D’Apuzzo M., M., di di Serafino Serafino D., D., Costantini Costantini S., S., Facchiano Facchiano A.M. A.M. and and Colonna Colonna G.: G.: “Un “Un approccio approccio ab-initio ab-initio per per la la simulazione simulazione di di strutture strutture secondarie secondarie di di proteine”, proteine”, Giornate Giornate Scientifiche Scientifiche della della Facoltà Facoltà di di Medicina Medicina,, 9-11 9-11 giugno giugno 2004. 2004. ♦ ♦ Angelo Angelo M. M. Facchiano, Facchiano, Susan Susan Costantini, Costantini, Mauro Mauro Rossi, Rossi, Giovanni Giovanni Colonna: Colonna: “Simulation “Simulation of of the the Interaction Interaction of of Gluten Gluten Peptides Peptides with with HLA-DQ2 HLA-DQ2 Molecule Molecule to to Investigate Investigate the the Molecolar Molecolar Basis Basis of of Coeliac Coeliac Disease” Disease” ISMB-ECCB ISMB-ECCB 2004 2004,, Glasgow, Glasgow, Scotland, Scotland, UK, UK, July July 3131August August 4, 4, 2004. 2004. ♦ ♦ Susan Susan Costantini, Costantini, Giovanni Giovanni Colonna, Colonna, Angelo Angelo M. M. Facchiano: Facchiano: “Prediction “Prediction of of the the secondary secondary structure structure of of proteins: proteins: the the amino amino acid acid propensities propensities in in proteins proteins belonging belonging to to deifferent deifferent secondary secondary structural structural classes”, classes”, Nettab Nettab 2004 2004 –– Network Network Tools Tools and and Applications Applications in in Biology, Biology, Camerino, Camerino, Italy, Italy, September September 5-7, 5-7, 2004. 2004. - Ringraziamenti Tutor: Prof. Giovanni Colonna - SUN - Dott. Angelo Facchiano ISA-CNR, Avellino Dott. Francesco Buonocore Dott. Mauro Rossi Università della Tuscia ISA – CNR, Avellino Marilù Chiusano Gruppo di Bioinformatica dell’ISA-CNR, Avellino Gruppo di ricerca del prof. Malorni del CESMA-ProBio, Avellino 20 dicembre 2004