Predizione della struttura di una proteina In generale, la sequenza amminoacidica di una proteina codifica la sua struttura tridimensionale dovrebbe quindi essere possibile disegnare un algoritmo per predire la struttura 3D di una proteina a partire dalla sua sequenza 1D questo è l’obiettivo più ambizioso e complesso della bioinformatica, e non è ancora stato raggiunto i metodi sperimentali per la determinazione della sequenza di una proteina sono estremamente rapidi (l’ordine di grandezza è il giorno) e relativamente economici la risoluzione della struttura tridimensionale di una proteina richiede invece l’uso di strumenti più complessi, e talvolta mesi di lavoro Swiss-Prot + TrEMBL 700.000 sequenze PDB (Protein Data Bank) 17.000 strutture gran parte delle ricerche in biologia strutturale è quindi volta allo studio delle leggi fondamentali del folding delle proteine e la biologia computazionale dedica molte energie e risorse allo sviluppo di metodi per la predizione della struttura delle proteine perchè è interessante studiare la struttura di una proteina in molti casi è vero che solo l’analisi della struttura tridimensionale di una macromolecola può aiutarci a comprendere in quale modo e per quale motivo una determinata sequenza (avvolta in una specifica struttura) possa codificare una ben precisa funzione vediamo per esempio la struttura 3D della chimotripsina, mettendo in evidenza i residui della triade catalitica, che non sono contigui nella sequenza proteica la contiguità dei residui in struttura determina la funzione Ribonuclease A - PDB 5RSA 1 KETAAAKFER Q HMDSSTSAA SSSNYCNQMM KSRNLTKDRC KPVNTFVHES 51 LADVQAVCSQ KNVACKNGQT NCYQSYSTMS ITDCRETGSS KYPNCAYKTT 101 QANKHIIVAC EGNPYVPV HF DASV Ribonuclease T1 – PDB 1RLS 1 ACDYTCGSNC YSSSDVSTAQ AAGYQLHEDG ETVGSNSYP H KYNNYEGFDF 51 SVSSPYYEWP ILSSGDVYSG GSPGAD RVVF NENNQLAGVI T HTGASGNNF 101 VECT PR4 - Weatwin1 - PDB 1C2Z 1 QQATNVRATY HYYRPAQNNW DLGAPAVSAY CATWDASKPL SWRSGYGWTA 51 FCGPAGAHGQ ASCGKCLQVT NPATGAQITA RIVDQCANGG L DLDWDTVFT 101 KIDTNGIGYQ QG HLNVNYQF VDCRD RNase A (A) RNase T1 (B) Wheatwin1 (C) Metodi per la predizione della struttura secondaria Il metodo Chou-Fasman a elica foglietto b ripiegamento b aa C& F L pr aa C& F L pr aa C& F L Glu 1.51 1.44 ++ Val 1.70 1.49 ++ Asn 1.56 1.28 Met 1.45 1.47 ++ Ile 1.60 1.45 ++ Gly 1.56 1.64 Ala 1.42 1.29 ++ Tyr 1.47 1.25 ++ Pro 1.52 1.91 Leu 1.21 1.30 ++ Phe 1.38 1.32 + Asp 1.46 1.41 Lys 1.16 1.23 + Trp 1.37 1.14 + Ser 1.43 1.32 Phe 1.13 1.07 + Leu 1.30 1.02 + Cys 1.19 0.81 Gln 1.11 1.27 + Cys 1.19 0.74 + Tyr 1.14 1.05 Trp 1.08 0.99 + Thr 1.19 1.21 + Lys 1.01 0.96 Ile 1.08 0.97 + Gln 1.10 0.80 + Gln 0.98 0.98 Val 1.06 0.91 + Met 1.05 0.97 + Thr 0.96 1.04 Asp 1.01 1.04 = Arg 0.93 0.99 = Trp 0.96 0.76 His 1.00 1.22 = Asn 0.89 0.76 = Arg 0.95 0.88 Arg 0.98 0.96 = His 0.87 1.08 = His 0.95 0.68 Thr 0.83 0.82 = Ala 0.83 0.90 - Glu 0.74 0.99 Ser 0.77 0.82 = Ser 0.75 0.95 - Ala 0.66 0.77 Cys 0.70 1.11 = Gly 0.75 0.92 - Met 0.60 0.41 Tyr 0.69 0.72 - Lys 0.74 0.77 - Phe 0.60 0.59 Asn 0.67 0.90 - Pro 0.55 0.64 -- Leu 0.59 0.58 Pro 0.57 0.52 -- Asp 0.54 0.72 -- Val 0.50 0.47 Gly 0.57 0.56 -- Glu 0.37 0.75 -- Ile 0.47 0.51 Tabella 5.1. Propensione dei residui aminoacidici a formare elementi di struttura secondaria come riportato da Chou-Fasman (1978b) (C&F) e Levitt (1978) (L). La colonna “pr” classifica i residui come indifferenti (=) o stabilizzatori/destabilizzatori forti (++/--) e deboli (+/-) della struttura secondaria. Metodi di predizione della struttura secondaria delle proteine: Metodi di Chou-Fasman si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB. (http://fasta.bioch.virginia.edu/fasta_www2/fasta_www.cgi?rm=misc1) GOR si basa sull’analisi statistica della composizione in residui delle strutture secondarie presenti nella PDB. (http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_gor4.html) AGADIR per predire la percentuale di residui in elica (http://www.embl-heidelberg.de/Services/serrano/agadir/agadir-start.html) PHD prende in input o una sequenza o un allineamento multiplo ed usa le reti neurali. (http://www.embl-heidelberg.de/predictprotein/predictprotein.html) Vuole una registrazione PSIPRED utilizza un sistema di due reti neurali. (http://bioinf.cs.ucl.ac.uk/psipred/) PREDATOR si basa sull’applicazione del metodo del k-esimo vicino che usa le reti neurali (http://bioweb.pasteur.fr/seqanal/interfaces/predator-simple.html) JPRED3 (http://www.compbio.dundee.ac.uk/Software/JPred/jpred.html) fa un consensus di vari metodi I migliori programmi di predizione della struttura secondaria sono stati sviluppati utilizzando metodi di apprendimento automatico (machine learning methods) i metodi di apprendimento automatico più utilizzati in bioinformatica sono le reti neurali e gli Hidden Markov Models (HMM) una caratteristica peculiare delle reti neurali è che sono in grado di apprendere, in un tentativo di simulare il comportamento del cervello umano vengono addestrate utilizzando un opportuno insieme di dati detto training set (un insieme di a-eliche, filamenti b e elementi non-a non-b) e possono poi venire utilizzate per riconoscere a-eliche da filamenti b e da elementi non-a non-b output di PredictProtein (PHD) un programma di predizione della struttura secondaria e accessibilità al solvente ....,....1....,....2....,....3....,....4....,....5....,....6 AA |MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG| PHD sec | EEEEEEEE HHHHHHHHHHH EEEEE HHHHHHH | Rel sec |938999997389866589987789761323468771112352599447744156773166| detail: prH prE prL subset: SUB sec sec sec sec |000000000000112689987888874211210014443211100100122367885522| |068999998310000000011100101232110100011115688621101210000000| |931000001688877210000000014545578774444563200268766311113477| |L.EEEEEEE.LLLLLHHHHHHHHHHH.....LLLL.....L.EEE..LL...HHHH..LL| ....,....7....,....8....,....9....,....10...,....11...,....12 AA |QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL| PHD sec | HHHHHHHHHHHHH EEEEEE HHHHHHHHHHHHHHH EEEEEE HH| Rel sec |225799999998713662699997299964789999999998634699828987357125| detail: prH prE prL subset: SUB sec sec sec sec |456899999998753101000000000026889999999998752100000000001456| |011000000000000113789998400000000000000000111000058888521000| |531100000001145675100001599872110000000001126799831001377442| |..HHHHHHHHHHH..LL.EEEEEE.LLLL.HHHHHHHHHHHHH..LLLL.EEEE.LL..H| riconoscimento del fold (fold recognition) banca dati di fold possibili sequenza query input output + sequenza struttura allineamento a-elica foglietto b filamento b perchè è interessante studiare la struttura di una proteina il confronto tra sequenze proteiche può essere utilizzato per mettere in luce relazioni evolutive tra proteine e la similarità tra sequenze può essere utilizzata come una misura della distanza evolutiva tra gli organismi come abbiamo visto, le proteine che si confrontano possono talvolta essere così diverse che diventa difficile metterne in evidenza la comune origine evolutiva attraverso il solo confronto tra sequenze cambiamenti nella struttura delle proteine sono invece più conservativi: l’evoluzione delle proteine avviene in modi che in genere non alterano il ripiegamento (fold) della struttura proteica, che quindi può conservare tracce di un’origine comune Come si può studiare la struttura di una proteina i metodi sperimentali classici per la risoluzione della struttura tridimensionale di una proteina sono: • la cristallografia a raggi X • la spettroscopia a risonanza magnetica e nucleare (Nuclear Magnetic Resonance, NMR) diffrazione ai raggi X cellula batterica DNA esogeno plasmide NMR moltiplicazione del clone formazione di cristalli purificazione della proteina nome composto organismo autore referenze risoluzione sequenza residuo 1 residuo 2 HEADER TRANSCRIPTION REGULATION 25-AUG-94 1RPO COMPND ROP (COLE1 REPRESSOR OF PRIMER) MUTANT WITH ALA INSERTED ON COMPND 2 EITHER SIDE OF ASP 31 (INS (A-D31-A)) SOURCE (ESCHERICHIA COLI) AUTHOR M.VLASSI,M.KOKKINIDIS REVDAT 2 15-MAY-95 1RPOA 1 REMARK REVDAT 1 14-FEB-95 1RPO 0 JRNL AUTH M.VLASSI,C.STEIF,P.WEBER,D.TSERNOGLOU,K.WILSON, JRNL AUTH 2 H.J.HINZ,M.KOKKINIDIS JRNL TITL RESTORED HEPTAD PATTERN CONTINUITY DOES NOT JRNL TITL 2 ALTER THE FOLDING OF A 4-ALPHA-HELICAL BUNDLE JRNL REF NAT.STRUCT.BIOL. V. 1 706 1994 JRNL REFN ASTM NSBIEW US ISSN 1072-8368 2024 REMARK 1 REMARK 1 REFERENCE 1 REMARK 1 AUTH M.KOKKINIDIS,M.VLASSI,Y.PAPANIKOLAOU,D.KOTSIFAKI, REMARK 1 AUTH 2 A.KINGSWELL,D.TSERNOGLOU,H.J.HINZ REMARK 1 TITL CORRELATION BETWEEN PROTEIN STABILITY AND CRYSTAL REMARK 1 TITL 2 PROPERTIES OF DESIGNED ROP VARIANTS REMARK 1 REF PROTEINS.STRUCT.,FUNCT., V. 16 214 1993 REMARK 1 REF 2 GENET. REMARK 1 REFN ASTM PSFGEY US ISSN 0887-3585 0867 REMARK 2 REMARK 2 RESOLUTION. 1.4 ANGSTROMS. REMARK REMARK 999 SEQUENCE NUMBER IS ALSO THAT FROM PDB ENTRY SEQRES 1 65 MET THR LYS GLN GLU LYS THR ALA LEU ASN MET ALA ARG SEQRES 2 65 PHE ILE ARG SER GLN THR LEU THR LEU LEU GLU LYS LEU SEQRES 3 65 ASN GLU LEU ALA ASP ALA ALA ASP GLU GLN ALA ASP ILE SEQRES 4 65 CYS GLU SER LEU HIS ASP HIS ALA ASP GLU LEU TYR ARG SEQRES 5 65 SER CYS LEU ALA ARG PHE GLY ASP ASP GLY GLU ASN LEU 1RPO 2 1RPO 3 1RPO 4 1RPO 5 1RPO 6 1RPOA 1 1RPO 7 1RPO 8 1RPO 9 1RPO 10 1RPO 11 1RPO 12 1RPO 13 1RPO 14 1RPO 15 1RPO 16 1RPO 17 1RPO 18 1RPO 19 1RPOA 2 1RPOA 3 1RPO 22 1RPO 29 1RPO 30 1RPO 94 1RPO 95 1RPO 96 1RPO 97 1RPO 98 1RPO 99 1RPO 100 ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO 1RPO num.atomo tipo atomo tipo residuo num. residuo 1 2 3 4 5 6 7 7 8 9 10 11 N CA C O CB CG SD SD CE N CA C MET MET MET MET MET MET MET MET MET THR THR THR 1 1 1 1 1 1 1 1 1 2 2 2 1.132 2.398 3.091 2.642 3.281 3.718 4.491 4.491 3.039 4.142 4.851 5.719 x 3.053 3.546 2.466 1.298 3.936 2.760 3.371 3.371 3.650 2.833 1.806 1.011 y 2.801 2.283 1.442 1.451 3.463 4.291 5.797 5.797 6.762 0.689 -0.025 0.950 z 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 25.53 27.85 21.34 19.29 23.96 27.52 26.29 26.29 25.19 13.20 12.76 14.35 115 116 117 118 119 120 121 121 122 123 124 125 myoglobin AND aplysia utilizzo di un semplice programma di grafica molecolare RasMol Metodi computazionali per la predizione della struttura tridimensionale proteica: quali sono e che grado di affidabilità offrono? i metodi ab initio sono i più ambiziosi, ma i tempi di calcolo sono ancora TROPPO LUNGHI perché possano anche avere un interesse pratico i metodi knowledge based sono attualmente quelli che sembrano funzionare meglio, anche se sono meno soddisfacenti dal punto di vista della comprensione ultima dei meccanismi naturali del folding delle proteine obiettivi intermedi e meno ambiziosi la predizione della struttura secondaria: quali segmenti della sequenza formano a-eliche e quali filamenti b o anse? il riconoscimento del fold (fold recognition o threading): data una sequenza proteica e un insieme di possibili fold tridimensionali, è possibile identificare il fold più simile a quello davvero assunto dalla sequenza? il modelling per omologia (homology modelling): se una proteina a struttura non nota è omologa ad una proteina a struttura nota, possiamo assumere che le due strutture siano simili e usare l’una per generare un modello dell’altra? modelling per omologia (homology modelling) La qualità del modello dipende dalla similarità tra le sequenze delle due proteine in generale, a maggiore identità di sequenza tra due proteine, corrisponde maggiore similarità tra le corrispondenti strutture se l’identità tra due sequenze proteiche è superiore al 30%, si può assumere che le loro strutture saranno simili se una proteina a struttura non nota ha almeno il 30% di identità con una proteina a struttura nota, si può usare la seconda come templato per generare un modello per omologia della prima Come nel confronto di sequenze e’ necessario allinearle, nel confronto di strutture 3D e’ necessario sovrapporle come corpi rigidi scegliendo una regola di corrispondenza tra coppie di atomi o di residui nelle due strutture. La prima difficolta’ consiste nel fatto che le due proteine molto spesso non hanno lo stesso numero di residui. Per la sovrapposizione si possono utilizzare le catene dei carboni alfa appartenenti agli elementi di struttura secondaria perche’ in genere le inserzioni e delezioni si accumulano nei loops che possono semplicemente venire esclusi dalla sovrapposizione. I metodi di confronto 3D utilizzano l’ allineamento delle sequenze per decidere la regola di corrispondenza alla base della sovrapposizione strutturale Un allineamento strutturale può essere valutato in base alla deviazione quadratica media (root mean square deviation o r.m.s.d.), al numero di atomi che sono stati accoppiati nella sovrapposizione e alla valutazione della similarità dei residui sovrapposti. L’r.m.s.d. o r.m.s. di una sovrapposizione tridimensionale è la distanza media tra gli atomi di tutte le coppie che hanno partecipato all’allineamento strutturale, per cui tanto più bassa è l’r.m.s. tanto migliore sarà l’allineamento strutturale calcolato N r.m.s.d = åD 2 i N i =1 D = distanza tra coppie di atomi appaiati N = numero di coppie considerate valutazione dell’allineamento strutturale un altro criterio di valutazione di un allineamento strutturale è rappresentato dal numero di atomi o di residui che sono stati accoppiati si cerca di massimizzare il numero di atomi accoppiati e di minimizzare la corrispondente r.m.s. a parità di numero di residui accoppiati, il migliore allineamento strutturale sarà quello con minore r.m.s. a parità di r.m.s. verrà considerato migliore l’allineamento strutturale operato con un maggior numero di atomi accoppiati oltre a questi due valori tipici delle sovrapposizioni tridimensionali, si può anche considerare il punteggio di similarità dei residui accoppiati r.m.s.d.tra atomi della catena principale del core Grafico identità di sequenza/rms tra le strutture 2,5 2,0 1,5 1,0 0,5 0,0 100 75 50 25 % di residui identici nel core proteico 0 Lisozima di pollo Alpha-lactalbumina di babbuino 37% identità di sequenza 1 1 98 101 KQFTKCELSQ NLYD--IDGY GRIALPELIC TMFHTSGYDT QAIVENDE-S TEYGLFQISN ALWCKSSQSP QSRNICDITC DKFLDDDITD DIMCAKKILD KVFGRCELAA AMKRHGLDNY RGYSLGNWVC AAKFESNFNT QATNRNTDGS TDYGILQINS RWWCNDGRTP GSRNLCNIPC SALLSSDITA SVNCAKKIVS * * .***. . .* * .* . .* . * ..* ** * . * *.**..**.. **. ...* ***.*.* * .* *** . *****. IK-GIDYWIA HKALCT-EKL EQWL--CEKDGNGMNAWVA WRNRCKGTDV QAWIRGCRL *.. *.* . * . . *. * Predizione della struttura terziaria - diagramma di flusso Confronto con banche dati di sequenze proteiche sì Allineamento di sequenze. E’ nota la struttura? no no Predizione di struttura secondaria sì Modelling per omologia usando coordinate di proteina a struttura nota Ricerche di motivi, fold recognition, ab initio Valutazione accuratezza della predizione per costruire modelli per omologia di proteine che abbiamo una alta identità di sequenza con una proteina a struttura nota, si può utilizzare il server automatico SwissModel SwissModel è disponibile all’indirizzo: http://www.expasy.ch/swissmod/SWISS-MODEL.html prende in input una sequenza proteica e l’indirizzo di posta elettronica della persona che sottomette la sequenza cerca nel PDB possibili strutture che possano fare da templato (che abbiano cioè una buona identità di sequenza con la proteina query) spedisce con la posta elettronica le coordinate del modello o le motivazioni della propria incapacità a produrne uno di buona affidabilità