Relazione per Biochimica computazionale. Anno accademico 2006/2007 Caratterizzazione bioinformatica della sequenza nucleotidica a funzione ignota NM_018386 Serventi Fabio, 175881 Informazioni generali La sequenza con a.n. GenBank NM_018386 corrisponde ad una sequenza nucleotidica derivata da una libreria a cDNA di Homo sapiens; essa è lunga 1786 bp ed è definita “Homo sapiens PCI domain containing 2 (PCID2)”. La CDS si estende dalla posizione 36 alla 1397 dell’mRNA; la proteina codificata ha a.n. NP_060856 ed è lunga 453 aa. Nell’entry di GenBank sono riportate due regioni conservate: 190-447: "Transcription-associated recombination protein [DNA replication, recombination, and repair]; COG5600" 358-442: "PCI domain; pfam01399" La corrispondente entry della banca dati Swiss-Prot ha a.n. Q5JVF3. La proteina è nota anche con il nome “CSN12-like protein”, in quanto parte della famiglia di proteine CSN12. Vengono ipotizzate 4 possibili isoforme. La sequenza qui riportata è differente rispetto all’entry di GenBank, è infatti mancante degli aminocacidi da 90 a 143. Probabilmente ciò è dovuto all’esistenza in uomo di diverse possibili isoforme della proteina. Uno studio di tipo proteomico volto a identificare con il sistema del doppio ibrido in lievito tutte le interazioni proteinaproteina del proteoma umano, ha rilevato un’interazione di questa proteina con quella prodotta dal gene “SHFM1”. Localizzazione cromosomica Il gene dal quale è trascritta la sequenza di interesse, chiamato “PCID2”, è situato sul cromosoma 13 nel locus 13q34. Esso è orientato sul filamento “meno”e la regione trascritta si estende dalla posizione 112.910.984 alla 112.879.927. Si identificano 14 esoni, le cui posizioni e lunghezze sono riportate nella figura 1 dell’allegato. La zona mancante nell’entry di SwissProt non è perfettamente sovrapponibile ad un intero esone, ma bensì corrisponde alla seconda metà del quarto esone. Caratteristiche chimico-fisiche della proteina N° di aminoacidi: 453 Peso molecolare: 52087.8 Punto isoelettrico: 8.73 Composizione aminoacidica: non vi sono evidenti particolarità, ma si può notare una preponderanza di aminoacidi idrofobici (L 12,8%; A 8,6%; V 7,3%) Analisi di regioni ripetute La proteina non presenta regioni ripetute all’interno della sua sequenza. Omologia 1. Una ricerca di omologia con blastp su banca dati non ridondante con parametri di default ha fornito i seguenti risultati: (vedi figura 2) Paralogie: Non sono presenti sequenze omologhe all’interno di Homo sapiens. Gli unici output presenti si riferiscono alla stessa sequenza ridondante. È presente un match non significativo con la sequenza proteica corrispondente al gene PSMD3, ossia la subunità non ATPasica 3 del proteasoma 26S (rpn3), anch’essa contenente un dominio PCI. Ortologie: Viene rilevata una buona conservazione della sequenza tra gli organismi eucarioti, essa ha infatti omologhi ad alta significatività tra i vertebrati, ma anche in diversi rappresentanti del regno animale, vegetale e dei funghi. Le proteine ortologhe sono comunemente definite come “PCI domain containing protein 2” o come “(conserved) hypotetical protein”. Fanno eccezione le proteine: “proteasome protein like (ISS)” di Ostreococcus tauri (E = 4·10-59); “COP9 signalosome complex sub. 12 (CSN12)” di Aspergillus terreus (E = 1·10-47); “Csn12p/Rpn3p family protein” di Cryptosporidium parvum (E = 1·10-33); “Csn12p” di Saccharomyces cerevisiae (E = 3·10-14); “Nuclear pore associated protein” di S. cerevisiae (E = 2·10-9); 2. Essendo la sequenza proteica corrispondente ad una sequenza di riferimento unigene, è stato possibile visualizzare la provenienza in termini di tessuto-specificità, stadio dello sviluppo, stati patologici delle est corrispondenti al gene PCID2. Si osserva una presenza omogenea della proteina di interesse in tutte le condizioni di specificità, che si può perciò ipotizzare essere ubiquitaria. 3. La sequenza della proteina è stata sottoposta ad un analisi di appartenenza a famiglie conservate con Pfam. Sono stati identificati i seguenti domini conservati: Dominio PCI (o PINT motif), aa 331-442: dominio di funzione non del tutto chiara, ma di struttura nota (figura 3) probabilmente implicato in interazioni modulari proteina-proteina, conservato al C-terminale di proteine facenti parti di complessi multiproteici, quali la porzione “lid” (parte della porzione19S, a sua volta inclusa nella 26S) del proteasoma, il complesso di inizio traduzione 3 (elF3), il signalosoma COP9, il mammalian G-protein pathway suppressor (GPS1) Pfam B 52469, aa 5-85: rappresentato da altre 3 proteine della famiglia CSN12-like di animali contenenti dominio PCI Pfam B 67532, aa 144-203: altre 3 proteine ipotetiche di cui una “proteasome like”, contenenti dominio PCI Pfam B 16839, aa 219-361: proteine ipotetiche, tra cui alcune CSN12 di lieviti. 4. PSI-blast: nella prima iterazione sono state selezionate le sequenze con E < 1·10-4; la seconda iterazione ha dato tra i match oltre a proteine ipotetiche e CSN12, anche una serie di proteine eucariotiche simili a PSMD3 (subunità 3 regolatoria non ATPasica) e alla subunità 2 di COP9, tutte contenenti il dominio PCI. Queste non presentano somiglianza significativa con la proteina di interesse. Allineamento multiplo L’allineamento multiplo è stato svolto su presunti ortologhi identificati con la ricerca di omologia con il programma ClustalX, e successivamente visualizzato con GeneDoc. (figura 4 allegato). Sono state scelte sequenze PCID2 di vertebrati, un insetto, un nematode, e di 3 lieviti, compreso S. cerevisiae. È possibile notare la forte conservazione di alcuni residui idrofobici. La parte centrale dell’allineamento mostra apparentemente una maggiore conservazione di quella dello stesso dominio PCI. È evidente l’esistenza di intere regioni presenti in alcune sequenze ma mancanti in altre, probabilmente causata della presenza/assenza di diversi esoni o dallo splicing alternativo; in particolare la regione estesa dall’aa 90 al 143 è presente solo nelle sequenze umana e di macaco, e ciò è un’ulteriore indizio a favore di eventuali splicing alternativi riguardanti la regione in questione. La sequenza di C. elegans presenta una lunga porzione c-terminale che non ha corrispondenti nelle altre sequenze. Filogenesi È stato creato un albero filogenetico Neighbour-Joining dall’allineamento multiplo precedente, e visualizzato con TreeView. È stata scelta come outgroup la sequenza di S. cerevisiae in quanto più distante evolutivamente all’uomo e perché noto in letteratura che il complesso del signalosoma COP9 di S. cerevisiae (del quale CSN12p è un noto componente) diverge sensibilmente da quello di altri eucarioti. La filogenesi visualizzata è molto probabilmente inattendibile a causa delle diverse forme di splicing delle sequenze confrontate. Sarebbe opportuno individuare simili varianti di splicing. (Figura 5). Predizione di localizzazione cellulare L’analisi con SignalP mostra l’assoluta mancanza di peptidi segnale o di ancore idrofobiche, se ne deduce che la proteina non segue la via secretoria. Psort non identifica sequenze segnale di localizzazione di nessun genere, e fornisce come risultato riassuntivo un’alta percentuale di probabilità di appartenenza alla localizzazione citoplasmatica, rispetto alle percentuali di probabilità molto più basse per gli altri compartimenti. La proteina è molto probabilmente citoplasmatica. Modifiche post-traduzionali L’analisi con Prosite della sequenza rileva unicamente corte sequenze ad alta occorrenza casuale, le quali non appaiono nell’allineamento più conservate di altre regioni casuali. NetOGlyc rileva solo una potenziale sequenza di glicosilazione leggermente sopra soglia, ma essendo la proteina non secreta, è improbabile qualsiasi tipo di glicosilazione NetPhos prevede 7 possibili serine fosforilabili, e 3 tirosine (Figura 6). Esperimenti proteomici volti ad individuare tutte le fosforilazioni del proteoma umano hanno evidenziato che la proteina ipotetica è fosforilata sulla Tyr 286 (corrispondente alla Tyr 232 dell’entry di swissprot). L’analisi di possibili siti ubiquitinabili con PEST find non ha mostrato la presenza di sequenze “PEST”. Predizione della struttura La sequenza non presenta omologhi a struttura nota, non è stato perciò possibile procedere con l’”homology modelling”. È stata quindi sottoposta la sequenza ad un’analisi di predizione di struttura secondaria con PHD: La proteina ha una scarsa probabilità di possedere domini transmembrana; La predizione indica una prevalenza di regioni ad α-elica, che comprenderebbero il 62.69% dei residui, mentre solo il 2,65% per i filamenti β, la proteina viene perciò definita di tipo “all-alpha”; La proteina, considerando anche i valori di predizione dell’accessibilità al solvente, è definita come globulare. Inferenze funzionali Analisi con String: La sequenza proteica viene considerata parte del “COG5600 Transcription-associated recombination protein”, del quale fanno parte diverse proteine trovate anche con la ricerca di omologia, tra cui ipotetiche e csn12-like. Considerando solamente correlazioni osservate sperimentalmente si osservano interazioni proteina-proteina con: Ca2+-binding protein EF-hand family (proteina THP1 ci S. Cerevisiae, associata al poro, con CDC31, proteina essenziale in mitosi e meiosi) Nuclear protein export factor (THP1 di S. cerevisiae con SAC3, formano un complesso per l’esporto di mRNA) Altre subunità del Signalosoma COP9 di S. cerevisiae Predicted metal-dependent protease of the PAD1/JAB1 superfamily, subunità catalitica del signalosoma COP9 di S. Cerevisiae, isopeptidasi che idrolizza il legame tra Nedd8 (una ubiquitin-like protein) dalla cullina, subunità della E3 (SCF) ubiquitina ligasi. Small Nuclear ribonucleoprotein, CSN12 di lievito interagisce con una proteina appartenente al complesso nucleare dello spliceosoma (SMX3) Escludendo gli esperimenti, viene rilevata una leggera co-occorenza (score = 0,481) con il COG “Transcription elongation factor”; il collegamento con questo COG è da considerarsi poco significativo in quanto i due COG sono semplicemente presenti in tutti gli eucarioti, senza particolari pattern di co-presenza o co-assenza. Interattore noto: L’interattore noto di PCID2 è la proteina DSS1 o SEM1 prodotta dal gene SHFM1, Split hand/foot malformation type 1 protein. Il gene è mutato nella patologia dal quale prende il nome, un malfunzionamento nello sviluppo degli arti. La proteina è parte del proteasoma 19S ed è nota per interagire con BRCA2, noto oncosoppressore implicato nella segnalazione e riparazione di rotture al doppio filamento e nella ricombinazione omologa. È stato dimostrato che l’analogo di lievito è necessario per la corretta riparazione del DNA, ciò implica che il proteasoma sia importante nella riparazione del DNA e che Sem1 sia un punto di collegamento chiave. Geni limitrofi: Si sono osservati i geni adiacenti nel locus cromosomico e confrontati con i loci di altre specie contenenti il gene PCID2. Si sono osservate alcune interessanti conservazioni, indipendentemente dall’orientamento, nonostante il confronto sia stato fatto tra eucarioti. In particolare sono stati considerati i loci corrispondenti in scimpanzé (cromosoma 17), topo (chr 8 locus A1.1), gallo (chr 1) figura 7. Nei funghi e nei lieviti la disposizione attorno ai geni CSN12 non è conservata. Si osserva in particolare la presenza dei geni ATP11A, MCF2L, fattori VII e X della coagulazione, PROZ, LAMP1, GRTP1, ADPRHL1, TMCO3, TFDP1, ATP4B, GRK1. Tra i geni più interessanti CUL4A, codifica per la cullina, la subunità dell’ubiquitina ligasi SCF (E3) dalla quale una subunità catalitica del signalolosma idrolizza il legame con Nedd8 (“deneddilizza”) e DCN1 o DCUN1D2, il cui omologo in lievito fa parte del complesso di “neddilazione” della cullina. La conservazione dei loci può essere semplicemente dovuta all’origine comune indipendentemente da correlazioni funzionali. Osservazioni generali: Tutti i complessi multiproteici contenenti subunità a dominio PCI sembrano derivati da evoluzione divergente, in quanto lo stesso tipo di architettura si riscontra in diversi complessi. La porzione “lid” del proteasoma, il fattore di inizio traduzione 3 (elF3) e il signalosoma COP9 sono infatti conservati in tutti gli eucarioti e presentano paralogie tra le subunità che li compongono. In generale sembrano formati da 6 subunità con dominio PCI e 2 con dominio MPN. La particolarità di questi complessi sta nel fatto che sono note interazioni tra i loro rispettivi pathway come ad esempio la “deneddelizzazione” dell’ubiquitina ligasi (strettamente correlata funzionalmente al proteasoma) da parte di COP9, che sembra essere un regolatore negativo di questa via. È noto che il signalosoma compie svariate funzioni regolatorie (fosforila molte proteine da indirizzare all’ubiquitinazione, ha un ruolo nel ciclo cellulare), si pensa inoltre che alcune singole subunità di questi complessi possano agire sia indipendentemente dal complesso che all’interno dello stesso. L’omologo a funzione nota più simile alla proteina studiata è la subunità 12 del COP9 (CSN12) di un lievito (A. terreus), la quale non sembra presentare ortologhi appartenenti al signalosoma in eucarioti superiori, infatti omologhi alla proteina di interesse chiamati “CSN12” appartengono solamente al regno dei funghi. Il paralogo proteasomale della CSN12 di lievito sembra essere la subunità Rpn3 (PSMD3 nell’uomo), che è infatti apparsa come omologa nella seconda iterazione con la ricerca PSI blast. Non si può affermare (ma nemmeno escludere) che la proteina faccia parta del signalosoma cop9 di eucarioti superiori, in quanto la proteina può aver cambiato funzione, inoltre l’esperimento con il doppio ibrido evidenzia un solo interattore (ciò non significa che siano stati rilevati tutti i reali interattori); resta comunque probabile che la funzione della proteina sia associata a quelle del signalosoma e/o del proteasoma. Bibliografia The COP9 signalosome-like complex in S. Cerevisiae and links to other PCI complexes Vered Maytal-Kivity et al.; Int J Biochem Cell Biol. 2003 May;35(5):706-15. Proteasome involvement in the repair of DNA double-strand breaks. Krogan NJ, Lam MH, et al.; Mol Cell. 2004 Dec 22;16(6):1027-34. Figura 1. La posizione degli esoni sul cromosoma (sopra) e le porzioni della proteina derivanti da diversi esoni (blu e nero identificano esoni alternati) (sotto). Figura 2. Il risultato del blastp Figura 3. Il dominio PCI e la sua struttura (derivata dalla proteina CSN14_MOUSE), la probabile struttura del dominio all’interno della proteina. Figura 4. Allineamento multiplo tra le sequenze (nell’ordine) PCID2 di Homo sapiens, Pan troglodyes, Macaca mulatta, Mus musculus, Bos Taurus, Gallus gallus, Canis familiaris, Apis mellifera; proteina ipotetica di Caenorhabditis elegans (la cui coda c-terminale priva di omologia è stata omessa) ; CSN12 di Aspergillus fumigatus, Cryptosporidium parvum, Saccharomyces cerevisiae. Figura 5. Albero filogenetico basato sull’allineamento multiplo nel quale S. cerevisiae è stato scelto come outgruop. Figura 6. I predetti siti fosforilabili. Figura 7. Conservazioni dei locus nei cromosomi di uomo, locus 13q34 (in alto a sinistra); scimpanzé, cromsoma 17 (in alto a destra); topo, cromosoma 8 locus A1.1 (in basso a sinistra); gallo, cromosoma 1 (in basso a destra).