Quaderni di Bioinformatica PROTEOMICA Cristian Piras Alessio Soggiu Paola Roncada Gian Franco Greppi Istituto Sperimentale Italiano Lazzaro Spallanzani Milano Dipartimento di Scienze Zootecniche, Università di Sassari INTRODUZIONE L’era post-genomica ha assistito al rapido sviluppo di nuovi metodi per lo studio di complessi profili proteici e per l’espressione genica in tessuti e cellule. Questo nuovo campo di ricerca, comunemente denominato genomica funzionale, focalizza l’attenzione sulla dissezione delle reti molecolari che sono alla base delle funzioni cellulari e dei processi fisiologici. L’analisi del proteoma, definito come la caratterizzazione del contenuto proteico di cellule, tessuti, organi o fluidi biologici espresso da un genoma, mira allo studio dei complessi schemi di espressione e di trasformazione delle proteine prodotte da un organismo vivente. Diversamente dal “genoma”, il termine “proteoma” definisce uno stato dinamico soggetto ad una moltitudine di cambiamenti di natura molto differente come la crescita, il differenziamento, il trattamento con farmaci, la malattia e così via. Negli anni ’70, O’Farrel riportò che gli strumenti proteomici avrebbero incluso tecnologie basate su metodi elettroforetici e cromatografici. Recentemente, nuove tecniche basate sulla spettrometria di massa (MS) e tecnologie bioinformatiche hanno ampliato lo spettro degli strumenti proteomici. Inoltre, le procedure di separazione proteica classiche come l’elettroforesi bidimensionale vengono rimpiazzate gradualmente da altre tecnologie innovative, come l’elettroforesi zonale capillare accoppiata a metodologie MS e più recentemente dai microarrays e da tecnologie basate sui chip proteici. Proteomica studia tutti i complementi proteici, i proteomi, che derivano dai vari tessuti o tipi cellulari. Esiste così un Proteoma Completo (riferito ad uno specifico organismo), un Proteoma cellulare (riferito ad un particolare tipo di cellula) e perfino un Proteoma Sub-cellulare (solitamente riferito ai virus). Dobbiamo immaginare il proteoma come un qualcosa di dinamico, la sua composizione varia in risposta a diversi fattori esterni ed è sostanzialmente differente nei diversi tipi cellulari di uno stesso organismo. Il Proteoma è molto più grande del Genoma e mostra almeno due livelli di complessità in più: 1 Quaderni di Bioinformatica -La conoscenza delle proteine presenti in un sistema biologico, in termini di sequenze aminoacidiche non basta. La maggior parte delle proteine mostrano, in condizioni fisiologiche, una struttura tridimensionale stabile ed è pertanto necessario risalire alla loro struttura per poterne ben comprendere anche il loro funzionamento. Questo livello di complessità aumenta notevolmente se consideriamo anche l'esistenza di modificazioni posttraduzionali ed isoforme. -Le proteine possono interagire funzionalmente tra loro, con gli acidi nucleici e con piccole molecole di varia natura. Lo studio a più livelli del Proteoma è affidato alla Proteomica, moderna area altamente multidisciplinare che richiede l’integrazione di conoscenze biochimiche, bioanalitiche, bioinformatiche e biomolecolari. Al giorno d’oggi, la proteomica può essere divisa in proteomica classica e proteomica funzionale. La Proteomica classica concentra il suo interesse sullo studio dei proteomi completi, mentre la proteomica funzionale studia gruppi più limitati di proteine. In maggior dettaglio la proteomica si sviluppa su tre diversi livelli: • proteomica sistematica, che mira all'identificazione ed alla caratterizzazione del proteoma; • proteomica differenziale, che punta sull'espressione differenziale delle proteine in cellule diverse di uno stesso organismo ed in momenti di vita diversi di una stessa cellula; • proteomica funzionale, che a sua volta comprende lo studio delle interazioni tra proteine (interattomica), lo studio delle interazioni tra una proteina ed i suoi substrati (metabolomica) e lo studio delle funzioni specifiche delle proteine (genomica enzimatica, genomica biochimica). Le tre domande più importanti della proteomica sono: 1) Quali proteine sono presenti in una cellula o in un tessuto? 2) Con quali altre proteine interagisce la mia proteina di interesse (network)? 3) Come appare una particolare proteina (struttura)? La proteomica rappresenta l’approccio globale per l’analisi comparativa e su larga scala dell’intero corredo proteico espresso da una cellula, tessuto o organismo in determinate condizioni ambientali. Si avvale della combinazione di tecnologie di analisi diverse, biochimiche ed informatiche, che consentono di studiare simultaneamente migliaia di proteine e che, nel loro insieme, permettono di decifrarne la struttura, comprenderne le interazioni ed analizzarne la funzione. La proteomica costituisce l’imprescindibile complemento alla genomica e, nel tentativo di superarne i limiti intrinseci legati alla staticità del genoma, affronta le difficoltà correlate alla enorme varietà e variabilità di un corredo proteico che muta continuamente in risposta ad ogni tipo di evento intra- ed extra-cellulare. Le tecnologie d’elezione per l’analisi proteomica sono inevitabilmente dotate della capacità di separare ed identificare un elevato numero di proteine. 2 Quaderni di Bioinformatica Alcuni degli obiettivi della proteomica • Identificazione di nuovi bersagli proteici per farmaci • Validazione dei bersagli • Profilo d’azione dei farmaci (tossicologia “in vitro”) • “Farmaco-proteomica” (tossicologia in vivo) • Comparazione tra tessuti malati e normali • Comparazione tra tessuti malati e trattati farmacologicamente • Studio delle modificazioni post-trascrizionali • Strategie integrate con la genomica Applicazioni nel campo bio-medico • Determinazione di markers di patologie nei fluidi corporei • Studi farmacologici • Studi tossicologici • Analisi dei tessuti nelle patologie tumorali Cenni storici Le PROTeine espresse dal genOMA sono state così definite “PROTEOMA”, termine che venne utilizzato per la prima volta in pubblico da Marc Wilkins (Wilkins et al., 1996) al primo congresso di proteomica di Siena nel 1994. Il campo di ricerca, invece, ha preso il nome di “proteomica” ed è stato definito come “l’impiego dell’analisi quantitativa nella determinazione dei livelli di proteine per la caratterizzazione dei processi biologici e per la comprensione dei meccanismi di controllo dell’espressione genica”. il termine era già apparso nella biologia moderna 13 anni prima, quando Anderson e Anderson (1981) proposero la costituzione di un ‘atlante delle proteine umane’. Ma esistono altre definizioni che di seguito riportiamo. "The ensemble of various technologies necessary to identify and ascribe biology to proteins in vivo" (DM&D proteomics report). "Part of the functional analysis of gene products including large-scale identification and interaction studies of proteins" (Nature Biotech). "The complete profile of proteins present in the cell, in the tissue, and the body as a whole" (Leroy Hood). "The large scale study of proteins, usually by biochemical methods" (Matthias Mann). Nel gennaio del 1970 apparve sulla rivista Analytical Biochemistry il primo lavoro in cui veniva descritta una tecnica che combinava l’isoelettrofocalizzazione in condizioni native all’SDS-PAGE su gradiente di 3 Quaderni di Bioinformatica poliacrilammide per la separazione di proteine del siero. Gli autori, nelle conclusioni, affermarono che la tecnica impiegata aveva: “evidenti applicazioni nella caratterizzazione del materiale genetico polimorfico, nella verifica dell'eterogeneità delle proteine e nella risoluzione delle miscele complesse di proteine” (Kenrick e Margolis, 1970). Cinque anni dopo, nel 1975, O’Farrell (O’Farrell, 1975), Klose (Klose, 1975) e Scheele (Scheele, 1975) descrissero, per la prima volta e contemporaneamente, un sistema di elettroforesi bidimensionale su gel di poliacrilammide (2D-E) che impiegava, in prima dimensione, una IEF in condizioni denaturanti. Il lavoro di O’Farrell, sebbene pionieristico e realizzato in condizioni estremamente complicate e laboriose, permise di individuare, in un solo gel 2D, ben 1100 spot distinti, corrispondenti ad altrettante proteine di Escherichia coli. Figura 1. Esempio di elettroforesi bidimensionale ad elevata risoluzione. Nonostante i clamorosi risultati però, la 2D-E, per molti anni dopo la sua ideazione, non entrò a far parte delle tecniche di largo impiego nei laboratori di ricerca a causa degli elevati limiti dei sistemi per l’identificazione delle proteine ma, soprattutto, per la carenza di protocolli e reagenti adeguati che conducevano a risultati eccessivamente variabili. In particolare, l’impiego di anfoliti carrier per la produzione di gradienti di pH nell’isoelettrofocalizzazione rendeva estremamente difficile ottenere un soddisfacente grado di riproducibilità 4 Quaderni di Bioinformatica delle mappe 2D e, dunque, la comparazione dei dati inter- ed intra-laboratorio appariva pressoché impossibile. Inoltre, tali anfoliti erano inidonei alla separazione di campioni contenenti quantità preparative di proteine (Herbert et al., 1997). L’introduzione dei gradienti immobilizzati di pH (IPG) co-polimerizzati in strisce di gel di poliacrilammide eliminò il problema dell’instabilità dei gradienti e della ridotta capacità di carico dei campioni (Bjellqvist et al., 1982; Gorg et al., 1988; Righetti, 1990). Tale innovazione, unita ai progressi nella spettrometria massa e allo sviluppo di strumentazioni e metodi di processamento automatizzati, facilitò l’approccio all’elettroforesi bidimensionale e rese l'analisi proteomica estremamente agevole, affidabile ed efficace consentendone la diffusione. A partire dagli anni ’90, la proteomica ha conquistato uno spazio sempre più ampio nella ricerca biochimica fino a diventare un campo di ricerca a sé stante e perfino a determinare l’esigenza dell’impiego di una nuova terminologia. L’improvviso e rapido sviluppo dell’analisi proteomica è facilmente deducibile anche dal considerevole incremento che, nella banca dati PubMed, ha subito la citazione di termini ad essa riferiti. La prima pubblicazione scientifica che menziona tali tecniche è apparsa nel Luglio del 1995 (Wasinger et al., 1995) e nel 2004, dopo soli nove anni, gli articoli pubblicati, correlati a questo campo di ricerca erano ben 3144. Figura 2. Tipico workflow di un’analisi proteomica. Le proteine vengono estratte dal campione (costituito da cellule, tessuti o fluidi biologici), separate mediante elettroforesi bidimensionale. Le risultanti macchie proteiche (“spot”) vengono escisse dal gel e sottoposte a digestione enzimatica o chimica. I peptidi in miscela vengono 5 Quaderni di Bioinformatica successivamente analizzati mediante spettrometria di massa. La ricerca in banche dati permette infine di identificare le proteine (Peptide Mass Fingerprinting). Il crescente interesse del mondo scientifico per le potenzialità dell’analisi proteomica, unito alla elevata riproducibilità dei risultati, ha indotto molti gruppi di ricerca a rendere disponibili le proprie mappe 2D sulla rete informatica mondiale (World-Wide Web), mediante l’allestimento di banche dati dedicate. Attualmente sono accessibili in rete molti server che, oltre a contenere un database di gel 2D, offrono una vasta gamma di servizi e software gratuiti per l’analisi proteomica. Uno tra i più noti e completi server di proteomica, denominato ExPASy (Expert Protein Analysis System), è gestito dall’Istituto Svizzero di Bioinformatica (SIB); dalla pagina principale del sito (http://www.expasy.ch/) è possibile accedere, tramite un collegamento, alla banca dati di mappe bidimensionali SWISS-2DPAGE (http://www.expasy.ch/ch2d/) (Appel et al., 1994; Wilkins et al., 1999; Hoogland et al., 1999; Gasteiger et al., 2003). Le fasi dell’analisi proteomica L’analisi del proteoma prevede, generalmente, le seguenti fasi: estrazione delle proteine da una matrice organica, separazione delle proteine contenute nell’estratto cellulare, analisi d’immagine dei pattern di separazione ed identificazione delle proteine. Elettroforesi bidimensionale L'analisi 2D-E è una tecnica che sfrutta la duplice separazione di miscele complesse di proteine in funzione del punto isoelettrico (pI) e, successivamente, del peso molecolare (Mr) mediante SDS-PAGE. La preparazione del campione, che consiste nella solubilizzazione della componente proteica di interesse con detergenti non ionici e zwitterionici, è seguita dalla focalizzazione isoelettrica (isoelettrofocalizzazione, IEF), effettuata su supporti di gel di poliacrilammide contenenti un gradiente di pH immobilizzato (IPG). Durante l’IEF, le proteine migrano nel gradiente fino a raggiungere una posizione fissa dove la loro carica netta è nulla. Le bande proteiche focalizzate in prima dimensione vengono poi risolte ortogonalmente in funzione del peso molecolare tramite la tradizionale elettroforesi su gel di poliacrilammide in presenza di sodio dodecilsolfato (SDS-PAGE). Il risultato è una mappa di "spot" che possono essere ulteriormente separati, identificati e caratterizzati. Preparazione del campione Una adeguata preparazione del campione è assolutamente essenziale per ottenere buoni risultati. A causa della enorme diversità di tipi e fonti di proteine, la procedura ottimale di preparazione deve essere determinata 6 Quaderni di Bioinformatica empiricamente per ciascun campione. Idealmente, il processo dovrà provocare la solubilizzazione, la disgregazione, la denaturazione e la riduzione completa di tutte le proteine contenute nel campione. Per caratterizzare specifiche proteine di una miscela complessa, le proteine di interesse devono trovarsi, nelle condizioni elettroforetiche, in uno stato completamente solubile. La solubilizzazione può essere definita come il processo che distrugge le forze di aggregazione (Tab. 1) tra gli analiti (nel caso specifico, le proteine) ed altri componenti (sia proteine che composti non proteici); tale processo elimina pertanto le sostanze interferenti e previene una secondaria riaggregazione degli analiti durante il processo di separazione (elettroforesi). Energia di interazione (Kcal/mol) Agenti impiegati per la disgregazione Ponti disolfuro Legami ad idrogeno Interazioni elettrostatiche 40 3–8 2–5 Ione-Dipolo Dipolo-Dipolo Van der Waals Interazioni idrofobiche 1 0.3 0.3 Riducenti (alchilanti facoltativi) Caotropi Sali, Detergenti polari, Caotropi, Molecole con dipolo netto (meno efficienti) Sali, Molecole dipolari, Caotropi Sali, Molecole dipolari, Caotropi Caotropi, Detergenti Natura dell’interazione ? Tabella 1. Principali forze implicate nella coesione proteica e interazione con altre molecole (Rabilloud, 1996) In definitiva, il protocollo di solubilizzazione dipenderà dalle richieste del metodo di purificazione (in questo caso, l’elettroforesi), dalla scelta delle condizioni (native o denaturanti), e dall’eventuale necessità di rimuovere sostanze interferenti (sali, lipidi, acidi nucleici, polisaccaridi, ecc.) (Tab. 2). I sali non interferiscono perchè danno un forte legame con le proteine, ma disturbano l’elettroforesi: quindi è necessario dializzare, meglio se contro un agente denaturante, in modo che si limitino le perdite di proteine. Tipicamente, la massima concentrazione salina tollerabile in un campione da caricare in prima dimensione dovrebbe essere ≤ 50 mM. I lipidi danno due tipi di problema dipendenti dalla loro struttura supramolecolare: se sono monomeri o se si presentano assemblati. Se sono presenti come monomeri, essi possono legare alcune proteine, di solito carrier di lipidi. Questo può quindi portare ad uno sfalsamento del peso molecolare. Tale problema è facilmente risolvibile utilizzando un detergente. Se sono presenti in forma assemblata si può denaturare o precipitare con etanolo o acetone che spesso forniscono una utile seppur parziale delipidizzazione (Menke, 1980; Penefsky, 1971). 7 Quaderni di Bioinformatica Per quanto concerne gli acidi nucleici e i polisaccaridi, essi vanno eliminati perché incrementano la viscosità e compromettono la separazione elettroforetica: basta rimuoverli centrifugando il campione a 10.000g. Un altro modo è digerire gli acidi nucleici con DNAsi o RNAsi; l’ovvio inconveniente è che tali enzimi “aggiunti” verranno poi visualizzati nel gel. Un elenco dei metodi maggiormente impiegati per la rimozione di composti interferenti è riportato in Tabella 3. Metodi Sali Lipidi Acidi Nucleici Polisaccaridi Pigmenti Recupero Proteina Detergenti Ultracentrifugazione - S/Lc Vb VL - S S Precipitazione con ioni complessi - ± - Sb S S V - V c TCA S L - V V S TCA/solvente S S - V S V Solfato d’ammonio Solvente (h) +d - Se S Sf - Vg - Vg S S V Tabella 2. Esempi di metodi di rimozione di sostante interferenti (da Rabilloud, 1996) LEGENDA: S soddisfacente; V variabile; VL variabile con la taglia del composto; L limitata; Lc limitata, dipendente dalla concentrazione del composto; - inefficiente. a) Pigmenti, terpeni, polifenoli ed altri composti correlati b) Efficiente solo con detergenti cationici (che inducono precipitazione), abbinata a centrifugazione per rimuovere il precipitato. c) Alcuni lipidi possono formare uno strato superficiale durante la centrifugazione, nei casi favorevoli, questo strato può essere rimosso. d) I sali sono rimossi , ma rimpiazzati con solfato d’ammonio residuo, che si può eliminare con etanolo al 70%. e) Spesso si induce il galleggiamento dei lipidi. f) Efficiente con una procedura in due tempi: dissociazione delle proteine dagli acidi nucleici in solfato d’ammonio 0.6-0.8 M, ultracentrifugazione per rimuoverli, dopodiché si arriva quasi alla saturazione in solfato d’ammonio per precipitare le proteine. g) Variabile, la solubilità in solfato d’ammonio concentrato non è prevedibile. Includendo la precipitazione acetato d’ammonio/ fenolo. 8 Quaderni di Bioinformatica Da quanto detto finora appare evidente che per solubilizzare proteine presenti in campioni diversi sono richiesti trattamenti e condizioni differenti. L'efficacia della solubilizzazione dipende dalla scelta del metodo di lisi delle cellule, dai metodi di concentrazione e dissoluzione delle proteine e dal tipo di detergenti usati e dalla composizione del campione. Se qualcuno di questi punti non viene ottimizzato per il particolare tipo di campione da analizzare, le separazioni possono risultare incomplete o distorte e molte informazioni possono andare perse. Nonostante, però, non sia possibile trovare un unico protocollo capace di solubilizzare tutte le proteine di un campione, esistono attualmente molti protocolli di solubilizzazione applicabili alla maggior parte dei campioni biologici e studiati per avere la minima manualità, la massima attenuazione dell’interferenza nella migrazione, la solubilizzazione di proteine sia idrofobiche che idrofiliche nonché di polipeptidi ricchi in cisteine ed, infine, la riduzione della degradazione proteolitica (Tab. 3). Tipo di campione Cellule eucariotiche Membrane cellulari, membrane globulo rosso Tessuto muscolare tal quale Tessuti già estratti ad esempio con guanidinio cloruro (es. muscolo, fegato, rene, ghiandola mammaria, cervello) Urine Estratto da microrganismi Siero, plasma, liquido sinoviale Latte Tampone di solubilizzazione urea 7M, tiourea 2M, CHAPS 2%, TX-100 2%, DTT 1%, Anfoline 1.6%, TRIS 15mM, PMSF 3mM urea 7M, tiourea 2M, CHAPS 2%, TX-100 2%, DTT 1%, Anfoline 1.6%, TRIS 15mM urea 9.5M, CHAPS 2%, DTT 1%, Anfoline 2%, PMSF 3mM Urea 8M, CHAPS 4%, DTT 1%, Anfoline 1.6%, TRIS 15mM Urea 8M, CHAPS 4%, DTT 1%, Anfoline 1.6% Urea 8M, CHAPS 4%, DTT 1%, Anfoline 1.6%, TRIS 10mM Urea 8M, CHAPS 4%, DTT 1%, Anfoline 1.6%, TRIS 15mM urea 7M, tiourea 2M, CHAPS 4%, DTT 1%, Anfoline 1.6%, TRIS 15mM Tabella 3. Linee guida per la solubilizzazione di alcuni campioni campioni biologici Nota: L’importanza della quantificazione proteica nel campione non dovrebbe essere sottovalutata. Ad esempio, nel caso dei campioni sierici, un problema tipico è l’alta abbondanza relativa di due classi di proteine, l’albumina e le immunoglobuline, che spesso mascherano le componenti minori ovvero le proteine che, nella mappa bidimensionale, si trovano nelle immediate vicinanze del medesimo intervallo di separazione di quelle maggiormente rappresentate. 9 Quaderni di Bioinformatica Prima dimensione: Focalizzazione Isoelettrica (IEF) I gradienti di pH immobilizzato si basano sul principio che il gradiente di pH, preformato rispetto alla corsa elettroforetica, è copolimerizzato, e quindi reso insolubile, entro le fibre della matrice di poliacrilammide. Ciò è possibile utilizzando, come tamponi, dei derivati poliacrilammidici aventi dei valori di pK ben distribuiti nell’intervallo 1-12. Questi composti sono derivati acrilammidici con la struttura generale: CH2 = CH –CO-NH-R dove R può contenere o un gruppo carbossilico o un gruppo amminico terziario o gruppi solfato o ammonico quaternario. Tali derivati acrilammidici prendono il nome di Immobiline. Durante la polimerizzazione del gel, i tamponi e i titolanti sono efficientemente incorporati nel gel, il che assicura in ogni punto un dato valore di pH di illimitata stabilità. La distanza tra il doppio legame ed il gruppo che prende parte all’equilibrio proteolitico deve essere scelto sufficientemente lungo da influenzare il doppio legame per trascurare la relativa costante di dissociazione. Come risultato, la differenza di pK tra le Immobiline libere e legate è principalmente dovuta alla presenza della matrice poliacrilammidica e alle variazioni di temperatura durante la corsa elettroforetica. I gradienti di pH immobilizzati possono essere creati nello stesso modo di un gel in gradiente di poliacrilammide convenzionale, utilizzando un gradiente di densità per stabilizzare il gradiente di concentrazione delle immobiline con l’ausilio di un classico gradientatore bicamere. Questi tamponi non sono molto anfoteri, ma piuttosto bifunzionali: ad un’estremità della molecola si colloca il gruppo tamponante mentre all’altra estremità è presente il doppio legame acrilico che si consumerà durante il processo di polimerizzazione. L’IEF su IPG è una tecnica elettroforetica nella quale i composti anfoteri sono frazionati in accordo con i loro punti isoelettrici lungo un gradiente di pH continuo (Bjellqvist et al., 1982). Contrariamente all’elettroforesi zonale, dove il pH costante (tamponato) del mezzo di separazione stabilisce una densità di carica costante sulla superficie della molecola e la fa migrare con mobilità costante (in assenza di setacci molecolari), la carica superficiale di un composto anfotero nell’isoelettrofocalizzazione cambia e diminuisce, in accordo con la sua curva di titolazione, così come si muove lungo un gradiente di pH fino a che raggiunge la sua posizione di equilibrio (la regione dove il suo pH eguaglia il punto isoelettrico): perciò la sua mobilità è uguale a zero e la molecola si ferma (Fig. 3). Contrariamente al focusing convenzionale in tamponi anfoteri, dove il gradiente è creato e mantenuto dal passaggio di una corrente elettrica attraverso una soluzione di composti anfoteri che 10 Quaderni di Bioinformatica hanno punti isoelettrici spazialmente vicini, nel focusing su gradiente di pH immobilizzato il gradiente preesiste al passaggio della corrente, essendo creato quando si polimerizza il gel. Figura 3. Isoelettrofocalizzazione: le proteine raggiungono la regione del gradiente dove il pH eguaglia il loro pI. Questa innovazione ha permesso di superare tutti i problemi connessi con il focusing convenzionale: il limite di rivelazione, il fatto di poter procedere ad un’elettroforesi preparativa, l’esatta determinazione del punto isoelettrico. Inoltre la sintesi di Immobiline basiche (Chiari et al., 1989, 1990) ha permesso di coprire intervalli di pH estremamente alcalini, il che costituiva un grosso limite per il focusing convenzionale. Per quanto riguarda la tecnica bidimensionale, è possibile procedere polimerizzando un gel su gradiente di pH immobilizzato dell’intervallo voluto; dopo averlo accuratamente lavato ed essiccato si tagliano delle strisce della larghezza di 3 mm (in alternativa si possono utilizzare delle strisce già fatte, in commercio) e si rigonfia per un periodo che va da sei ore a tutta la notte, con agenti denaturanti, detergenti e riducenti (tipicamente urea 7-8M, tiourea 2M, CHAPS 2-4%, DTT 1-2%). A questo punto, dopo aver pretrattato il campione, si può fare avvenire la corsa elettroforetica, sempre rigorosamente sotto olio di paraffina che impedisce all’anidride carbonica di essere adsorbita dal gel, e quindi portare ad un’acidificazione della matrice con conseguente errata lettura dei punti isoelettrici (Bossi et al., 1994). Una volta effettuata la focalizzazione, con un tempo che va in media dalle 13 alle 20 ore, ad una temperatura di 20°C si passa alla seconda dimensione, previo opportuni passaggi di equilibrazione. 11 Quaderni di Bioinformatica Equilibrazione delle strisce Le strisce IPG devono essere equilibrate due volte, ciascuna volta per 15 minuti in un opportuno volume di tampone di equilibrazione. Tale tampone contiene una soluzione 6M urea, e 30% glicerolo, per diminuire gli effetti elettroendoosmotici (Görg et al., 1988) responsabili della riduzione delle proteine tra la prima e la seconda dimensione. Nel primo passaggio si aggiunge ditiotreitolo (DTT) all’1% per ridurre completamente le proteine, mentre durante il secondo passaggio viene aggiunta della iodoacetamide (IAA) 260 mM al tampone di equilibrazione per rimuovere l’eccesso di DTT (responsabile dei cosiddetti point streaking nei gel colorati con l’argento) ma soprattutto per carbammidometilare i residui di cisteina; questo al fine di rompere irreversibilmente i ponti disolfuro e di mantenere le proteine il più lineari possibile. Le strisce di gel così equilibrate sono poi rapidamente sciacquate nel tampone di corsa della seconda dimensione (SDS-tris-glicina) per rimuovere l’eccesso di tampone di equilibrazione e quindi applicate sul gel di seconda dimensione (SDSPAGE). Seconda dimensione: SDS-PAGE L’elettroforesi bidimensionale si conclude tecnicamente nella seconda dimensione, che può essere sia verticale che orizzontale. Le proteine separate in base al loro punto isoelettrico, vengono successivamente fatte correre ortogonalmente su di un gel di poliacrilamide in presenza di sodiododecilsofato (SDS). Il surfattante SDS si lega alle proteine, coprendo la loro carica intrinseca e conferendo a tutti i polipeptidi la stessa densità di carica. In queste condizioni le proteine vengono separate solo in base alla loro diversa massa molecolare, tramite l’effetto setaccio creato dai pori del gel di poliacrilammide (Herbert, 1997) (Fig. 4). Figura 4. SDS-PAGE: le proteine precedentemente focalizzate migrano verso l’anodo e si separano in funzione della loro massa molecolare 12 Quaderni di Bioinformatica Per ciò che riguarda la seconda dimensione verticale, esistono varie taglie del gel, che solitamente sono spessi 1 - 1.5 mm, viene cioè polimerizzato un “running gel” (Laemmli, 1973) che può essere o omogeneo o in gradiente di porosità. Una volta polimerizzato il gel, anziché creare uno stacking, si crea una matrice con una soluzione bollente di agarosio allo 0.5% p/V in tampone di corsa, e, prima che tale soluzione gelifichi, si posiziona la striscia di prima dimensione in tale fluido a diretto contatto con il gel “running”. Se si desidera far correre la seconda dimensione orizzontalmente, si possono utilizzare gel precast commerciali oppure crearli su supporto di Gel Bond, come per la prima dimensione. In questo caso (gel orizzontale) il tampone può o riempire la vasca dell’elettroforesi o essere ceduto da apposite buffer strip commerciali; la striscia di IPG fatta precedentemente correre ed equilibrata viene posizionata a faccia in giù sul gel, schiacciandola delicatamente in modo da permettere la perfetta aderenza delle due matrici. Sistemi per l’elettroforesi bidimensionale Prima dimensione IPGphor Multiphor Seconda dimensione ETTAN Daltsix ProteanII 13 Quaderni di Bioinformatica Visualizzazione La colorazione al nitrato d’argento rimane il metodo analitico di elezione, poiché la sensibilità è circa 10 volte maggiore rispetto ad una colorazione in coomassie colloidale con coomassie brilliant blue (CBB) G-250 e 100 volte maggiore rispetto ad una colorazione in coomassie con CBB R-250. Di conseguenza, il Silver è il metodo di prima scelta qualora si avessero bassissime quantità di campione analizzate in focusing. Sono state pubblicate un cospicuo numero di metodiche al nitrato d’argento, basate sulle tecniche di staining di Merril et al., (1981) e successive modificazioni (Blum et al., 1987, Heukeshoven, 1988). Qualora si voglia quantificare l’abbondanza relativa esatta delle proteine, le principali colorazioni per gel preparativi sono il tradizionale coomassie colloidale con CBB G-250 oppure le colorazioni tramite coloranti fluorescenti quali ad esempio il SYPRO Ruby (Molecular Pobes) o il Deep Purple (GE Ealthcare). E’ possibile inoltre colorare selettivamente proteine con determinate modificazioni post-traduzionali sempre con coloranti fluorescenti specifici come il ProQ Diamond (Molecular Probes) per le fosfoproteine o il ProQ Emerald (Molecular Probes) per le glicoproteine. Tutti questi coloranti fluorescenti necessitano di scanner a fluorescenza (laser o a luce bianca) che siano in grado di irradiare i gel con le lunghezze d’onda appropriate per eccitare i vari flourofori legati alle proteine. Se invece si desidera identificare una particolare proteina all’interno del gel avendo a disposizione un anticorpo specifico non si esegue la colorazione tradizionale ma si fa innanzi tutto un “western-blotting” (Towbin 1979) e poi eventualmente una reazione antigene-anticorpo colorimetrica. Per ciò che riguarda il blotting, se si ha a disposizione un gel orizzontale SDS, va innanzi tutto rimosso il gel bond, supporto della matrice stessa del gel; ciò ovviamente non è necessario quando il gel che si desidera blottare è un Laemmli classico. Si definisce western-blotting il trasferimento della separazione elettroforetica delle proteine su una membrana di nitrocellulosa o PVDF. Il trasferimento viene effettuato in maniera semi-dry, utilizzando due elettrodi di grafite, tra i quali si crea una specie di “sandwich” con la carta da filtro 3MM imbevuta di tampone di trasferimento. Una volta effettuato il blotting, si può colorare la membrana con Commassie blue o india ink, oppure si può eseguire una reazione immunologia con lectine specifiche (es. horse radish peroxidases). Analisi d’immagine computerizzata. Dopo la separazione delle proteine mediante 2D-E, al fine di procedere all’analisi d’espressione differenziale, è indispensabile la digitalizzazione delle mappe bidimensionali ed il loro confronto mediante opportuni software d’analisi d’immagine (Fig. 5). Tali programmi, migliorati periodicamente nel tentativo di raggiungere la completa automatizzazione, consentono di rilevare e misurare gli spot presenti sul gel dopo aver ridotto il rumore di fondo e rimosso gli artefatti della migrazione (strisciate orizzontali e/o verticali). 14 Quaderni di Bioinformatica Figura 5. Esempio di interfaccia grafica di un software per l’analisi d’immagine di mappe 2D La maggior parte dei programmi di analisi d’immagine in commercio, però, non identifica automaticamente tutti i punti, specialmente quando la qualità generale della separazione elettroforetica è bassa (ad esempio nelle zone di sovrapposizione degli spot), quindi, solitamente, si rende necessaria l’individuazione manuale da parte dell’operatore degli spot non rilevati. Essendo direttamente correlato al numero di proteine presenti sul gel, alla qualità della separazione e all’algoritmo utilizzato, questo processo può essere abbastanza lungo e laborioso. Dopo l’individuazione (“detection”), ciascuno spot presente su uno dei gel deve essere abbinato al corrispondente spot presente su tutti gli altri gel (“matching”). Nella maggior parte dei programmi di analisi di immagine, tale operazione prevede, inizialmente, l’abbinamento manuale di una serie di spot distribuiti uniformemente sull’intera superficie del gel, la cui coincidenza sia facilmente ed inequivocabilmente riconoscibile da parte dell’operatore. A partire da questi spot, il programma procede ad abbinare automaticamente tutti gli altri. Al termine del matching, il software genera un prospetto riassuntivo che permette di rilevare le differenze qualitative e/o quantitative esistenti tra gli spot individuati nei diversi gel (Gorg et al., 2004). 15 Quaderni di Bioinformatica SPETTROMETRIA DI MASSA Negli ultimi decenni del secolo scorso i notevoli progressi tecnologici della spettrometria di massa hanno contribuito notevolmente allo sviluppo della proteomica. L’enorme diffusione della spettrometria di massa come tecnica analitica è legata alla sua capacità di misurare una proprietà intrinseca delle molecole: la loro massa. Per l’analisi delle molecole con queste tecniche, in passato era necessario che esse fossero in fase gassosa oltre che ionizzate, per questo motivo risultava abbastanza complesso applicare questi metodi di analisi a molecole grandi come le proteine. Enormi passi avanti sono stati compiuti negli ultimi anni grazie all’introduzione degli spettrometri di massa con sorgente MALDI (Matrix Assisted Laser Desorption Ionizzation) o Electrospray che hanno rivoluzionato lo studio delle macromolecole poiché con questi strumenti l’analisi parte da campioni solidi o liquidi che solo successivamente passano allo stato gassoso. A queste innovazioni si deve il successo della spettrometria di massa negli studi di proteomica. Uno spettrometro di massa è costituito da tre parti fondamentali: sorgente; analizzatore; rivelatore di ioni. All’interno della sorgente i campioni vengono ionizzati e passano in fase gassosa; gli ioni cosi formati raggiungono l’analizzatore e vengono discriminati in base al loro rapporto massa/carica (m/z). Tutti gli analizzatori necessitano di un vuoto particolarmente spinto per il loro funzionamento, fondamentale per permettere agli ioni di raggiungere il rivelatore senza collidere con altre molecole, poiché questo potrebbe abbassare notevolmente la risoluzione e la sensibilità dello strumento, provocando la frammentazione non desiderata degli ioni stessi. Gli analizzatori a tempo di volo (TOF) sono comunemente utilizzati con le sorgenti MALDI, mentre analizzatori a quadrupolo e a trappola ionica sono i più comuni analizzatori accoppiati a sorgenti del tipo electrospray. Il concomitante sviluppo dell’elettronica e dell’informatica, inoltre, ha consentito la creazione di database di sequenze nucleotidiche e amminoacidiche e di opportuni software da usare per l’interrogazione degli stessi. Tutto questo ha reso molto più semplice e rapida l’interpretazione dei risultati ottenuti dalle analisi di spettrometria di massa. Oggi la spettrometria di massa applicata alla proteomica è usata per l’identificazione delle proteine e per il controllo di qualità delle proteine ricombinanti (strumento fondamentale per le biotecnologie). Inoltre è possibile l’individuazione e la caratterizzazione di modifiche post-traduzionali e potenzialmente di tutte le modifiche covalenti che alterano la massa della proteina. i. Ionizzazione MALDI Con la spettrometria di massa MALDI si possono analizzare vari tipi di biomolecole. In una sorgente MALDI gli analiti passano direttamente dalla fase solida alla fase gassosa e contemporaneamente vengono ionizzati 16 Quaderni di Bioinformatica (Karas & Hillekamp 1988). Per consentire l’analisi, le molecole sono miscelate ad un grosso eccesso di matrice che serve ad assorbire le radiazioni irradiate da un raggio laser. Le matrici utilizzate sono piccole molecole organiche aromatiche che hanno elettroni delocalizzati in un sistema di orbitali coniugati; inoltre queste molecole sono acidi organici deboli che quando eccitate trasferiscono un protone alle molecole di analita convertendole in specie del tipo MH+ (fig. 1.1). Viene utilizzato un raggio di laser pulsato che emette luce con lunghezza d’onda nell’ultravioletto anche se il meccanismo con cui le molecole ionizzino in una sorgente di questo tipo non è ancora completamente chiaro. Figura 1.1 Sorgente MALDI La ionizzazione MALDI viene considerata una tecnica di ionizzazione “soft” poiché difficilmente causa frammentazione delle molecole di analita. Ad una sorgente di tipo MALDI viene comunemente accoppiato un analizzatore a tempo di volo (TOF) anche se altre combinazioni sono possibili. ii. Analizzatore a tempo di volo (TOF) per sorgente MALDI Un analizzatore a tempo di volo è costituito da un tubo di lunghezza nota all’interno del quale c’è un vuoto molto spinto (fig. 1.2). Dopo la ionizzazione in sorgente gli ioni prodotti vengono ugualmente accelerati da una opportuna differenza di potenziale e passano nel tubo di volo. 17 Quaderni di Bioinformatica Al momento dell’ingresso nel tubo di volo gli ioni hanno tutti la stessa energia cinetica, quindi la velocità con cui viaggiano all’interno dell’analizzatore dipende solo dal loro rapporto m/z; in particolare minore è il rapporto m/z maggiore è la loro velocità. I tempi che ioni con diversi rapporti m/z impiegano per raggiungere il rivelatore sono differenti; lo strumento va quindi ad analizzare gli ioni in base al tempo che impiegano a percorrere il tubo di volo. Gli analizzatori TOF di tipo “lineare” garantiscono una elevata sensibilità, ma una risoluzione abbastanza scarsa che diminuisce all’aumentare delle dimensioni dell’analita. La risoluzione è stata migliorata con l’introduzione di analizzatori TOF “reflector”, nei quali gli ioni devono compiere una traiettoria più lunga, rispetto al TOF classico (“lineare”), prima di raggiungere il rivelatore. La risoluzione risulta migliore sia perché gli ioni possono essere meglio separati, sia perché si possono allontanare eventuali ioni frammento. Questi strumenti consentono di ottenere risoluzione isotopiche. Figura 1.2 MALDI-TOF iii. Ionizzazione electrospray Nella spettrometria di massa ad electrospray (ESI/MS) (Fenn et al. 1989; Chait & Kent 1992) l’analita viene sciolto in una soluzione acquosa costituita da un solvente organico (solitamente si utilizzano acetonitrile, metanolo oppure isopropanolo), acqua ed in presenza di acido acetico o formico; questa soluzione viene pompata con flussi di pochi l al minuto attraverso un cono con un orifizio dal diametro di pochi mm, al quale è applicata una differenza di potenziale di alcune migliaia di volt (3500-5000 V). Dall’orifizio fuoriesce uno micro spray disperso, le cui goccioline sono costituite dall’analita ionizzato circondato da molecole di solvente (fig 1.3). All’uscita dal cono un flusso di gas colpisce le goccioline facilitando l’evaporazione del solvente; quando le forze di repulsione tra le molecole di analita tutte cariche positivamente supera la tensione superficiale dovuta al solvente, la gocciolina “esplode” e vengono liberate le molecole di 18 Quaderni di Bioinformatica campione cariche in fase gassosa; le molecole vengono poi accelerate da una differenza di potenziale e si dirigono verso l’analizzatore. Figura 1.3 Sorgente electrospray Questa tecnica di ionizzazione ha la capacità di creare specie multicarica (M+nH)n+ se le specie che stiamo analizzando hanno più siti di ionizzazione; ciò causerà la formazione di varie popolazioni di ioni con un diverso numero di cariche (z); l’abbondanza delle varie popolazioni seguirà una distribuzione statistica. Ciò comporta che dall’analisi di una singola specie si otterranno spettri costituiti da numerosi segnali con diversi rapporti m/z, che si distribuiranno su una gaussiana. Questa particolarità consente l’analisi anche di molecole molto grandi poiché le specie multicarica che si formeranno rientreranno un in intervallo ristretto di valori m/z che rende ideale l’accoppiamento di questo tipo di sorgente con analizzatori in grado di esplorare un ristretto intervallo di valori m/z (ad esempio analizzatori a trappola ionica o a quadrupolo). Inoltre la possibilità di generare più segnali da una stessa specie consente di eseguire una misurazione molto accurata della massa molecolare dell’analita poiché i valori ottenuti dai singoli m/z possono essere mediati. Solitamente per la generazione di specie multicarica la ionizzazione ESI si presta preferenzialmente all’analisi di singole proteine o miscele semplici per evitare di avere dati troppo complessi da interpretare. I sistemi di analisi ESI-MS possono essere utilizzati in serie con sistemi di separazione del tipo RP-HPLC che possono separare gli analiti di una miscela prima dell’analisi allo spettrometro. Anche la ionizzazione electrospray è catalogata come tecnica di ionizzazione “soft” poiché l’energia fornita alle molecole per la ionizzazione è insufficiente a causarne la frammentazione in sorgente. 19 Quaderni di Bioinformatica iv. Analizzatori per sorgente electrospray Gli analizzatori tipicamente associati ad una sorgente electrospray sono il quadrupolo e la trappola ionica. Un analizzatore a quadrupolo (fig. 1.4) è costituito da quattro barre metalliche a cui è applicato un campo elettrico oscillante; all’interno del quadrupolo per l’effetto del campo elettrico oscillante, gli ioni compiono una traiettoria elicoidale che li porta ad avvicinarsi ed allontanarsi dalle barre. Oltre al campo elettrico, alle barre vengono applicate anche delle radiofrequenze che consentono la separazione degli ioni, poiché solo quelli con un determinato rapporto m/z saranno in risonanza con la radiofrequenza e quindi si muoveranno su traiettorie stabili che consentiranno loro di attraversare l’analizzatore; gli altri ioni si muoveranno su traiettorie che li porteranno ad uscire dall’analizzatore e di conseguenza non arriveranno al rivelatore. Come l’analizzatore a tempo di volo, anche all’interno del quadrupolo è mantenuto un vuoto molto spinto; tipicamente questo tipo di analizzatore funziona per un intervallo di valori m/z compreso tra 100 e 2500-3000. Figura 1.4 Quadrupolo L’analizzatore di massa a trappola ionica è costituito da un elettrodo ad anello e da due elettrodi, uno superiore e l’altro inferiore, detti “end caps”, che chiudono la trappola (fig. 1.5). Il principio di funzionamento della trappola ionica è simile a quello del quadrupolo, in quanto agli elettrodo vengono applicati sia un campo elettrico che una radiofrequenza. La combinazione di RF e DC genera all’interno della trappola un campo elettrico tridimensionale che serve a mantenere gli ioni intrappolati tra gli elettrodi; gli ioni si muoveranno all’interno della trappola seguendo traiettorie circolari concentriche con raggi che dipendono dal rapporto m/z e dai voltaggi applicati. 20 Quaderni di Bioinformatica Figura 1.5 Trappola ionica Solitamente all’interno della trappola viene immesso un gas inerte (elio o argon) che serve a controllare la distribuzione dell’energia cinetica degli ioni. Variando i potenziali applicati alla trappola si rendono instabili le traiettorie degli ioni che vengono quindi espulsi dal campo tridimensionale e arrivano al rivelatore; utilizzando radiofrequenze a diverse lunghezze d’onda si causa la fuoriuscita dalla trappola di ioni con diversi rapporti m/z in tempi successivi che arrivando al rivelatore generano lo spettro di massa. I limiti di valore m/z che la trappola ionica riesce ad analizzare sono vicini ai limiti del quadrupolo, con un intervallo che va da 300-400 a 3500-4000; la capacità della trappola ionica di accumulare ioni al suo interno, però, comporta un aumento nella risoluzione dello strumento rispetto ad un quadrupolo. v. Spettrometria di massa tandem La spettrometria di massa tandem (MS/MS) è un comune approccio usato per l’identificazione di proteine, essa caratterizza la struttura primaria dei peptidi, perché consente di avere informazioni sulla loro sequenza amminoacidica. Infatti dall’analisi dello spettro MS/MS di un peptide è possibile derivare la sequenza amminoacidica. La spettrometria di massa tandem (MS/MS) prevede, generalmente, l’utilizzo di spettrometri di massa dotati di due analizzatore separati da una cella di collisione; il primo analizzatore in questi strumenti funziona da filtro di massa, inviando alla cella di collisione solo specie con un determinato rapporto m/z, mentre con il secondo analizzatore vengono separati i frammenti generati nella cella di collisione (fig. 1.6). L’unica eccezione è costituita dall’analizzatore a trappola ionica che da solo può funzionare come strumento per analisi di spettrometria di massa tandem. 21 Quaderni di Bioinformatica All’interno della cella di collisione lo ione precursore viene frammentato con un metodo noto come decomposizione indotta da collisione (CID, Collisionally Induced Decomposition); questo tipo di approccio prevede che le molecole all’interno della cella di collisione vengano colpiti da atomi o molecole di un gas inerte come elio, argon, neon o azoto. Negli urti elastici parte dell’energia traslazionale degli atomi o delle molecole del gas, viene trasferita alle molecole di analita; di questa energia una parte rimane energia traslazionale, mentre l’altra parte sarà distribuita sui moti vibrazionali dei legami chimici delle molecole dello ione. Se quest’ultima energia trasferita è sufficiente si avrà la rottura dei legami chimici con la generazione di una serie di ioni frammento. Figura 1.6 Esempio di sistema di spettrometria di massa tandem Nel caso di peptidi la frammentazione con il metodo della decomposizione indotta da collisione porterà alla rottura in via preferenziale dei legami peptidici, dando origine ad una miscela statistica di ioni frammento che differiranno per il valore di massa di un singolo amminoacido (Roepstorff & Fohlman 1984). Gli ioni più abbondanti in una frammentazione di un peptide sono quelli delle serie b ed y, generati dalla rottura del legame peptidico con ritenzione della carica rispettivamente sull’estremità N- o C- terminale (fig 1.7). y7 O y6 y4 y5 R2 O O R4 H N H2N O b1 b2 R6 O H N R5 O b4 N H O b5 b6 R7 O b7 Figura 1.7 Esempio di frammentazione di un oligopeptide 22 R8 OH N H R3 b3 y1 y2 H N N H N H R1 y3 Quaderni di Bioinformatica Dall’interpretazione di uno spettro di frammentazione si può quindi risalire alla sequenza amminoacidica del peptide poiché i frammenti differiscono per la massa di un singolo amminoacido; fanno eccezione le coppie isobariche leucina/isoleucina e lisina/glutammica. Mentre nel primo caso è molto difficile discriminare tra l’uno o l’altro residuo, nel secondo caso l’utilizzo della tripsina come enzima proteolitico per la generazione dei peptidi può far escludere la presenza di lisine all’interno di una sequenza peptidica, localizzandoli all’estremità C-terminale. vi. Strumenti per spettrometria di massa tandem Gli spettrometri di massa usati per analisi MS/MS si distinguono in due categorie: tandem nel tempo e tandem nello spazio. Sono classificati come tandem nello spazio gli strumenti in cui la selezione dello ione, la frammentazione e l’analisi dei frammenti avvengono in settori differenti dello spettrometro; esempi di questo tipo sono i tripli quadrupoli (ESI-QqQ), gli strumenti ibridi ESI-Q-TOF, gli strumenti MALDI-TOF-TOF e le trappole ioniche lineari. Tandem nel tempo, invece, sono gli strumenti in cui queste tre operazioni sono eseguite nello stesso spazio ma in tempi differenti; un esempio è quello delle trappole ioniche tridimensionali che possono inizialmente accumulare ioni e successivamente frammentarli ed analizzarne i frammenti sempre all’interno della trappola stessa. Oggi gli strumenti più usati sono i tripli quadrupoli, che sono i più economici e semplici nell’uso, ma è molto diffuso anche l’utilizzo delle trappole ioniche tridimensionali e lineari.Un analizzatore a triplo quadrupolo (fig. 1.8) riesce ad effettuare analisi MS/MS in quanto è costituito da due quadrupoli (Q1 e Q3) separati da un terzo quadrupolo (q2) che funge da cella di collisione.Con questi strumenti si possono effettuare analisi di product ion scan, precursor ion scan, neutral loss scan, single reaction monitoring ma a questi analizzatori è anche legata una ridotta sensibilità ed in più solo una parte degli ioni che entrano nella cella di collisione frammentano dando risultati analizzabili. In particolare con un esperimento di “precursor ion scan” (analisi di ioni precursori) il Q1 opera una scansione degli ioni all’interno di un range di massa da noi prefissato e li trasmette al q2 in maniera sequenziale. I frammenti ionici generati arrivano al Q3 i cui potenziali sono mantenuti costanti in maniera da consentire al solo frammento dall’m/z prescelto di raggiungere il rivelatore. Lo spettro di massa risultante rappresenta l’intensità dello ione a m/z prescelto in funzione dell’m/z dello ione analizzato. In questa maniera è possibile identificare, anche in miscele complesse, gli m/z capaci di produrre lo ione prescelto. Questa caratteristica è molto utile per individuare molecole incognite appartenenti ad una certa classe la cui frammentazione è però nota. Le frammentazioni all’interno di un triplo quadrupolo sono di buona qualità poiché viene utilizzata una energia di 23 Quaderni di Bioinformatica frammentazione molto più alta di quella minima richiesta ma per un tempo molto breve, evitando così frammentazioni eccessive. Inoltre questi analizzatori sono caratterizzati da una elevata velocità di scansione e da una buona selettiva in modalità precursor ion scan e neutral loss scan. Altro tipo di analizzatori utilizzati per analisi MS/MS sono le trappole ioniche tridimensionali e lineari. La trappola ionica tridimensionale funziona accumulando ioni al suo interno e mantenendoli su traiettorie stabili utilizzando opportune combinazioni di RF e DC. Si può selezionare uno ione precursore tra quelli accumulati all’interno della trappola e variare le radiofrequenze in modo che tutti gli altri ioni fuoriescano dall’analizzatore. Viene poi indotta la frammentazione per collisione dello ione selezionato immettendo un flusso di gas all’interno della trappola; gli ioni frammento generati vengono poi analizzati normalmente. Figura 1.8 Triplo quadrupolo Gli svantaggi di questo tipo di strumento sono legati alla scarsa accuratezza dei valori m/z misurati, nonché al ridotto intervallo di valori m/z analizzabili ed alla impossibilità di effettuare analisi del tipo precursor ion scan e neutral loss scan. I vantaggi della trappola ionica tridimensionale sono l’elevata sensibilità e l’elevata risoluzione dovute all’accumulo degli ioni prima che vengano analizzati. Una peculiarità della trappola ionica tridimensionale è la possibilità di eseguire analisi di MSn, poiché i frammenti generati per collisione possono essere a loro volta frammentati. vii. Trappola ionica lineare Un altro analizzatore in grado di eseguire analisi di spettrometria di massa tandem è la trappola ionica lineare (fig. 1.9).Questo strumento è una sintesi tra un triplo quadrupolo e una trappola ionica tridimensionale. 24 Quaderni di Bioinformatica Figura 1.9 Schema della trappola ionica lineare In questo strumento gli ioni generati da una sorgente ESI prima di entrare nel Q1 attraversano un primo quadrupolo (Q0) al quale vengono applicate solo radiofrequenze. Come nel triplo quadrupolo classico il Q1 funziona da filtro di massa trasmettendo solo gli ioni di interesse alla cella di collisione (q2); il Q3, all’interno del quale avviene la scansione selettiva degli ioni frammento, può funzionare come una trappola ionica tridimensionale, cioè può intrappolare ed accumulare gli ioni al suo interno. La trappola ionica lineare combina i vantaggi del triplo quadrupolo e della trappola ionica tridimensionale in quanto questo strumento ha una sensibilità molto elevata anche analizzando intervalli ampi di valori m/z; inoltre consente di effettuare scansioni molto selettive degli ioni precursori (Hager 2002; Hager 2004). I vantaggi di questo strumento consistono nella separazione spaziale degli step di isolamento degli ioni precursori e di frammentazione di questi ultimi; si ha quindi la possibilità di analizzare intervalli di massa più ampi rispetto ad una trappola ionica tridimensionale o ad un quadrupolo. Con la trappola ionica lineare si possono eseguire le analisi possibili con un triplo quadrupolo e con una trappola ionica tridimensionale; inoltre le modalità operative “enhanced multiply charged scan” e “time delayed fragmentation”, che sono tipiche delle trappole ioniche lineari, consentono analisi molto più accurate. La prima modalità consente di esaltare gli ioni doppia carica con conseguente aumento della risoluzione e della sensibilità. Ciò è importante quando si lavora con peptidi triptici poiché in questo caso è frequente avere frammenti recanti una doppia carica, laddove i frammenti monocarica sono perlopiù dovuti a impurezze del campione. Con la modalità “time delayed fragmentation”, prima della scansione dei frammenti nel Q3 si lasciano decadere gli ioni che hanno una energia cinetica al di sopra di una certa soglia, allontanando così gli ioni che hanno subito più urti e che perciò sono frammentati in maniera insoddisfacente. Identificazione delle proteine Durante gli esperimenti di proteomica per l’identificazione di proteine si possono utilizzare diverse tecniche. 25 Quaderni di Bioinformatica Nell’ambito della proteomica di prima generazione l’identificazione delle proteine viene effettuata combinando l’utilizzo della elettroforesi bidimensionale e della spettrometria di massa. Le proteine vengono inizialmente separate utilizzando l’elettroforesi bidimensionale e poi l’identificazione viene effettuata analizzando con spettrometri di massa i peptidi ottenuti idrolizzando le proteine con enzimi proteolitici specifici (tripsina, Asp-N proteasi, Glu-C proteasi). Questa procedura di identificazione prende il nome di “peptide mass fingerprint” e si basa sul principio che proteine con sequenze amminoacidiche differenti se idrolizzate con enzimi specifici daranno miscele differenti di peptidi, che sono uniche per le varie proteine (Pappin 1997; Pappin 2003). La miscela peptidica viene quindi analizzata con spettrometri di massa MALDITOF per ottenere misure accurate delle masse dei peptidi che vengono confrontante, per mezzo di opportuni programmi disponibili in rete, con le masse teoriche ottenute dall’idrolisi in silico di tutte le sequenze proteiche presenti nella banca dati. I programmi utilizzati restituiscono l’identificazione della proteina assegnando un punteggio di probabilità statistica all’identificazioni che dipenderà dalle corrispondenze tra dati teorici e dati sperimentali. L’evoluzione tecnica che ha consentito di sviluppare spettrometri di massa dotati di due analizzatori, ha consentito di superare gran parte delle problematiche relative all’elettroforesi bidimensionale, aprendo la strada alla proteomica di seconda generazione. Un approccio proteomico di questo tipo prevede l’idrolisi di una miscela di proteine o di un intero proteoma e la successiva analisi della miscela complessa di peptidi ottenuta con strumenti in grado di eseguire analisi di spettrometria di massa tandem. In questo modo è possibile ottenere spettri di frammentazione di peptidi dai quali è possibile risalire alla sequenza amminoacidica che, unitamente alla massa dello ione precursore, può essere usata per l’identificazione delle proteine in banca dati (Mann 1996; Wilm et al. 1996). La conoscenza di tratti di sequenza piuttosto che di masse dei peptidi, consente di effettuare una identificazione molto più precisa ed inoltre ci permette di avere informazione su eventuali modifiche post-traduzionali presenti sulla proteina. Marcatura ed isolamento selettivo di specifici peptidi L’idrolisi enzimatica di una proteina genera alcune decine di peptidi; una miscela più o meno complessa di proteine sottoposta ad idrolisi enzimatica può quindi generare alcune centinaia o addirittura migliaia di peptidi. L’analisi di questi dati con MS o con MS/MS può risultare molto complessa sia per l’enorme quantità di peptidi sia per la presenza di un gran numero di dati ridondanti. In teoria una la determinazione di una sequenza amminoacidica di un unico peptide composto da almeno cinque residui consente di identificare in maniera univoca una proteina (Zhang et al. 2002). Si sono quindi sviluppate una serie di strategie di analisi che si basano sull’isolamento di un singolo peptide per proteina e che consentono di ridurre notevolmente il grado di complessità dell’analisi di un intero proteoma. 26 Quaderni di Bioinformatica Queste strategie si basano sull’utilizzo di reattivi che reagiscono selettivamente con amminoacidi specifici, modificandoli chimicamente e facilitando quindi la successiva purificazione cromatografica. Dall’idrolisi della proteina dopo marcatura selettiva si ottiene una miscela di peptidi che può essere notevolmente semplificata attraverso la separazione e l’analisi dei soli peptidi marcati. Sequenziando questi peptidi mediante spettrometri di massa MS/MS si può facilmente identificare la proteina d’origine. In questo contesto un notevole successo hanno ottenuto i reattivi note come classe ICAT (isotope-coded affinity tag) (Gygi et al. 1999). Queste molecole sono costituite da tre porzioni: un gruppo reattivo che si lega covalentemente alla catena laterale di uno specifico residuo amminoacidica, un linker, una regione che consente la purificazione mediante cromatografia di affinità. I reattivi ICAT sono usati nella maggior parte dei casi come marcatori di cisteine, poiché il gruppo reattivo è spesso costituito da una funzione iodoacetammidica che reagire in maniera specifica con i gruppi sulfidrilici; in queste molecole il gruppo spaziatore è un poliestere, mentre il gruppo di affinità è costituito da una molecola di biotina (fig 1.10). La biotina lega con grande affinità molecole di avidina e quindi si possono purificare i peptidi contenenti cisterne marcate con una cromatografia di affinità in ci la resina è derivatizzata con avidina. Figura 1.10 Esempio di reattivo ICAT È possibile anche isolare peptidi contenenti metionina legandoli ad un supporto solido attraverso un residuo bromoacetilico (Weinberger et al. 2002) e successivo trattamento con mercaptoetanolo per allontanare i peptidi legati al supporti. Nel caso di peptidi contenenti istidina si possono effettuare cromatografie di affinità con metalli immobilizzati (IMAC) (Ji et al. 2000). DATA BASE: Gestione dei dati in proteomica Lo studio proteomico richiede il continuo sviluppo di metodi per il miglioramento delle capacità separative, della sensibilità e delle possibilità di interpretazione dei dati correlati ai segnali biologici; inoltre a causa della 27 Quaderni di Bioinformatica complessità delle relazioni e dei comportamenti che le proteine instaurano con i diversi tessuti ed organi coinvolti e, infine, per l’importanza nella attività che vanno a svolgere, i più grandi centri di ricerca scientifica internazionali (accademici e non) si sono dotati di potenti banche di dati per raccogliere, catalogare e gestire il maggior numero di informazioni possibili.Le informazioni reperibili in internet: un’attenta ricerca sul web di tutte le banche di dati che si“interessano” di proteine e di proteomica che fanno capo ai più importanti centri internazionali: ne sono stati individuati una trentina, ognuno con determinate caratteristiche e filoni di ricerca che ora vengono presentati in ordine di importanza. L’importanza, variabile apparentemente soggettiva, è relativa alla qualità ed alla quantità delle informazioni presenti nel database ed anche alla frequenza con cui i codici identificatori delle proteine vengono “trovati” nelle ricerche sul web. -UniProt The universal protein resource (http://www.ebi.uniprot.org) È il più grande catalogo al mondo di informazioni sul mondo delle proteine. È il “deposito centrale” della sequenza e della funzione delle proteine generate unendo le informazioni contenute in Swiss-Prot, in TrEMBL e in PIR (vedi successivamente). UniProt è composto da tre componenti, ciascuno ottimizzato per un uso differente (UniProtKB, UniRef, UniParc, vedi successivamente). -UniProtKB UniProt Knowledgebase (http://www.ebi.uniprot.org) È il punto di accesso centrale per informazioni accurate e precise sulle proteine, che includono funzione, classificazione e cross-references. E’ una sotto sezione dell’UniProt generale descritto precedentemente. -Vega (http://vega.sanger.ac.uk) The Vertebrate Genome Annotation (VEGA) è il “deposito centrale” per l’alta qualità, gli aggiornamenti frequenti e l’annotazione manuale della sequenza del genoma umano; i particolari dei progetti per ogni specie sono disponibili attraverso le diverse homepage per l'essere umano, il topo, il maiale ed il cane. -NCBI RefSeq (http://www.ncbi.nlm.nih.gov/RefSeq) La collezione RefSeq mira a fornire un insieme integrato, completo, non ridondante delle sequenze, includendo il DNA genomico, l’RNA trascritto e i derivati proteici per i più importanti organismi di ricerca. I campioni di RefSeq servono come base per studi medici, funzionali e di diversità; forniscono un riferimento stabile per l'identificazione e descrizione del gene, analisi di mutazione, studi di espressione, scoperta di polimorfismo ed analisicomparative. RefSeqs è usato come reagente per l'annotazione funzionale di un certo genoma che ordina i progetti in serie, compreso quelli dell'essere umano e del topo. -Ensembl (http://www.ensembl.org) È un progetto che coinvolge EMBL, EBI e il Sanger Istitute per sviluppare un sistema di software che produca ed effettui l'annotazione automatica sui genomi eucariotici selezionati. -H-InvDB (http://www.h-invitational.jp/) È un database integrato di geni umani; si appoggia sulla conoscenza delle banche di dati del Giappone e compie ricerche soprattutto sull’RNA trascritto. 28 Quaderni di Bioinformatica -UniParc (http://www.ebi.uniprot.org) L'archivio di UniProt-UniParc è un deposito completo, che mostra la storia di tutte le sequenze della proteina. -HGNC (http://www.gene.ucl.ac.uk) Si propone di dare nomi unici ed espressivi al gene umano. -Entrez Gene (http://www.ncbi.nlm.nih.gov) Entrez Gene è una base consultabile di dati dei geni, dei genomi di RefSeq e definito dalla sequenza e situato nella viewer del programma di NCBI. -UniGene (http://www.ncbi.nlm.nih.gov) UniGene è una vista organizzata del Transcriptome. Ogni record di UniGene è un insieme delle sequenze della trascrizione che sembrano venire dallo stesso luogo della trascrizione (gene o pseudogene espresso), insieme alle informazioni sulle somiglianze della proteina, sull'espressione del gene, sui reagenti del clone del cDNA e sulla posizione genomica. -CCDS (http://www.ncbi.nlm.nih.gov/CCDS) Il progetto dei CD di consenso (CCDS) è uno sforzo di collaborazione per identificare un insieme di nucleo delle regioni di codificazione della proteina del topo e dell'essere umano che sono annotate di frequente ed ad un livello di alta qualità. L'obiettivo di lunga durata è di sostenere la convergenza verso un insieme standard delle annotazioni del gene. -Trome (http://ch.embnet.org/software/fetch.html) Trome è una nuova base di dati che usa gli allineamenti dei dati di EST (expressed sequenze tag) a HTG (high-throughput menome) e dei genomi completi per generare le trascrizioni e le sequenze di codificazione virtuali. Questa nuova base di dati è di una qualità maggiore e, poiché contiene le informazioni in una disposizione molto più densa, essa è di gran lunga molto inferiore, in termini dimensionali, rispetto alle due basi di dati più piccole. -UtrDB (http://www2.ba.itb.cnr.it/UTRSite) UTRSite è una collezione di modelli di sequenza funzionale (legati in particolare all’RNA messaggero) situati nelle posizioni 5 ' o 3 '. Le proteine che si legano al 3' o al 5' UTR possono danneggiare la traduzione interferendo con l'abilità dei ribosomi di legarsi all'mRNA. -InterPro (http://www.ebi.ac.uk/interpro) InterPro è una base di dati delle famiglie delle proteine, dei domini e delle posizioni funzionali in cui le caratteristiche identificabili trovate nelle proteine conosciute possono essere applicate alle sequenze sconosciute della proteina. -PFam (http://www.sanger.ac.uk/Software/Pfam/iPfam) iPfam è una risorsa che descrive le interazioni di dominio-dominio che sono osservate nei record di PDB. I domini sono definiti da Pfam. Quando due o i più domini si presentano in una singola struttura, essi sono analizzati per vedere se formano un'interazione. Se invece sono abbastanza vicini formare un'interazione, si calcolano i legami che l’interazioneproduce. -SMART (http://smart.embl-heidelberg.de/) SMART sta per Simple Modular Architecture Research Tool; si può usare SMART in due modi differenti: normale o genomic. La differenza principale è nella base di dati di fondo della proteina usata. In SMART normale, la base di dati contiene lo Swiss-Prot, PS-TrEMBL e proteomi stabili di Ensembl. 29 Quaderni di Bioinformatica -PROSITE (http://www.expasy.org/prosite) PROSITE è una base di dati delle famiglie e dei domini della proteina. E’ formata dai modelli e dai profili biologicamente significativi che contribuiscono ad identificare attendibilmente a quale famiglia conosciuta della proteina (se esiste) una nuova sequenza appartiene. -CleanEx (http://www.cleanex.isb-sib.ch/) CleanEx è una base di dati che fornisce l'accesso ai dati pubblici di espressione del gene attraverso i simboli approvati unici del gene e che rappresenta i dati eterogenei di espressione redatti dalle tecnologie differenti facilitando i confronti tra dataset di cross.references diversi. -PHANTER (http://www.pantherdb.org/) Il sistema di classificazione PHANTER (Protein ANalysis THrough Evolutionary Relationships) è una risorsa unica che classifica i geni per le loro funzioni, usando la prova sperimentale scientifica pubblicata ed i rapporti evolutivi per predire la funzione anche in assenza di prova sperimentale diretta. Per un numero crescente di proteine, le interazioni biochimiche dettagliate nelle vie canoniche sono bloccate e possono essere osservate con diverse interazioni. -PRINTS (http://umber.sbs.man.ac.uk/dbbrowser/PRINTS/) PRINTS è un compendio di impronte digitali della proteina. Un'impronta digitale è un gruppo dei motivi conservati usati per caratterizzare una famiglia della proteina; I motivi non coincidono solitamente, ma sono separati lungo una sequenza, benchè possano essere attigui nello spazio tridimensionale. -PIR (http://pir.georgetown.edu/) Il Protein Information Resource si trova presso l’Università di GeorgeTown a Washington DC ed è un centro di ricerca bioinformatico avanzato particolarmente nello studio della proteomica e della genomica. -EPD (http://www.epd.isb-sib.ch/index.html) L’Eukaryotic Promoter Database è una collezione nonridondante annotata di promotor eucariotici del POL II (che trascrive RNA per proteine), per cui il punto di inizio della trascrizione è stato determinato sperimentalmente. L'accesso alle sequenze del promotor è fornito dagli indicatori alle posizioni nelle entrate di sequenza del nucleotide. La parte di annotazione di un'entrata include la descrizione dei dati di tracciato di luogo di inizio, dei riferimenti ad altre basi di dati e dei riferimenti bibliografici. EPD è strutturato in modo da facilitare l'estrazione dinamica dei sottoinsiemi biologicamente espressivi del promotor per l’analisi comparativa di sequenza. -TIGRFAMs (http://www.tigr.org/TIGRFAMs/) TIGRFAMs sono famiglie di proteine basate sugli Hidden Markv Models. -Superfamily (http://supfam.org/SUPERFAMILY/) Lo scopo di questo server è fornire assegnazioni funzionali e strutturale alle sequenze della proteina al livello del superfamily. Una superfamily contiene tutte le proteine per cui si ha prova strutturale di un antenato evolutivo comune. -Transfac (http://www.genome.ad.jp/dbget-bin/www_bfind?transfac) È una banca di dati che fa riferimento al centro bioinformatico dell’Università di Kyoto. 30 Quaderni di Bioinformatica -ProDom (http://prodom.prabi.fr/prodom/current/html/home.php) ProDom è un insieme completo delle famiglie dei domini delle proteine generate automaticamente dalle basi di dati di sequenza di TrEMBL e di SWISSPROT. -RZPD (http://www.rzpd.de) È un centro tedesco di risorse per lo studio e la ricerca del genoma. -GENE3D (http://cathwww.biochem.ucl.ac.uk:8080/Gene3D) Permette di studiare la struttura e le funzionalità delle famiglie di proteine. Bibliografia Anderson NL, Anderson NG. Proteome and proteomics: New technologies, new concepts, and new words. Electrophoresis. 1998;19:1853–1861. Appel RD, Bairoch A, Hochstrasser DF. A new generation of information retrieval tools for biologists: the example of the ExPASy WWW server. Trends in biochemical sciences. 1994;19(6):258-260. Bakhtiar R, Nelson RW. Electrospray ionization and matrix-assisted laser desorption ionization mass spectrometry, emerging technologies in biomedical sciences. Biochemical Pharmacology. 2000; 59:891-905. Beavis R.C., Chait B.T.; High-accuracy molecular mass determination of proteins using matrix-assisted laser desorption mass spectrometry. Anal. Chem. 62, 1836-1840 (1990). Bjellqvist B, Ek K, Righetti PG, Gianazza E, Gorg A, Westermeier R, Postel W. Isoelectric focusing in immobilized pH gradients: principle, methodology and some applications. Journal of biochemical and biophysical methods. 1982;6(4):317-339. Blum H, Beier H, Gross HJ. Improved silver staining of plant proteins, RNA and DNA in polyacrylamide gels. Electrophoresis. 1987;8:93-99. Bossi A, Righetti PG, Vecchio G, Severinsen S. Focusing of alkaline proteases (subtilisins) in pH 10-12 immobilized gradients. Electrophoresis. 1994;15(12):1535-40. Cagney G., Emili A.; De novo peptide sequencing and quantitative profiling of complex protein mixtures using mass-coded abundance tagging. Nat. Biotechnol. 20, 163-170 (2002). Chait B.T., Kent S.B.; Weighing naked proteins: practical, high-accuracy mass measurement of peptides and proteins. Science. 257 (5078), 1885-94 (1992). Chiari M, Casale E, Santaniello E, Righetti PG. Synthesis of buffers for generating immobilized pH gradients. I: Acidic acrylamido buffers. Applied and theoretical electrophoresis. 1989;1(2):99-102. Chiari M, Righetti PG, Ferraboschi P, Jain T, Shorr R. Synthesis of thiomorpholino buffers for isoelectric focusing in immobilized pH gradients. Electrophoresis. 1990;11(8):617-20. Fenn J.B., Mann M., Meng C.K., Wong S.F., Whitehouse C.M. Electrospray ionization for mass spectrometry of large biomolecules. Science 246, 64-70 (1989). Gasteiger E, Gattiker A, Hoogland C, Ivanyi I, Appel RD, Bairoch A. ExPASy: The proteomics server for in-depth protein knowledge and analysis. Nucleic acids research. 2003;31(13):3784-3788. Gevaert K., Goethals M., Martens L., Van Damme J., Staes A., Thomas G. R., Vandekerckhove J.; Exploring proteomes and analyzing protein processing by mass spectrometric identification of sorted N-terminal peptides. Nat. Biotechnol. 21, 566-569 (2003). Gevaert K., Van Damme J., Goethals M., Thomas G. R., Hoorelbeke B., Demol H., Martens L., Puype M., Staes A., Vandekerckhove J.; Chromatographic isolation of methionine-containing peptides for gel-free proteome analysis: identification of more than 800 Escherichia coli proteins. Mol. Cell. Proteomics 1, 896-903 (2002). Gobom J, Schuerenberg M, Mueller M, Theiss D, Lehrach H, Nordhoff E. Alpha-cyano-4-hydroxycinnamic acid affinity sample preparation. A protocol for MALDI-MS peptide analysis in proteomics. Analytical Chemistry. 2001;73(3):434-438 Gorg A, Postel W, Gunther S. The current state of two-dimensional electrophoresis with immobilized pH gradients. Electrophoresis. 1988;9(9):531-546. Review. Gorg A, Weiss W, Dunn MJ. Current two-dimensional electrophoresis technology for proteomics. Proteomics. 2004;4:3665–3685. Review. Gygi S.P., Rist B., Gerber S. A., Turecek F., Gelb M. H. Aebersold R.; Quantitative analysis of complex protein mixtures using isotope-coded affinity tags. Nat. Biotechnol. 17, 994-999 (1999). Hager J.W.; A new linear ion trap mass spectrometer. Rapid Commun. Mass Spectrom. 16, 512-526 (2002). Hager J.W.; Q TRAP™ mass spectrometer technology for proteomics applications. Mass spectrometry in proteomics supplement, 3, 2 (Suppl.) (2004). Herbert BR, Sanchez JC, Bini L. Two-Dimensional Electrophoresis: The State of the Art and Future Directions. In “Proteome Research: New Frontiers in Functional Genomics”. Ed. Springer. 1997;2:13-33. 31 Quaderni di Bioinformatica Heukeshoven J, Dernick R. Improved silver staining procedure for fast staining in PhastSystem Development Unit. I. Staining of sodium dodecyl sulfate gels. Electrophoresis. 1988;9: 28-32 Hoogland C, Sanchez JC, Walther D, Baujard V, Baujard O, Tonella L, Hochstrasser DF, Appel RD. Two-dimensional electrophoresis resources available from ExPASy. Electrophoresis. 1999;20(18):3568-3571. Ji J., Chakraborty A., Geng M., Zhang X., Amini A., Bina M., Regnier F.; Strategy for qualitative and quantitative analysis in proteomics based on signature peptides. J. Chromatogr. B Biomed Sci. App. l745, 197-210 (2000). Jonscher K.R., Yates J.R.; The quadrupole ion trap mass spectrometer – a small solution to a big challenge. Anal. Biochem. 244, 115 (1997). Karas M., Hillenkamp F.; Laser desorption ionization of proteins with molecular masses exceeding 10000 Daltons. Anal. Chem. 60, 2299-2301 (1988). Kenrick KG, Margolis J. Isoelectric focusing and gradient gel electrophoresis: a two-dimensional technique. Analytical biochemistry. 1970;33(1):204-207. Klose J. Protein mapping by combined isoelectric focusing and electrophoresis of mouse tissues. A novel approach to testing for induced point mutations in mammals. Humangenetik. 1975;26:231–243. Laemmli UK, Favre M. Maturation of the head of bacteriophage T4. The journal of Biological Chemistry. 1973;80:575-599. Lane CS. Mass spectrometry-based proteomics in the life sciences. Cellular and Molecular Life Science. 2005;62:848-869. Review. Mackey A.J., Haystead T.A., Pearson W.R.; Getting more from less: algorithms for rapid protein identification with multiple short peptide sequences. Mol Cell Proteomics. 1 (2), 139-47 (2002). Malorni A., Marino G.; Peptide fragmentation mechanisms. Adv. Mass Spec. Biochem. Med. 2, 249-255(1976). Mann M, Hendrickson RC, Pandey A. Analysis of proteins and proteomes by mass spectrometry. Annu. Rev. Biochem. 70, 437-473 (2001). Mann M.; A shortcut to interesting human genes: peptide sequence tags, expressed-sequence tags and computers. Trends Biochem. Sci. 21, 494-495 (1996). Marino G, Buonocore V., “Mass-spectrometric identification of 1-dimethylaminoaphthalene-5-sulphonyl-amino acids. Biochem. J. 110 (3), 603-4 (1968). Menke R, Huth W. Immunological assay of the mitochondrial acetyl-Co-A acetyltransferase in crude liver homogenate. FEBS Letters. 1980;119(1):29-32. Merril CR, Dunau ML, Goldman D. A rapid sensitive silver stain for polypeptides in polyacrylamide gels. Analytical biochemistry. 1981;110(1):201-7. Munchbach M., Quadroni M., Miotto G., James P.; Quantitation and facilitated de novo sequencin of proteins by isotopic N-terminal labelling of peptides with a fragmentation-directing moiety. Anal. chem. 72, 4047-4057 (2000). Nilsson C.L, Davidsson P.; New separation tools for comprehensive studies of protein expression by mass spectrometry. Mass Spectrom. Rev. 19 (6), 390-397 (2000). O’Farrell PH. High resolution two-dimensional electrophoresis of proteins. The Journal of biological chemistry. 1975;250:4007-4021. Pandey A., Mann M.; Proteomics to study genes and genomes. Nature 405, 837-846 (2000). Pappin D.J.; Peptide mass fingerprinting using MALDI-TOF mass spectrometry. Methods Mol. Biol. 64 ,165-73 (1997). Pappin D.J.; Peptide mass fingerprinting using MALDI-TOF mass spectrometry. Methods Mol. Biol. 211, 211-9 (2003). Patton W.F.; Detection technologies in proteome analysis. J. Chromatogr. B 771, 3-31 (2002). Penefsky ZJ, Kahn M. Inotropic effects of dexamethasone in mammalian heart muscle. European Journal of Pharmacology. 1971;15(3):259-66. Proceedings of the National Academy of Sciences of the United States of America.(1979);76(9):4350-4. Rabilloud T. Solubilization of proteins for electrophoretic analyses. Electrophoresis. 1996;17(5):813-29. Review. Righetti PG. Immobilised pH gradients: theory and methodology. In “Laboratory techniques in biochemistry and molecular biology”. Ed Elsevier, 1990. Roepstorff P., Fohlman J.; Proposal for a common nomenclature for sequence ions in mass spectra of peptides. Biomed. Mass Spectrom. 11, 601-601(1984). Scheele GA. Two-dimensional gel analysis of soluble proteins. Characterization of guinea pig exocrine pancreatic proteins. The Journal of biological chemistry. 1975;250:5375-5385. Spahr C.S., Susin S.A., Bures E.J., Robinson J.H., Davis M.T., McGinley M.D., Kroemer G., Patterson S.D.; Simplification of complex peptide mixtures for proteomic analysis: reversible biotinylation of cysteinyl peptides. Electrophoresis. 21 (9), 1635-50 (2000). Towbin H, Staehelin T, Gordon J. Electrophoretic transfer of proteins from polyacrylamide gels to nitrocellulose sheets: procedure and some applications. Turecek F.; Mass spectrometry in coupling with affinity capture-release and isotope-coded affinity tags for quantitative protein analysis. J. Mass Spectrom. 37, 1-14 (2002). Tyers M., Mann M.; From genomics to proteomics. Nature 422, 193-197 (2003). Wasinger VC, Cordwell SJ, Cerpa-Poljak A, Yan JX, Gooley AA, Wilkins MR, Duncan MW, Harris R, Williams KL, Humphery-Smith I. Progress with gene-product mapping of the Mollicutes: Mycoplasma genitalium. Electrophoresis. 1995;16(7):1090-1094. Wilkins MR, Gasteiger E, Bairoch A, Sanchez JC, Williams KL, Appel RD, Hochstrasser DF. Protein identification and analysis tools in the ExPASy server. Methods in molecular biology. 1999;112:531-552. Review. 32 Quaderni di Bioinformatica Wilkins MR, Sanchez JC, Gooley AA, Appel RD, Humphery-Smith I, Hochstrasser DF, Williams KL. Progress with proteome projects: Why all proteins expressed by a genome should be identified and how to do it. Biotechnology & genetic engineering reviews. 1996;13:19-50. Wilm M., Shevchenko A., Houthaeve T., Breit S., Schweigerer L., Fotsis T., Mann M.; Femtomole sequencing of proteins from polyacrylamide gels by nanoelectrospray mass spectrometry. Nature 379, 466-469 (1996). Zimmermann J.D., Brown L.R.; Perspectives for mass spectrometry and functional proteomics. Mass Spectrom. Rev. 20, 1-57 (2001). 33