Principi di proteomica Elettroforesi bidimensionale e spettrometria di massa: determinazione del proteoma Proteoma: Proteome = Proteins encoded by the genome Il proteoma comprende tutte le proteine espresse nello stesso momento in una cellula, incluse tutte le isoforme e le modificazioni post-traduzionali. Il proteoma all’interno di una stessa cellula cambia in funzione di un certo stato (malattia, trattamento, tempo, ecc.) 40000 Geni 1 Milione di Proteine Perché identificare il pattern di espressione proteica ? 1) Non c’è correlazione tra quantità di mRNA e quantità di proteina (degradazione proteica, protezione dalla degradazione) 2) Modificazioni post-traduzionali: alterano la funzione delle proteine a livello biochimico • Acetilazione, metilazione • Fosforilazione • Glicosilazione (enzimatica) • Glicazione (non enzimatica) • Nitrazione/denitrazione • Cleavage • Protein splicing • Tagging Principi di proteomica Elettroforesi bidimensionale e spettrometria di massa: determinazione del proteoma L’elettroforesi bidimensionale separa le proteine in base alla loro carica (come nella IEF) e dimensioni (come nell’SDS-PAGE). La prima dimensione (isoelettrofocalizzazione) è eseguita usando gel di poliacrilammide contenuti in stretti tubicini, in presenza di anfoliti, urea e detergente non ionico. 1 Le proteine si separano in base al loro punto isoelettrico (pI). pI = valore di pH in cui la carica netta della proteina è pari a zero. In corrispondenza di questo valore di pH la mobilità elettroforetica è nulla. In assenza di SDS, ogni proteina migra nel tubicino contenente acrilammide fino a raggiungere il valore di pH pari al suo pI. Terminata la separazione, il gel viene recuperato dai tubicini, incubato in un tampone contenente SDS e fissato versando dell’agarosio. Polimerizzato l’agarosio, può iniziare la corsa nella seconda dimensione e la separazione avviene in base al peso molecolare delle proteine. Protein Identification by Mass Spec 2 L’elettroforesi bidimensionale separa proteine secondo la loro carica e la loro massa Con questo metodo si risolvono fino a 10000 proteine diverse. La successiva digestione con tripsina, la separazione dei peptidi in HPLC e il sequenziamento con la spettrometria di massa, consentono di portare avanti lo studio del proteoma (separazione e identificazione delle proteine nei tessuti sani e/o ammalati). Identificazione delle proteine espresse in modo differente Controllo Trattato MASS SPECTROMETRY Silver/ Coomassie stain Identificazione Proteine 3 Elettroforesi bidimensionale 1. Preparazione del campione 2. Prima dimensione: focalizzazione isoelettrica 3. Seconda dimensione: SDS-PAGE 4. Visualizzazione ed analisi dei risultati Procedure di analisi Image Master 2D Elite3.01 software (Amersham Bioscience) 1. Identificazione degli spot 2. Confronto tra gli spot del campione e quelli di una mappa di riferimento 4 Vantaggi e svantaggi • Buona capacità risolutiva • Consente una facile quantificazione • Separazione di oltre 3000 proteine • Alta riproducibilità • Fornisce informazioni su PM, punto Isoelettrico, modificazioni post-traduzionali • Poco costosa • Range di pH limitato (4-8) • Proteine >150 kD non sono visibili in un gel 2D • Difficoltà nel rilevare le proteine di membrana (>30% di tutte le proteine) • Detezione solo delle proteine maggiormente espresse (30% in genere) • L’analisi richiede molto tempo Identificazione proteine tramite analisi di massa 5 Spettrometria di massa: è una tecnica che consente di separare e classificare gli ioni gassosi (atomici o molecolari) in funzione del rapporto tra la loro massa e la loro carica (m/c). Quando una molecola, in fase vapore, viene investita da un fascio di elettroni dotati di notevole energia cinetica si può avere la sua ionizzazione a ione monopositivo. 6 Lo ione molecolare positivo, a sua volta, può decomporsi in una serie di frammenti di massa inferiore. Tale processo di frammentazione avviene in modo caratteristico. Lo ione, o l’insieme di ioni, vengono separati sfruttando un campo elettrico e/o magnetico. Lo ione molecolare carico positivamente si frammenta (in parte), con formazione di molecole e/o radicali neutri, che non vengono rivelati dallo strumento, e di cationi e/o radicali cationi, separati e rivelati dallo spettrometro. Dal punto di vista strumentale uno spettrometro di massa è costituito da quattro parti essenziali: a)camera di introduzione e vaporizzazione del campione, mantenuta sotto vuoto spinto b) sorgente di ioni: un flusso di elettroni viene generato da un filamento incandescente ed accelerato verso la camera di ionizzazione 7 c) analizzatore delle masse ioniche: il raggio di ioni creato nella camera di ionizzazione viene separato per mezzo del passaggio attraverso un campo elettrico e/o magnetico. d) Collettore e rivelatore ionico: i raggi ionici separati vengono raccolti e si misura la corrente ionica. Sistemi di introduzione del campione: introduzione diretta per gassosi, liquidi o solidi composti puri gas-cromatografia cromatografia liquida 8 Esistono numerosi sistemi di introduzione del campione. I campioni solidi volatili possono essere introdotti nella camera di ionizzazione per impatto elettronico attraverso una sonda riscaldabile a tenuta di vuoto. Prodotti non volatili (ad esempio proteine) possono essere sciolti in un solvente adatto ed analizzati con un sistema di ionizzazione a pressione ambiente. In gas-cromatografia, l'effluente da una colonna capillare puo' essere inviato direttamente nella camera di ionizzazione per impatto elettronico. L'effluente da un sistema HPLC puo' essere inviato ad un sistema di ionizzazione chimica a pressione ambiente. Camera di ionizzazione / trasferimento ioni impatto elettronico ionizzazione chimica 9 Ionizzazione per impatto elettronico Nella camera di ionizzazione le molecole del campione da analizzare, in fase gassosa, interagiscono con un fascio di elettroni generato da un filamento incandescente (Renio o Tugsteno) ed accelerato attraverso un potenziale regolabile dall'operatore. In termini quantomeccanici l'impatto elettronico puo' quindi promuovere eccitazioni elettroniche simili a quelle osservate nella spettroscopia UV, fino ad ottenere anche l'espulsione di un elettrone dalla molecola con formazione di uno ione radicale positivo, lo Ione Molecolare M(.+): e- + M ---> M.+ + 2e- Ionizzazione Chimica Generalmente in uno spettrometro di massa la pressione e' mantenuta la piu' bassa possibile con efficienti sistemi di pompaggio (10-4 - 10-7 mmHg), e reazioni bimolecolari sono estremamente improbabili. La ionizzazione chimica avviene invece se introduciamo nella camera di ionizzazione un gas reagente, ad esempio metano, in concentrazioni relativamente elevate. Lo ione molecolare del metano generato per impatto elettronico puo' reagire con l'eccesso di metano: CH4 + e- CH4.+ + 2eCH4 + CH4.+ CH3. + CH5+ Il catione CH5+, un acido forte, puo' quindi protonare con una reazione acido-base praticamente qualsiasi molecola organica. 10 Analizzatore di massa quadrupolare, ion-trap Filtro di massa a quadrupolo Questo analizzatore e' costituito da 4 barre metalliche parallele cui viene applicato un potenziale. Gli ioni espulsi dalla camera di ionizzazione assumono una traiettoria sinusoidale dipendente dai potenziali applicati alle barre. Solo ioni caratterizzati da un preciso rapporto massa su carica riescono ad attraversare l'analizzatore fino al collettore di ioni; gli altri vengono persi. 11 Si ottiene così lo spettro di massa: in ascissa si riportano i valori del numero di massa (m/z) e in ordinata una grandezza proporzionale al numero di ioni (cioè una misura quantitativa delle singole specie ioniche presenti). 12 Many Tools are Available to Study Proteins – the Central Molecule of Life Coupled Mass Spectrometers Can Determine the Amino Acid Sequence of Protein Fragments 13 Biotecnologie Molecolari e Bioinformatica Lo sviluppo introdotto delle nei Biotecnologie settori delle ha moderne scienze biologiche una nuova branca di ricerca: la Bioinformatica. La Bioinformatica nasce agli inizi degli anni ‘80 in concomitanza con lo sviluppo dei metodi di sequenziamento rapido degli acidi nucleici Lo sviluppo delle Tecnologie del DNA ricombinante e in particolare delle Tecnologie per il sequenziamento degli acidi nucleici resero subito evidente l’indispensabilità degli strumenti informatici per l’immagazzinamento e la caratterizzazione dei dati acquisiti. 14 Come nasce la Bioinformatica? Sforzi sperimentali per Progetti di sequenziazione del genoma determinare la struttura e le funzioni di molecole biologiche Masse di dati senza precedenti Banche Dati di biologia molecolare (geni e proteine) interpretazione Tecniche, strumenti, algoritmi per analizzare, confrontare, classificare Numerosi sono i messaggi contenuti nelle Biosequenze che l’occhio umano difficilmente avrebbe potuto cogliere senza l’ausilio di specifici algoritmi messi a punto sulla base d’ipotesi biologiche Sono simili queste sequenze? veracinnenkmeninclnnemeteneni veracinnenkmeninclnnemeteneni nareidsdrafmeterafstan nareidsdrafmeterafstandichefs dichefs laglinksvlgeniaafwendenidschi laglinksvlgeniaafwendenidschi nrechtsenlinksnaardemiddellin nrechtsenlinksnaardemiddellin eenhalthdenmetertssenrimtegre eenhalthdenmetertssenrimtegre talleendecmmandantveracinnenk talleendecmmandantveracinnenk meninclnnemeteneninareidsdraf meninclnnemeteneninareidsdraf meterafstandmarshefslaglinksv meterafstandmarshefslaglinksv lgenaafwendendschinrechtsenli lgenaafwendendschinrechtsenli nksenpdeelinhalthdenmetertsse nksenpdeelinhalthdenmetertsse nrimtevanafderechtervlegelmet nrimtevanafderechtervlegelmet enenvrwaartsinareidsdrafricht enenvrwaartsinareidsdrafricht inggpnylengteafstandchefslagr inggpnylengteafstandchefslagr echtsvlgenkhgerkenlinmetenenv echtsvlgenkhgerkenlinmetenenv rwaartsinareidsdrafpnylengtea rwaartsinareidsdrafpnylengtea fstandrichtinggmarshefslagrec fstandrichtinggmarshefslagrec htsvlgengerkenlinhfdderclnnei htsvlgengerkenlinhfdderclnnei dichefslaglinksvlgeniaafwende dichefslaglinksvlgeniaafwende nidschinrechtsenlinksnaardemi nidschinrechtsenlinksnaardemi ddellineenhalthdenmetertssenr ddellineenhalthdenmetertssenr imtegretalleendecmmandantvera imtegretalleendecmmandantvera cinnenkmeninclnnemeteneninare cinnenkmeninclnnemeteneninare idsdrafmeterafstandmarshefsla idsdrafmeterafstandmarshefsla glinksvlgenaafwendendschinrec glinksvlgenaafwendendschinrec htsenlinksenpdeelinhalthdenme htsenlinksenpdeelinhalthdenme tertssenrimtevanafderechtervl tertssenrimtevanafderechtervl egelmetenenvrwaartsinareidsdr egelmetenenvrwaartsinareidsdr africhtinggpnylengteafstandch africhtinggpnylengteafstandch efslagrechtsvlgenkhgerkenlinm efslagrechtsvlgenkhgerkenlinm etenenvrwaartsinareidsdrafpny etenenvrwaartsinareidsdrafpny lengteafstandrichtinggmarshef lengteafstandrichtinggmarshef slagrechtsvlgengerkenlinhfdde slagrechtsvlgengerkenlinhfdde rclnnei cafwendenenplincameten rclnneicafwendenenplincameten envlteshalveaanrechtsiahefsla envlteshalveaanrechtsiahefsla ©CMBI 2000 J Leunissen 15 Il concomitante sviluppo delle tecnologie genomiche da una parte e delle tecnologie informatiche e delle telecomunicazioni dall’altra ha favorito l’affermarsi della Bioinformatica, che oggi sta assumendo le caratteristiche di una vera e propria disciplina Dove si situa la Bioinformatica? Bioinformatica Biologia Medicina Informatica Biotecnologie Società Principali funzioni della Bioinformatica BANCHE DATI BIOLOGICHE Messa a punto dei sistemi idonei per collezionare e interrogare l'enorme mole di dati biologici disponibili. 16 Allineamenti e Multiallineamenti Ricerca di Similarità Evoluzione Molecolare, Filogenesi Analisi dei dati Genomica Comparata Predizione di Elementi regolatori (promotori, enhancer, etc.) Predizione di Geni Predizione di strutture di RNA Predizione di strutture proteiche Banche Dati Domande Fondamentali CERCA PARAGONA PREDICI Cerca: - Il gene codificante per la mia proteina è conosciuto? -Su quale cromosoma è localizzato? - Quali motivi di sequenza sono presenti sulla mia proteina? - Ci sono mutazioni collegate a malattie conosciute? - A quale famiglia appartiene questa proteina? Paragona: -La proteina clonata è simile ad altre conosciute? - Come si possono allineare in maniera ottimale le proteine di questa famiglia? -Quanto sono simili le sequenze allineate? Predici: - Si possono predire i residui presenti nel sito attivo? - E’ possibile costruire un modello 3D della mia proteina? -Come si può rendere la mia proteina termostabile? 17 Banche Dati Biologiche Banche Dati Primarie Banche Dati Specializzate Interoperabilità fra le Banche Dati Banche dati Primarie Banche Dati DNA e RNA (Acidi Nucleici) Le Banche Dati di sequenze di acidi nucleici sono spesso definite Banche Dati Primarie in quanto contengono solo quel minimo di informazione da associare alla sequenza per identificarla dal punto di vista specie-funzione. DATI SPERIMENTALI REALI 18 Banche Dati Primarie La prima banca di sequenze di acidi nucleici, sorta nel 1980, è l'EMBL Data Library costituita nell'omonimo laboratorio di Heidelberg in Germania. Successivamente è stata creata nel 1982 la Banca Dati Americana GenBank avente un formato differente da quello adottato nella banca dati EMBL e sviluppata parallelamente a quest'ultima. Solo nel 1986 è stata istituita la banca dati giapponese DDBJ coll EMBL Datalibrary Release 102 - November 2009 167,493,839 sequence entries 266,361,987,641 nucleotides Nel database di EMBL entrano 6,3 nuove sequenze di proteine o acidi nucleici ogni secondo GenBank GenBank® GenBank® is the NIH genetic sequence database August 2009 106,533,156,756 bases 108,431,692 sequence GenBank fa parte dell’ International Nucleotide Sequence Database Collaboration, che comprende il DNA DataBank Giapponese (DDBJ), l’European Molecular Biology Laboratory (EMBL), e GenBank (NCBI). Queste tre banche dati sono collegate in modo che le informazioni depositate in una banca dati siano accessibili a tutti. 19 20 Banche dati Specializzate INFORMAZIONI DERIVATE Le banche dati specializzate raccolgono insiemi di dati omogenei dal punto di vista tassonomico e/o funzionale disponibili nelle Banche dati Primarie e/o in Letteratura. Si ottengono dall’analisi delle banche dati primarie. Inter-operabilità fra le Banche dati Di fondamentale importanza e’ introdurre nel disegno delle banche dati i meccanismi di cross-referencing che consentono di navigare fra i database anche se dislocati su siti fra di loro remoti Banche dati Specializzate Numerosissime specializzate sono le disponibili da banche più dati parti e raggruppate su vari siti in categorie . Un elenco esaustivo delle banche dati specializzate si può ritrovare sul sito di Nucleic Acids Research gestito da Baxevanis. 21 Banche dati Specializzate di Proteine Patterns nucleotidici Patterns proteici Strutture Proteiche Cluster di Proteine Banche dati Specializzate di Geni Genomi Trascritti Pathways Metabolici Mutazioni Banche dati Specializzate di Sequenze di Proteine PIR Esempio Entry SWISSPROT Esempio Entry TREMBL = SPTREMBL + REMTREMBL SWALL = SWISSPROT + REMTREMBL 22 Banche dati Specializzate di Patterns Nucleotidici Eukaryotic Promoter Database EPD Esempio Entry Transcription Factors TRANSFAC Translation Terminations TransTERM Vector database VectorDB Repeats Database Repbase Banche dati Specializzate di Patterns Proteici PROSITE Pfam PRINTS SMART ProDOM TIGFRAMs ee2 es1 es3 ee4 InterPRO Esempio Entry ANALISI COMPARATIVA SIMILARITA' E OMOLOGIA Due sequenze si definiscono omologhe se derivano da una comune sequenza ancestrale in seguito ad un processo di duplicazione genica o di speciazione. 23 ANALISI COMPARATIVA SIMILARITA' E OMOLOGIA L’omologia è un carattere qualitativo che fa riferimento ad una relazione evolutiva presente o assente e non é corretto quindi riferirsi a valori di “percentuale di omologia”. • La similarità, invece, può essere espressa in termini quantitativi, in quanto fa riferimento al grado di similitudine che viene misurato tra due sequenze precedentemente allineate. • La determinazione del grado di similarità tra due o più sequenze richiede, dunque, che le sequenze in esame vengano previamente allineate. L’allineamento tra due sequenze consiste nella determinazione di una relazione tra i residui della prima sequenza con quelli della seconda in modo da rendere massimo il grado di similarità o analogamente rendere minimo il numero di differenze. In definitiva, l’allineamento stabilisce una relazione biunivoca tra due sequenze (o parti di esse) in modo da minimizzare il numero di operazioni necessarie per la trasformazione di una nell’altra. SA= E V D Q K I S K W D S B= E V K K I T R P K W D E V D Q K I - - S K W D | | | | | | | E V - K K I T R P K W D 24 Allineamento semplice L’allineamento semplice si ottiene facendo scorrere una sequenza sull’altra un nucleotide alla volta (passo 1) CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC ||| ||| || |||||||||||||||||||||||||||||| | | || || || ||| ||||| || | | || |||| ||||| ||||||| CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC CGAAATCGCATCAGCATACGATCGCATGC Allineamento con “gaps” L’allineamento semplice non sempre funziona bene CGCTTCGGACGAAATCGCATCA-GCATACGATCGCATGCCGGGCGGGATAA CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC ||| ||| || |||||||||||||| | | || || || ||| | ||||| | || | || ||| |||||||||||||||| | |||||||||||||||| || | || || |||||| | CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC CGAAATCGCATCACGCATACGATCGCATGC A meno che le sequenze non coincidano perfettamente è molto spesso necessario introdurre “gaps” Per la determinazione del grado di similarità tra sequenze di proteine possono essere applicati diversi metodi basati essenzialmente sulle proprietà chimico-fisiche degli aminoacidi omologhi 25 Per la determinazione del grado di similarità tra sequenze di nucleotidi si utilizza essenzialmente il criterio identità non identità Principali funzioni della Bioinformatica ANALISI DEI DATI Progettazione e sviluppo di metodi matematico-statistici rivolti alla caratterizzazione funzionale strutturale delle biosequenze. e 26 Genetica Biochimica Cristallografia Biologia Molecolare Antropologia Immunologia B I O L O G I A Zoologia Botanica Chimica Bioinformatica Microbiologia Farmacologia Informatica Statistica Fisica Matematica Ingegneria Paleontologia BIOTECNOLOGIA La Pubblicazione del Genoma Umano ha comportato l’emergere di nuove e piu’ complesse problematiche e quindi una TRANSIZIONE Bioinformatica alla dalla Biologia Computazionale La conoscenza del Genoma Umano non e’ la fine dell’era genomica ma solo l’inizio. 27