Principi di proteomica
Elettroforesi bidimensionale e spettrometria di massa:
determinazione del proteoma
Proteoma: Proteome = Proteins encoded by the
genome
Il proteoma comprende tutte le proteine espresse nello
stesso momento in una cellula, incluse tutte le
isoforme e le modificazioni post-traduzionali.
Il proteoma all’interno di una stessa cellula cambia in
funzione di un certo stato (malattia, trattamento,
tempo, ecc.)
40000 Geni 1 Milione di Proteine
Perché identificare il pattern di espressione proteica ?
1) Non c’è correlazione tra quantità di mRNA e quantità di
proteina (degradazione proteica, protezione dalla
degradazione)
2) Modificazioni post-traduzionali: alterano la funzione
delle proteine a livello biochimico
• Acetilazione, metilazione
• Fosforilazione
• Glicosilazione (enzimatica)
• Glicazione (non enzimatica)
• Nitrazione/denitrazione
• Cleavage
• Protein splicing
• Tagging
Principi di proteomica
Elettroforesi bidimensionale e spettrometria di
massa: determinazione del proteoma
L’elettroforesi bidimensionale separa
le
proteine in base alla loro carica (come nella
IEF) e dimensioni (come nell’SDS-PAGE).
La prima dimensione (isoelettrofocalizzazione) è
eseguita
usando
gel
di
poliacrilammide
contenuti in stretti tubicini, in presenza di
anfoliti, urea e detergente non ionico.
1
Le proteine si separano in base al loro punto
isoelettrico (pI).
pI = valore di pH in cui la carica netta della
proteina è pari a zero.
In corrispondenza di questo valore di pH la
mobilità elettroforetica è nulla.
In assenza di SDS, ogni proteina migra nel
tubicino
contenente
acrilammide
fino
a
raggiungere il valore di pH pari al suo pI.
Terminata la separazione, il gel viene recuperato
dai tubicini, incubato in un tampone contenente
SDS e fissato versando dell’agarosio.
Polimerizzato l’agarosio, può iniziare la corsa
nella seconda dimensione e la separazione
avviene in base al peso molecolare delle
proteine.
Protein Identification by Mass Spec
2
L’elettroforesi bidimensionale separa proteine
secondo la loro carica e la loro massa
Con questo metodo si risolvono fino a 10000
proteine diverse.
La successiva digestione con tripsina, la
separazione dei peptidi in HPLC e il
sequenziamento con la spettrometria di massa,
consentono di portare avanti lo studio del
proteoma (separazione e identificazione delle
proteine nei tessuti sani e/o ammalati).
Identificazione delle proteine espresse
in modo differente
Controllo
Trattato
MASS
SPECTROMETRY
Silver/ Coomassie stain
Identificazione
Proteine
3
Elettroforesi bidimensionale
1. Preparazione del campione
2. Prima dimensione: focalizzazione
isoelettrica
3. Seconda dimensione: SDS-PAGE
4. Visualizzazione ed analisi dei risultati
Procedure di analisi
Image Master 2D Elite3.01 software (Amersham Bioscience)
1. Identificazione degli spot
2. Confronto tra gli spot del
campione e quelli di una
mappa di riferimento
4
Vantaggi e svantaggi
• Buona capacità risolutiva
• Consente una facile
quantificazione
• Separazione di oltre 3000
proteine
• Alta riproducibilità
• Fornisce informazioni su PM,
punto Isoelettrico,
modificazioni post-traduzionali
• Poco costosa
• Range di pH limitato (4-8)
• Proteine >150 kD non sono
visibili in un gel 2D
• Difficoltà nel rilevare le
proteine di membrana (>30%
di tutte le proteine)
• Detezione solo delle proteine
maggiormente espresse
(30% in genere)
• L’analisi richiede molto
tempo
Identificazione proteine tramite analisi di massa
5
Spettrometria di massa:
è una tecnica che consente di separare e
classificare gli ioni gassosi (atomici o
molecolari) in funzione del rapporto tra la loro
massa e la loro carica (m/c).
Quando una molecola, in fase vapore, viene
investita da un fascio di elettroni dotati di
notevole energia cinetica si può avere la sua
ionizzazione a ione monopositivo.
6
Lo ione molecolare positivo, a sua volta, può
decomporsi in una serie di frammenti di
massa inferiore.
Tale processo di frammentazione avviene in
modo caratteristico.
Lo ione, o l’insieme di ioni, vengono separati
sfruttando un campo elettrico e/o magnetico.
Lo ione molecolare carico positivamente si
frammenta (in parte), con formazione di
molecole e/o radicali neutri, che non vengono
rivelati dallo strumento, e di cationi e/o
radicali cationi, separati e rivelati dallo
spettrometro.
Dal punto di vista strumentale uno spettrometro
di massa è costituito da quattro parti essenziali:
a)camera di introduzione e vaporizzazione del
campione, mantenuta sotto vuoto spinto
b) sorgente di ioni: un flusso di elettroni viene
generato da un filamento incandescente ed
accelerato verso la camera di ionizzazione
7
c) analizzatore delle masse ioniche: il raggio di
ioni creato nella camera di ionizzazione viene
separato per mezzo del passaggio attraverso un
campo elettrico e/o magnetico.
d) Collettore e rivelatore ionico: i raggi ionici
separati vengono raccolti e si misura la corrente
ionica.
Sistemi di introduzione del campione:
introduzione diretta per
gassosi, liquidi o solidi
composti
puri
gas-cromatografia
cromatografia liquida
8
Esistono numerosi sistemi di introduzione del
campione.
I campioni solidi volatili possono essere
introdotti nella camera di ionizzazione per
impatto elettronico attraverso una sonda
riscaldabile a tenuta di vuoto.
Prodotti non volatili (ad esempio proteine)
possono essere sciolti in un solvente adatto ed
analizzati con un sistema di ionizzazione a
pressione ambiente.
In gas-cromatografia, l'effluente da una colonna
capillare puo' essere inviato direttamente nella
camera di ionizzazione per impatto elettronico.
L'effluente da un sistema HPLC puo' essere
inviato ad un sistema di ionizzazione chimica a
pressione ambiente.
Camera di ionizzazione / trasferimento
ioni
impatto elettronico
ionizzazione chimica
9
Ionizzazione per impatto elettronico
Nella camera di ionizzazione le molecole del campione da analizzare, in
fase gassosa, interagiscono con un fascio di elettroni generato da un
filamento incandescente (Renio o Tugsteno) ed accelerato attraverso
un potenziale regolabile dall'operatore.
In termini quantomeccanici l'impatto elettronico puo' quindi
promuovere eccitazioni elettroniche simili a quelle osservate nella
spettroscopia UV, fino ad ottenere anche l'espulsione di un elettrone
dalla molecola con formazione di uno ione radicale positivo, lo Ione
Molecolare M(.+):
e- + M ---> M.+ + 2e-
Ionizzazione Chimica
Generalmente in uno spettrometro di massa la
pressione e' mantenuta la piu' bassa possibile
con efficienti sistemi di pompaggio (10-4 - 10-7
mmHg),
e
reazioni
bimolecolari
sono
estremamente improbabili.
La ionizzazione chimica avviene invece se
introduciamo nella camera di ionizzazione un
gas reagente, ad esempio metano, in
concentrazioni relativamente elevate.
Lo ione molecolare del metano generato per
impatto elettronico puo' reagire con l'eccesso
di metano:
CH4 + e- CH4.+ + 2eCH4 + CH4.+ CH3. + CH5+
Il catione CH5+, un acido forte, puo' quindi
protonare con una reazione acido-base
praticamente qualsiasi molecola organica.
10
Analizzatore di massa
quadrupolare, ion-trap
Filtro di massa a quadrupolo
Questo analizzatore e' costituito da 4 barre
metalliche parallele cui viene applicato un
potenziale.
Gli ioni espulsi dalla camera di ionizzazione
assumono
una
traiettoria
sinusoidale
dipendente dai potenziali applicati alle barre.
Solo ioni caratterizzati da un preciso rapporto
massa su carica riescono ad attraversare
l'analizzatore fino al collettore di ioni; gli altri
vengono persi.
11
Si ottiene così lo spettro di massa: in ascissa si
riportano i valori del numero di massa (m/z) e
in ordinata una grandezza proporzionale al
numero di ioni (cioè una misura quantitativa
delle singole specie ioniche presenti).
12
Many Tools are Available
to Study Proteins – the
Central Molecule of Life
Coupled Mass
Spectrometers Can
Determine the Amino
Acid Sequence of Protein
Fragments
13
Biotecnologie Molecolari e
Bioinformatica
Lo
sviluppo
introdotto
delle
nei
Biotecnologie
settori
delle
ha
moderne
scienze biologiche una nuova branca di
ricerca: la Bioinformatica.
La Bioinformatica nasce agli inizi degli
anni ‘80 in concomitanza con lo sviluppo
dei metodi di sequenziamento rapido degli
acidi nucleici
Lo
sviluppo
delle
Tecnologie
del
DNA
ricombinante e in particolare delle Tecnologie
per il sequenziamento degli acidi nucleici resero
subito evidente l’indispensabilità degli strumenti
informatici
per
l’immagazzinamento
e
la
caratterizzazione dei dati acquisiti.
14
Come nasce la
Bioinformatica?
Sforzi sperimentali per
Progetti di sequenziazione
del genoma
determinare la struttura
e le funzioni di molecole
biologiche
Masse di dati senza precedenti
Banche Dati di
biologia
molecolare
(geni e proteine)
interpretazione
Tecniche, strumenti, algoritmi
per
analizzare, confrontare, classificare
Numerosi sono i messaggi contenuti
nelle Biosequenze che l’occhio umano
difficilmente avrebbe potuto cogliere
senza l’ausilio di specifici algoritmi
messi a punto sulla base d’ipotesi
biologiche
Sono simili queste sequenze?
veracinnenkmeninclnnemeteneni
veracinnenkmeninclnnemeteneni
nareidsdrafmeterafstan
nareidsdrafmeterafstandichefs
dichefs
laglinksvlgeniaafwendenidschi
laglinksvlgeniaafwendenidschi
nrechtsenlinksnaardemiddellin
nrechtsenlinksnaardemiddellin
eenhalthdenmetertssenrimtegre
eenhalthdenmetertssenrimtegre
talleendecmmandantveracinnenk
talleendecmmandantveracinnenk
meninclnnemeteneninareidsdraf
meninclnnemeteneninareidsdraf
meterafstandmarshefslaglinksv
meterafstandmarshefslaglinksv
lgenaafwendendschinrechtsenli
lgenaafwendendschinrechtsenli
nksenpdeelinhalthdenmetertsse
nksenpdeelinhalthdenmetertsse
nrimtevanafderechtervlegelmet
nrimtevanafderechtervlegelmet
enenvrwaartsinareidsdrafricht
enenvrwaartsinareidsdrafricht
inggpnylengteafstandchefslagr
inggpnylengteafstandchefslagr
echtsvlgenkhgerkenlinmetenenv
echtsvlgenkhgerkenlinmetenenv
rwaartsinareidsdrafpnylengtea
rwaartsinareidsdrafpnylengtea
fstandrichtinggmarshefslagrec
fstandrichtinggmarshefslagrec
htsvlgengerkenlinhfdderclnnei
htsvlgengerkenlinhfdderclnnei
dichefslaglinksvlgeniaafwende
dichefslaglinksvlgeniaafwende
nidschinrechtsenlinksnaardemi
nidschinrechtsenlinksnaardemi
ddellineenhalthdenmetertssenr
ddellineenhalthdenmetertssenr
imtegretalleendecmmandantvera
imtegretalleendecmmandantvera
cinnenkmeninclnnemeteneninare
cinnenkmeninclnnemeteneninare
idsdrafmeterafstandmarshefsla
idsdrafmeterafstandmarshefsla
glinksvlgenaafwendendschinrec
glinksvlgenaafwendendschinrec
htsenlinksenpdeelinhalthdenme
htsenlinksenpdeelinhalthdenme
tertssenrimtevanafderechtervl
tertssenrimtevanafderechtervl
egelmetenenvrwaartsinareidsdr
egelmetenenvrwaartsinareidsdr
africhtinggpnylengteafstandch
africhtinggpnylengteafstandch
efslagrechtsvlgenkhgerkenlinm
efslagrechtsvlgenkhgerkenlinm
etenenvrwaartsinareidsdrafpny
etenenvrwaartsinareidsdrafpny
lengteafstandrichtinggmarshef
lengteafstandrichtinggmarshef
slagrechtsvlgengerkenlinhfdde
slagrechtsvlgengerkenlinhfdde
rclnnei
cafwendenenplincameten
rclnneicafwendenenplincameten
envlteshalveaanrechtsiahefsla
envlteshalveaanrechtsiahefsla
©CMBI 2000 J Leunissen
15
Il concomitante sviluppo delle tecnologie
genomiche da una parte e delle
tecnologie
informatiche
e
delle
telecomunicazioni dall’altra ha favorito
l’affermarsi della Bioinformatica, che
oggi sta assumendo le caratteristiche di
una vera e propria disciplina
Dove si situa la
Bioinformatica?
Bioinformatica
Biologia
Medicina
Informatica
Biotecnologie
Società
Principali funzioni della
Bioinformatica
BANCHE
DATI BIOLOGICHE
Messa a punto dei sistemi idonei
per collezionare e interrogare
l'enorme mole di dati biologici
disponibili.
16
Allineamenti e Multiallineamenti
Ricerca di Similarità
Evoluzione Molecolare, Filogenesi
Analisi
dei dati
Genomica Comparata
Predizione di Elementi regolatori
(promotori, enhancer, etc.)
Predizione di Geni
Predizione di strutture di RNA
Predizione di strutture proteiche
Banche Dati
Domande Fondamentali
CERCA
PARAGONA
PREDICI
Cerca:
- Il gene codificante per la mia proteina è conosciuto?
-Su quale cromosoma è localizzato?
- Quali motivi di sequenza sono presenti sulla mia proteina?
- Ci sono mutazioni collegate a malattie conosciute?
- A quale famiglia appartiene questa proteina?
Paragona:
-La proteina clonata è simile ad altre conosciute?
- Come si possono allineare in maniera ottimale le proteine di
questa famiglia?
-Quanto sono simili le sequenze allineate?
Predici:
- Si possono predire i residui presenti nel sito attivo?
- E’ possibile costruire un modello 3D della mia proteina?
-Come si può rendere la mia proteina termostabile?
17
Banche Dati Biologiche
Banche Dati Primarie
Banche Dati Specializzate
Interoperabilità fra le Banche Dati
Banche dati Primarie
Banche Dati DNA e RNA
(Acidi Nucleici)
Le Banche Dati di sequenze di acidi nucleici
sono spesso definite Banche Dati Primarie in
quanto contengono solo quel minimo di
informazione da associare alla sequenza per
identificarla dal punto di vista specie-funzione.
DATI
SPERIMENTALI REALI
18
Banche Dati Primarie
La prima banca di sequenze di acidi nucleici, sorta nel
1980, è
l'EMBL Data Library
costituita nell'omonimo laboratorio di Heidelberg in
Germania.
Successivamente è stata creata nel 1982 la Banca Dati
Americana
GenBank
avente un formato differente da quello adottato nella
banca dati EMBL e sviluppata parallelamente a
quest'ultima.
Solo nel 1986 è stata istituita la banca dati giapponese
DDBJ
coll
EMBL Datalibrary
Release 102 - November 2009
167,493,839 sequence entries
266,361,987,641 nucleotides
Nel database di EMBL entrano
6,3 nuove sequenze di proteine
o acidi nucleici ogni secondo
GenBank
GenBank®
GenBank® is the NIH genetic sequence database
August 2009
106,533,156,756 bases
108,431,692 sequence
GenBank fa parte dell’ International Nucleotide
Sequence Database Collaboration, che comprende il
DNA DataBank Giapponese (DDBJ), l’European
Molecular Biology Laboratory (EMBL), e GenBank
(NCBI). Queste tre banche dati sono collegate in
modo che le informazioni depositate in una banca dati
siano accessibili a tutti.
19
20
Banche dati Specializzate
INFORMAZIONI DERIVATE
Le banche dati specializzate raccolgono
insiemi di dati omogenei dal punto di vista
tassonomico e/o funzionale disponibili nelle
Banche dati Primarie e/o in Letteratura.
Si ottengono dall’analisi delle banche dati
primarie.
Inter-operabilità fra le
Banche dati
Di fondamentale importanza e’ introdurre
nel disegno delle banche dati i meccanismi
di cross-referencing che consentono di
navigare fra i database anche se dislocati
su siti fra di loro remoti
Banche dati Specializzate
Numerosissime
specializzate
sono
le
disponibili
da
banche
più
dati
parti
e
raggruppate su vari siti in categorie .
Un
elenco
esaustivo
delle
banche
dati
specializzate si può ritrovare sul sito di
Nucleic
Acids
Research
gestito
da
Baxevanis.
21
Banche dati Specializzate di
Proteine
Patterns nucleotidici
Patterns proteici
Strutture Proteiche
Cluster di Proteine
Banche dati Specializzate di
Geni
Genomi
Trascritti
Pathways Metabolici
Mutazioni
Banche dati Specializzate
di Sequenze di Proteine
PIR
Esempio
Entry
SWISSPROT
Esempio Entry
TREMBL = SPTREMBL + REMTREMBL
SWALL = SWISSPROT + REMTREMBL
22
Banche dati Specializzate
di Patterns Nucleotidici
Eukaryotic Promoter Database EPD
Esempio Entry
Transcription Factors TRANSFAC
Translation Terminations TransTERM
Vector database VectorDB
Repeats Database Repbase
Banche dati Specializzate
di Patterns Proteici
PROSITE
Pfam
PRINTS
SMART
ProDOM
TIGFRAMs
ee2 es1 es3 ee4
InterPRO
Esempio Entry
ANALISI COMPARATIVA
SIMILARITA' E OMOLOGIA
Due sequenze si definiscono omologhe
se derivano da una comune sequenza
ancestrale in seguito ad un processo di
duplicazione genica o di speciazione.
23
ANALISI COMPARATIVA
SIMILARITA' E OMOLOGIA
L’omologia è un carattere qualitativo che fa
riferimento ad una relazione evolutiva presente o
assente e non é corretto quindi riferirsi a valori di
“percentuale di omologia”.
• La similarità, invece, può essere espressa in termini
quantitativi, in quanto fa riferimento al grado di
similitudine che viene misurato tra due sequenze
precedentemente allineate.
• La determinazione del grado di similarità tra due o
più sequenze richiede, dunque, che le sequenze in
esame vengano previamente allineate.
L’allineamento tra due sequenze consiste nella
determinazione di una relazione tra i residui
della prima sequenza con quelli della seconda in
modo da rendere massimo il grado di similarità o
analogamente rendere minimo il numero di
differenze.
In
definitiva,
l’allineamento
stabilisce una relazione biunivoca tra due
sequenze (o parti di esse) in modo da
minimizzare il numero di operazioni necessarie
per la trasformazione di una nell’altra.
SA= E V D Q K I S K W D
S B= E V K K I T R P K W D
E V D Q K I - - S K W D
| |
| |
| | |
E V - K K I T R P K W D
24
Allineamento semplice
L’allineamento semplice si ottiene
facendo scorrere una sequenza
sull’altra un nucleotide alla volta
(passo 1)
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC
||| |||
||
||||||||||||||||||||||||||||||
| |
||
||
||
|||
|||||
||
| |
||
||||
|||||
|||||||
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
CGAAATCGCATCAGCATACGATCGCATGC
Allineamento con “gaps”
L’allineamento semplice non sempre
funziona bene
CGCTTCGGACGAAATCGCATCA-GCATACGATCGCATGCCGGGCGGGATAA
CGCTTCGGACGAAATCGCATCAGCATACGATCGCATGCCGGGCGGGATAAC
||| |||
||
||||||||||||||
| |
||
||
||
|||
|
|||||
|
||
| ||
|||
||||||||||||||||
|
||||||||||||||||
||
| ||
||
||||||
|
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
CGAAATCGCATCACGCATACGATCGCATGC
A meno che le sequenze non
coincidano perfettamente è molto
spesso necessario introdurre “gaps”
Per la determinazione del grado di
similarità tra sequenze di proteine
possono essere applicati diversi metodi
basati essenzialmente sulle proprietà
chimico-fisiche
degli
aminoacidi
omologhi
25
Per la determinazione del grado di
similarità tra sequenze di nucleotidi si
utilizza
essenzialmente
il
criterio
identità non identità
Principali funzioni della
Bioinformatica
ANALISI DEI DATI
Progettazione
e sviluppo di metodi
matematico-statistici rivolti alla
caratterizzazione
funzionale
strutturale delle biosequenze.
e
26
Genetica
Biochimica
Cristallografia
Biologia Molecolare
Antropologia
Immunologia
B
I
O
L
O
G
I
A
Zoologia
Botanica
Chimica
Bioinformatica
Microbiologia
Farmacologia
Informatica
Statistica
Fisica
Matematica
Ingegneria
Paleontologia
BIOTECNOLOGIA
La Pubblicazione del Genoma Umano
ha comportato l’emergere di nuove e
piu’ complesse problematiche e quindi
una
TRANSIZIONE
Bioinformatica
alla
dalla
Biologia
Computazionale
La conoscenza del Genoma Umano
non e’ la fine dell’era genomica ma
solo l’inizio.
27
Scarica

14 Proteomica - Dipartimento di Farmacia