Facoltà di Ingegneria dell’Informazione
Laurea Specialistica e Magistrale in
Ingegneria Informatica
Facoltà di Ingegneria dei Sistemi
Laurea Magistrale in Ingegneria Biomedica
Dipartimento di
Elettronica e Informazione
Bioinformatica e Biologia Computazionale
per la Medicina Molecolare
Marco Masseroli, PhD
[email protected]
Bioinformatica e Biologia Computazionale
per la Medicina Molecolare
Misurazione
dell’Espressione Genica
Marco Masseroli, PhD
[email protected]
© Marco Masseroli, PhD
2
Misurazione Espressione Genica
Indice
•
•
•
•
•
•
•
•
•
•
Introduzione
Tecniche di analisi di espressione genica
Northern blot – Analisi di un singolo trascritto
DNA microarrays
ƒ Piattaforme tecnologiche
- Filtri di nylon ad alta densità
- cDNA microarray (spotted)
- Microarray di oligonucleotidi
ƒ Confronto cDNA vs oligonucleotidi
ƒ Riassunto esperimento microarray
Serial Analysis of Gene Expression (SAGE)
Disegno sperimentale di studi del trascrittoma
ƒ Esperimenti “statici” con microarray
ƒ Esperimenti “dinamici” con microarray
Analisi dati di espressione
ƒ Acquisizione e pre-elaborazione segnale
ƒ Data mining
Problemi analisi dati di microarray
Microarray and Gene Expression Data (MGED)
Tools per l’analisi dati da microarray
© Marco Masseroli, PhD
3
Misurazione Espressione Genica
Introduzione
Dai geni alle proteine
© Marco Masseroli, PhD
4
Misurazione Espressione Genica
Introduzione
• Geni di cellula codificano un “pool” di informazione biologica
• Espressione genica: conversione di informazione codificata
in un gene, prima in RNA messaggero, poi in proteina
• Non tutti geni sempre necessari alla vita di cellula
ƒ Solo geni costitutivi sono sempre espressi
ƒ Altri geni espressi quando serve
• Espressione geni è regolata da necessità cellula: condizioni
ambiente e funzioni da svolgere (es. geni per sintesi lattosio)
• In organismi pluricellulari:
ƒ L’ambiente di una cellula è l’organismo stesso
ƒ A partire da una stessa cellula, meccanismo “regolazione
genica differenziale” porta ad avere diverse cellule
specializzate (tutte con stesso DNA)
© Marco Masseroli, PhD
5
Misurazione Espressione Genica
Introduzione
• L’informazione genica è la stessa in tutte le cellule
somatiche di un organismo. Specifica la natura di tutte le
proteine presenti nell’organismo
• L’espressione genica, e quindi proteica, si differenzia a
seconda del tipo di cellula e della risposta all’ambiente
(stato della cellula)
• Il trascrittoma è l’insieme completo dei trascritti e dei loro
livelli di espressione in un particolare tipo di cellule o di
tessuto in condizioni ben definite
• In una cellula viene espresso solo 20% circa del trascrittoma
• N.B. I livelli dei trascritti non si traducono necessariamente
in espressione o attività di proteine (alcuni trascritti non sono
tradotti; alcune proteine tradotte non “funzionano”)
© Marco Masseroli, PhD
6
Misurazione Espressione Genica
Introduzione
• Conoscere genoma e geni non basta per capire come un
gene, una cellula, un organismo funzionano
• Per capire gli organismi biologici nel loro complesso (e
complessità) bisogna studiare:
ƒ
regolazione ed espressione dei geni
ƒ
funzionalità delle proteine espresse
ƒ
occorrenze quantitative dei metaboliti
ƒ
effetti dei difetti dei geni sul fenotipo di un organismo
• Systems biology: studio delle interazioni tra i componenti di
un sistema biologico, e di come tali interazioni determinano
funzioni e comportamento del sistema
© Marco Masseroli, PhD
7
Misurazione Espressione Genica
Introduzione
• Per l’analisi funzionale dei genomi esistono metodi moderni:
ƒ
Trascrittomica
ƒ
Proteomica
ƒ
Metabolomica
• Generalmente utilizzano procedure high-throughput che
richiedono rilevanti attività di gestione e analisi dei dati
ƒ
L’obbiettivo è identificare i componenti del sistema (i.e.
trascritti, proteine, metaboliti) e loro interazioni e funzioni
• Tali approcci di genotipizzazione (determinazione genotipo
e suoi componenti di un individuo/organismo) devono
essere correlati con, e completati da, analisi fenotipiche
high-throughput di organismi modello e cellule in vitro
© Marco Masseroli, PhD
8
Misurazione Espressione Genica
Tecniche di analisi di espressione genica
• Dopo sequenziamento (conoscenza della sequenza) e
annotazione (conoscenza dei componenti: geni, elementi di
regolazione, …) del genoma, l’analisi del trascrittoma è
importante area di ricerca della scienza genomica funzionale
• Come si misura l’espressione genica?
• Metodi per esaminare il livello di espressione di un gene alla
volta: RT-PCR (Reverse Transcriptase Polymerase Chain
Reaction; amplifica numero di sequenze nucleotidiche
specifiche derivate (per transcrittasi inversa) da mRNA)
• Le principali tecniche di analisi di tutto il trascrittoma sono:
ƒ Microarray a cDNA
ƒ Microarray di oligonucleotidi
ƒ SAGE (Serial Analysis of Gene Expression)
© Marco Masseroli, PhD
9
Misurazione Espressione Genica
Tecniche di analisi di espressione genica
• 1980: analisi RNA di uno o pochi geni alla volta:
ƒ
Northern Blotting
ƒ
PCR quantitativa (Q-RT-PCR, o real-time PCR)
• 1995 - …: analisi RNA dell’intero genoma (DNA microarrays)
ƒ
Tecniche di biologia molecolare
ƒ
Micro/Nano tecnologie
ƒ
Informatica
- Alta densità (potenzialmente misura l’RNA di tutto il
genoma della cellula)
• Due tecnologie principali di DNA microarrays:
ƒ
cDNA spotted arrays (Schena et al. 1995)
ƒ
Oligonucleotide arrays (Lockhart et al. 1996)
© Marco Masseroli, PhD
10
Misurazione Espressione Genica
Northern blot - Analisi di un singolo trascritto
Patologico
Normale
(riferimento)
Northern blotting: tecnica di laboratorio per studiare
l’espressione genica individuando l’RNA (o mRNA isolato) in un
campione
• Espressione genica: quantificazione del livello di
abbondanza di un trascritto in un singolo campione
• Regolazione genica: comportamento del trascritto
in comparazione trattato-controllo
Diminuzione dell’attività di un gene
Aumento dell’attività di un gene
Comparsa di una nuova attività genica
© Marco Masseroli, PhD
11
Misurazione Espressione Genica
Northern blot - Analisi di un singolo trascritto
© Marco Masseroli, PhD
12
Misurazione Espressione Genica
Northern blot - Analisi di un singolo trascritto
• Northern blot: analisi di trascritti (mRNA)
(video: http://www.youtube.com/watch?v=KfHZFyADnNg)
• Southern blot: analisi di DNA
(video: http://www.youtube.com/watch?v=ftkdAbV_5gE)
• Western blot: analisi di proteine
© Marco Masseroli, PhD
13
Misurazione Espressione Genica
RT-PCR - Analisi di un singolo trascritto
• La polymerase chain reaction
(PCR) è una tecnica di laboratorio
che sfrutta replicazione DNA per
amplificare una singola o poche
copie di specifica sequenza di DNA,
lunga fino a ~10 kb, ma anche fino
a 40 kb, sintetizzandone miliardi di
copie (http://www.phgfoundation.org/
tutorials/dna/4.html)
• PCR si basa su cicli termici ripetuti
di riscaldamento e raffreddamento
di una soluzione in cui avviene la
reazione di replicazione del DNA
(video: http://www.youtube.com/watch?
v=_YgXcJ4n-kQ)
© Marco Masseroli, PhD
14
Misurazione Espressione Genica
RT-PCR - Analisi di un singolo trascritto
• La reverse transcriptase polymerase chain reaction
(RT-PCR) è variante della PCR, in cui un’elica di RNA è
prima retro-trascritta nel suo DNA complementare (cDNA),
usando l’enzima trascrittase inversa, e il risultante cDNA è
amplificato mediante PCR tradizionale, o real-time PCR,
realizzata in un ciclatore termico per il controllo automatico
di tempi e temperatura
• RT-PCR non va confusa con la
real-time polymerase chain
reaction, o PCR quantitativa
(Q-PCR, o qRT-PCR)
Ciclatore termico per PCR
© Marco Masseroli, PhD
15
Misurazione Espressione Genica
Clonaggio con plasmidi
• Altro metodo per replicare tratti di DNA sfrutta i plasmidi
(DNA extranucleare) di batteri (es. E. coli) come vettori per
clonare sequenze di DNA
• Frammenti di DNA da clonare, esogeno al batterio usato
come vettore, vengono inseriti nella sequenza del DNA del
plasmide utilizzando degli enzimi di restrizione, per tagliare
il DNA del plasmide, e l’enzima DNA ligase per legare al
DNA del plasmide il frammento di DNA da clonare,
creando così un plasmide ricombinante (video:
http://www.youtube.com/watch?v=acKWdNj936o
http://www.youtube.com/watch?v=x2jUMG2E-ic)
© Marco Masseroli, PhD
16
Misurazione Espressione Genica
DNA microarrays
Microarrays: disposizioni ordinate e miniaturizzate di frammenti
di DNA con sequenze note su supporto solido
Ciascuna posizione contiene un frammento di DNA (singola elica) specifico,
chiamato sonda (probe), e complementare alla sequenza di un trascritto
Quando il frammento è messo in
presenza del frammento complementare,
test, (mRNA marcato con fluorocromo),
questi tenderanno ad appaiarsi per
complementarietà con interazione forte
In scansione, quantità di segnale di
fluorescenza derivante da una specifica
posizione dell’array è direttamente
proporzionale ad abbondanza del trascritto
corrispondente nel campione biologico
utilizzato (http://www.phgfoundation.org/
tutorials/dna/6.html)
© Marco Masseroli, PhD
A B C D E
1
2
3
4
5
17
Misurazione Espressione Genica
DNA microarrays
• Applicazioni: non solo misurazione espressione genica:
ƒ
Misurazione abbondanza di un trascritto genico
ƒ
Caratterizzazione sequenza di un gene (es. esoni/introni)
ƒ
Caratterizzazione alterazioni del numero di copie di un
dato gene o sequenza di DNA (es. dovute a mutazioni
cromosomiche di duplicazione)
ƒ
Caratterizzazione interazioni DNA-proteine
ƒ
…
© Marco Masseroli, PhD
18
Misurazione Espressione Genica
DNA microarrays
• DNA microarrays: principio e passi principali:
ƒ
Costruzione del microarray (supporto solido sul quale
sono immobilizzati, in posizioni ben definite, migliaia di
sequenze di geni differenti (sonde, o probes))
ƒ
Estrazione RNA totale di cellule da esaminare (test)
- Retrotrascrizione a cDNA (coding DNA), se necessaria
- Amplificazione e marcatura
ƒ
Ibridazione (del test) al microarray
ƒ
Valutazione attività genica
• Poiché permettono di determinare il profilo di espressione
della cellula in un dato stato, si dice anche che consentono
expression profiling
© Marco Masseroli, PhD
19
Misurazione Espressione Genica
DNA microarrays
• …..
L’intensità della fluorescenza è misurata con
uno scanner (confocale) ad alta sensibilità
© Marco Masseroli, PhD
20
Misurazione Espressione Genica
DNA microarrays
• Una tecnologia che sta cambiando il modo di affrontare la
biologia molecolare
• I metodi tradizionali: un gene/alcuni geni osservati in un
esperimento: manca una visione di insieme
ƒ
Ricerca guidata da ipotesi
• Tecnologia con microarrays: migliaia di geni su un array al
fine di studiare la loro funzione simultaneamente
ƒ
Ricerca che genera ipotesi, guidata dai dati
• Due le tecnologie più utilizzate: cDNA microarray e
oligonucleotide chip
ƒ
Entrambe misurano il livello di espressione genica in
termini di abbondanza di mRNA
© Marco Masseroli, PhD
21
Misurazione Espressione Genica
DNA microarrays – Piattaforme tecnologiche
High density filters
(quasi obsoleti)
cDNA microarrays
Oligonucleotide arrays
(oligo chips)
Dettaglio:
Dettaglio:
Dettaglio:
• ~2’400 cloni in 12 cm
x 8 cm
• marcatura radioattiva
• 1 condizione
sperimentale per filtro
• ~25'000 cloni in 5 cm
x 2 cm
• marcatura
fluorescente
• 2 condizioni
sperimentali per array
© Marco Masseroli, PhD
• ~60'000 geni in
1.28 cm x 1.28 cm
• marcatura
fluorescente
• 1 condizione
sperimentale per array
22
Misurazione Espressione Genica
DNA microarrays – Filtri di nylon ad alta densità
• Ormai poco usati
• Devono essere comprati dal produttore
• Sulla membrana di nylon del filtro è spottato un set di cDNA
• La rappresentatività del filtro è definita dal costruttore
• Filtro deve essere ibridizzato
con cDNA, un campione per filtro
• Campione è marcato con
33P-dCTP (marker radioattivo)
• Immagine del filtro ibridizzato è
ottenuta con fosfoimager
• Intensità ibridizzazione valutata
con software commerciali, ma
ulteriori elaborazioni necessarie
© Marco Masseroli, PhD
23
Misurazione Espressione Genica
DNA microarrays – Filtri di nylon ad alta densità
Vantaggi:
• Tecnicamente facili: non sono necessarie procedure di setup
o di fabbricazione
• Di uso immediato: non richiedono strumentazione specifica
• Relativamente poco costosi
• Buona sensitività: sonde radioattive
Svantaggi:
• Utente non ha il controllo di cosa c’è effettivamente sul filtro
• Bassa qualità dei cloni spottati
• Qualità delle immagini bassa (alto background, macchie)
• Confronto tra due filtri è difficile (sono necessari vari
esperimenti replicati ed efficiente sistema di analisi)
• Spesso sostituiti con cDNA microarray miniaturizzati
© Marco Masseroli, PhD
24
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
1. Preparazione del cDNA microarray: si utilizzano intere
porzioni di ESTs (Expressed Sequence Tags, brevi
sottosequenze di una sequenza di cDNA trascritto)
ƒ
Si fissano per ogni gene molte copie di EST (500-5’000 bp)
ottenute da librerie di cDNA (amplificate tramite RT-PCR)
su uno spot di un vetrino (10-50 spot per mm2). Ciascuna
EST dovrebbe essere specifica (set unigenico)
© Marco Masseroli, PhD
25
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
2. Preparazione campioni : si preparano due campioni di
mRNA, retrotrascritti a cDNA e resi fluorescenti con colori
diversi (marcatori Cy3, verde, e Cy5, rosso).
3. Ibridizzazione: i campioni preparati sono messi a contatto
con il cDNA microarray preparato; i geni espressi nei
campioni si ibridizzano con la loro sequenza
complementare sul microarray
4. Misura espressione genica: la misura di fluorescenza in
ogni spot del microarray determina quali geni sono espressi
in ciascuno dei due campioni
ƒ Esempio: misura di fluorescenza di Cy5 effettuata con
laser elio-neon (HeNe) a 633 nm e l’emissione avviene
a 680 nm
© Marco Masseroli, PhD
26
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Preparazione del microarray:
Collezione di cloni (plasmidi in E. Coli)
Cloni di cDNA sono selezionati e cresciuti
Lisi dei batteri ed estrazione del DNA plasmidico
Amplificazione del DNA in PCR
Controllo su gel dei prodotti di PCR
Preparazione in piastra da
384 (16x24) pozzetti
Spotting su vetrino
© Marco Masseroli, PhD
27
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Dettagli “tecnici”:
• Possono esserci fino a 15’000 elementi per vetrino (ma più
spesso ce ne sono circa 5’000)
• I vetrini sono tipicamente grandi 2.5 x 2.5 cm
ƒ Vetrini più lunghi possono essere usati ma richiedono
campioni con una maggiore quantità di cDNA marcato
• Gli spot distano tipicamente 120-250 µm
• Vengono stampati da robot
con testine contenenti da 4
a 32 puntine distanti tra di
loro circa 1 cm
• Esistono puntine di varie forme
• Video: http://www.youtube.com/watch?v=Pjr1Oyc0KrY)
© Marco Masseroli, PhD
28
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Vari tipi di puntine da stampa:
A) I modelli a pinzetta, o a puntina
divisa, trasferiscono piccolissime
quantità (nanolitri) della
soluzione di cDNA all’array
tramite fenomeni di capillarità
nel momento in cui la puntina
tocca la superficie solida
B) Le puntine e le estremità
TeleChemTM applicano piccole
goccioline tramite il contatto tra
la puntina e il substrato
© Marco Masseroli, PhD
29
Misurazione Espressione Genica
DNA microarrays – cDNA microarray (spotted)
C) Il modello a puntina-e-ansa
raccoglie il cDNA in una piccola
ansa e in seguito una puntina
trasferisce la soluzione su un
vetrino, mantenendo uniforme
la densità
D) I modelli a getto d’inchiostro
(es. di STMicroelectronics)
spruzzano quantità ancora più
piccole (picolitri) di goccioline di
liquido sotto pressione
© Marco Masseroli, PhD
30
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Preparazione dei campioni, ibridizzazione e misura:
© Marco Masseroli, PhD
31
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
• Sono complessivamente piuttosto costosi a causa del setup
della loro preparazione
ƒ
Si devono ottenere cloni di cDNA attraverso
amplificazione di EST tramite PCR (per ciascun spot
occorrono 10 ng di materiale)
ƒ
Si usano cloni di lunghezza intorno alle 1-2 kb
• Le soluzioni contenenti i cloni amplificati possono essere
utilizzate per produrre sino a 1’000 vetrini
• Servono 2 giorni per produrre 100 microarray con 5’000 geni
• Infine occorre produrre cDNA marcati a partire dai campioni
biologici, usando la trascrittasi inversa in presenza di
nucleotidi resi fluorescenti o radioattivi
© Marco Masseroli, PhD
32
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Il principio dell’analisi con microarray a cDNA
• Dopo che frammenti di EST disposti in piastre da 96 o 384
pozzetti sono depositati ad alta densità su un vetrino da
microscopio, si effettua una ibridizzazione sull’array con due
diversi tipi di cDNA, contrassegnati con coloranti fluorescenti
e derivati da campioni indipendenti di mRNA.
• Dopo il lavaggio, un laser effettua una scansione del vetrino
e si calcola il rapporto di fluorescenza indotta nei due
campioni per ciascuna EST: questo valore indica la quantità
relativa di trascritto per l’EST presente nei campioni
• Video: http://www.youtube.com/watch?v=ffOgVQekKnk
© Marco Masseroli, PhD
33
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Video: http://www.youtube.com/watch?v=VNsThMNjKhM
© Marco Masseroli, PhD
34
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Immagini di cDNA microarray
Rosso: gene espresso, per es. nei trattati ma non nei controlli
Verde: gene espresso, per es. nei controlli ma non nei trattati
Giallo: gene espresso in entrambi i campioni
Grigio: gene non espresso in nessuno dei campioni
© Marco Masseroli, PhD
35
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Tumor cell
Dalle immagini ai dati:
Healthy cell
• Allineamento della griglia: ogni
sonda deve essere localizzata
nell’immagine dell’array
• Segmentazione: identificazione
dei pixels appartenenti a ogni spot
• Estrazione dell’intensità: calcolo di
un valore numerico che rappresenti
il livello d’espressione (media, mediana, …)
• Correzione del background: l’intensità del background è
calcolata e sottratta dal valore di intensità dello spot
• Qualità dello spot: sono calcolati parametri (es. circolarità,
uniformità, diametro, …) per valutare la qualità di uno spot,
di un vetrino e di un esperimento
© Marco Masseroli, PhD
36
Misurazione Espressione Genica
DNA microarrays – cDNA microarrays (spotted)
Pregi e difetti della tecnica “spotted”:
• Ibridazione competitiva: analisi su mRNA da cellule in due
condizioni diverse
ƒ
Vantaggio: misure relative (spesso espresse sotto forma
di log2)
ƒ
Svantaggio: definizione del riferimento, problemi
colorimetrici, possibili differenze delle quantità dei due
mRNA
• Difficoltà di comparare risultati provenienti da differenti
array: l’intensità dipende dalle quantità di sonde depositate
• Si richiede molto mRNA per preparare il target (50-200 µg)
© Marco Masseroli, PhD
37
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Microarrays di oligonucleotidi: genechips di Affymetrix e altri
• Al posto delle EST ci sono oligonucleotidi lunghi 20-80 basi
progettati per rappresentare ORFs
• Composizione di ogni sequenza di oligonucleotidi:
ƒ Perfect match (PM): una sequenza che può ibridizzarsi
ƒ Mismatch (MM): una sequenza che non dovrebbe
ibridizzarsi, dato che la base centrale e invertita
ƒ
PM ATGAGCTGATGCGATGCCATGAGAG
MM ATGAGCTGATGCCATGCCATGAGAG
Per ogni probe con sequenza di PM vi è sul chip un altro
probe con sequenza di MM
© Marco Masseroli, PhD
38
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
• Ogni gene viene rappresentato da un insieme di 10-20
oligonucleotidi (es. lunghi 25 bp nei chips Affymetrix), che
corrispondono a varie posizioni sul gene che rappresentano
© Marco Masseroli, PhD
39
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Costruzione di arrays di oligonucleotidi (realizzata da aziende
specializzate che vendono tali arrays)
Gli oligonucleotidi sono sintetizzati in situ sul chip di silicio
tramite litografia, usando un lampo di luce e una maschera per
permettere alla luce di colpire solo i punti richiesti sulla
superficie del chip (processo simile a quello per la produzione
delle CPU dei calcolatori)
© Marco Masseroli, PhD
40
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
• In ciascun passaggio, il lampo di luce “deprotegge” (cioè
libera) gli oligonucleotidi nel punto desiderato del chip; si
aggiungono quindi nucleotidi “protetti” di uno dei quattro
tipi possibili (A, C, G, o T), in modo che un solo nucleotide
si aggiunga alle catene desiderate
© Marco Masseroli, PhD
41
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Sintesi oligonucleotidi in sito
• Su substrato di silicio vengono
sintetizzati oligonucleotidi
tramite cicli di addizione di uno
specifico nucleotide in
specifiche posizioni;
I nucleotidi “bloccati” vengono
deprotetti tramite esposizione
alla luce
• Sono accessibili all’aggiunta del
nucleotide successivo soltanto
quelli localizzati in
corrispondenza dei buchi della
maschera fotolitografica
Vantaggi:
- sequenze oligo verificate
- lunghezza oligo predeterminata
http://www.affymetrix.com/
Video: http://www.youtube.com/watch?v=MuN54ecfHPw
© Marco Masseroli, PhD
42
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
La realizzazione di maschere fotolitografiche con risoluzione
costantemente in aumento permette di sintetizzare sulla stessa
superficie un numero di singole cellette sempre maggiore
7000000
6000000
Dimensioni
cella (µm)
Numero di celle
sintetizzabili su
“standard” array
12.8 mm2
25
262’144
18
505’679
11
1’354’000
8
2’560’000
5
6’553’600
2
…
1
…
numero celle
5000000
4000000
3000000
2000000
1000000
0
25 µm
18 µm
11 µm
8 µm
© Marco Masseroli, PhD
5 µm
43
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Maskless Array Synthesis (MAS): invece di
maschere fotolitografiche, viene utilizzato
un DMD (Digital Micromirror Device) che
utilizza migliaia di specchi che riflettono la
luce in specifiche posizioni del supporto
solido per effettuare la deprotezione del
gruppo chimico
http://www.nimblegen.com/
© Marco Masseroli, PhD
44
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Microarray scannerizzato
(con laser confocale)
Ciascuna cella misura il livello
di espressione di una sequenza genica
Livello di espressione genica
quantificato dall’intensità (I)
della cella nell’immagine
scannerizzata
Espressione = avg[I(PM)-I(MM)]
© Marco Masseroli, PhD
45
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Dalle immagini ai dati: stessi passi che per cDNA microarrays
© Marco Masseroli, PhD
46
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Punteggio della detection
• Si calcola il seguente score:
Ri = [I(PM)i - I(MM)i] / [I(PM)i + I(MM)i]
(range [1;-1])
• Determina l’abilità della sonda (probe) di identificare il target
• Detection p-value: si effettua il test di ipotesi che lo score
differisca significativamente da una soglia vicina a zero (si
valuta l’evidenza di una ibridizzazione non casuale)
ƒ
Si usa il Wilcoxon signed ranked test
© Marco Masseroli, PhD
47
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
• Una detection call descrive se l’ibridizzazione di un probe
set è avvenuta (P, presente), non è avvenuta (A, assente) o
è stata solo marginale (M)
ƒ
Viene assegnata sulla base del p-value
• Valori suggeriti:
ƒ
Presente: p-value < 0.04
ƒ
Marginale: 0.04 ≤ p-value ≤ 0.06
ƒ
Assente: altrimenti
1 p-value
0
© Marco Masseroli, PhD
48
Misurazione Espressione Genica
DNA microarrays – Microarrays di oligonucleotidi
Commento
• Procedura molto rapida ed efficace, ma è molto costoso fare
le maschere, per cui questa tecnica è realizzata da aziende
specializzate e utilizzabile solo per organismi modello
• Richiede inoltre di progettare opportunamente la
combinazione di sequenze di oligonucleotidi che
discriminano tra le varie ORF
• N.B. Come campione (test) si usa mRNA amplificato e
marcato anziché cDNA (come nei cDNA microarray)
© Marco Masseroli, PhD
49
Misurazione Espressione Genica
DNA microarrays – Confronto cDNA vs oligonucleotidi
• Microarrays a cDNA:
ƒ
Possono essere applicati a qualunque organismo senza
necessità di aver sequenziato il genoma completo
ƒ
Complessivamente più economici (ma setup costoso)
ƒ
Sono più flessibili e si affidano all’ibridizzazione tra molte
basi e non poche
• in tale modo superano anche alcuni problemi legati ai
polimorfismi
• Attualmente esistono anche alcune altre soluzioni proposte
da Agilent (http://www.home.agilent.com/) che usano
oligonucleotidi più lunghi (con 60-80 basi) e deposizione a
getto d’inchiostro
© Marco Masseroli, PhD
50
Misurazione Espressione Genica
DNA microarrays – Confronto cDNA vs oligonucleotidi
• Chips di oligonucleotidi:
ƒ
Possono contenere una maggiore quantità di geni,
anche geni previsti ma non ancora presenti in librerie
di cDNA
ƒ
Sono utilizzabili anche da chi non ha le possibilità di
costruirsi un vetrino
ƒ
Hanno probabilmente minore variabilità tra un chip e
l’altro
- E’ maggiormente possibile (anche se comunque
difficoltosa) la comparazione dei dati prodotti da
diversi gruppi di ricerca
© Marco Masseroli, PhD
51
Misurazione Espressione Genica
DNA microarrays – Confronto cDNA vs oligonucleotidi
Piattaforma a due colori: 2 campioni biologici su 1 unico array
(cDNA microarrays)
normali
tumorali
Comparazione
tra cellule
Marcatura dei
trascritti
Geni che si
comportano in
modo DIVERSO
Microarray contenente
una rappresentazione
dell’intero genoma
=
+
Pseudocolor
image
© Marco Masseroli, PhD
Pseudocolor
image
52
Misurazione Espressione Genica
DNA microarrays – Confronto cDNA vs oligonucleotidi
Piattaforma a singolo colore: 1 campione biologico su 1 array
(oligo chips)
normali
tumorali
Comparazione
tra cellule
Marcatura dei
trascritti
Geni che si
comportano in
modo DIVERSO
Microarray contenente
una rappresentazione
dell’intero genoma
VS
=
Immagine rappresenta variazione di espressione (asse y) di vari geni (linee) sovra(arancione) e sotto- (azzurro) espressi in successivi istanti temporali (asse x)
© Marco Masseroli, PhD
53
Misurazione Espressione Genica
Riassunto esperimento microarray
Spotted
microarray
In-situ
synthesized
microarray
© Marco Masseroli, PhD
54
Misurazione Espressione Genica
Riassunto esperimento microarray
ID Trascritto
Risultati lettura array
Livello di espressione (rfu)
[unità di fluorescenza relative]
p-value
I livelli di espressione
di decine di migliaia
di trascritti vengono
quantificati in un
unico esperimento
Si parla quindi di
analisi a livello
genomico
© Marco Masseroli, PhD
55
Misurazione Espressione Genica
Riassunto esperimento microarray
Ricerca trascritti regolati (in comparazione trattato-controllo)
• L’analisi comparativa permette di comparare, per ciascun
trascritto rappresentato, il livello di espressione in una
condizione rispetto ad un’altra
ƒ
Comparando direttamente il livello di espressione del
medesimo trascritto [probeset]
• E’ così possibile identificare e quantificare in modo accurato
le alterazioni a livello trascrizionale tra due campioni
Controllo
p16 = 1’000 rfu
Trattato
p16 = 2’500 rfu
rfu: relative fluorescent unit
© Marco Masseroli, PhD
56
Misurazione Espressione Genica
Serial Analysis of Gene Expression (SAGE)
Analisi SAGE
• Metodo per determinare l’abbondanza (o concentrazione)
assoluta di ciascun trascritto espresso in una popolazione
di cellule mediante sequenziamento automatico in serie di
marcatori specifici per ciascun gene, prodotti tramite
tecniche molecolari collegate tra loro
• Principi su cui si basa la SAGE:
ƒ
Una sequenza corta di 10-14 bp contiene informazioni
sufficienti per identificare in modo univoco un trascritto
- Queste sequenze possono essere attaccate le una
alle altre per formare una sequenza più lunga
ƒ
Il numero di volte in cui appare una sequenza corta
esprime livello di espressione di trascritto corrispondente
© Marco Masseroli, PhD
57
Misurazione Espressione Genica
Serial Analysis of Gene Expression (SAGE)
• Vengono pertanto sequenziati in serie marcatori unici lunghi
15 bp
ƒ
In ciascuna reazione di sequenziamento vengono
ottenuti fino a 50 marcatori
• Solitamente si usano due marcatori per gene, quindi
occorrono circa 50’000 marcatori per l’intero genoma umano
ƒ
Procedura complessa e molto costosa (5’000 euro per
campione)
- Non adatta per ripetere gli esperimenti diverse volte
ƒ
Fornisce quella che si ritiene la misura esatta del
numero di trascritti
© Marco Masseroli, PhD
58
Misurazione Espressione Genica
Serial Analysis of Gene Expression (SAGE)
Passi dell’analisi SAGE:
1. Isolare l’mRNA del campione biologico da analizzare
2. Trascrivere mRNA in cDNA
3. Tagliare le opportune sequenze del cDNA con enzimi di
restrizione per ottenere brevi sequenze
4. Attaccare un adattatore creando un “di-tag”
5. Collegare i di-tag tra di loro
6. Amplificare in vettore batterico le catene lunghe di di-tag
7. Sequenziare le catene amplificate
8. Via software riconoscere le sequenze corte, contarle e
associarle al relativo trascritto
© Marco Masseroli, PhD
59
Misurazione Espressione Genica
Serial Analysis of Gene Expression (SAGE)
© Marco Masseroli, PhD
60
Misurazione Espressione Genica
Microarray and Gene Expression Data (MGED)
Sforzo di standardizzazione dei dati di microarray e annotazioni
• Il gruppo MGED (Microarray and Gene Expression Data):
http://www.mged.org/
• Obbiettivo del gruppo è di facilitare:
ƒ
l’adozione di standards per l’annotazione di esperimenti
con DNA microarrays e la rappresentazione dei loro dati
ƒ
l’introduzione di controlli sperimentali e di metodi di
normalizzazione dati/risultati
• Coinvolge molti centri a livello mondiale (TIGR, Affymetrix,
Stanford, Sanger, Agilent, Rosetta, ecc.)
ƒ
Coordinato da European Bioinformatics Institute (EBI)
© Marco Masseroli, PhD
61
Misurazione Espressione Genica
Microarray and Gene Expression Data (MGED)
Glossario MGED (http://www.mged.org/)
• MIAME (Minimum Information About a Microarray
Experiment): standard per l’annotazione degli esperimenti
• MAGE-OM (MicroArray Gene Expression - Object Model):
modello dei dati generati con microarrays
• ArrayExpress (http://www.ebi.ac.uk/microarray-as/ae/):
database basato su MAGE-OM
• MAGE-ML (MicroArray Gene Expression – Markup
Language): linguaggio di markup per condividere, fra
database, gli esperimenti e i loro dati
• Expression Profiler (http://www.ebi.ac.uk/expressionprofiler/):
strumento di analisi dei dati da microarrays che utilizza
direttamente ArrayExpress
© Marco Masseroli, PhD
62
Misurazione Espressione Genica
Microarray and Gene Expression Data (MGED)
Principi generali di MIAME [Brazma et al., Nature Genetics, 2001]
• Le informazioni raccolte devono essere sufficienti per
interpretare i risultati e replicare gli esperimenti
• L’informazione deve essere strutturata in modo che
l’interrogazione e l’analisi automatica siano fattibili
© Marco Masseroli, PhD
63
Misurazione Espressione Genica
Microarray and Gene Expression Data (MGED)
Contenuto del database dal punto di vista dell’analisi dei dati
• Campioni
ƒ Annotazioni
• Geni
ƒ Annotazioni
• Espressioni geniche
ƒ Livelli di
espressione
© Marco Masseroli, PhD
64
Misurazione Espressione Genica
Microarray and Gene Expression Data (MGED)
ArrayExpress (http://www.ebi.ac.uk/microarray-as/ae/)
• Database di dati di esperimenti con microarrays, in cui le
informazioni sono riportate in modo standard
ƒ
Conforme con MIAME
• Interfaccia Web:
ƒ
Queries: esperimenti, arrays, campioni
ƒ
Browsing: viste su esperimenti
© Marco Masseroli, PhD
65
Misurazione Espressione Genica
Microarray and Gene Expression Data (MGED)
ArrayExpress - queries
© Marco Masseroli, PhD
66
Misurazione Espressione Genica
Microarray and Gene Expression Data (MGED)
ArrayExpress - browsing: geni up o down regolati in esperimenti con
Saccharomyces cerevisiae (lievito) in condizione di crescita “rehydration”
© Marco Masseroli, PhD
67
Misurazione Espressione Genica
Disegno sperimentale di studi del trascrittoma
Disegni sperimentali di studi di espressione genica:
• Esperimenti “statici”
ƒ Due o più classi di soggetti (fenotipi/trattamenti diversi)
- Esempio 1: Selezione di geni differenzialmente
espressi (in diverse classi di soggetti)
- Esempio 2: Classificazione (supervisionata)
• Esperimenti “dinamici”
ƒ Un soggetto a tempi diversi
- Serie temporali di espressione genica durante una
perturbazione
- Esempio 3: Selezione di geni differenzialmente
espressi nel tempo
– Clustering
© Marco Masseroli, PhD
68
Misurazione Espressione Genica
Esperimenti “statici” con microarray
Due o più classi di soggetti (fenotipi/trattamenti diversi)
© Marco Masseroli, PhD
69
Misurazione Espressione Genica
Esperimenti “statici” con microarray
Esempio 1: Selezione di geni differenzialmente espressi (d.e.)
© Marco Masseroli, PhD
70
Misurazione Espressione Genica
Esperimenti “statici” con microarray
Esempio 2: Classificazione (supervisionata)
6 gruppi (tipologie)
di Leucemia linfoblastica
acuta (ALL) infantile
M=m1+m2=132; N=26’000
© Marco Masseroli, PhD
71
Misurazione Espressione Genica
Esperimenti “dinamici” con microarray
Un soggetto a tempi diversi
© Marco Masseroli, PhD
72
Misurazione Espressione Genica
Esperimenti “dinamici” con microarray
Esempio 3: Selezione di geni differenzialmente espressi nel
tempo
Clustering
379 geni insulina-regolati
Principalmente
geni del
metabolismo dei
lipidi e del
trasporto di
elettroni
Principalmente
geni della glicolisi
© Marco Masseroli, PhD
73
Misurazione Espressione Genica
Esperimenti “dinamici” con microarray
Esempio 3: Selezione di geni differenzialmente espressi nel
tempo
Reverse engineering
• Gene networks
• Synthetic biology
© Marco Masseroli, PhD
74
Misurazione Espressione Genica
Analisi dati di espressione
Dati di espressione
Immagini scannerizzate
da microarrays
© Marco Masseroli, PhD
75
Misurazione Espressione Genica
Acquisizione e pre-elaborazione segnale
• Acquisizione e pre-elaborazione del segnale (intensità
della fluorescenza) includono:
ƒ
Analisi dell’immagine
ƒ
Normalizzazione di immagini/dati
ƒ
Trasformazioni dati
• Software: GenePix, MAS5, …
Immagini
© Marco Masseroli, PhD
Dati
76
Misurazione Espressione Genica
Acquisizione e pre-elaborazione segnale
• Analisi dell’immagine
ƒ
Identificare la posizione delle sonde (probes) relative ad
ogni gene (Gridding)
ƒ
Differenziare i pixel relativi a foreground e background
(Segmentation)
ƒ
Estrazione delle intensità delle varie aree dell’immagine
© Marco Masseroli, PhD
77
Misurazione Espressione Genica
Acquisizione e pre-elaborazione segnale
Normalizzazione di immagini/dati
• Identificare e rimuovere l’errore sistematico
ƒ
Es. diversa concentrazione delle sonde e diversa
efficienza di ibridazione portano a differente luminosità
delle misure fornite da diversi array
- Per esperimenti che coinvolgono più array a
oligonucleotidi si possono ad esempio scalare le
misure in modo che le intensità medie siano tutte
uguali
ƒ
Normalizzare sulla base di un insieme di geni che deve
essere invariante tra le varie condizioni sperimentali,
detti geni house keeping
• Software: dChip (http://www.dchip.org/)
© Marco Masseroli, PhD
78
Misurazione Espressione Genica
Acquisizione e pre-elaborazione segnale
Trasformazioni dati
• Trasformazione logaritmica
• Riconoscimento degli outliers
• Gestione dei missing values
© Marco Masseroli, PhD
79
Misurazione Espressione Genica
Data mining
• Selezione di geni differenzialmente espressi
• Clustering, o class discovery
ƒ
Non supervisionato
• Classificazione, o class prediction
ƒ
Supervisionata
Dati di espressione
© Marco Masseroli, PhD
80
Misurazione Espressione Genica
Problemi analisi dati di microarray
• Dimensione dei data sets
• Differenti supporti
• Differenti tecnologie sulle diverse piattaforme
ƒ
Oligonucleotidi / spotted cDNA
• Riferimenti a database esterni non stabili
ƒ
Codici identificanti sequenze sul microarray possono
variare in diverse versioni di database
• Annotazioni dei campioni e degli arrays
ƒ
Spesso non complete/sufficienti e non realizzate con
terminologia controllata
© Marco Masseroli, PhD
81
Misurazione Espressione Genica
Tools per l’analisi dati da microarray
• Expression Profiler (http://www.ebi.ac.uk/expressionprofiler/)
ƒ
Tool completamente integrato con DB ArrayExpress
• Bioconductor (http://www.bioconductor.org/)
ƒ
Strumento per analisi dati
ƒ
Risultato di un progetto software open source
• Tools specializzati
ƒ
Public / open source
ƒ
Commercial
© Marco Masseroli, PhD
82
Misurazione Espressione Genica
Riferimenti
Alcuni riferimenti:
• Esempio interattivo di esperimento con microarray:
http://www.bio.davidson.edu/courses/genomics/chip/chip.html
• Animazione interattiva di PCR:
http://www.dnalc.org/ddnalc/resources/pcr.html
• Ibridizzazione DNA, sequenziamento, PCR, microarray:
http://www.phgfoundation.org/tutorials/dna/
• I “nostri” tools:
ƒ
ƒ
Microgen: http://www.bioinformatics.polimi.it/Microgen/
GAAS: http://www.bioinformatics.polimi.it/GAAS/
• Orange - Open source data visualization and analysis tool:
http://www.ailab.si/orange/
© Marco Masseroli, PhD
83
Scarica

Espressione genica