Espressione genica
External
input
Endogenous
input
Microarray per l’analisi dell’espressione
genica
Diagramma di flusso operativo
di un esperimento microarray
Disegno dell’esperimento
Preparazione dei campioni
ed ibridazione
Quantizzazione dei dati grezzi
Pre-trattamento e
normalizzazione dei dati
Analisi statistica, validazione e
annotazione dei risultati
Sottomissione dell’esperimento
a database pubblici
• definizione dell’ipotesi biologica indagata
• identificazione di fattori di confondimento
e schema di ibridazione
• estrazione dell’mRNA
• valutazione dei vincoli economici
• marcatura dell’mRNA
• valutazione dei limiti di gestione
ibridazione
•• scansione
applicazione di test statistici per
quali sono i geni
•determinare
lavaggio
“gridding” e quantizzazione numerica
differenzialmente espressi
delle
intensitàdel
di “background”
fluorescenza
• sottrazione
asciugatura
• validazione dei risultati con RTq-PCR
•• estrazione
di “foreground”
correzione delle
degli intensità
errori sistematici
e
• “pathway
di “background”
per l’interpretazione
attraverso
laanalysis”
normalizzazione
biologica dei risultati
•• “quality
control”secondo
deidel
datipre-trattamento
grezzi
strutturazione
lo
standard
verifica
dell’effetto
dei
• annotazione
dei risultati contenuta
nelle banche dati
MIAME
dell’informazione
dati
nell’esperimento
• sottomissione delle informazioni a
database per la pubblicazione dei dati
Da levare???
Categorie di esperimenti microarray
• Class comparison
Classi predefinite
Confrontare il livello medio di espressione fra gruppi di campioni e stabilire
quali sono i geni responsabili di eventuali differenze
• identificare geni differenzialmente espressi in differenti condizioni sperimentali:
- campioni da linee cellulari che contengono BRCA1 mutato vs campioni che contengono
BRCA1 non mutato
- campioni di cervello di ratti trattati con un farmaco vs campioni di cervello di ratti non trattati
• Class prediction
Classi non predefinite
Sviluppare profili di espressione genica differenziale da utilizzare come
predittori dell’appartenenza di campioni a classi
• generazione di signature tumorali
• generazioni di profili di espressione che sono caratteristici di determinati stadi di crescita di una
cellula
• Class discovery
Classi non predefinite
Trovare un nuovo sistema di classificazione di campioni sulla base del
profilo di espressione genica (cluster analysis)
• identificare nuove sottoclassi di tumori
4
Disegni sperimentali per class comparison
Non-Reference-sample (Ai, Bi,…): tutti i campioni di interesse biologico
Reference-sample (R): campione senza significato biologico che serve da
baseline comune per la valutazione dell’espressione relativa fra i non-referencesample
• Reference Design
Il confronto fra le due classi è indiretto ed è
realizzato attraverso il campione Reference (A vs
R) vs (B vs R)
• Loop Design
Il confronto fra le due classi è diretto. Ciascun
campione è ibridizzato due volte, con due
fluorofori, su due array differenti
• Balanced Block Design
Il confronto fra le due classi è diretto. Per ciascun
gruppo (classe) metà dei campioni sono marcati
con un fluorocromo e metà con l’altro
5
Obiettivo dell’esperimento microarray
Precisione (efficienza) nella stima delle differenze fra le due classi
Def: Efficienza ~ 1/varianza delle stime
Come disegno un esperimento efficiente?
“Posso comprare solo 10 array (non ho problemi a reperire
campioni).”
“Ho solo 10 campioni (non ho problemi a comprare array).”
6
“Posso comprare solo 10 array “
…ma posso collezionare i campioni che mi servono
Efficienza: stima più precisa della media delle differenze fra le due popolazioni
ibridizzazione di più campioni possibile sui microarray a disposizione
Reference Design
# sample per classe = 5
# array totali = 10
Loop Design
# sample per classe = 5
# array totali = 10
Balanced Block
# sample per classe = 10
7
# array totali = 10
“Posso comprare solo 10 array “
…ma posso collezionare i campioni che mi servono
Balanced Block
# sample per classe = 10
# sample totali = 20
RD
LD
BBD
Svantaggi:
- Poca tolleranza alle variazioni (variazione nell’appartenenza alle classi, perdita
di un vetrino, etc)
8
“Ho solo 10 campioni “
…ma posso comprare gli array che mi servono
Efficienza: stima più precisa delle intensità dei singoli campioni
ibridizzazione di più array
Reference Design
# sample per classe = 5
# array totali = 10
Balanced Block
# sample per classe = 5
# array totali = 5
9
“Ho solo 10 campioni “
…ma posso comprare gli array che mi servono
Reference Design
# sample per classe = 5
# array totali = 10
Svantaggi:
- Collezione di innumerevoli informazioni
“inutili” sul campione di Reference
RD
BBD
10
Come si determina la numerosità n
in maniera efficiente?
Non conosciamo le limitazioni sul numero di array da acquistare o di campioni
da collezionare
Per testare l’ipotesi nulla di assenza di espressione genica differenziale bisogna fissare:
• un livello α di significatività
• un livello 1-β di potenza
• l’effect-size δ da detettare (fold change)
• i livelli di varianza σ2 o τ2 dei dati
• il disegno sperimentale
Reference Design
Balanced Block Design
11
Fase “wet” di un esperimento microarray
• Estrazione mRNA
• Retrotrascrizione e
Marcatura
• Ibridazione
• Scansione
Scansione del vetrino
• Scanner a due laser
– Lunghezze d’onda di eccitazione dei fluorocromi
• 635 nm - Red
• 532 nm - Green
• Canali separati in acquisizione
– formazione di due immagini
• Codifica su 16 bit
– 2^16 = 65536 livelli di colore
• Occupazione di memoria
– 130 MB c.a.
15
Metodi di visualizzazione dei dati
• Scatterplot
• MAplot
A =½ log (R*G)
M = log (R/G)
• Imageplot
• Boxplot
• PCA 2D
Metodi di sottrazione del “background”
• Subtract
In = If – Ib
• Minimum
In = If – Ib
se I>0
In = min(If – Ib >0) se I<0
• Normexp+offset (Ritchie et al, 2007)
Ib ~ N(μ, σ2)
If ~ exp(λ)
Risultati
Dati grezzi
Subtract
Minimum
Normexp+
offset
Metodi di normalizzazione
Correzione degli errori sistematici generati dalla procedura sperimentale
• Diversa efficienza di incorporazione dei due fluorocromi;
• Diversa efficienza di emissione dei due fluorocromi;
• Diversa efficienza dello scanner nel leggere i due canali.
Sistema di rivelazione per fluorescenza
Metodi di normalizzazione within array
Ciascun array viene normalizzato separatamente
Obiettivo: centrare su ciascun array la distribuzione dei logfold-change ed eliminare gli errori intensità-dipendenti
- Trasformazione linlog
per attenuare l’effetto della sottrazione del rumore alle basse
intensità, i dati di intensità sono presi in scala lineare alle basse
intensità e in scala logaritmica alle medie e alte intensità
- Metodo globale: median o centraggio della mediana
valutazione dello scostamento della mediana (o media) della
distribuzione reale dei log-fold-change da quella ideale ed
eliminazione
- Metodo intensità-dipendente: LOESS
interpolazione di polinomi di primo e secondo grado a finestre di
dati per determinare la “smoothing curve”. Tale curva viene utilizzata
sulla visualizzazione MA dei dati per riportare la distribuzione reale
dei dati a quella reale
Metodi di normalizzazione between arrays
Tutte le copie biologiche dello stesso gruppo vengono
normalizzate insieme
Obiettivo: eliminare gli errori sistematici che possono rendere
eterogenei array biologicamente simili
- Metodo scale
riscalatura della dispersione dei log-fold-change fra array per
equilibrare i valori di M fra array
- Metodo di sostituzione dei quantili: quantile
riscalatura dei valori delle intensità assolute fra array per
uniformare le distribuzioni
Risultati
linlog
median
LOESS
Risultati
scale
Risultati
quantile
Risultati
Esperimento ApoAI Knockout
Materiali e metodi:
- 16 topi C57BL/6 “black six”
- in 8 topi è stato “spento” il gene che codifica per l’apolipoproteina AI
- per ciascun topo è stato estratto l’RNA dal fegato, è stato isolato l’mRNA, è stato
retrotrascritto in cDNA e marcato con un fluorocromo rosso Cianina Cy5
- il cDNA marcato di ciscun topo è stato mescolato con un’aliquota di un campione di
riferimento, ottenuto facendo il pool degli RNA degli 8 topi di controllo e marcando il
materiale così ottenuto con il fluorocromo verde Cianina Cy3
- le 16 miscele sono state ibridizzate su 16 microarray distinti
26
Esperimento Swirl zebrafish
Materiali e metodi:
- 2 pesci zebra
- in 1 pesce è presente una mutazione sul gene BMP2
- per ciascun pesce è stato estratto l’RNA, è stato isolato l’mRNA, è stato retrotrascritto in
cDNA. Il cDNA di ogni pesce è stato diviso in quattro aliquote.
- Due aliquote di cDNA di pesce mutato sono state marcate con il fluorocromo rosso
Cianina Cy5 e le altre due con il fluorocromo verde Cianina Cy3. Analogamente per il cDNA
del pesce wild-type.
- il disegno sperimentale è di tipo diretto con dye-swap
27
Scarica
Presentazione x lezione bioingegneri 2010_ridotta_novembre_2