Microarray Data Analysis
Letizia Magnoni
Junior Scientist
Sienabiotech Spa
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Argomenti
•
•
•
•
•
•
•
Cosa e’ un esperimento di microarray
A cosa serve
Come si puo’ disegnare un esperimento
Normalizzazione
Analisi
Analisi Cluster
Annotazioni dei geni selezionati
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Gene expression
• Ogni cellula contiene una copia completa del genoma
dell’organismo.
• Esistono vari tipi e stati di cellule (cellule di sangue, nervi
e pelle, cellule che si dividono, cellule cancerogene, ecc.)
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Variazione dell’espressione
• Cosa rende le cellule diverse tra loro?
• L’espressione differente dei geni, cioe’
quando, dove e quanto ogni gene e’
espresso.
• In media, il 40% dei nostri geni e’ espresso
in ogni momento.
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
mRNA
cDNA
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Perche’ Microarrays
• In passato solo analisi di un gene (o pochi)
alla volta (Northern blot)
• Oggi fino a 40.000 geni su una sola
microarray.
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Applicazioni di Microarrays
• Individuazione di target per farmaci e validazione
– identificazione di geni modulati in modo specifico rispetto ad una
certa malattia (differential expression)
• Elicidazione dei meccanismi dell’azione
– Drug safety profiling
– Guilt by association (geni con comportamento connesso tra loro)
– Pathway modeling
• Classificazione di nuovi composti
• Diagnostica
• Identificazione di Biomarkers
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
“Disegno” di un esperimento
•
•
•
•
Insieme dei trattamenti selezionati per il
confronto
La specificazione delle unita’ a cui
verranno somministrati i trattamenti
Le regole secondo cui i trattamenti
vengono assegnati ad ogni unita’
sperimentale
La specificazione delle misurazioni (R/G)
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Disegno Sperimentale
• Fonti di variazione:
– Variazione biologica
– Variazione tecnica
– Variazione dovuta alla
collocazione degli
elementi nelle arrays.
G. A. Churchill in Nature Genetics vol. 32, 2002
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Vari Disegni Sperimentali
• Dye-swap:
A
B
A
B
A1
B1
A2
B2
• Dye-swap ripetuto:
• Dye-swap con replica biologica:
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Vari Disegni Sperimentali
• Reference:
A
N.B. Questo disegno
sperimentale non mette in
luce la variabilita’ introdotta
dalla colorazione.
Ref
A mix B
B
• Per migliorare questo disegno:
N.B. Meta’ delle misurazioni
vengono fatte nel campione di
minore interesse.
A
Ref
A mix B
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
B
Vari Disegni Sperimentali
• Loop:
Letizia Magnoni
A1
B1
B2
A2
Bioinformatics and statistics in drug discovery company
Trattamenti:
Replicati:
Colorazioni:
A
B
A1
A2
B1
B2
RNA1
GR
RNA2
GR
RNA3
GR
RNA4
GR
Arrays:
Disegno:
Letizia Magnoni
A1
B1
B2
A2
Bioinformatics and statistics in drug discovery company
Trattamenti:
Replicati:
Colorazioni:
A
B
A1
A2
B1
B2
RNA1
GR
RNA2
GR
RNA3
GR
RNA4
GR
Arrays:
Disegno:
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
A1
B1
A2
B2
Normalizzazione
• Si vuole togliere dai dati tutta quella
variabilita’ che non ha origine biologica:
– Campioni (isolamento, estrazione di RNA,..)
– Probe nature (cDNA clones, oligos, ..)
– Arrays (substrato, lotto, difetti di superficie, ..)
– Colorazione (colore, attivita’ specifica, ..)
– Ibridizzazione (tempo, temperatura)
– Misurazione (hardware, software, saturation)
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Normalizzazione
• Possibili approcci:
– Housekeeping genes set (which genes, mean
value)
– Complete gene set (min./selected/all,
fluorescence intensity)
– Spiked exogeneous control mRNAs (mean
value)
– Linear regression analysis
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Tecniche di normalizzazione
• Normalizzazione dell’intensita’ totale
– Questo tipo di normalizzazione assume una
uguale quantita’ di mRNA per entrambi i
campioni etichettati.
– Si cerca una costante “c” che aggiusti i dati in
modo tale che i due campioni abbiano media
o mediana uguale.
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Normalizzazione dell’intensita’ totale
Ai  log 2 Ri  Gi
 Ri 
M i  log 2  
 Gi 
Letizia Magnoni
La trasformazione degli assi
coordinati ci permette di
visualizzare meglio i dati
Bioinformatics and statistics in drug discovery company
Tecniche di Normalizzazione
• Tecniche di Regressione:
– Regressione lineare dei dati e successiva
normalizzazione in modo tale che il
coefficiente lineare della retta di regressione
abbia coefficiente angolare unitario.
– Regressione lineare locale (LOWESS)
“LOcally WEighted Scatter plot Smooth”
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Normalizzazione con tecniche di regressione locale
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Analisi Statistica dei dati
• Si vuole rispondere alle domande:
– La differenza che vedo nei miei dati e’
significativa?
– Le differenze osservate sono dovute solo alla
diversa risposta dei campioni ai trattamenti?
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
T-test con due campioni:
confronto tra le due medie
• Ipotesi:
– I campioni hanno distribuzioni normali;
– I campioni sono originati da due variabili
indipendenti;
– Due possibili assunzioni sulle varianze:
se  12   2 2 o altrimenti.
La statistica test ha una
distribuzione t di Student
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Confronto tra medie di due
campioni in un esperimento di Microarray
• Si vogliono evitare tutte le assunzioni fatte
precedentemente.
• Statistica test (Welch Statistic); per ogni gene i
calcoliamo:
ti 
x 2i  x1i
s22i s12i

n2 n1
• Per determinarne la distribuzione possiamo utilizzare
algoritmi di permutazione o di bootstrap.
B. Efron, R. J. Tibshirani: “An Introduction to the Bootstrap”, Chapman & Hall (1993)
S. Dudoit et al: “Statistical methods for identifying differentially expressed genes in
replicated cDNA Microarray Experiments”, Statistica Sinica 12(2002), pp 111-139
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Permutation test
– Stima la distribuzione della statistica test sotto
l’ipotesi nulla (che non ci sia differenza tra i
due campioni) tramite permutazioni dei
campioni etichettati.
– Il p_value p g e’ dato come frazione delle
permutazioni per cui il valore della statistica
test e’ (almeno) tanto estremo quanto quello
che e’ stato osservato.
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Multiple testing
• Supponiamo di avere un esperimento con
10.000 geni e decidiamo di controllare
l’errore di tipo I al 5% (rifiuto l’ipotesi nulla
quando il p-value e’ minore di 0.05):
– il valore atteso di rigettare in modo errato
l’ipotesi nulla sara’: 10.000 x 0.05 = 500.
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Multiple testing methods
• Dobbiamo considerare il fatto di dovere
aggiustare il livello di significativita’ del nostro
test (multiple testing procedure)
– Bonferroni (non e’ consigliabile per
esperimenti di microarrays)
– Westfall and Young step-down procedure
– False Discovery Rates (FDR; Benjamini and
Hochberg, 1995)
Dudoit et al, “Multiple Hypothesis Testing in Microarray Experiments”, U.C. Berkeley
Division of Biostatistics Working Paper Series, 2002
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Modelli ANOVA
• Questi modelli cercano di dare una stima delle
piu’ importanti fonti di variabilita’ presenti in un
esperimento.
–
–
–
–
Arrays (Ai)
Dyes (colorazione) (Dj)
Varieties (trattamenti) (Vk)
Genes (Gg)
i = 1,2,..,#arrays
j = 1,2
k = 1,2,..,#varieties
g = 1,2,..,#genes
Il modello che si assume e’:
log( yijkg )    Ai  D j  Vk  Gg  ( AG)ig  (VG)kg  ( DG) jg  ijkg
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Modelli ANOVA e disegno sperimentale
• Disegno Dye-Swap
A
B
log( yijkg )    Ai  D j  Vk  Gg  ( AG)ig  (VG)kg  ijkg
• Disegno reference
A
Ref
B
log( yijkg )    Ai  Vk  Gg  (VG)kg  ijkg
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Analisi da un punto di vista Bayesiano
• Entrambe le tecniche presentate hanno un
approccio mediante la statistica Bayesiana.
– P. Baldi,”A Bayesian framework for the analysis of
microarray expression data: regularized t-test and
statistical inferences of gene changes”,
Bioinformatics, Vol.17, no 6, pp 509-519 (2001)
– D.A.Henderson, “Bayesian Statistical Methods for the
Detection of Differential Gene Expression and Control
of Multiple Hypothesis Testing in cDNA and
Oligonucleotide Microarray Experiments”, University
of Arizona
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Siti interessanti
http://www.stat.berkeley.edu/users/terry/Group/index.html
http://www.jax.org/staff/churchill/labsite/research/index.html
http://www.gene-chips.com/
http://www.nslij-genetics.org/microarray/analy.html
http://www.mged.org/Workgroups/MIAME/miame.html
http://www.bioconductor.org/
http://www.bio.davidson.edu/courses/genomics/chip/chip.html
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Grazie
Letizia Magnoni
Bioinformatics and statistics in drug discovery company
Scarica

Slide 1