UNIVERSITA’ DEGLI STUDI DI PISA
LAUREA IN INGEGNERIA BIOMEDICA
CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI
Erika Melissari
Microarray a DNA: tecnologie di
costruzione dei vetrini

Microarray a cDNA
- lunghezza delle sonde: 200-400 mer
- sonde sintetizzate prima dell’ancoraggio al vetrino
- spotted microarray

Microarray ad oligonucleotidi
- sonde sintetizzate direttamente sul vetrinosintetizzazione in situ
- oligonucleotidi corti; lunghezza delle sonde: 20-40 mer (Affymetrix
GeneChip)
- oligonucleotidi lunghi; lunghezza delle sonde: 60 mer (Agilent)
I microarray: la tecnologia
“Spotted” Array
Affymetrix GeneChip®
I microarray: la tecnologia
Agilent®
Microarray per l’analisi dell’espressione
genica
Centinaia di copie monofilamento di regioni specifiche del
gene formano uno SPOT
Fase “wet” di un esperimento microarray




Estrazione mRNA
Retrotrascrizione e
Marcatura
Ibridazione
Scansione
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione deidei
dati dati
Quantizzazione
Pre-trattamento dei dati
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Scansione del vetrino
Scansione
Scansione del vetrino

Scanner a due laser




formazione di due immagini
Codifica su 16 bit


635 nm - Red
532 nm - Green
Canali separati in acquisizione


Lunghezze d’onda di eccitazione/assorbimento dei fluorocromi
2^16 = 65536 livelli di colore
Occupazione di memoria

250 MB c.a.
Quantizzazione dei dati
• “Gridding” dell’immagine
 GAL file
Segmentazione
Segmentazione
perspaziale
intensità
• Segmentazione:
 spaziale;
 per intensità;
•
Segnale
Background
Estrazione delle intensità del foreground (segnale proveniente
da ibridizzazione specifica) e del background (rumore). Per
ciascuno spot:
 media dei pixel;
 mediana dei pixel.
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento deidei
dati dati
Pre-trattamento
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Pre-trattamento dei dati
•
Correzione del background
Fenomeni
che generano
per sottrazione
dal segnale utile del
rumore:
suo valore calcolato su aree dedicate
esterne
allo del
spotsegnale
 “legame
campione netto
marcato al microarray in
aree esterne allo spot
spotting” scorretto;
 legami aspecifici del
campione con il
• Applicazione
supporto;di indicatori di qualità agli spot per la selezione dei
geni giudicati idonei per la successiva analisi
 fluorescenza propria di
reagenti
eliminatidel
consegnale netto / SD del rumore
SNRnon
= Mediana
il lavaggio.
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Normalizzazione (1)
DEF: Correzione dell’effetto sistematico di fonti di variabilità che
possono influenzare i risultati di un esperimento microarray.
Tali fonti possono essere generate da:





Quantità iniziali diverse di RNA ibridizzato sul vetrino;
Diversa efficienza di incorporazione dei due fluorocromi durante
il processo di marcatura;
Diversa efficienza dello scanner nell’eccitazione dei due
fluorofori;
Diversa efficienza dei due fluorofori nell’emissione dell’energia
acquistata;
Diversa efficienza dello scanner nell’acquisizione dei due canali.
Validità delle correzioni operate sui
dati dal processo di normalizzazione
Ipotesi: i geni la cui espressione viene
significativamente influenzata dalla condizione
sperimentale studiata sono “pochi” rispetto alla
totalità dei geni presenti sul vetrino
N.B.: valida solo su vetrini dove è possibile
indagare l’intero trascrittoma di un organismo
Normalizzazione (2)
Esperimento Self-Self: visualizza la presenza di errori sistematici. Due aliquote dello
stesso campione vengono marcate con i due fluorofori e ibridizzate sul vetrino
Def: Fold-Change:
A =½ log (R*G)
M = log (R/G)
Rapporto fra il valore di
espressione del gene x
nel campione trattato
vs espressione del
gene xFold
nel campione
Change di
controllo
Perché si usa il log del FoldChange?
Intervalli di rappresentatività dell’espressione differenziale
Normalizzazione (3)
Il processo di normalizzazione è necessario anche per confrontare (mettere
insieme) dati provenienti da repliche


1.
Repliche sperimentali: l’mRNA estratto da ogni individuo viene diviso in
aliquote, marcato e ibridizzato su almeno tre vetrini insieme a un altro
campione marcato con l’altro fluoroforomiglioro la qualità delle
osservazioni su ciascun individuo, ma ciò non è sufficiente per
quantificare l’espressione media di un gene in una popolazione di
individui dello stesso tipo
Repliche biologiche: l’mRNA proviene da campioni biologici dello stesso
tipo ma distinti (ad esempio individui diversi). Ciascuno di essi viene
marcato e ibridizzato una o al più due volte su rispettivamente uno o due
vetrini miglioro l’accuratezza nella stima della media di popolazione,
ma peggioro quella del singolo individuo
Le repliche migliorano l’accuratezza della misura. Più repliche abbiamo,
meglio riusciamo ad osservare la quota random degli errori
Come disegno un esperimento
efficiente?
DEF: Efficienza ~ 1/varianza delle stime
…a seconda dell’obiettivo dell’esperimento
“Posso comprare solo 10 array (non ho problemi a reperire
campioni).”
“Ho solo 10 campioni (non ho problemi a comprare array).”
2.
Non è sempre possibile realizzare esperimenti con il massimo livello di
replicazioneBisogna stabilire qual è il disegno sperimentale più
EFFICIENTE rispetto al quesito biologico che si vuole indagare e al budget
a disposizione
Normalizzazione (4)
• Normalizzazione within array 
per correggere errori sistematici su ciascun
array separatamente
•
Normalizzazione between arrays
per correggere errori sistematici che possono
rendere eterogenei array biologicamente simili
(copie sperimentali o biologiche)
Normalizzazione within array
1. Normalizzazione globale -> Centraggio della distribuzione
R=K*G
log2 R/G - - - -> log2 R/G – c = log2 R/(KG)
c = log2 K
Normalizzazione within array
2. Normalizzazione intensità-dipendente
Interpolazione (fitting) LO(W)ESS (LOcally WEighted polynomial
regreSSion) globale
-Fisso l’ampiezza della finestra di dati
-Calcolo la curva di smooting reale attraverso l’interpolazione polinomiale dei dati contenuti nella
finestra
-Sposto la finestra e ri-calcolo la curva di smooting al suo interno
-“Raccordo” i pezzi in modo che non vi siano discontinuità e ricostruisco la curva di smooting reale
complessiva “spazzolando” tutta la distribuzione dei dati
- Per ciascuna finestra calcolo lo scostamento fra smooting reale e smooting ideale
- “Sposto” i dati contenuti nella finestra in modo da azzerare lo scostamento
Normalizzazione between arrays
Normalizzazione scale  riscalatura della dispersione dei logfold-change fra array per equilibrare i valori di M fra array
scale
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Estrazione dei
Estrazione
deidatidati
di espressione differenziale
di espressione
differenziale
Verifica biologica ed
interpretazione del risultato
Estrazione dei dati di espressione
genica

Metodi statistici
- t-statistic, ANOVA (ANalysis Of VAriance), Bayesian-statistic, S-score
e test su permutazione dei dati
Lista di geni differenzialmente espressi
- A ciascun gene è associato un p-value e un valore di
log(fold-change) medio, rappresentativo della
differenza di espressione rilevata fra il gruppo di
soggetti che formano il campione sperimentale e il
gruppo dei soggetti di controllo
Lista di geni differenzialmente espressi
Rank
GeneSymbol
Accession Number
(Transcript)
Description
Differential expression
(Up- or Down-regulation)
P-value
1
DUSP1
NM_004417
ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA
0.7606655
0.0004
2
SRGAP1
BC029919
gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA
1.0329521
0.00038
3
HES1
NM_005524
0.7117039
0.00026
4
SMAD3
U68019
-0.4286814
0.00021
5
RHEBL1
NM_144593
-0.5070915
0.00018
7
FZD10
NM_007197
-0.6491815
0.00015
8
RGS16
NM_002928
0.6270794
0.00012
9
GPR56
NM_201525
-0.3310189
0.0001
10
ZNF831
NM_178457
0.3905212
0.008
11
TFPI
NM_001032281
-0.5849317
0.0075
...
...
...
...
...
...
2500
BTG1
NM_001731
ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA
-0.3668739
0.05
ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA
gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds
ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA
ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA
ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA
ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA
ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA
ref|Homo sapiens tissue factor pathway
inhibitor (lipoprotein-associated coagulation
inhibitor) (TFPI), transcript variant 2, mRNA
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
Verifica biologica ed
interpretazione
dei
risultati
interpretazione del
risultato
Verifica biologica ed Interpretazione
dei risultati

Validare un sottoinsieme di geni differenzialmente
espressi attraverso metodiche alternative (real time
RT-PCR)

Analizzare la lista dei geni DE per formulare ipotesi
sul fenomeno biologico indagato
 informazioni
sui singoli genisingle-gene analysis
 reti biochimiche (pathway) di trasmissione del segnale
pathway analysis
 caratterizzazione ontologicagene ontology analysis
Interpretazione biologica e single gene analysis
Rank
GeneSymbol
Accession Number
(Transcript)
Description
Differential expression
(Up- or Down-regulation)
P-value
1
DUSP1
NM_004417
ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA
0.7606655
0.0004
2
SRGAP1
BC029919
gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA
1.0329521
0.00038
3
HES1
NM_005524
0.7117039
0.00026
4
SMAD3
U68019
-0.4286814
0.00021
5
RHEBL1
NM_144593
-0.5070915
0.00018
7
FZD10
NM_007197
-0.6491815
0.00015
8
RGS16
NM_002928
0.6270794
0.00012
9
GPR56
NM_201525
-0.3310189
0.0001
10
ZNF831
NM_178457
0.3905212
0.008
11
TFPI
NM_001032281
-0.5849317
0.0075
...
...
...
...
...
...
2500
BTG1
NM_001731
ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA
-0.3668739
0.05
ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA
gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds
ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA
ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA
ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA
ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA
ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA
ref|Homo sapiens tissue factor pathway
inhibitor (lipoprotein-associated coagulation
inhibitor) (TFPI), transcript variant 2, mRNA
Banche dati

Banche dati NCBI http://www.ncbi.nlm.nih.gov/
- GeneInfo sui geni
- Nucleotide Info sui trascritti
- PubMedRicerca di pubblicazioni scientifiche di
ambito medico
- ….

Kegg http://www.genome.jp/kegg/
- Kegg GenesInfo sui geni e sui trascritti
- Kegg PathwayInfo sulle reti di trasduzione del
segnale genico (pathway)

Gene Ontology http://www.geneontology.org/
Informazioni sulla classificazione ontologica dei
geni\prodotti genici
Per sapere qualcosa in più su un gene:
Banche dati per l’annotazione dei geni

Banche dati NCBI http://www.ncbi.nlm.nih.gov/
- GeneInfo sui geni
- Nucleotide Info sui trascritti
- Homologene Info sugli omologhi
- OMIMInfo su malattie Mendeliane
- PubMedRicerca di pubblicazioni di ambito
medico/scientifico
- ….
Banca dati Gene
Nome (GeneSymbol) del genepuò
essere identico per organismi differenti
Banca dati Nucleotide
Codice del trascrittoè specifico per ogni
organismo
“Portale”di informazioni bio-molecolari

GeneCards http://www.genecards.org/
…ma le interazioni?
Interpretazione biologica
della lista dei geni differenzialmente espressi:
pathway e ontological analyses
Utilizzare le informazioni contenute in:
- reti di interazione biochimica e di trasduzione del segnale genomico
(pathway) pathway analysis
- Ontologie functional analysis
relative a gruppi di geni differenzialmente espressi per ipotizzare quale
sia l’effetto a livello molecolare del fenomeno biologico indagato
Per sapere qualcosa in più sulle
interazioni fra geni: Banche dati di pathway
e ontologie

Kegg http://www.genome.jp/kegg/ contiene:
- Kegg GenesInfo sui geni e sui trascritti
- Kegg PathwayInfo sulle reti di trasduzione del
segnale genico (pathway)

Gene Ontology http://www.geneontology.org/ contiene:
Informazioni sulla classificazione ontologica dei
geni\prodotti genici
KEGG http://www.genome.jp/kegg/
General pathway
Ogni scatolina
rappresenta un gene
Human Pathway
rappresenta
un’attivazione fra due geni
--| rappresenta una
inibizione fra due geni
Gene Ontology http://www.geneontology.org/
Consorzio che si occupa della definizione delle ontologie
geniche per la classificazione dei geni attraverso i loro
prodotti genici (Proteine)
Ontologia genica: un vocabolario unico, indipendente dall’organismo,
da utilizzare per la descrizione dettagliata dei geni attraverso i loro
prodotti genici (proteine)
• possibilità di “trasferimento” delle informazioni funzionali fra
organismi differenti a parità di complessità del genoma
• possibilità di “trasferimento” delle informazioni funzionali da
organismi “meno complessi” ad organismi “più complessi”
• univocità nella descrizione delle caratteristiche di un gene
Tre ontologie
• Funzione molecolare -> funzione biochimica di un prodotto genico
- enzima, lega gli ioni calcio, lega i nucleotidi, etc
• Processo biologico -> processo di co-regolazione all’interno del
quale il prodotto genico può essere inserito
- metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi
• Componente cellulare -> “luogo” della cellula nel quale un
determinato prodotto genico può agire
- membrana cellulare, reticolo endoplasmatico
Struttura gerarchica -> DAG (grafi aciclici diretti)
DAG
Categorie ontologiche
o GO term: tutti i
sottolivelli
di un’ontologia
-> A ciascun GO term è
associata una
definizione e
un insieme di geni che
in esso vengono
annotati per ciascun
organismo
Ontologie
Categorie ontologiche
Software per l’analisi
di pathway e di ontologie

Pathway Analysis
- Pathway-Express

Functional Analysis
- Onto-Express
NB: questi software ricevono come input la lista dei geni
differenzialmente espressi
PathwayExpress : http://vortex.cs.wayne.edu/projects.htm
Impact Analysis: mappatura dei geni differenzialmente espressi nei
pathway molecolari e valutazione della propagazione della
perturbazione della trasduzione del segnale genico provocata dalla
variazione di espressione genica
PathwayExpress : http://vortex.cs.wayne.edu/projects.htm
L’Impact Factor è formato da tre contributi:
- Numero di geni differenzialmente espressi mappati in un pathway
rispetto al numero di geni che formano il pathwaylivello di
rappresentatività della lista dei geni DE nel pathway
- Fold-change dei geni differenzialmente espressi mappatientità della
perturbazione del pathway provocata dai geni differenzialmente espressi
- Posizione dei geni differenzialmente espressi all’interno del pathwayun
gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo
cui fa capo una sottorete) di una cascata di segnale è “più importante” di
un gene posizionato a valle
47
OntoExpress: http://vortex.cs.wayne.edu/projects.htm
Over-representation analysis: ci sono dei gruppi di geni differenzialmente espressi
rappresentati in maniera “sproporzionata” in qualche GO term?
Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al
totale dei geni che vengono annotati in quel GO term?
Cellular Component
Molecular
Function
Biological
Process
48
Info
Erika Melissari

Ospedale S. Chiara, edificio 43, secondo piano

Ospedale S. Chiara, edificio 43, piano terra, c/o
Laboratorio Dott.ssa Pellegrini

[email protected]
Iscrizione all’esame e date appelli

www.ing.unipi.it
Prenotazione esami
Materiale
http://131.114.94.135/lezioni/bioingegneria
Scarica

Gene