UNIVERSITA’ DEGLI STUDI DI PISA
LAUREA IN INGEGNERIA BIOMEDICA
CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI
Erika Melissari
Microarray a DNA: tecnologie di
costruzione dei vetrini

Microarray a cDNA
- sonde sintetizzate prima dell’ancoraggio al vetrino
- lunghezza delle sonde: 200-400 mer
- tecnologia spotted microarray

Microarray ad oligonucleotidi
- sonde sintetizzate direttamente sul vetrinosintetizzazione in situ
- oligonucleotidi corti; lunghezza delle sonde: 20-40 mer
(Affymetrix GeneChip)
- oligonucleotidi lunghi; lunghezza delle sonde: 60 mer
(Agilent)
I microarray: la tecnologia
“Spotted” Array
Affymetrix GeneChip®
I microarray: la tecnologia
Agilent®
Esperimento microarray
COMPARATIVO
Classe/i sperimentale/i vs
classe di controllo
Metto a confronto molti campioni
provenienti da 2 o più popolazioni.
P.es. campioni di tessuto o di
cellule:
-Trattati con farmaco vs non
trattati con farmaco
-Tumorali vs sani
-Cuore vs Fegato vs Polmone
QUANTITATIVO
Per ciascun gene ottengo una
quantificazione numerica della
differenza di espressione fra le
popolazioni che sto
confrontando: Fold-Change
Def: Fold-Change:
-calcolato per ciascun gene
-rapporto fra il valore medio
dell’espressione del gene nei campioni in
condizione sperimentale vs il valore medio
dell’espressione del gene nei campioni in
condizione di controllo
Microarray per l’analisi dell’espressione
genica
Centinaia di copie monofilamento di regioni specifiche di
ciascun gene formano uno SPOT
Fase “wet” di un esperimento microarray




Estrazione mRNA
Retrotrascrizione e
Marcatura
Ibridazione
Scansione
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione deidei
dati dati
Quantizzazione
Pre-trattamento dei dati
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Quantizzazione dei dati
Trasformazione dell’informazione di colore in
informazione numerica
Scansione + estrazione dei valori di foreground
e di background
Scansione del vetrino
Scansione
Scansione del vetrino

Scanner a due laser




Lunghezze d’onda di eccitazione/assorbimento dei fluorocromi
635 nm - Red
532 nm - Green
Canali separati in acquisizione

formazione di due immagini
 Codifica su 16 bit: 2^16 = 65536 livelli di colore
 Occupazione di memoria: 250 MB 1GB

Risoluzione spaziale: 52 μm
Quantizzazione dei dati
• “Gridding” dell’immagine
 GAL file (Gene Array List file)
Segmentazione
Segmentazione
perspaziale
intensità
• Segmentazione:
 spaziale;
 per intensità;
•
Segnale
Background
Estrazione delle intensità del foreground (segnale proveniente
da ibridizzazione specifica) e del background (rumore). Per
ciascuno spot:
 media dei pixel;
 mediana dei pixel.
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento deidei
dati dati
Pre-trattamento
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Pre-trattamento dei dati
•
Correzione del background
Fenomeni
che generano
per sottrazione
dal segnale utile del
rumore
(background):
suo valore
calcolato su aree dedicate
esterne
allo del
spotsegnale
 “legame
campione netto
marcato al microarray in
aree esterne allo spot
spotting” scorretto;
 legami aspecifici del
campione con il
• Applicazione
supporto;di indicatori di qualità agli spot per la selezione dei
geni giudicati idonei per la successiva analisi
 fluorescenza propria di
reagenti
eliminatidel
consegnale netto / SD del rumore
SNRnon
= Mediana
il lavaggio.
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Normalizzazione (1)
DEF: Correzione dell’effetto sistematico di fonti di variabilità che
possono influenzare i risultati di un esperimento microarray.
Tali fonti possono essere generate da:





Quantità iniziali diverse di RNA ibridizzato sul vetrino;
Diversa efficienza di incorporazione dei due fluorocromi durante
il processo di marcatura;
Diversa efficienza dello scanner nell’eccitazione dei due
fluorofori;
Diversa efficienza dei due fluorofori nell’emissione dell’energia
acquistata;
Diversa efficienza dello scanner nell’acquisizione dei due canali.
Ipotesi biologica che “autorizza” il
processo di normalizzazione
Ipotesi: la condizione sperimentale studiata
influenza significativamente l’espressione di
“pochi” geni rispetto alla totalità dei geni presenti
sul vetrino
N.B.: valida solo su vetrini dove è possibile
indagare l’intero trascrittoma di un organismo
Normalizzazione (2)
Esperimento Self-Self: è un metodo utilizzato durante i primi studi sui microarray che ha
consentito di rilevare la presenza di errori sistematici. Due aliquote dello stesso campione
vengono marcate con i due fluorofori e ibridizzate sullo stesso vetrino
SCATTERPLOT
MA-PLOT
A =½ log (R*G)
M = log (R/G)
Fold Change
Perché si usa il log del FoldChange?
Intervalli di rappresentatività dell’espressione differenziale
-Rende uguali gli intervalli di rappresentatività dei geni sotto-espressi e dei
geni sovra-espressi
-Rende gaussiana la distribuzione dei log(Fold-Change)
Normalizzazione (3)
Il processo di normalizzazione è necessario anche per confrontare e mettere
insieme dati provenienti da repliche

Repliche sperimentali: l’mRNA estratto da ogni individuo viene diviso in aliquote,
marcato e ibridizzato su almeno tre vetrini insieme a un altro campione marcato con l’altro
fluoroforomiglioro la qualità delle osservazioni su ciascun individuo, ma ciò non è
sufficiente per quantificare l’espressione media di un gene in una popolazione di individui
dello stesso tipo

Repliche biologiche: l’mRNA proviene da campioni biologici dello stesso tipo ma
distinti (ad esempio individui diversi). Ciascuno di essi viene marcato e ibridizzato una o al
più due volte su rispettivamente uno o due vetrini miglioro l’accuratezza nella stima della
media di popolazione, ma peggioro quella del singolo individuo
1.
Le repliche migliorano l’accuratezza della misura. Più repliche abbiamo,
meglio riusciamo ad osservare la quota random degli errori...ma i costi???
Come disegno un esperimento
efficiente?
DEF: Efficienza ~ 1/varianza delle stime
“Posso comprare solo 10 array ma non ho problemi a reperire
campioni.”  posso puntare a migliorare la misurazione della differenza media di
espressione nelle popolazioni a confrontonon ibridizzo copie sperimentali ma copie
biologiche
“Ho solo 10 campioni (non ho problemi a comprare array).”  posso
puntare a migliorare l’efficienza nella misurazione dell’espressione nei singoli
campioniibridizzo più copie sperimentali per ciascun campione
2.
Non è sempre possibile realizzare esperimenti con il massimo livello di
replicazioneBisogna stabilire qual è il disegno sperimentale più
EFFICIENTE rispetto al quesito biologico che si vuole indagare e al budget
a disposizione
Normalizzazione (4)
• Normalizzazione within array 
per correggere errori sistematici su ciascun array
separatamente
•
Normalizzazione between arrays
per correggere errori sistematici che possono
rendere eterogenei array biologicamente simili
(copie sperimentali o biologiche)
Normalizzazione within array
1. Normalizzazione globale -> Centraggio della distribuzione
log2 R/G norm= log2 R/G ± c
Non
normalizzata
Normalizzata
Normalizzazione within array
2. Normalizzazione intensità-dipendente
Interpolazione (fitting) LO(W)ESS (LOcally WEighted polynomial
regreSSion) globale
-Fisso l’ampiezza della finestra di dati
-Calcolo la curva di smooting reale attraverso l’interpolazione polinomiale dei dati contenuti nella
finestra
-Sposto la finestra e ri-calcolo la curva di smooting al suo interno
-“Raccordo” i pezzi in modo che non vi siano discontinuità e ricostruisco la curva di smooting reale
complessiva “spazzolando” tutta la distribuzione dei dati
- Per ciascuna finestra calcolo lo scostamento fra smooting reale e smooting ideale
- “Sposto” i dati contenuti nella finestra in modo da azzerare lo scostamento
Normalizzazione between arrays
Normalizzazione scale  riscalatura della dispersione dei logfold-change fra array per equilibrare i valori di M fra array
scale
4 copie biologiche di swirl zebrafish (danio rerio)
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Estrazione dei
Estrazione
deidatidati
di espressione differenziale
di espressione
differenziale
Verifica biologica ed
interpretazione del risultato
Estrazione dei risultati

Metodi statistici
- t-statistic, ANOVA (ANalysis Of VAriance), Bayesian-statistic, S-score
e test su permutazione dei dati
Lista di geni differenzialmente espressi
- A ciascun gene è associato un p-value e un valore di
log(fold-change) medio, rappresentativo della
differenza di espressione rilevata fra il gruppo di
soggetti che formano il campione sperimentale e il
gruppo dei soggetti di controllo
Lista di geni differenzialmente espressi
Rank
GeneSymbol
Accession Number
(Transcript)
Description
Differential expression
(Up- or Down-regulation)
P-value
1
DUSP1
NM_004417
ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA
0.7606655
0.0004
2
SRGAP1
BC029919
gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA
1.0329521
0.00038
3
HES1
NM_005524
0.7117039
0.00026
4
SMAD3
U68019
-0.4286814
0.00021
5
RHEBL1
NM_144593
-0.5070915
0.00018
7
FZD10
NM_007197
-0.6491815
0.00015
8
RGS16
NM_002928
0.6270794
0.00012
9
GPR56
NM_201525
-0.3310189
0.0001
10
ZNF831
NM_178457
0.3905212
0.008
11
TFPI
NM_001032281
-0.5849317
0.0075
...
...
...
...
...
...
2500
BTG1
NM_001731
ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA
-0.3668739
0.05
ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA
gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds
ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA
ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA
ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA
ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA
ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA
ref|Homo sapiens tissue factor pathway
inhibitor (lipoprotein-associated coagulation
inhibitor) (TFPI), transcript variant 2, mRNA
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
Verifica biologica ed
interpretazione
dei
risultati
interpretazione del
risultato
Verifica biologica ed Interpretazione
dei risultati

Validare un sottoinsieme di geni differenzialmente
espressi attraverso metodiche alternative (real time
RT-PCR)

Analizzare la lista dei geni DE per formulare ipotesi
sul fenomeno biologico indagato attraverso
 informazioni
sui singoli genisingle-gene analysis
 ricostruzione di reti biochimiche (pathway) di trasmissione
del segnale pathway analysis
 caratterizzazione ontologicagene ontology analysis
Lista di geni differenzialmente espressi
Rank
GeneSymbol
Accession Number
(Transcript)
Description
Differential expression
(Up- or Down-regulation)
P-value
1
DUSP1
NM_004417
ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA
0.7606655
0.0004
2
SRGAP1
BC029919
gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA
1.0329521
0.00038
3
HES1
NM_005524
0.7117039
0.00026
4
SMAD3
U68019
-0.4286814
0.00021
5
RHEBL1
NM_144593
-0.5070915
0.00018
7
FZD10
NM_007197
-0.6491815
0.00015
8
RGS16
NM_002928
0.6270794
0.00012
9
GPR56
NM_201525
-0.3310189
0.0001
10
ZNF831
NM_178457
0.3905212
0.008
11
TFPI
NM_001032281
-0.5849317
0.0075
...
...
...
...
...
...
2500
BTG1
NM_001731
ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA
-0.3668739
0.05
ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA
gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds
ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA
ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA
ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA
ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA
ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA
ref|Homo sapiens tissue factor pathway
inhibitor (lipoprotein-associated coagulation
inhibitor) (TFPI), transcript variant 2, mRNA
Interpretazione biologica e single gene analysis
Rank
GeneSymbol
Accession Number
(Transcript)
Description
Differential expression
(Up- or Down-regulation)
P-value
1
DUSP1
NM_004417
ref|Homo sapiens dual specificity phosphatase 1
(DUSP1), mRNA
0.7606655
0.0004
2
SRGAP1
BC029919
gb|Homo sapiens SLIT-ROBO Rho GTPase
activating protein 1, mRNA
1.0329521
0.00038
3
HES1
NM_005524
0.7117039
0.00026
4
SMAD3
U68019
-0.4286814
0.00021
5
RHEBL1
NM_144593
-0.5070915
0.00018
7
FZD10
NM_007197
-0.6491815
0.00015
8
RGS16
NM_002928
0.6270794
0.00012
9
GPR56
NM_201525
-0.3310189
0.0001
10
ZNF831
NM_178457
0.3905212
0.008
11
TFPI
NM_001032281
-0.5849317
0.0075
...
...
...
...
...
...
2500
BTG1
NM_001731
ref|Homo sapiens B-cell translocation gene 1,
anti-proliferative (BTG1), mRNA
-0.3668739
0.05
ref|Homo sapiens hairy and enhancer of split 1,
(Drosophila) (HES1), mRNA
gb|Homo sapiens mad protein homolog
(hMAD-3) mRNA, complete cds
ref|Homo sapiens Ras homolog enriched in
brain like 1 (RHEBL1), mRNA
ref|Homo sapiens frizzled homolog 10
(Drosophila) (FZD10), mRNA
ref|Homo sapiens regulator of G-protein
signaling 16 (RGS16), mRNA
ref|Homo sapiens G protein-coupled receptor 56
(GPR56), transcript variant 3, mRNA
ref|Homo sapiens zinc finger protein 831
(ZNF831), mRNA
ref|Homo sapiens tissue factor pathway
inhibitor (lipoprotein-associated coagulation
inhibitor) (TFPI), transcript variant 2, mRNA
Banche dati

Banche dati NCBI http://www.ncbi.nlm.nih.gov/
- GeneInfo sui geni
- Nucleotide Info sui trascritti
- PubMedRicerca di pubblicazioni scientifiche di
ambito medico
- ….

Kegg http://www.genome.jp/kegg/
- Kegg GenesInfo sui geni e sui trascritti
- Kegg PathwayInfo sulle reti di trasduzione del
segnale genico (pathway)

Gene Ontology http://www.geneontology.org/
Informazioni sulla classificazione ontologica dei
geni\prodotti genici
Per sapere qualcosa in più su un gene:
Banche dati per l’annotazione dei geni

Banche dati NCBI http://www.ncbi.nlm.nih.gov/
- GeneInfo sui geni
- Nucleotide Info sui trascritti
- Homologene Info sugli omologhi
- OMIMInfo su malattie Mendeliane
- PubMedRicerca di pubblicazioni di ambito
medico/scientifico
- ….
Banca dati Gene
Nome (GeneSymbol) del genepuò
essere identico per organismi differenti
Banca dati Nucleotide
Codice del trascrittoè specifico per ogni
organismo
“Portale”di informazioni bio-molecolari

GeneCards http://www.genecards.org/
…ma le interazioni?
Interpretazione biologica
della lista dei geni differenzialmente espressi:
pathway e ontological analyses
Utilizzare le informazioni contenute in:
- reti di interazione biochimica e di trasduzione del segnale genomico
(pathway) pathway analysis
- Ontologie functional analysis
relative a gruppi di geni differenzialmente espressi allo scopo di
ipotizzare quale sia l’effetto a livello molecolare del fenomeno
biologico indagato
Per sapere qualcosa in più sulle interazioni fra
geni: Banche dati di pathway e ontologie

Kegg http://www.genome.jp/kegg/ contiene:
- Kegg GenesInfo sui geni e sui trascritti
- Kegg PathwayInfo sulle reti di trasduzione del
segnale genico (pathway)

Gene Ontology http://www.geneontology.org/ contiene:
Informazioni sulla classificazione ontologica dei
geni\prodotti genici
KEGG http://www.genome.jp/kegg/
General pathway
Human Pathway
Ogni scatolina
rappresenta un gene.
I simboli:
rappresenta
un’attivazione fra due geni
--| rappresenta una
inibizione fra due geni
human
Cos’è un’ontologia?
An ontology is a specification of a conceptualization
that is designed for reuse across multiple applications
and implementations. …a specification of a
conceptualization is a written, formal description of a
set of concepts and relationships in a domain of
interest.
Peter Karp (2000) Bioinformatics 16:269
… un insieme di definizioni
Cos’è un’ontologia genica?
Ontologia genica: un vocabolario di definizioni, indipendente
dall’organismo, che descrive i geni attraverso i loro prodotti genici
(proteine)
• “trasferimento” delle informazioni
funzionali fra organismi differenti a parità di
complessità del genoma
• “trasferimento” delle informazioni
funzionali da organismi “meno complessi” ad
organismi “più complessi”
• univocità nella descrizione delle
caratteristiche di un gene
Tre ontologie
• Funzione molecolare -> funzione biochimica di un prodotto genico
- enzima, lega gli ioni calcio, lega i nucleotidi, etc
• Processo biologico -> processo di co-regolazione all’interno del
quale il prodotto genico può essere inserito
- metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi
• Componente cellulare -> “luogo” della cellula nel quale un
determinato prodotto genico può agire
- membrana cellulare, reticolo endoplasmatico
Struttura gerarchica -> DAG (grafi aciclici diretti)
Componente cellulare

Dove agisce un prodotto
Componente cellulare
Componente cellulare
Funzione molecolare

Attività o compito del prodotto genico
glucose-6-phosphate isomerase activity
Funzione molecolare
insulin binding
insulin receptor activity
24th Feb 2006
Jane Lomax
Processo biologico
-una serie di eventi a cui prende parte il
prodotto
cell division
Processo biologico
transcription
Processo biologico
regulation of gluconeogenesis
DAG
Categorie ontologiche
o GO term: tutti i
sottolivelli
di un’ontologia
Ontologie
-> A ciascun GO term è
associata:
- una definizione
- un insieme di geni
che in esso vengono
annotati per ciascun
organismo
Categorie ontologiche
Struttura di un’ontologia

Ogni ontologia non è una
lista di termini biologici,
ma è strutturata in livelli
gerarchici
Software per l’analisi
di pathway e di ontologie

Pathway Analysis
- Pathway-Express

Functional Analysis
- Onto-Express
NB: questi software ricevono come input la lista dei geni
differenzialmente espressi
PathwayExpress : http://vortex.cs.wayne.edu/projects.htm
Impact Analysis: mappatura dei geni differenzialmente espressi nei
pathway molecolari e valutazione della propagazione della
perturbazione della trasduzione del segnale genico provocata dalla
variazione di espressione genica
PathwayExpress : http://vortex.cs.wayne.edu/projects.htm
L’Impact Factor è formato da tre contributi:
- Numero di geni differenzialmente espressi mappati in un pathway
rispetto al numero di geni che formano il pathwaylivello di
rappresentatività della lista dei geni DE nel pathway
- Fold-change dei geni differenzialmente espressi mappatientità della
perturbazione del pathway provocata dai geni differenzialmente espressi
- Posizione dei geni differenzialmente espressi all’interno del pathwayun
gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo
cui fa capo una sottorete) di una cascata di segnale è “più importante” di
un gene posizionato a valle
62
OntoExpress: http://vortex.cs.wayne.edu/projects.htm
Over-representation analysis: ci sono dei gruppi di geni differenzialmente espressi
rappresentati in maniera “sproporzionata” in qualche GO term?
Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al
totale dei geni che vengono annotati in quel GO term?
Cellular Component
Molecular
Function
Biological
Process
63
Info
Erika Melissari

Ospedale S. Chiara, edificio 43, secondo piano

Ospedale S. Chiara, edificio 43, piano terra, c/o
Laboratorio Dott.ssa Pellegrini

[email protected]
Iscrizione all’esame e date appelli

www.ing.unipi.it
Prenotazione esami
Materiale
http://131.114.94.135/lezioni/bioingegneria/Biologia_Molecolare/
Scarica

Gene