UNIVERSITA’ DEGLI STUDI DI PISA
LAUREA IN INGEGNERIA BIOMEDICA
CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI
Erika Melissari
Microarray a DNA: tecnologie di
costruzione dei vetrini

Microarray a cDNA
- lunghezza delle sonde: 200-400 mer
- sonde sintetizzate prima dell’ancoraggio al vetrino
- spotted microarray

Microarray ad oligonucleotidi
- sonde sintetizzate direttamente sul vetrinosintetizzazione in situ
- oligonucleotidi corti; lunghezza delle sonde: 20-40 mer (Affymetrix
GeneChip)
- oligonucleotidi lunghi; lunghezza delle sonde: 60 mer (Agilent)
I microarray: la tecnologia
“Spotted” Array
Affymetrix GeneChip®
I microarray: la tecnologia
Agilent®
Microarray per l’analisi dell’espressione
genica
Fase “wet” di un esperimento microarray




Estrazione mRNA
Retrotrascrizione e
Marcatura
Ibridazione
Scansione
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione deidei
dati dati
Quantizzazione
Pre-trattamento dei dati
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Scansione del vetrino
Scansione
Scansione del vetrino

Scanner a due laser




formazione di due immagini
Codifica su 16 bit


635 nm - Red
532 nm - Green
Canali separati in acquisizione


Lunghezze d’onda di eccitazione/assorbimento dei fluorocromi
2^16 = 65536 livelli di colore
Occupazione di memoria

250 MB c.a.
Quantizzazione dei dati
• “Gridding” dell’immagine
 GAL file
Segmentazione
Segmentazione
perspaziale
intensità
• Segmentazione:
 spaziale;
 per intensità;
•
Segnale
Background
Estrazione delle intensità del foreground (segnale proveniente
da ibridizzazione specifica) e del background (rumore). Per
ciascuno spot:
 media dei pixel;
 mediana dei pixel.
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento deidei
dati dati
Pre-trattamento
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Pre-trattamento dei dati
•
Correzione del background
Fenomeni
che generano
per sottrazione
dal segnale utile del
rumore:
suo valore calcolato su aree dedicate
esterne
allo del
spotsegnale
 “legame
campione netto
marcato al microarray in
aree esterne allo spot
spotting” scorretto;
 legami aspecifici del
campione con il
• Applicazione
supporto;di indicatori di qualità agli spot per la selezione dei
geni giudicati idonei per la successiva analisi
 fluorescenza propria di
reagenti
eliminatidel
consegnale netto / SD del rumore
SNRnon
= Mediana
il lavaggio.
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
interpretazione del risultato
Normalizzazione (1)
DEF: Correzione dell’effetto sistematico di fonti di variabilità che
possono influenzare i risultati di un esperimento microarray.
Tali fonti possono essere generate da:





Quantità iniziali diverse di RNA ibridizzato sul vetrino;
Diversa efficienza di incorporazione dei due fluorocromi durante
il processo di marcatura;
Diversa efficienza dello scanner nell’eccitazione dei due
fluorofori;
Diversa efficienza dei due fluorofori nell’emissione dell’energia
acquistata;
Diversa efficienza dello scanner nell’acquisizione dei due canali.
Validità delle correzioni operate sui
dati dal processo di normalizzazione
Ipotesi: i geni la cui espressione viene
significativamente influenzata dalla condizione
sperimentale studiata sono “pochi” rispetto alla
totalità dei geni presenti sul vetrino
N.B.: valida solo su vetrini dove è possibile
indagare l’intero trascrittoma di un organismo
Normalizzazione (2)
Esperimento Self-Self per visualizzare la presenza di errori sistematici: due aliquote
dello stesso campione vengono marcate con i due fluorofori e ibridizzate sul vetrino
Def: Fold-Change:
A =½ log (R*G)
M = log (R/G)
Rapporto fra il valore di
espressione del gene x
nel campione trattato
vs espressione del
gene xFold
nel campione
Change di
controllo
Perché si usa il log del FoldChange?
Intervalli di rappresentatività dell’espressione differenziale
Normalizzazione (3)
Il processo di normalizzazione è necessario anche per confrontare (mettere
insieme) dati provenienti da repliche


1.
Repliche sperimentali: l’mRNA estratto da ogni individuo viene diviso in
aliquote, marcato e ibridizzato su almeno tre vetrini insieme a un altro
campione marcato con l’altro fluoroforomiglioro la qualità delle
osservazioni su ciascun individuo, ma ciò non è sufficiente per
quantificare l’espressione media di un gene in una popolazione di
individui dello stesso tipo
Repliche biologiche: l’mRNA proviene da campioni biologici dello stesso
tipo ma distinti (ad esempio individui diversi). Ciascuno di essi viene
marcato e ibridizzato una o al più due volte su rispettivamente uno o due
vetrini miglioro l’accuratezza nella stima della media di popolazione,
ma peggioro quella del singolo individuo
Le repliche migliorano l’accuratezza della misura. Più repliche abbiamo,
meglio riusciamo ad osservare la quota random degli errori
Obiettivo dell’esperimento microarray
DEF: Efficienza ~ 1/varianza delle stime
Come disegno un esperimento efficiente?
“Posso comprare solo 10 array (non ho problemi a reperire
campioni).”
“Ho solo 10 campioni (non ho problemi a comprare array).”
2.
Non è sempre possibile realizzare esperimenti con il massimo livello di
replicazioneBisogna stabilire qual è il disegno sperimentale più
EFFICIENTE rispetto al quesito biologico che si vuole indagare e al budget
a disposizione
Normalizzazione (4)
• Normalizzazione within array 
per correggere errori sistematici su ciascun
array separatamente
•
Normalizzazione between arrays
per correggere errori sistematici che possono
rendere eterogenei array biologicamente simili,
cioè fra copie sperimentali o biologiche
Normalizzazione within array
1. Normalizzazione globale -> Centraggio della distribuzione
R=K*G
log2 R/G - - - -> log2 R/G – c = log2 R/(KG)
c = log2 K
Normalizzazione within array
2. Normalizzazione intensità-dipendente
Interpolazione LO(W)ESS (LOcally WEighted polynomial
regreSSion) globale
LOWESS
Funzione di
smoothing
Normalizzazione between arrays
Normalizzazione scale  riscalatura della dispersione dei logfold-change fra array per equilibrare i valori di M fra array
scale
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Estrazione dei
Estrazione
deidatidati
di espressione differenziale
di espressione
differenziale
Verifica biologica ed
interpretazione del risultato
Estrazione dei dati di espressione
genica

Metodi statistici
- t-statistic, ANOVA (ANalysis Of VAriance), Bayesian-statistic, S-score
e test su permutazione dei dati
Lista di geni differenzialmente espressi
- A ciascun gene è associato un p-value e un valore di
log(fold-change) medio, rappresentativo della
differenza di espressione rilevata fra il gruppo di
soggetti che formano il campione sperimentale e quello
di controllo
Analisi dei dati
Immagine 16-bit
formatoTIFF
Quantizzazione dei dati
Pre-trattamento dei dati
Normalizzazione
Estrazione dei dati
di espressione differenziale
Verifica biologica ed
Verifica biologica ed
interpretazione
dei
risultati
interpretazione del
risultato
Verifica biologica ed Interpretazione
del dato

Validazione di un sottoinsieme di geni
differenzialmente espressi attraverso metodiche
alternative (real time RT-PCR)

Interpretazione della lista dei geni DE per individuare
l’effetto a livello molecolare del fenomeno biologico
indagato
 informazioni sui singoli genisingle-gene analysis
 reti biochimiche (pathway) di trasmissione del segnale
pathway analysis
 caratterizzazione ontologicagene ontology analysis
Banche dati

Banche dati NCBI http://www.ncbi.nlm.nih.gov/
- GeneInfo sui geni
- Nucleotide Info sui trascritti
- PubMedRicerca di pubblicazioni scientifiche di
ambito medico
- ….

Kegg http://www.genome.jp/kegg/
- Kegg GenesInfo sui geni e sui trascritti
- Kegg PathwayInfo sulle reti di trasduzione del
segnale genico (pathway)

Gene Ontology http://www.geneontology.org/
Informazioni sulla classificazione ontologica dei
geni\prodotti genici
Software per la navigazione delle
banche dati

Single-Gene Analysis
- GeneCards

Pathway-Level Analysis
- PathwayExpress

Ontological Analysis
- OntoExpress
Banca dati Gene
Nome (Gene Symbol) del genepuò
essere identico per organismi differenti
Banca dati Nucleotide
Codice del trascrittoè specifico per ogni
organismo
KEGG http://www.genome.jp/kegg/
General pathway
Human Pathway
Gene Ontology http://www.geneontology.org/
Consorzio che si occupa della definizione delle ontologie
geniche per la classificazione dei geni attraverso i loro
prodotti genici (Proteine)
Ontologia genica: un vocabolario unico, indipendente dall’organismo,
da utilizzare per la descrizione dettagliata dei geni attraverso i loro
prodotti genici
• possibilità di “trasferimento” delle informazioni funzionali fra
organismi differenti a parità di complessità del genoma
• possibilità di “trasferimento” delle informazioni funzionali da
organismi “meno complessi” ad organismi “più complessi”
• univocità nella descrizione delle caratteristiche di un gene
Tre ontologie
• Funzione molecolare -> funzione biochimica di un prodotto genico
- enzima, lega gli ioni calcio, lega i nucleotidi, etc
• Processo biologico -> processo di co-regolazione all’interno del
quale il prodotto genico può essere inserito
- metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi
• Componente cellulare -> “luogo” della cellula nel quale un
determinato prodotto genico può agire
- membrana cellulare, reticolo endoplasmatico
Struttura gerarchica -> DAG (grafi aciclici diretti)
DAG
Categorie ontologiche
o GO term: tutti i
sottolivelli
di un’ontologia
-> A ciascun GO term è
associata una
definizione e
un insieme di geni che
in esso vengono
annotati per ciascun
organismo
Ontologie
Categorie ontologiche
Software per la navigazione simultanea delle
banche dati di info bio-molecolari

http://www.genecards.org/
PathwayExpress : http://vortex.cs.wayne.edu/projects.htm
Impact Analysis: mappatura dei geni differenzialmente espressi nei
pathway molecolari e valutazione della propagazione della
perturbazione della trasduzione del segnale genico provocata dalla
variazione di espressione genica
PathwayExpress : http://vortex.cs.wayne.edu/projects.htm
L’Impact Factor è formato da tre contributi:
- Numero di geni differenzialmente espressi mappati in un pathway
rispetto al numero di geni che formano il pathwaylivello di
rappresentatività della lista dei geni DE nel pathway
- Fold-change dei geni differenzialmente espressi mappatientità della
perturbazione del pathway provocata dai geni differenzialmente espressi
- Posizione dei geni differenzialmente espressi all’interno del pathwayun
gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo
cui fa capo una sottorete) di una cascata di segnale è “più importante” di
un gene posizionato a valle
40
OntoExpress: http://vortex.cs.wayne.edu/projects.htm
Over-representation analysis: ci sono dei gruppi di geni differenzialmente espressi
rappresentati in maniera “sproporzionata” in qualche GO term?
Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al
totale dei geni che vengono annotati in quel GO term?
Cellular Component
Molecular
Function
Biological
Process
41
Info
Erika Melissari

Ospedale S. Chiara, edificio 43, secondo piano

Ospedale S. Chiara, edificio 43, piano terra, c/o
Laboratorio Dott.ssa Pellegrini

[email protected]
Iscrizione all’esame

www.ing.unipi.it
Prenotazione esami
Materiale
www.bioclinica.unipi.it/lezioni/bioingegneria/Biologia_Molecolare/
Scarica
Ontologia genica

Mendel

Genetica

Gene