Corso di Laurea in Biologia Sanitaria
Universita' di Padova
C.I. DI METODI STATISTICI PER LA BIOLOGIA,
INFORMATICA E LABORATORIO DI INFORMATICA
(MOD. B)
8 + 32 ore
Docente:
Dr. Stefania Bortoluzzi
Dipartimento di Biologia
Universita' di Padova
viale G. Colombo 3, 35131, Padova
Tel. 0039 049 8276214
Email: [email protected]
III LEZIONE
Dati d'espressione genica:
• ESTs
• SAGE
• Microarray
• NCBI GEO
ESPRESSIONE DEL GENOMA UMANO NELLE
CELLULE DIFFERENZIATE
• Tutte le cellule di un organismo hanno lo stesso
corredo genomico
• L’espressione genica tessuto specifica determina il
fenotipo morfo-funzionale dei tipi cellulari e tissutali
• In ogni cellula differenziata ed in ogni particolare
momento dello sviluppo e’ attivo solo un sottoinsieme
di geni
REGOLAZIONE DELL’ESPRESSIONE GENICA
• Puo’ agire su ciascuno dei livelli che caratterizzano il
passare dell’informazione genica dal DNA alle proteine
• Negli Eucarioti superiori la regolazione dell’espressione
genica si svolge principalmente come controllo della
trascrizione
• Principali tipi di regolazione:
Controllo epigenetico
Controllo trascrizionale
Controllo post-trascrizionale
“One-gene approach”
Il gene di interesse e’ espresso in un tessuto o in un dato momento dello
sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ?
Real Time PCR
PCR semiquantitativa
Ibridazione DNA genico o cDNA con RNA
totale o poly(A)+RNA (Northern blot)
Ibridazione in situ
“Large-scale approach”
Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ?
Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ?
Profilo d’espressione del genoma
(TRASCRITTOMA)
METODI PER LO STUDIO SU LARGA SCALA
DELL’ESPRESSIONE GENICA
 Sequenziamento sistematico di ESTs da librerie di
cDNA
 SAGE (Serial Analysis of Gene Expression)
 cDNA microarrays
EST SEQUENCING
mRNA of different genes
cDNA LIBRARY
EST
EST
Il sequenziamento del DNA “codificante” si basa sulla
purificazione dell'RNA messaggero da cellule o da campioni di
tessuto e sulla sua retrotrascrizione in vitro in una sequenza di
DNA complementare (cDNA).

 In genere i cDNA vengono frammentati e clonati in vettori
batterici. Si ottengono in questo modo delle collezioni di batteri,
nelle quali ogni colonia contiene un inserto corrispondente ad un
frammento di sequenza di un gene espresso, dette librerie di
cDNA.
EST
Utilità delle EST
 Scoperta di nuovi geni
 Mappaggio di nuovi geni
 Identificazione degli esoni lungo estese
sequenze genomiche (Gene Prediction)
 Studio dello splicing alternativo
EST
 Una libreria di cDNA, che viene preparata dal messaggero
contenuto nelle cellule di uno specifico tessuto, può essere
considerata come un'istantanea che riproduce la composizione
della popolazione dei messaggeri presenti nel tessuto in un
particolare momento dello sviluppo dell'organismo e in
determinate condizioni fisiologiche.
 Le librerie di cDNA in cui i cloni da sequenziare vengono scelti in
modo casuale e sulle quali non vengono effettuate né operazioni
di sottrazione né di normalizzazione, possono essere usate per
descrivere, sia qualitativamente sia quantitativamente, la
popolazione dei messaggeri.
EST
EST
EST
SELECTION OF
UNBIASED cDNA
LIBRARIES PERTAINING
A GIVEN TISSUE
UNIGENE
DOWNLOAD FLAT FILES
cDNA LIBRARIES
CLUSTER INFORMATION
REPRESENTATIVE SEQUENCES
READLIBS
count ESTS per gene
estract EST info
BUILDHTML
estract cluster info
build the html pages
with the expression profile
Expression Profiles of Human Tissues
http://telethon.bio.unipd.it/bioinfo/Expression_Profiles/
EST
UniGene Human Release Statistics
Total sequences in clusters:
3115711
Total number of clusters sets:
95928
22094
sets contain at least one known gene
94710
20876
sets contain at least one EST
sets contain both genes and ESTs
EST
ESTIMATE OF THE LEVEL OF EXPRESSION
OF A GIVEN GENE
Sample of 12919 ESTs corresponding to 4460
genes/trascripts
eg. Rhodopsin:
65 retina ESTs  65 / 12919 = 0.503%
EST
EST
SAGE Serial Analysis of Gene Expression
SAGE
SAGE è un metodo sperimentale ideato per utilizzare i vantaggi
del sequenziamento su larga scala per avere informazioni
quantitative di espressione genica (Velculescu et al. 1995, Zhang
et al, 1997)
Con questa tecnica e’ possibile stimare il livello d’espressione di
ciascun gene, attraverso la misura del numero di volte in cui la
TAG che lo rappresenta compare in un campione abbastanza
grande di TAGs sequenziate a partire dal messaggero del tessuto
in analisi
Tag to Gene mapping  Gene to Tag mapping
Consiste nel sequenziamento da messaggeri cellulari di brevi
oligonucleotidi, che fungono da etichette di sequenza (TAG)
Il metodo si basa su tre principi:
SAGE
 una sequenza di 9 paia di basi permette di identificare 49 (262144)
diversi trascritti, dal momento che una "tag" viene ottenuta da una
posizione specifica di ogni trascritto (12bp)
 le "tag" possono essere unite insieme in serie, a costituire lunghe
molecole di DNA, che vengono clonate e sequenziate in modo
automatizzato
 il numero di volte in cui una singola "tag" viene osservata permette
di quantificare l'abbondanza del messaggero identificato nella
popolazione dei messaggeri e, indirettamente, il livello di
espressione del gene corrispondente.
Una TAG e’ una sequenza di lunghezza definita direttamente adiacente al
3’ del sito di restrizione piu’ 3’, nel messaggero da cui proviene, per
l’enzima utilizzato (spesso NIaIII)
Sintesi DNA a doppia elica a partire
dai messaggeri con primer
oligo(dT) biotinilato
SAGE
Taglio con enzima di restrizione ed isolamento della
porzione 3’ del cDNA per purificazione mediante
sfere a streptavidina
Separazione del cDNA in 2
aliquote, ciascuna ligata con un
linker diverso, contenente un sito di
taglio per un enzima di restrizione
(tagging enzyme) che taglia ad una
distanza definita dal sito riconociuto
(20bp)
Il linker con attaccato un breve
tratto di cDNA (9-12 bp) viene
rilasciato
Ligazione tags a due a due, taglio
ditags in modo da creare estremita’
coesive
Analisi automatizzata dei risultati:
identificazione di tutte le specie di tags,
conteggio della frequenza di ciascuna,
assegnazione a sequenze geniche note
ed annotazione
Clonaggio dei
concatameri e
sequenziamento
SAGE
Isolamento delle “tag”
Ligazione
Sequenziamento
Livello di
espressione
Livello di
espressione
Quantificazione di ciascuna
“tag” e determinazione del
pattern di espressione
GENE
GENE
Normale
Normale
GENE
GENE
Alterato
Alterato
SAGE
 Il risultato della SAGE e’ di tipo digitale: una lista di tags e la
frequenza di ciascuna di esse
 La fase in cui si stabilisce la corrispondenza tra tag e gene e’
cruciale per una corretta stima del livello d’espressione del gene
 La corrispondenza tag-gene non e’ sempre biunivoca, come ci si
aspetterebbe
 Gli errori di sequenziamento hanno effetti molto pesanti sui dati
SAGE (1%  10% che ci sia almeno 1 errore su 10 bp)
 Le assegnazioni tag/EST sono affette da un errore maggiore
SAGE
SAGE
SAGE
SAGE
SAGE
SAGE
MICROARRAY
Esperimenti di Microarray
Permettono l’analisi
dell’espressione di
migliaia di geni
simultaneamente
MICROARRAY
MICROARRAY
Misura dell’espressione
dei geni con i microarray
= malato
= sano
Gene 1
Gene 2
MICROARRAY
Analisi dell’immagine
• Identificazione della posizione
degli spot
• Costruzione di un’area locale
intorno ad ogni spot
• Calcolo dell’intensità di ogni
singolo spot
• Calcolo del background locale
DNA Microarray per lo studio dell’espressione genica
Probeset Affymetrix
GeneChip Affymetrix
Ibridizzazione della sonda marcata
Scansione del GeneChip con scanner laser
MICROARRAY
Elaborazione dei dati
EST
SAGE
MICROARRAY
Matrice dei risultati con più condizioni sperimentali
Cond. 1
Cond. 2
…
Cond. m
Gene 1
x11
x12
…
x1m
Gene 2
x21
x22
…
x2m
…
…
…
…
xn1
xn2
…
xnm
…
Gene n
• Quali geni sono differenzialmente espressi ?
• Quali e quanti geni sono coespressi?
Obiettivi dell’analisi saranno…
Identificazione geni differenzialmente espressi
Identificazione pattern di espressione comuni
Identificazione di geni coespressi con geni di
funzione nota
CLUSTER ANALISI
Identificazione di gruppi di geni con profili di
espressione simili
Simili rispetto a cosa ?
Definizione di distanza
I geni sono punti nello spazio:
punti vicini nello spazio sono raggruppati insieme
CLUSTER ANALISI
DUE STEPS:
Misura di similarita’
•
•
Diverse misure
Standardizzazione dei dati
Linking method
•
•
criterio per stabilire i gruppi
Metodi gerarchici e non gerarchici
Scarica

Diapositive