Epigenetics and epigenomics
In eukaryotic cells, the DNA is packaged within the nucleus in a structure called
chromatin. This structure is a highly dynamic nucleoprotein complex that plays a
central role in regulating how and when DNA is copied and transcribed into RNA. Thus
chromatin states vary from cell type to cell type and along chromosomes. Typically, a
multi-cellular organism will be characterized by one genome, but by as many
epigenomes as there are cell types.
Epigenetics encompasses all processes that lead to heritable changes in gene
expression (during development or across generations) without changes in the DNA
sequence itself. In eukaryotes, chromatin is at the heart of most epigenetic processes.
The epigenome refers to these states at the whole genome level.
EPIGENETICA: Variazione del profilo trascrizionale indipendente dalla sequenza di
DNA ed ereditabile attraverso le generazioni cellulari
Perché interessarcene?
• Cancro: modifiche epigenetiche possono spiegare come i
fattori ambientali scatenino il cancro
• Cambiamenti Prenatali: modifiche molecolari al DNA fetali e
materno prima della nascita possono rendere il nascituro
suscettibile al diabete di tipo 2
• Disordini Mentali: cambiamenti epigenetici sono stati correlati
a malattie come Alzheimer, schizofrenia, autismo
• Malattie Croniche: condizioni croniche come il lupus
eritematoso sistemico o l’asma hanno una componente
ambientale che può causare cambiamenti epigenetici che a
loro volta possono interessare la progressione della malattia
Epigenome
While genomic information is uniform in the different cells of complex organisms, the epigenome controls the
differential expression of genes in specific cells. The programming of gene expression profiles is therefore
dependent on the epigenome. An epigenetic system should be heritable, self-perpetuating, and
reversible
The epigenome is composed of two modules:
i) a component that is part of the covalent structure of DNA, methylated cytosines located in the
dinucleotide sequence CG;
ii) ii) a noncovalent module of the epigenome, the chromatin and its associated chromatin
modifying and remodeling activities.
The cells in a multicellular organism have
nominally identical DNA sequences (and
therefore the same genetic instruction sets),
yet maintain different terminal phenotypes.
This nongenetic cellular memory, which
records developmental and environmental
cues (and alternative cell states in unicellular
organisms), is the basis of epi-(above)genetics.
MECCANISMI
• Modifiche dello stato della cromatina
• Metilazione delle citosine
CROMATINA: VANTAGGI
• Impacchettare il DNA
• Ripartire correttamente il materiale genetico
tra le cellule figlie
• Regolare l’espressione genica in modo tessutospecifico
• Trasmettere lo stato di attività della cromatina
all’interno di una linea differenziata
LIVELLI RIPIEGAMENTO
1. Fibra 10nm (collana di perle): core di proteine
istoniche alle quali si legano 147 nucleotidi
(nucleosoma) + tratto di DNA linker tra 2 nucleosomi
2. Fibra 30nm: interazione tra le code N-terminali degli
istoni del core per ulteriore ripiegamento a solenoide
3. Interazione della fibra 30nm con l’impalcatura
presente del nucleo genera anse e permette
un’ulteriore compattazione
4. Compattazione finale per dare la tipica struttura dei
cromosomi metafasici
I legami nel nucleosoma sono tra le proteine e lo scheletro del DNA, quindi sequenzaindipendenti
FIBRA 10nm
• Istoni H2A, H2B, H3, H4 formano il core del
nucleosoma
– Un tetramero centrale, formato da 2 H3 + 2 H4 e 2
dimeri laterali, formati da H2A + H2B
– Estremamente conservati!
• Istone H1:
– Tiene vicine le estremità del DNA in entrata e uscita
dal nucleosoma
– Maggiore variabilità genetica rispetto agli altri istoni
FIBRA 10nm: H1
LIVELLI RIPIEGAMENTO
CROMATINA
• Anse di cromatina maggiormente presenti
verso il centro del nucleo sembrano essere
silenziate
• Anse di cromatina maggiormente esposte
verso la membrana nucleare sembrano essere
più trascrizionalmente attive
• Sono possibili temporanei svolgimenti del
DNA dal core istonico (i nucleosomi respirano)
Modifiche della cromatina
•
Modifiche covalenti a carico degli istoni
– Acetilazione (influenza la condensazione della cromatina), fosforilazione,
monoubiquitinazione. Sono modifiche reversibili
– Metilazione; è parzialmente reversibile e pare ci sia corrispondenza tra
metilazione degli istoni e del DNA
•
Rimodellamento degli istoni
– Complessi proteici ATP-dipendenti
– Omologie con elicasi, ma non hanno attività elicasica
– Deformano temporaneamente il DNA
Le modifiche degli istoni corrispondono a segnali per il reclutamento o l’esclusione di
proteine della cromatina
Metilazione del DNA
La metilazione dei residui citosina del DNA alla
posizione del carbonio 5 è un marcatore
epigenetico comune a molti eucarioti e viene
spesso osservato nel contesto CpG o CpHpG
(H=A, T, C).
• Metilazione di citosine nei promotori è generalmente associata a repressione
della trascrizione.
• Metilazione di CpG incrementa nel corpo dei geni in piante e mammiferi.
• Trasposoni non espressi di piante mostrano metilazione CpHpG
• In batteri: 5meC ma anche N-4-metilcitosina e N-6-metiladenina
• La metilazione avviene ad opera di metiltransferasi.
METILAZIONE DEL DNA
CGCGCGCGCG
Isola CpG
TATAAA
TATAbox
Metilazione isola CpG
Silenziamento del gene
Gene
Metodologie di analisi dell’epigenoma
1.
2.
3.
4.
Accessibilità della cromatina: sequenziamento di siti di taglio della DNAsi
I nella cromatina nucleare
Modificazioni istoniche: dati ottenuti tramite sequenziamento di DNA
arricchito tramite immunoprecipitazione della cromatina con anticorpi
specifici per le modificazioni istoniche
Espressione dell’RNA: sequenziamento degli sRNA o di lncRNA
Metilazione del DNA: dati ottenuti tramite sequenziamento di DNA
trattato con bisolfito
1. Accessibilità cromatina (DNAse-seq)
Studi di sensibilità all’azione di DNAsi -> si
riconoscono le variazioni di condensazione della
cromatina
DNAse-seq
– DNase-seq is primarily used to identify
nucleosome-depleted
DNase
I
hypersensitive (DHS) sites that correspond
to active regulatory elements.
– The DNase I enzyme will cut live chromatin
preparations at sites where nearby there
are specific (non-histone) proteins. The
resulting cutpoints are then sequenced to
determine those sites corresponding to
– open chromatin.
molti tagli
pochi tagli
nessun taglio
DHS, DNaseI Hypersitivity Sites
1. Accessibilità cromatina (FAIRE-seq)
Formaldehyde assisted isolation of regulatory elements (FAIRE)
isolates nucleosome-depleted genomic regions by exploiting the
difference in crosslinking efficiency between nucleosomes (high)
and sequence-specific regulatory factors (low).
The protocol is based on the fact that the formaldehyde crosslinking is more efficient in nucleosome-bound DNA than it is in
nucleosome-depleted regions of the genome. This method then
segregates the non cross-linked DNA that is usually found in open
chromatin, which is then sequenced. The protocol consists of cross
linking, phenol extraction and sequencing the DNA in aqueous
phase..
NOTE:
Maps of open chromatin can be constructed using both DNase-seq and FAIRE-seq
Differences in DNase-seq and FAIRE-seq may be due to the specific regulatory complexes
bound at each site, which could affect the ability of DNaseI to cut or formaldehyde to
crosslink but generally:
→ DNase-only sites tended to occur at transcription start sites
→ FAIRE-only sites were more often found in distal regions
2. Modificazioni istoniche
• Immunoprecipitazione (ChIP-Seq): distinguere lo
stato di acetilazione:
– Reagente che instaura legami crociati proteine-DNA
(formaldeide)
– Estrazione (delicata!) cromatina
– Rottura meccanica del DNA
– Uso di anticorpi contro istoni acetilati
– Rottura legami istoni-DNA
– Sequenziamento DNA: la sequenza rivela quali regioni
del genoma erano associate a istoni acetilati
MODIFICAZIONI ISTONICHE
DNA e istoni cross-linkati
con formaldeide
Uso di anticorpi contro
istoni acetilati
ACTGCTGCGTCTGGTCAATGTCGTCA
DNA associato a
Istoni acetilati
3. Espressione di sRNA e lncRNA
The transcription process affects chromatin structure, but it is
often difficult to ascribe this effect to the physical passage of RNA
polymerase II (RNAPII) or to the synthesis of noncoding RNAs
(ncRNAs)
Early investigations focused on posttranscriptional gene silencing
by microRNAs and other sRNAs
Small ncRNAs are well suited for a role in bridging chromatin
modifiers with the genome, but to fulfill this function they must
interact in sequence-specific fashion with chromatin.
There are three modes of sequence recognition:
(i) RNA:RNA interactions with nascent transcripts (Fig. 2A)
(ii) RNA:single-stranded DNA (ssDNA) heteroduplex (Fig. 2B)
(iii) RNA:double-stranded DNA (dsDNA) triplex (Fig. 2C)
4. Metilazione del DNA
• Il DNA viene metilato soprattutto a livello di
citosine nelle ripetizioni dei dimeri CG (isole
CpG)
• Le isole CpG si trovano soprattutto in
prossimità del promotori o al 5’ di un gene
• Se metilate, silenziano il gene a cui sono
associate
Rilevazione delle citosine metilate
La metilazione delle citosine viene rilevata utilizzando delle tecniche basate
su un qualche pretrattamento del DNA:
a) Digestione con endonucleasi sensibili a metilazione
b) Arricchimento per affinità
c) Trattamento con bisolfito
NOTA: Tecniche di biologia molecolare standard come PCR e clonaggio
cancellano l’informazione sulla posizione delle citosine metilate nel DNA.
4a) Analisi del DNA metilato mediante
digestione con endunucleasi HpaII MspI
•
•
•
•
Ad ogni enzima di restrizione sequenza specifico corrisponde
una DNA metiltransferasi che protegge il DNA endogeno
metilando delle basi sul sito di riconoscimento. Quindi il
profilo di taglio di questi enzimi è indice dello stato di
metilazione: dove non taglia, il DNA è metilato
Nella tecnica restriction landmark genome scanning (RLGS)
differenze in metilazione vengono rilevate come differenze
nei profili di restrizione generati tramite digestione con un
enzima di restrizione metilazione sensibile separata tramite
elettroforesi bidimensionale.
Le tecniche basate su elettroforesi sono molto laboriose e
tendono ad essere abbandonate in favore di altre tecnologie
Altre tecniche sono basate sui profili differenziali ottenuti da
digestione con enzimi di restrizione metilazione-sensibili e
successiva ibridazione ad un array specifico per isole CpG
oppure sequenziamento NGS
Digestione: approcci basati su Array
Differential Methylation Hybridization (DMH)
MseI (TTAA) taglia frequentemente nel genoma
ma raramente all’interno delle isole CpG.
Isole CpG non metilate vengono digerite e non
possono essere amplificate
Basato su restrizione con un enzima metilazione
sensibile e successiva ibridazione ad un array
specifico per isole CpG: la relativa fluorescenza
contiene l’informazioni relativa alla metilazione
Yan, P. S., Wei, S. H., & Huang, T. H.-M. (2002). Differential methylation hybridization using CpG island arrays.
Methods in molecular biology (Clifton, N.J.), 200(10), 87-100. doi: 10.1385/1-59259-182-5:087.
Digestione: approcci basati su
sequenziamento
•
•
•
L’analisi basata su sequenziamento è
molto più flessibile e potente perché
permette una analisi della metilazione
allele-specifica, non richiede un
microarray disegnato appositamente,
evita artefatti da ibridazione.
Methyl-seq: librerie costruite con
digeriti HpaII e MspI frazionati sulla
base della dimensione vengono
comparati con una libreria ottenuta
tramite frammentazione random del
genoma.
Methylation-sensitive cut counting
(MSCC): vengono sequenziati
frammenti ottenuti dalla digestione
con HpaII seguita da un taglio sulla
regione fiancheggiante con un enzima
di restrizione di tipo IIS (MmeI) e da
ligazione degli adattatori.
Methyl-Seq
MSCC
4b) Analisi del DNA metilato mediante
arricchimento per affinità
Methylation
Analysis
Immunoprecipitation (MeDIP):
by
DNA
Arricchimento delle regioni metilate tramite
immunoprecipitazione del DNA genomico
denaturato con un anticorpo specifico per la
citosina metilata, combinato a microarray o
sequenziamento per il rilevamento delle regioni
metilate.
•
•
•
Permettono una valutazione rapida ed efficiente
della metilazione del DNA a livello genomico.
Non forniscono informazioni sui singoli
dinucleotidi CpG.
Richiedono tecniche bioinformatiche complesse
per valutare ed aggiustare il livello di metilazione
predetto al variare della densità di CpG fra diverse
regioni del genoma.
• Metodi basati su array:
– Uso 2 pool, uno arricchito e uno non arricchito,
marcati con differente fluorofori
– Ibrido
– La fluorescenza indica quali regioni del genoma
sono metilate
• Metodi basati su sequenziamento
– Uso un pool arricchito
– Sequenzio
4c) Analisi del DNA metilato mediante
trattamento con bisolfito
• Il sodio bisolfito deammina chimicamente molto più
rapidamente i residui di citosine non metilate rispetto alle
citosine metilate causando una conversione da C a U
• Produce informazione sulla metilazione del DNA con la
risoluzione di una singola base.
Il DNA trattato con bisolfito può essere analizzato mediante:
a) Analisi microarray con sonde basate sulla versione convertita dal
bisolfito
b) Analisi SNP (di fatto, la conversione C->T può essere monitorata
come se fosse un qualsiasi SNP
c) Sequenziamento
“Una differenza epigenetica viene trasformata in una differenza genetica”
Trattamento con
Bisolfito
Bisolfito e microarray
• La tecnica del sodio bisolfito non è facilmente
adattabile all’analisi array:
– La conversione delle C ad U riduce il numero di basi a
3, diminuendo notevolmente la complessità delle
sequenze e quindi risultando in una diminuita
specificità di ibridazione.
– Richiede array dedicati basati sulla versione
convertita dal bisolfito del genoma.
– In genomi complessi richiede l’amplificazione di
regioni individuali del genoma prima dell’ibridazione
ad un array ad oligo dedicato.
Bisolfito e GoldenGate BeadArray
Basato su primer extension metilazione specifica in multiplex di DNA convertito con
bisolfito fino a 1536 differenti loci CpG. Per ogni sito si utilizzano dei primer specifici per
le sequenze metilate e non-metilate. I primer per i due differenti stati di metilazione
sono marcati con due differenti fluorofori e i prodotti vengono ibridati al bead array.
Bisolfito e Infinium methylation assay
Dopo conversione con il bisolfito il DNA
genomico viene amplificato, frammentato e
ibridato a oligomeri legati ad una particolare
bead.
Il saggio utilizza due tipi differenti di bead per lo
stato metilato e quello non metilato. Solo nel
caso l’ultima base sia complementare a quella
sul DNA è possibile estendere l’oligomero ed è
possibile rilevare un segnale.
L’attuale HumanMethylation27 DNA Analysis
BeadChip permette di interrogare 27,578 siti
CpG di 14,495 promotori di geni codificanti e di
100 microRNA.
Bisulphite padlock probes (BSPP)
• Padlock probes sono sequenze di circa 100 basi
che comprendono 2 estremità specifiche per un
sito di interesse e un “backbone” di
collegamento. E’ possibile disegnare un set di
sonde specifiche fino a 10.000 sequenze
bersaglio.
• Dopo l’ibridazione il gap viene chiuso da una
polimerasi e da una ligasi. L’amplificazione di tutte
le sequenze circolari per i diversi target avviene
tramite una coppia di primer universali.
• La cattura di sequenze con padlock probes
permette di ottenere una elevata efficienza di
arricchimento combinando l’elevata specificità di
appaiamento di due sonde legate tra di loro da un
“backbone” con una amplificazione con primer
universali. Si ottiene una specificità del 90-99%
dopo l’arricchimento.
• Lo stato di metilazione influenza l’efficienza di
cattura e quindi può introdurre dei “bias” nella
Ball, M. P., Li, J. B., Gao, Y., Lee, J.-H., LeProust, E. M., Park, I.-H., et al. (2009). Targeted and genome-scale
misura.
strategies reveal gene-body methylation signatures in human cells. Nature biotechnology, 27(4), 361-8.
Bisolfito e Whole-genome shotgun
bisulfite sequencing (WGSBS)
• DNA convertito con bisolfito è particolarmente adatto ad approcci
basati su sequenziamento.
• Consente l’analisi dello stato di metilazione del genoma con una
risoluzione di una singola base.
• Il problema principale è rappresentato dalla bassa complessità del
DNA convertito con il bisolfito che può impedire l’assegnamento
delle read a posizioni univoche sul genoma.
• L’utilizzo di read di lunghezza maggiore e strategie basate su
sequenziamento paired-end facilita l’allineamento univoco delle
sequenze:
– Read più lunghe: sequenze lunghe sono generalmente più complesse di
sequenze corte
– Paired-end read: oltre all’informazione della sequenza, ho un vincolo in
più per allineare, cioè la distanza tra read accoppiate
Analisi di DNA arricchito per
regioni specifiche del genoma
•
•
E’ possibile eseguire l’analisi su campioni
arricchiti su specifiche regioni (complessità) del
genoma utilizzando la cattura tramite array, la
cattura tramite padlock o tramite selezione
ibrida in soluzione.
Cattura prima della conversione con bisolfito:
– usa un array genomico standard
– lo stato di metilazione non influenza l’efficienza di
cattura
– Poco efficiente verso le regioni ricche in CG. Richiede
quantità notevoli di DNA genomico (non è possibile
amplificare prima della cattura perché verrebbe
persa la metilazione)
•
Cattura dopo la conversione a bisolfito:
– Dopo la conversione e prima della cattura è possibile
amplificare il DNA tramite una PCR mediata da
adattatori (BC-seq).
– Richiede permutazioni multiple degli oligonucleotidi
di cattura
Altri approcci
• Spettrometria di
massa matrix-assisted
laser desorption
ionization time-offlight (MALDI-TOF):
– Richiede amplificazione
gene-specifica
– Può essere facilmente
automatizzata
(piattaforma EpiTYPER
di sequenom)
www.sequenom.com
EpiTYPER
Scelta della metodica
Dipende da diversi fattori, come numero di campioni, quantità e qualità dei campioni,
risoluzione e copertura desiderate.
Human DNA methylome in stem cells and
fibroblasts
The prevailing assumption is that mammalian DNA methylation is located almost
exclusively in the CG context. However, in particular in embryonic stem cells, a handful of
studies have detected non-CG methylation (mCHG and mCHH, where H= A, C or T) that
comprises almost 25% of all cytosines at which DNA methylation is identified
There are widespread differences in the composition and patterning of cytosine
methylation between human embryonic stem cells and fetal fibroblasts (fibroblasts are
the most common cells of connective tissue in animals). Nearly one-quarter of all
methylation identified in embryonic stem cells are in a non-CG context, suggesting that
embryonic stem cells may use different methylation mechanisms to affect gene
regulation. Methylation in non-CG contexts show enrichment in gene bodies and
depletion in protein binding sites and enhancers. Non-CG methylation disappear upon
induced differentiation of the embryonic stem cells, and is restored in induced
pluripotent stem cells.
There are hundreds of differentially methylated regions proximal to genes involved in
pluripotency and differentiation, and widespread reduced methylation levels in
fibroblasts is associated with lower transcriptional activity.
Mappa della metilazione a risoluzione di
singola base in 2 linee cellulari
Frammentazione
random
Analisi MethylC-Seq su 2 linee cellulari (2 repliche
biologiche ciascuna):
Cellule staminali
embrionali umane
H1
Fibroblasti del
polmone fetale
IMR90
Miliardi di read
1.16
1.18
Resa totale in
sequenza (Gbp)
87.5
91.0
14.2 X
14.8 X
Profondità media
(per strand)
In ciascuna linea cellulare più dell’86% del genoma è coperto
da almeno una read per un totale del 94% delle citosine del
genoma.
Immagine modificata da: Lister, R., & Ecker, J. R. (2009). Finding the fifth base: genome-wide sequencing
of cytosine methylation. Genome research, 19(6), 959-66. doi: 10.1101/gr.083451.108.
Validazione della metilazione tramite
bisulphite-PCR di siti specifici
•
H9, una seconda linea cellulare embrionale
umana ha mostrato metilazione non-CG in
posizioni conservate
•
IMR90 induced pluripotent stem cells (iPS)
mostrano un ripristino della metilazione nonCG
•
Cellule H1 indotte a differenziare con BMP4
(bone morphogenetic protein 4) perdono la
metilazione non-CG come le IMR90
La metilazione non-CG è caratteristica
di uno stato di cellula staminale
embrionale. Essa non è dovuta a
semplici differenze genetiche tra le due
linee cellulari
DNA methylation sequence context is
displayed according to the key and the
percentage methylation at each
position is represented by the fill of each
circle. Non-CG methylated positions
indicated by an asterisk are unique to that
cell type and ‘14’ indicates a mCHH that is
shifted 4 bases downstream in H9 cells.
iPS, induced pluripotent stem cell.
In the H1 stem cells we detected abundant DNA methylation in non-CG contexts (mCHG and mCHH, where H=A, C or T)
Distribution of the methylation level in each sequence context. The y axis indicates the fraction
of all methylcytosines that display each methylation level (x axis), where methylation level is
the mC/C ratio at each reference cytosine. H1 ha sia mCG che mCHG e mCHH, mentre IMR90
ha solo mCG
Variazione della densità di metilazione
lungo i cromosomi
• I profili di densità globali di mCG sono simili in H1 e IMR90.
• mCHG e mCHH in H1 mostrano profili moderatamente correlati lungo il cromosoma.
• Metilazione non-CG varia rispetto a mCG in numerose regioni.
La densità media di metilazione correla
con le features del genoma
Non-CG DNAmethylation
in H1 embryonic stem
cells
TSS
• Densità media di mCG correla con la distanza dal transcription start site (TSS)
• Densità di mCHG e mCHH diminuisce significativamente verso il TSS. Inoltre la densità
in Esoni, Introni e 3’ UTR è circa il doppio
• Densità di mCHH è circa il 15-20% più elevata negli esoni e nel 3’ UTR rispetto agli
introni.
Correlazione tra metilazione nel corpo
dei geni ed espressione in H1
Espressione +
elevata
Espression
e ridotta
• mCHG e mCHH correlano positivamente con il livello di espressione genica
rilevato tramite analisi RNASeq strand-specific.
• Geni più espressi hanno una densità di metilazione non-CG più elevata di
geni non espressi.
Metilazione dei promotori ed
espressione
Livelli di metilazione dei promotori
sono in anti-correlazione con il
livello di espressione dei geni:
• Geni più espressi hanno un livello
di metilazione (mCG, mCHG o
mCHH) più basso rispetto a geni
poco espressi.
Geni più
espressi
Geni meno
espressi
Epigenetic Changes over several generations
Using Arabidopsis thaliana, the workhorse of modern plant genetics, it has been determined how often and where in the
genome epigenetic modifications occur -- and how often they disappear again.
To determine the rate and distribution of methylation changes in the genome, ten Arabidopsis lines coming from the
same stock, but that had been propagated independently for 30 generations by self-fertilization, have been searched
for differences in the methylation pattern in comparison to the common ancestor.
For each line, about 14 million cytosines were investigated. On average, every plant had almost 3 million methylated
cytosines. The vast majority of these were the same in all lines, but about 6 percent had changed since the lines had
become separated. At these positions, at least one of the individuals was different, with either methylation gained or
lost relative to the ancestor. Each of the lines had about 30,000 such epimutations, which was 1,000 times more than
DNA mutations. With 30,000 epimutations after 30 generations, the geneticists had expected that 1,000 epimutations
occurred in each generation. But when parents were compared with their immediate offspring, it was found that the
epimutation rate was three to four times as high. Therefore, many epimutations are apparently not stable and return to
their original state after a few generations. New epimutations are often not maintained over the long term. A new
epimutation thus must have a strong evolutionary advantage so that it can become established before being lost
again. Because reverse mutations do not necessarily happen in the next generation, it is still possible that epigenetic
differences contribute to inheritance of traits between parents and their children or grandparents and their
grandchildren.
Another difference to ordinary mutations is that epimutations do not occur randomly, but often at the same places in
the genome. While genes were disproportionately often affected, methylation of mobile DNA elements, transposons,
was very stable. This appears to make sense, since it was already known that artificially induced loss of methylation has
a much greater effect on the activity of transposons than of regular genes.
Comparison of genome-wide DNA methylation
among 10 Arabidopsis thaliana lines derived
from a common ancestor. These lines had been
separately propagated in a common environment
by single-seed descent for 30 generations
Strains were derived from a single parent.
The seeds were propagated by single-seed
descent, with separate lineages for the 3rd and
31st generation individuals.
Strains 39 and 49 were propagated for one more
generation from siblings of the plants analyzed by
sequencing (grey outlines). Black outlines indicate
individuals analyzed by bisulphite sequencing. Red
outlines indicate individuals analyzed by RNA-seq.
Two siblings each of the 31st generation were
interrogated with an average strand-specific
coverage depth of 20× per individual; changes
shared within a line should predominantly reflect
differences that had accumulated by the 30th
generation. Because seeds from the founders
were no longer available, we compared the 31st
generation individuals to two independent lines
that had been propagated for only three
generations
On average 2.8 million cytosine were found to be methylated in each line.
About 186,000 (6.2%) differentially methylated positions (DMPs) had a significant change in methylation between at
least one 31st generation and both 3rd generation lines.
CG sites are highly over-represented among DMPs
a, Contribution of CG, CHH and CHG sites to total and differential cytosine
methylation. 32.8% of all CG, 15.7% of CHG and 4.6% of CHH sites, adding up
to 10.8% of all cytosines, show evidence of methylation
Among CG sites in genic regions, including those producing non-codingRNAs,
relative abundance of DMPs is two- to fourfold higher compared with
nondifferentially methylated positions (N-DMPs). The opposite was the case
for CG positions in transposable elements and intergenic regions, with a similar,
but less pronounced, bias for CHG and CHH sites
b, Distribution of DMPs and N-DMPs according to local annotation. CDS, coding
sequence; ncRNA, non-coding RNA; TE, transposable element.
Gene body methylation gradually increases
towards the 3’ end, before sharply decreasing at
the end of the last exon, although genes 1 kb or
less in length were generally only weakly
methylated The profiles of DMPs and N-DMPs
were similar across individual genes, exons,
introns and transposable elements, but DMPs
were less frequent in promoter and downstream
regions.
d, Averaged distribution of all methylated sites
(5mC) and methylated CG and CHG sites along
genes
A first major insight from these analyses is that
transgenerational
maintenance
of
CG
methylation in transposable elements is
apparently much more stable than CG
methylation of protein-coding genes, consistent
with DNA methylation being more important for
controlling the activity of transposable element
compared to the latter
DMP correlation is highest between the two 3rd
generation strains, and each individual of the 31st
generation is more similar to these two lines (from
which they were separated by 34 generations) than
to the other lines from the 31st generation, from
which they had diverged for 62 generations.
Therefore, whole-genome methylation patterns are
largely stable and therefore heritable in A. thaliana,
but that differences in methylation status
accumulate gradually, similar to genetic mutations.
Pairwise distance between strains based on DMPs.
b, Heat map representing pairwise Pearson’s
correlation coefficient (PCC) between individuals,
considering all 250,000 DMPs identified between all
strains. PCCs between 3rd generation strains, 0.92;
between 3rd and 31st generation, 0.63–0.77;
between 31st generation lines, 0.52–0.66.
Compared to genetic mutations, the frequency of epimutations at single cytosine residues was many orders
of magnitude higher, with an average of close to 30,000 DMPs in the analysed sequence space, compared
with less than 30 DNA sequence mutations per strain.
Thirty-two per cent of DMPs between generations 3 and 31 occurred more than once, and 13% more than
twice. If DMPs arose randomly, the expected rate of recurrent events would be less than 1%. This indicates
that certain positions are particularly prone to increases or decreases in methylation rate.
The analysis of 32nd generation of lines 39 and 49 revealed how many DMPs emerge from one generation to
the next. These individuals were progeny of siblings of the individuals interrogated in the 31st generation, and
shared changes in the 32nd generation should reflect differences that arose between the 30th and 31st
generation. We found on average over 3,300 between-generation DMPs. This is in the same range as DMPs
between siblings (on average, about 5,000), but more than we would have expected from the 30,000 that had
accumulated between the 3rd and each of the 31st generation lines. One explanation is that frequent
transgenerational changes in methylation status occur at a limited number of sites, and that only a fraction
of new DMPs is maintained over the longer term. This is corroborated by the observation that more than twothirds of DMPs distinguishing the 32nd from the 31st generation in lines 39 and 49 had already been found in
other 31st generation individuals.
Perhaps the most important finding is that the number of epimutations does not increase linearly with time,
indicating that many are not stably inherited over the long term. However, a DMR that had become
demethylated after 31 generations, was found re-methylated in the following generation. This suggests that
DNA methylation in specific regions of the genome can fluctuate over relatively short timescales. Such sites
can be considered as going through recurrent cycles of forward and reverse epimutation, which is very
different from what is found at the level of the genome sequence, where reverse mutations are exceedingly
rare.
RNA interference (RNAi)
RNA interference (RNAi) is an evolutionarily conserved mechanism that uses short antisense RNAs that
are generated by ‘dicing’ (chopping) dsRNA precursors to target corresponding mRNAs for cleavage.
Recent developments have revealed that there is also extensive involvement of RNAi-related processes in
regulation at the genome level. Indeed, dsRNA and proteins of the RNAi machinery can direct epigenetic
alterations to homologous DNA sequences to induce transcriptional gene silencing or, in extreme cases,
DNA elimination. Furthermore, in some organisms RNAi silences unpaired DNA regions during meiosis.
These mechanisms facilitate the directed silencing of specific genomic regions.
microRNA
 I microRNA sono corte molecole di RNA non codificante di ~22 nucleotidi
 sono regolatori chiave dell’espressione genica a livello post-trascrizionale
 taglio dei trascritti bersaglio
 repressione della traduzione
 Deadenilazione dell’mRNA e sua degradazione
 sono in genere altamente conservati
 hanno ruoli fondamentali in molti processi biologici, tra cui:
 Sviluppo
 Differenziazione cellulare
 Proliferazione cellulare
 Apoptosi
 Risposta agli stress
 Oncogenesi
Scoperta dei microRNA
. Il primo miRNA, lin-4, è
stato identificato in
Caenorhabditis elegans nel
1993
 lin-4 è coinvolto nello
sviluppo larvale in C.
elegans
 lin-4 codifica un RNA non
codificante di 22 nucleotidi
parzialmente
complementare a 7 siti nel
3’ UTR di lin-14
 l’appaiamento tra lin-4 e il
3’UTR di lin-14 reprime
l’espressione della proteina
lin-14
He and Hannon (2004) Nature Rev. Genet., 5, 522–531
Biogenesi dei microRNA negli animali
 I geni codificanti per i microRNA (miRNA)
vengono trascritti come lunghi transcritti primari
(pri-miRNA)
 Il pri-miRNA viene tagliato dal complesso
formato da Drosha e DGCR8/Pasha formando il
precursore dei miRNA (~70 nucleotidi)
 Il trasporto dei precursori dei micorRNA (premiRNA) nel citoplasma è mediato da exportin-5
 nel citoplasma il complesso formato da Dicer e
TRBP taglia il pre-miRNA formando il duplex
miRNA:miRNA*
 il microRNA viene incorporato insieme ad una
proteina Argonaute (Ago) nell’RNA-induced
silencing complex (RISC)
Winter et al.,2009 – Nature Cell Biology 11, 228 - 234
Biogenesi dei microRNA nelle piante
• non sono stati individuati omologhi di Drosha e dei suoi cofattori nelle
piante
 il processamento da pri-miRNA a pre-miRNA è mediato dalla proteina
nucleare Dicer-like 1 (DCL1) in associazione con HYPONASTIC
LEAVES 1 (HYL1) e SERRATE (SE).
 DCL1 e HYL1 sono anche responsabili della formazione del duplex
miRNA:miRNA*
 Hua Enhancer (HEN1) media la metilazione dei miRNA di pianta
 Hasty media il trasporto del miRNA nel citoplasma
 i miRNA:miRNA* duplex si associano alla proteina Ago
 il miRNA* viene degradato mentre l’altro filamento rimane nel
complesso RISC
Wahid et al., 2010 – Biochimica et Biophysica Acta 1803 (11), 1231-1243
Meccanismi di regolazione
Regolazione post-trascrizionale
Taglio dell’mRNA
Repressione della traduzione o
deadenilazione
• alta omologia di sequenza tra
• complementarietà imperfetta tra
miRNA e mRNA bersaglio
miRNA e mRNA bersaglio
• meccanismo principale di
regolazione dei microRNA di
pianta
• meccanismo principale di
regolazione dei microRNA degli
animali
Filipowicz et al. 2008, Nature Reviews genetics, 9(2):102-114
Meccanismi di regolazione
Possibili meccanismi di repressione della traduzione
Fabian et al. 2010 , Annu. Rev. Biochem. 79:351–379.
Meccanismi di regolazione
Regolazione trascrizionale
Metilazione del DNA mediata da miRNA
• miRNA di 23-27 nucleotidi sono stati identificati in Arabidopsis , riso e
Physcomitrella patens
• sono generati da DCL3 e si associano a AGO4
• guidano la metilazione del DNA anche in loci diversi da quelli che li hanno
generati
Jia et al. (2011), Frontiers in Biology, 6(2): 133–139
PIANTE
Localizzazione genomica dei geni codificanti
miRNA
• geni miRNa intergenici sono situati in
regioni distinte da unità trascrizionali note
• monocistroni
• policistronici
• geni miRNa intronici sono situati negli
introni di geni annotati
ANIMALI
• miRNA singolo
• mirtron (l’introne è l’esatta sequenza
del pre-miRNA)
• cluster di vari miRNA
• geni miRNa esonici sono situati a livello di
un esone e di un introne in geni non
codificanti
Olena and Patton 2009, Journal of cellular Physiology, 222: 540–545
Analisi del profilo di espressione dei miRNA:
problematiche
 I miRNA maturi sono molecole corte;
 miRNAs presentano un contento in GC etereogeneo
ampio range di
Tm;
 I microRNA maturi non hanno il poly(A);
 la sequenza target è presente anche nel trascritto primario(primiRNA) e nel
precursore (pre-miRNA);
 miRNAs appartenenti alla stessa famiglia possono differire anche di un
singolo nucleotide(e.g., la famiglia Let-7).
Tecniche di analisi del profilo di
espressione dei miRNA
Real Time PCR
microarray
Sequenziamento massivo
Real time PCR
 retrotrascrizione (RT):
 Primer lineari
 Primer stem-loop
 rilevamento del prodotto amplificato attraverso molecole fluorescenti:
 SYBR Green I
 Sonde Taqman
Vantaggi:
 alta sensibilità e specificità
 richiede basse quantità di materiale
Svantaggi:
 la dimensione limitata e l’etereogeneo contenuto in GC dei microRNA ostacola
il disegno dei primer
Universal
primer-binding
site
Universal
primerbinding site
Real Time PCR
Retrotrascrizione
PRIMER LINEARI
STEM-LOOP PRIMER
VANTAGGI: disegno dei primer
semplice
VANTAGGI: permettono di
discriminare tra microRNA e i
loro precursori
SVANTAGGI: non permettono
di discriminare tra microRNA e
i loro precursori
SVANTAGGI: disegno dei
primer più complesso
Benes V. and Castoldi M. 2010, Methods, 50: 244–249
Real Time PCR
Rilevazione del segnale
SYBR Green I
Sonde TaqMan
Real Time PCR
Rilevazione del segnale
SYBR Green I
Sonde TaqMan
non permette di discriminare tra
differenti prodotti di PCR in quanto
si lega a tutti i dsDNA presenti
nella reazione, inclusi prodotti non
specifici come dimeri di primer.
Maggiore specificità: anche se
nella reazione sono presenti
dimeri di primer o altri prodotti di
amplificazione
non
specifici,
questi
non
genereranno
fluorescenza.
Microarray
Generalmente le sonde del microarray sono complementari all’intera sequenza
del microRNA maturo
Vantaggi:
 alta processività
 bassi costi
Svantaggi:
 la dimensione limitata dei microRNA ostacola la normalizzazione delle Tm delle
sonde
 possibili cross-ibridazioni tra miRNA appartenenti alla stessa famiglia
 possibili cross-ibridazioni con precursoni dei microRNA
Microarray
Sonde LNA
Locked Nucleic Acid (LNA) sono degli analoghi sintetici
degli acidi nucleici in cui la conformazione della molecola
viene bloccata attraverso un ponte metilenico tra il 2’-O e il
4’-C
Vantaggi delle sonde contenenti nucleotidi LNA:
 aumento della stabilità del duplex
 incremento della Tm di 2-8 °C per monomero incorporato
facilitano il disegno di sonde con Tm simili
 discriminazione di sequenze che differiscono anche di un singolo
nucleotide
Microarray
Sonde stem-loop
 una struttura a forcina
incorporata al 5’ della
sonda
destabilizza
l’ibridazione di RNA più
lunghi
 discriminazione
tra
miRNA e loro precursori
Microarray
Sonde RAKE (RNA-primed Array-based Klenow Extension)
 Ogni sonda contiene una sequenza complementare al microRNA bersaglio e tre timidine al 5’
Metodologia RAKE:
 ibridazione dei microRNA non marcati
 reazione di estensione mediante la Polimerasi Klenow in presenza di dATP biotinilate
 I miRNA funzionano da primer per l’estensione
 assenza di estensione in caso di ibridazione di sequenze più lunghe o più corte del miRNA
bersaglio
 l’ibridazione viene rilevata mediante un fluoroforo coniugato alla streptavidina che si andrà a
legare alle biotine incorporate
Vantaggi:
 discriminazione tra miRNA e loro precursori
Berezikov et al.,2006, Genome Reasearch, 16:1289–1298
Sequenziamento massivo
Vantaggi:
 alta processività
 identificazione di nuovi
miRNA
 discriminazione tra miRNA
simili
Svantaggi:
 l’analisi dei dati è più
complessa ed presenta
esigenze computazionali
maggiori rispetto ai microarray.
Hafner et al. 2008, Methods, 44: 3–12
Sequenziamento massivo
Analisi di espressione e identificazione di nuovi miRNA
sequenze
Allineamento con i precursori
presenti in miRBase (banca dati
pubblica di microRNA)
Le sequenze che non allineano con
miRNA noti e che mappano su regioni
del genoma che possono formare
strutture
a
forcina
possono
rappresentare nuovi miRNA