Alla ricerca di segni di pressione
selettiva in Homo Sapiens
Sergio Cocozza
Dipartimento di Biologia e Patologia Cellulare e Molecolare
Università “Federico II”
Napoli
Gruppo Interdipartimentale Bioinformatica e
Biologia Computazionale
“Niente in Biologia è di senso
se non alla luce dell’Evoluzione”
Theodosius Dobzhansky (1900-1975)
ed in Medicina
“Niente in Biologia è di senso
se non alla luce dell’Evoluzione”
Theodosius Dobzhansky (1900-1975)
Un problema “pratico”
Se vuole guarire deve
smettere di fumare.
Il fumo fa venire il
cancro... fa male alla
circolazione ... ecc ecc
Un problema “pratico”
Se vuole guarire deve
smettere di fumare.
Il fumo fa venire il
cancro... fa male alla
circolazione ... ecc ecc
Sciocchezze !
Mio nonno è morto a
100 anni fumando
sigari toscani !
Malattie Multifattoriali
100
gene a
90
80
100
90
gene b
80
70
70
60
60
50
gene c
40
30
40
gene d
20
10
50
30
20
ambiente x
0
10
0
ambiente y
?
100
gene a
90
80
100
90
gene b
80
70
70
60
60
50
gene c
40
30
40
gene d
20
10
50
30
20
ambiente x
0
10
0
ambiente y
Varianti rare e varianti frequenti:
chi è il colpevole ?
Teorie a confronto
Common Disease/Rare Allele (CD/RA)
La maggior parte delle mutazioni che
causano malattie complesse sono
avvenute recentemente, dopo la
divergenza delle popolazioni. La
conseguenza è l’attesa di una forte
eterogeneità nei geni di suscettibilità per
le malattie complesse
Common Disease/Common Variant (CD/CV)
Varianti alleliche esistenti prima della
dispersione degli umani sulla terra o varianti
alleliche sottoposte a pressione selettiva
rappresentano una proporzione significativa
degli alleli di suscettibilità per le malattie
complesse. La conseguenza è l’attesa di una
minore eterogeneità nei geni di suscettibilità
per le malattie complesse
Bassa penetranza (poligenia)
Alta penetranza (monogenia)
Bassa penetranza
Pressione selettiva:
adattamento e malattia ?
Ambiente
Genoma
?
Adattamento
Malattia
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
Genotipo “frugale”
Accumula
peggio i grassi
Accumula
meglio i grassi
PNAS January 26, 2010; 107
Evolution in Health
and
Medicine
Sackler Colloquium
Strumenti per lo studio della
pressione selettiva


Grado di differenziazione genetica delle
popolazioni umane (Fst)
Omozigosità estesa degli aplotipi (iHS)
Normale grado di differenziazione delle popolazioni (deriva genica)
Più alto grado di differenziazione delle popolazioni
Più basso grado di differenziazione delle popolazioni
Fst
FST misura le differenze
nelle frequenze alleliche
tra popolazioni diverse. E'
un valore che varia da
0 = nessuna differenza a
1 = massima differenza.
E' considerata una delle
possibili misure di
pressione selettiva
iHS
Haplotype A
Haplotype B
Haplotype C
Haplotype D
Recent Positive Selection
iHS
The test begins with the EHH (extended
haplotype homozygosity) statistic proposed by
Sabeti et al.. The EHH measures the decay of
identity, as a function of distance, of haplotypes
that carry a specified “core” allele at one end.
For each allele, haplotype homozygosity starts
at 1, and decays to 0 with increasing distance
from the core site
in plots of EHH versus distance, the area under
the EHH curve will usually be much greater for
a selected allele than for a neutral allele. This
integrated EHH (iHH) (summed over both
directions away from the core SNP) will be
denoted iHHA or iHHD, depending on whether it
is computed with respect to the ancestral or
derived core allele. When the rate of EHH
decay is similar on the ancestral and derived
alleles, iHHA/iHHD ≈ 1, and hence the
unstandardized iHS is ≈ 0
Since in neutral models, low frequency alleles
are generally younger and are associated with
longer haplotypes than higher frequency
alleles, we adjust the unstandardized iHS to
obtain our final statistic which has mean 0 and
variance 1 regardless of allele frequency at the
core SNP:
Scopi del progetto

Cercare segni di pressione selettiva nella
specie Homo Sapiens e possibili collegamenti
con le patologie umane


Studio n.1 : Ricerca genome-wide di geni con segni
di pressione selettiva e loro caratterizzazione
Studio n.2 : Ricerca genome-wide di geni candidati
ad essere sotto una specifica pressione selettiva
(legata alla latitudine) e loro caratterizzazione
Scopi del progetto

Cercare segni di pressione selettiva nella
specie Homo Sapiens e possibili collegamenti
con le patologie umane


Studio n.1 : Ricerca genome-wide di geni con segni
di pressione selettiva e loro caratterizzazione
Studio n.2 : Ricerca genome-wide di geni candidati
ad essere sotto una specifica pressione selettiva
(legata alla latitudine) e loro caratterizzazione
Studio n.1 Data set
Frequenze alleliche di circa 4,000,000
SNP di circa 500 individui da tre differenti
gruppi etnici
[HapMap Public Release #27 (merged II+III)]
Nature 449:851 (2007)
Metodi





Dati addizionali sulle SNP (posizione fisica, associazione SNPgene furono ottenuti da dbSNP (build 129)
I dati di HAPMAP e dbSNP furono fusi in un database locale
MySQL attraverso un set di script Perl
Furono escluse dall'analisi SNP che fossero risultate non
campionate o non polimorfiche in tutte le tre popolazioni. Furono
inoltre escluse le SNP con una frequenza dell'allele minore <
5% in tutti le tre popolazioni. Dopo tale selezione il campione
conteneva 2.125.440 SNP
Il calcolo dell'Fst fu effettuato con uno script utilizzando la
formula di Wright (con correzione di Weir per la numerosità)
Per assegnare un valore di Fst ad un determinato gene fu usato
il massimo valore trovato tra le SNP associate a quel gene
Distribuzione dei valori di Fst da noi
calcolati lungo i cromosomi
Autocorrelazione
L'autocorrelazione è stata calcolata
per ogni cromosoma, per ogni coppia
di SNP separate da un fissato numero
di SNP intermedie. La linea nera
mostra il valore medio (+ 2 SE) delle
correlazioni sugli autosomi. La linea
rossa mostra le correlazioni delle SNP
sul cromosoma X
Risultato:
Il segnale non è distribuito in
maniera randomiana.
Ljung-Box test p < 10 - 16
Distribuzione Fst tra i cromosomi
Per ogni cromosoma è mostrato il
box-plot dei valori di Fst. Il
rettangolo è delimitato dal primo e
dal terzo quartile e diviso al suo
interno dalla mediana. I segmenti
(i "baffi") sono delimitati dal
minimo e dal massimo dei valori.
Gli estremi dell'incisura
rappresentano il 95% di intervallo
di confidenza della mediana.
Risultato
I valori di Fst sono distribuiti
differentemente tra gli
autosomi e gli
eterocromosomi (p < 10-16)
Commento

La differenza tra eterocromosomi e autosomi
potrebbe essere dovuta a:

Campione effettivo di popolazione più piccolo (¾
per X e ¼ per Y rispetto agli autosomi)

Diversa frequenza di ricombinazione

Diversa pressione selettiva tra maschi e femmine
Comparazione con altre misure di
pressione selettiva: Dn/Ds ratio




Esistono altri metodi per
studiare la pressione
selettiva
Alcuni di essi si basano
sull'analisi comparativa di
differenti specie (misura
interspecie)
Il metodo Dn/Ds valuta il
rapporto tra mutazioni
sinonime e non sinonime
Un rapporto alto indica
selezione positiva
Variabilità intraspecie (Fst) vs
Variabilità interspecie (Dn/Ds)
I geni sono stati raggruppati in
accordo con l'evidenza di
selezione positiva nell'analisi di
6 specie di mammifero (Kosiol
et al. 2008 Plos Genetics). Le
barre verticali rappresentano il
95% di intervallo di confidenza)
Risultato
I geni con segni di
pressione selettiva
interspecie (Dn/Ds > 1)
mostrano un valori medi
di Fst significativamente
più bassi (p < 0.001)
Gene Set Enrichment Analysis
GSEA



L'idea chiave di GSEA è quella
di valutare l'arrichhimento di
una lista di geni non attraverso
la valutazione di singoli geni
outliers ma attraverso quella di
set di geni funzionalmente
collegati
Dal punto di vista statistico
GSEA limita i danni della
correzione da test multiplo
GSEA è usata comunemente
nell'analisi di array. Per la prima
volta ne abbiamo proposto un
uso per l'analisi della funzione
dei geni in base al loro valore di
Fst
Pathways (KEGG ) arricchite per geni con
valori di Fst statisticamente diversi dalla
media
Pathways arricchite per geni con alto FST

Axon guidance (FDR<0.001)

Focal adhesion (FDR 0.008)

ECM receptor interaction (FDR 0.009)

Regulation of actin cytoskeleton (FDR 0.010)

Adherens junction (FDR 0.010)

Calcium signaling pathway (FDR 0.010)
Pathways arricchite per geni con basso FST

Antigen processing and presentation (FDR
0.001)
Fst e malattie complesse
Geni trovati
positivamente associati
con malattie complesse
in accordo col Genetic
Association Database,
furono paragonati ai
restanti. Le barre
verticali rappresentano il
95% di intervallo di
confidenza.
Risultato
I geni che sono stati
associati in precedenti
studi con malattie
complesse mostravano
mediamente un valore
di Fst più alto dei
restanti
(p < 0.001, empirical p
0.0005).
Fst per classi di malattie
Scopi del progetto

Cercare segni di pressione selettiva nella
specie Homo Sapiens e possibili collegamenti
con le patologie umane


Studio n.1 : Ricerca genome-wide di geni con segni
di pressione selettiva e loro caratterizzazione
Studio n.2 : Ricerca genome-wide di geni candidati
ad essere sotto una specifica pressione selettiva
(legata alla latitudine) e loro caratterizzazione
Perchè latitudine: Out of Africa
Effetti legati alla latitudine
Adattamenti noti
Cosa cambia

Esposizione ai raggi
solari (quantità e
ritmo)

Clima e temperatura

Risorse alimentari



Colore della pelle
Statura, dimensioni e
forma del corpo
Alcune caratteristiche
dello splancnocranio
(ad esempio
larghezza delle narici)
Sole, vitamina D, rachitismo
Vitamina D
Il colore della pelle
Principali malattie umane riportate in
letteratura come legate alla latitudine

Cancro (296)

Ipertensione (50)


Malattie del SNC (Parkinson, Alzheimer,
Schizofrenia, Sclerosi multipla) (164)
Diabete tipo 1 (60)
Prevalenza cancro
Ranges for TuttibutskinMean
Means
215to358 (44)
160to215 (40)
123to160 (39)
76to123 (47)
Schizophrenia Prevalence and Latitude by Continent and Infant Mortality
Kinney, D. K. et al. Schizophr Bull 2009 35:582-595; doi:10.1093/schbul/sbp023
Copyright restrictions may apply.
Studio n.2 Data set
Frequenze alleliche di 660.918 SNP di
1043 individui da 52 differenti gruppi
etnici
[HGDP-CEPH HUMAN GENOME DIVERSITY PANEL]
Costruzione di una lista di geni con alto Fst
e con alta correlazione con la latitudine
10%
Alto
Fst
Basso
10%
Alta
Correlazione
con latitudine
Bassa
Latitude
Related Genes
(LRG)
Lista arricchita per geni sotto
probabile pressione selettiva
(alto Fst) latitudine dipendente
(alta correlazione)
Risultati: Localizzazione tissutale
Latitude
Related Genes
(LRG)
Tissue
Genes LRG count
(%)
p-value*
Brain
683 (56.6%)
3E-18
Amygdala
112 (9.3%)
8E-6
Thalamus
76 (6.3%)
1.4E-4
Risultati: classi funzionali (Gene
Ontology)
Latitude
Related Genes
(LRG)
Name
Sub
Ontol
ogy
Marginal
mean (MinMax)
Genes
LRG
count
Total
Count
Synapse
(GO:0045202)
CC
0.998 (0.980
- 1)
60
351
Neuropetide
signaling pathway
(GO:0007218)
BP
0.793 (0.764
– 0.828)
13
86
Cell
morphogenesis
(GO:0000902)
BP
0.734 (0.680
– 0.789)
58
420
Confronto con patologie del SNC
con frequenza latitudine dipendente
Parkins
on
genes
Latitude
Related Genes
(LRG)
Alzhei
mer
genes
Schizo
phrenia
genes
Multiple
sclerosi
s
genes
Malattie del SNC
Latitude
Related
Genes
(LRG)
Disease
Schizo
phrenia
genes
Overlap with genes
LRG
Total count
P-value
Adjusted pvalue
Schizophrenia
85
885
4E-6
1.6E-5
Parkinson's
disease
40
490
0.021
0.084
Multiple sclerosis
16
178
0.058
0.232
Alzheimer's
disease
45
618
0.075
0.3
Schizofrenia



Serio disordine mentale
caratterizzato da deliri,
allucinazioni, disordine del
pensiero, affettività
inappropriata o appiattita,
anedonia (incapacità a
provare piacere) e ritiro
sociale
Malattia multifattoriale ed
eterogenea
Prevalenza 0.5-1% della
popolazione mondiale
John Forbes Nash
Premio Nobel Economia 1994 e
schizofrenico
Componente ereditaria della
schizofrenia
Dimensioni dei ventricoli
Courtesy D.R. Weinberger, NIMH, St. Elizabeth’s
Hospital, Washington, D.C.
Dimensione ippocampo ed amigdala
Ippocampo ed amigdala sono più piccoli nei pazienti
I corpi cellulari dell'ippocampo sembrano disorganizzati
Controllo
Paziente
Perchè potrebbe esistere un
adattamento evolutivo che coinvolge
il rischio di sviluppare una malattia
come la schizofrenia ?
?
Perchè potrebbe esistere un
adattamento evolutivo che coinvolge
il rischio di sviluppare una malattia
come la schizofrenia ?
Vitamina D
La vitamina D influenza lo sviluppo
del cervello
Costruzione di una lista di geni
correlati alla vitamina D
Vitamin D
(calciferol)
metabolism
”
Reactome
(REACT_1
3523.2)
Biocarta's
pathway
“Control of
the
expression
by vitamin
D receptor”
Microarray
data:
Genes
differentiall
y
expressed
in SCC25
cells
treated
with
1,25(OH)2
D3
Vitamin D
related genes
(943)
I geni correlati alla latitudine sono
arricchiti per geni della pathway
della vitamina D
Latitude
Related Genes
(LRG)
Vitamin D
related genes
(943)
97 geni p = 3.5 x 10-8
Questo dato
suggerirebbe, per la
prima volta, la presenza
di fenomeni di
adattamento alla carenza
di vitamina D non
collegati alla classica
variazione della
pigmentazione cutanea
Uno dei nove:SMARCA2
SMARCA2
Cosa fa SMARCA2 ? E' una della
ATPasi del complesso SWI/SNF
Regolazione ciclo cellulare
Differenziazione
Regolazione della trascrizione
Cancro
Immunità

Il complesso SWI/SNF nei mammiferi si presenta come una serie di
possibili differenti assemblaggi composti da subunità alternative
In particolare i complessi possono contenere una delle due forme di
ATPasi: Brahma (BRM/SMARCA2) o Brahma- related gene (BRG1)
Che c'entra il complesso SWI/SNF
con la Vitamina D ?
Il complesso SWI/SNF si
complessa a sua volta con
subunità legate alla duplicazione
del DNA (TopoII, CAF-1p150) e
fattori di elongazione
((FACTP140) per formare un
complesso chiamato WINAC
WINAC ed il recettore della
vitamina D sono trasportati
verso i promotori regolati (sia
negativamente che
positivamente) in assenza di
ligando. WINAC riarrangia i
nucleosomi facilitando
l'accesso a complessi di
coregolazione (attivati dal
ligando) per un ulteriore controllo
della trascrizione
Che c'entra SMARCA2 con la
schizofrenia ?


Il polimorfismo rs3793490 di SMARCA2 (che è
lo stesso polimorfismo che noi troviamo
correlato alla latitudine) modifica il rischio di
schizofrenia
In particolare l'allele T aumenta il rischio di
sviluppare la malattia (Odds ratio (95% CI) =
1.25 (1.14-1.38))
Allele che
aumenta il
rischio di
schizofrenia
SMARCA2 rs3793490
Individui che veicolano l'allele T di rs3793490
mostrano livelli di mRNA di SMARCA2 ridotti
Human Molecular Genetics, 2009, Vol. 18, No. 13
La diminuzione di SMARCA2 ha
differenti effetti in differenti tessuti
Diminuzione
di
SMARCA2
Cellule silenziate
Accellerata “rate” di
mineralizzazione
Maggiore espressione di marker
osteogenici
Animali knock-out
Dimensione del corpo maggiore
(14% del normale)
Aumento spoporzionato delle ossa e
dei muscoli
Pazienti
Ridotta espressione dimostrata in corteccia
prefontale di pazienti schizofrenici
Animali knock-out
Ridotta interazione sociale e presenza di
“prepulse inhibition”
Farmacologia
Farmaci che determinano psicosi
abbassano SMARCA2
Farmaci antipsicotici aumentano
SMARCA2
Modello
Variante G
fa più SMARCA2
Variante T
fa meno SMARCA2
Variante T
fa meno SMARCA2
resiste meglio al
rachitismo
Variante T
fa meno SMARCA2
aumentato rischio
schizofrenia
Antonella Monticelli
Roberto Amato
Gruppo Interdipartimentale Bioinformatica e
Biologia Computazionale
Michele Pinelli
Rino Miele
Un altro aspetto
curioso della teoria
dell'evoluzione è che
tutti pensano di
capirla!
(Jacques Monod)
…. persino i genetisti
(anonimo)
The end
Scarica

pptx - Home