Allelic architecture underlying complex
disease loci
COMMON DISEASE / COMMON VARIANT
HYPOTHESIS
Malattie Mendeliane
Malattie complesse
• mutazioni altamente penetranti
• contribuiscono alla predisposizione alla
• spesso soggette a selezione negativa
(varianti rare)
• effetto deleterio sulla funzione della
proteina è spesso evidente (stop codon,
frameshift, mutaz splicing etc)
malattia
• rischio relativo moderato
• non soggette a forte pressione selettiva
(varianti più comuni)
• varianti con effetti moderati sulla funzione o
regolazione dell’espressione
• regioni non codificanti
Association studies of candidate gene using
common SNPs
Direct association
A SNP is tested on the basis of
prior knowledge about its
possible function
Indirect association
SNPs are genotyped on the basis of
linkage disequilibrium (LD)
The detection of the causal variant is
dependent on how well it is correlated with
genotyped SNPs
Genetic variation in humans
Number of SNPs in dbSNP
total non-redundant
SNPs
~ 10 million common
SNPs in the human
genome
double hit
validated by
genotyping
Nature 437:1299 (2005)
Pattern di LD nel genoma umano
•La teoria dell’evoluzione neutrale indica che i polimorfismi + comuni
presenti oggi dovevano essere presenti nella popolazione ancestrale
•Alleli di rischio frequenti ma con piccolo effetto sono probabilmente
neutrali da un punto di vista evolutivo
•Se la freq di ricombinazione è 1cM/Mb, si puo’ calcolare che LD si
dovrebbe estendere per 3-10 kb
Diversi studi hanno mostrato che l’andamento del LD è variabile e complesso
Principali fattori che influenzano LD = mutazione + ricombinazione
ma anche: fattori demografici (bottleneck, rapida crescita della popolaz,
migrazione), selezione naturale, fattori molecolari (frequenza di mutazione
variabile, frequenza di ricombinazione variabile, conversione genica)
E’ difficile da prevedere e va determinato empiricamente
Gabriel et al. Science 296: 225 (2002)
•Studio di 4 popolazioni (Europei, Asia, Nigeria, Afro-Americani) in 51
diverse regioni genomiche (13 Mb)
•Circa 50% genoma compreso in blocchi di lungh. media 11-22 kb
•Nelle popolaz Africane il LD è minore
•I block boundaries sono abbastanza conservati fra le popolazioni
•Stima che sarebbero necessari 300.000 - 1.000.000 htSNPs per coprire
l’intero genoma
The block-like structure of LD
HOTSPOTS
• Several studies have shown that a large part of the
genome falls into segments of strong LD, known as
“haplotype blocks”, separated by segments of low LD
• Within a block, variants are strongly correlated to each
other and a small number of distinct allele
combinations (haplotypes) account for most of the
genetic variation in a population
Ipotesi “out of Africa” sull’origine dell’uomo moderno
•Origine in Africa > 100.000 anni fa (~ 5000 generazioni)
•L’iniziale popolazione era piccola (<10.000 individui) e ha
soppiantato le popolazioni arcaiche
•Espansione nelle altre regioni del mondo dopo oltre 30.000 anni
Conoscendo il pattern di LD di una regione si puo’ limitare il numero di
SNPs da tipizzare
Tag SNPs (haplotype tagging SNPs)
Determinare i comuni pattern di variabilità del genoma umano.
Caratterizzare gli SNPs, le loro frequenze e il grado di LD, in
campioni di DNA di popolazioni diverse
•Europei
•Yoruba (Nigeria)
•Giapponesi
•Cinesi Han
Phase 1: 1.1 million SNPs (a genotyped common SNP/ 5 Kb)
Phase 2: 5.8 million SNPs (a genotyped common SNP/ 1 Kb)
Nature 437:1299 (2005)
HapMap in practice…
candidate gene
www.hapmap.org
1) Download
genotype data
2) Select
TAG SNPs
3) Association
analysis
Tagging SNPs
Qu ickTim e™ a nd a
TIFF (Uncompressed ) decompre ssor
are need ed to s ee th is picture.
Select subset of SNPs which adequately summarises genetic
variability within the gene
TAG SNPs
 May not be common to different populations
 May depend on definition method employed
• Gabriel
et al. (block based selection of tag SNPs)
• r2 (htSNPs selected so that all SNPs are highly correlated (r2>0.8) to
at least 1 SNP in the tag set)
Illumina BeadArray genotyping system
……a fibreoptic-based array system
• 96 individual array bundles assembled into an ‘Array of
Arrays’
• Fibre array bundles contain nearly 50,000 individual, lighttransmitting fibre strands, each etched to create a tiny
microwell, then filled with a 3-micron bead to which are
attached hundreds of thousands of capture probes with the
same sequence
• Products hybridised to arrays after amplification. 1536 bead
types per array with 30x redundancy for each bead type
GOLDENGATE ASSAY
High level of SNP
multiplexing (3841536-plex) for
custom oligos
1
Allele specific
extention
and ligation
2
PCR with
universal primers
3
Product capture
through hybridization
to ‘address”
> 93% SNP assay
conversion rate
Genome-wide association studies
Sulla base dei dati di HapMap si può stimare che ~300.000 - 500.000
SNPs (scelti adeguatamente) dovrebbero essere sufficienti rappresentare
tutta la variabilità comune del genoma umano
Scelta SNPs:
•tagSNPs basandosi su HapMap
•missense SNPs
•SNPs in regioni non codificante conservate nell’evoluzione
Sample size: devono essere grandi (dato il grande numero di test)
•Bonferroni correction-> Pcorr = nPnom [n= numero di test indipendenti]
•Permutation test
Permutation testing
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
QuickTime™ and a
TIFF (Uncompressed) decompressor
are needed to see this picture.
Come riconoscere un allele di suscettibilità ?
Malattie mendeliane ->
Mutaz deleterie non presenti nei controlli
Effetto sulla proteina, splicing, espressione
Malattie complesse:
•Una mutaz non è necessaria ne’ sufficiente per scatenare la malattia
-> sara’ presente anche in alcuni controlli e assente in alcuni pazienti
•Non mutazioni ovvie ma lievi alterazioni, per esempio
nell’espressione genica (promotore, splicing, stabilità mRNA)
•Difficile distinguere la vera variante eziologica da altri SNPs in forte
LD con essa
Scarica

common disease / common variant