Allelic architecture underlying complex disease loci COMMON DISEASE / COMMON VARIANT HYPOTHESIS Malattie Mendeliane Malattie complesse • mutazioni altamente penetranti • contribuiscono alla predisposizione alla • spesso soggette a selezione negativa (varianti rare) • effetto deleterio sulla funzione della proteina è spesso evidente (stop codon, frameshift, mutaz splicing etc) malattia • rischio relativo moderato • non soggette a forte pressione selettiva (varianti più comuni) • varianti con effetti moderati sulla funzione o regolazione dell’espressione • regioni non codificanti Association studies of candidate gene using common SNPs Direct association A SNP is tested on the basis of prior knowledge about its possible function Indirect association SNPs are genotyped on the basis of linkage disequilibrium (LD) The detection of the causal variant is dependent on how well it is correlated with genotyped SNPs Genetic variation in humans Number of SNPs in dbSNP total non-redundant SNPs ~ 10 million common SNPs in the human genome double hit validated by genotyping Nature 437:1299 (2005) Pattern di LD nel genoma umano •La teoria dell’evoluzione neutrale indica che i polimorfismi + comuni presenti oggi dovevano essere presenti nella popolazione ancestrale •Alleli di rischio frequenti ma con piccolo effetto sono probabilmente neutrali da un punto di vista evolutivo •Se la freq di ricombinazione è 1cM/Mb, si puo’ calcolare che LD si dovrebbe estendere per 3-10 kb Diversi studi hanno mostrato che l’andamento del LD è variabile e complesso Principali fattori che influenzano LD = mutazione + ricombinazione ma anche: fattori demografici (bottleneck, rapida crescita della popolaz, migrazione), selezione naturale, fattori molecolari (frequenza di mutazione variabile, frequenza di ricombinazione variabile, conversione genica) E’ difficile da prevedere e va determinato empiricamente Gabriel et al. Science 296: 225 (2002) •Studio di 4 popolazioni (Europei, Asia, Nigeria, Afro-Americani) in 51 diverse regioni genomiche (13 Mb) •Circa 50% genoma compreso in blocchi di lungh. media 11-22 kb •Nelle popolaz Africane il LD è minore •I block boundaries sono abbastanza conservati fra le popolazioni •Stima che sarebbero necessari 300.000 - 1.000.000 htSNPs per coprire l’intero genoma The block-like structure of LD HOTSPOTS • Several studies have shown that a large part of the genome falls into segments of strong LD, known as “haplotype blocks”, separated by segments of low LD • Within a block, variants are strongly correlated to each other and a small number of distinct allele combinations (haplotypes) account for most of the genetic variation in a population Ipotesi “out of Africa” sull’origine dell’uomo moderno •Origine in Africa > 100.000 anni fa (~ 5000 generazioni) •L’iniziale popolazione era piccola (<10.000 individui) e ha soppiantato le popolazioni arcaiche •Espansione nelle altre regioni del mondo dopo oltre 30.000 anni Conoscendo il pattern di LD di una regione si puo’ limitare il numero di SNPs da tipizzare Tag SNPs (haplotype tagging SNPs) Determinare i comuni pattern di variabilità del genoma umano. Caratterizzare gli SNPs, le loro frequenze e il grado di LD, in campioni di DNA di popolazioni diverse •Europei •Yoruba (Nigeria) •Giapponesi •Cinesi Han Phase 1: 1.1 million SNPs (a genotyped common SNP/ 5 Kb) Phase 2: 5.8 million SNPs (a genotyped common SNP/ 1 Kb) Nature 437:1299 (2005) HapMap in practice… candidate gene www.hapmap.org 1) Download genotype data 2) Select TAG SNPs 3) Association analysis Tagging SNPs Qu ickTim e™ a nd a TIFF (Uncompressed ) decompre ssor are need ed to s ee th is picture. Select subset of SNPs which adequately summarises genetic variability within the gene TAG SNPs May not be common to different populations May depend on definition method employed • Gabriel et al. (block based selection of tag SNPs) • r2 (htSNPs selected so that all SNPs are highly correlated (r2>0.8) to at least 1 SNP in the tag set) Illumina BeadArray genotyping system ……a fibreoptic-based array system • 96 individual array bundles assembled into an ‘Array of Arrays’ • Fibre array bundles contain nearly 50,000 individual, lighttransmitting fibre strands, each etched to create a tiny microwell, then filled with a 3-micron bead to which are attached hundreds of thousands of capture probes with the same sequence • Products hybridised to arrays after amplification. 1536 bead types per array with 30x redundancy for each bead type GOLDENGATE ASSAY High level of SNP multiplexing (3841536-plex) for custom oligos 1 Allele specific extention and ligation 2 PCR with universal primers 3 Product capture through hybridization to ‘address” > 93% SNP assay conversion rate Genome-wide association studies Sulla base dei dati di HapMap si può stimare che ~300.000 - 500.000 SNPs (scelti adeguatamente) dovrebbero essere sufficienti rappresentare tutta la variabilità comune del genoma umano Scelta SNPs: •tagSNPs basandosi su HapMap •missense SNPs •SNPs in regioni non codificante conservate nell’evoluzione Sample size: devono essere grandi (dato il grande numero di test) •Bonferroni correction-> Pcorr = nPnom [n= numero di test indipendenti] •Permutation test Permutation testing QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. QuickTime™ and a TIFF (Uncompressed) decompressor are needed to see this picture. Come riconoscere un allele di suscettibilità ? Malattie mendeliane -> Mutaz deleterie non presenti nei controlli Effetto sulla proteina, splicing, espressione Malattie complesse: •Una mutaz non è necessaria ne’ sufficiente per scatenare la malattia -> sara’ presente anche in alcuni controlli e assente in alcuni pazienti •Non mutazioni ovvie ma lievi alterazioni, per esempio nell’espressione genica (promotore, splicing, stabilità mRNA) •Difficile distinguere la vera variante eziologica da altri SNPs in forte LD con essa