1000 genomes Varianti del genoma umano dbSNP 132 30,442,771 SNP (1% del genoma) Varianti strutturali (DGV) CNVs: 66741 Inversioni: 953 InDels (100bp-1Kb): 34229 Total CNV loci: 15963 35% del genoma Obiettivi Catalogazione delle variazioni genetiche umane Caratterizzare più del 95 % delle varianti con frequenza allelica superiore all’ 1 % (0,1 % a livello esonico) in cinque dei maggiori gruppi etnici Individuazione di brevi indels e più ampie varianti strutturali Definizione di aplotipi e genotipi dei singoli soggetti Fornire linee cellulari dei campioni Diffusione pubblica e rapida dei dati Fornire una risorsa per il supporto di studi GWAS (e di associazione in genere) in varie popolazioni Progetto pilota Sequenziamento a bassa copertura (2-6x) del genoma di 179 individui 59 Youruba dalla Nigeria (YRI) 60 persone con antenati europei dallo UTAH (CEU) 30 cinesi Han da Pechino (CHB) + 30 giapponesi da Tokyo (JPT) Sequenziamento ad alta copertura (in media 42x) di 6 individui in due gruppi familiari padre-madre-figlia 1 famiglia CEU 1 famiglia YRI Sequenziamento esonico di 8140 esoni (906 geni, 1,4 Mb) in 697 individui (7 popolazioni: YRI, LWK, CEU, TSI, CHB, JPT, CHD) (copertura >50x) Metodi 1. Campioni di DNA da linee linfoblastoidi (vario numero di passaggi) fornite dal Coriell Institute Mancanza di dati fenotipici Nello studio pilota campioni per i quali erano disponibili dati riguardo gli SNP e le CNV Figlie nei trii con estensivi dati genomici preesistenti 2. Next-Generation-Sequencing 3. Analisi dei dati (vari algoritmi) 4. Pubblicazione dei dati 5. Validazione dei risultati (analisi comparative, sequenziamento, PCR, SNP-array,array-CGH, ecc.) 6. Pubblicazione dei risultati Metodi: NGS Workflow 1. Scoperta delle varianti (dopo allineamento delle reads al genoma di riferimentoNCBI 36/hg18) 2. Filtraggio per la rimozione dei falsi positivi 3. Genotipizzazione (alleli presenti in un individuo ad un dato sito) Imputazione del genotipo (Aplotipi e Linkage Disequilibrium) 4. Validazione (stima del false discovery rate) 5. Pubblicazione dei dati su www.1000genomes.org e sul dbSNP (www.ncbi.nlm.nih.gov/snp) Metodi: NGS Programmi e algoritmi Imputazione del genotipo Imputazione del genotipo Incremento dell’efficienza dei GWAS Mappaggio fine delle varianti causali Meta-analisi Imputazione di varianti non tipizzate nel pannello di riferimento Imputazione di varianti non-SNP Recupero di genotipi mancanti e correzione degli errori di genotipizzazione nell’analisi dei chip. Disegno sperimentale Exon pilot Individuazione di un maggior numero di varianti nuove e a bassa frequenza Alta sensibilità per le varianti rare Problematiche tecniche Etereogeneità dei metodi di sequenziamento 3 piattaforme: 454 Roche Genome Sequencer FLX System; Illumina Genome Analyser ABI SOLiD system Differente lunghezza delle reads (25 bp 400 bp) Single- o Paired-end Dati derivati da paired-end reads: 78 % low-coverage, 80 % trio, 56 % exon Evoluzione delle tecnologie e delle metodiche Miglioramenti tecnici Base quality scores ricalibrati Reallineamento locale di tutte le reads, considerando un’eventuale presenza di indels Analisi dei dati con diversi algoritmi e unione dei risultati Assemblaggio de novo: risoluzione dei punti di rottura delle delezioni più grandi di 50 bp raddoppiato il numero delle varianti strutturali (>1 kb) delineate alla risoluzione di 1 singola base identificazione di 3,7 Mb di sequenza non presenti nel genoma di riferimento Confronto delle metodiche di identificazione degli SNPs: Gli SNP identificati da due o più hanno il 30% in meno di errori rispetto a quelli identificati da una sola metodica Genoma accessibile Porzione del genoma di riferimento rimanente dopo l’esclusione di regioni con reads localizzate in maniera ambigua o con un numero inaspettatamente alto o basso di reads allineate Low-coverage: 85 % del genoma di riferimento (NCBI36, hg18) , 93% delle sequenze codificanti, >99% dei siti HapMapII. Non presente ~1/4 del DNA riprtitivo e delle duplicazioni segmentali Trio: 80 % del genoma di riferimento, 85% delle sequenze codificanti, 97% dei siti HapMapII Ensembl Human Assembly Assembly Paia di Basi Ultima modifica Conteggio geni Geni noti codificanti per proteine Nuovi geni codificanti per proteine Pseudogeni Geni x RNA Esoni Trascritti Altro Predizioni geniche Genscan Variazioni GRCh37.p2 3.279.005.676 Oct 2010 21.077 521 12.957 8.475 579.333 157.480 44,224 23,340,186 Pilot study Generale (hg18) Non-N autosomal bases 2681301101 3095677412 LINE 21.35% 20% SINE 13.90% 13% LTR 9.03% 8% DNA transposons 3.46% 3% Simple_repeat 0.89% Low_complexity 0.59% Satellite 0.38% 4% all repeats 49.86% 54% SegDups 4.87% HapMap2 0.14% all genes 35.85% 31% all exons 2.42% 2% ? coding genes 31.35% 27% coding exons 2.00% 1,2% 4% Overview varianti identificate Varianti identificate Trio project Low-coverage project Exon project Campioni 6 179 697 Dati grezzi 1,08 Tb 2,22 Tb 1,43 Tb Coverage 42x 3,6x 56x Genoma accessibile 2,3 Gb 2,4 Gb 1,4 Mb SNPs trovati 3,6 milioni (CEU) 4,5 milioni (YRI) 14,9 milioni 12,758 % nuovi 11% (CEU) 23% (YRI) 54% 70% Brevi indel (1-50 bp) 680.000 1,3 milioni 96 Varianti strutturali 14.000 20.000 nd Validazione False discovery rate (FDR) <5 % per SNP e brevi indel, <10 % per varianti strutturali FDR per le nuove varianti 2,6 % per SNP del trio project 10,9 % per SNP del low coverage project 1,7 % per indel del low coverage project Variazioni non equamente distribuite Alta frequenza nelle regioni HLA e subtelomeriche Bassa frequenza in regioni altamente conservate (es.3p21) Varianti strutturali causate da NAHR più frequenti a livello di regioni HLA e subtelomeriche Distribuzione delle varianti Distribuzione SNP per popolazione Distribuzione delezioni per popolazione Tipologia delle nuove varianti Distribuzione delle varianti nuove Capacità di individuare varianti Il numero delle varianti scoperte è massimizzato dal sequenziare il maggior numero di genomi a bassa copertura Tipo e Frequenza Sensibilità SNP singleton 25% SNP >5/120 90% SNP >10/120 100% Del (>500bp) singleton 40% Del (>500bp) >10/120 90% Indel >10/120 70 Ins. elementi mobili 75 Dup. comuni 30-40% DNA Mitocondriale 163 campioni nel progetto low-coverage (analizzati manualmente) revised Cambridge Reference Sequence Variazioni del DNA mitocondriale rientrano in pattern filogenetici ben definiti 85,9 % di individui con eteroplasmia, soprattutto a livello delle regioni ipervariabili HSV1, HSV2 ed HSV3 Eteroplasmia di lunghezza nel 79 % dei casi (soprattutto nella regione di controllo) vs 52 % mediante sequenziamento con elettroforesi capillare Eteroplasmia da sostituzione di singole basi nel 45 % degli individui, distribuita su tutto il genoma Accuratezza nella genotipizzazione Maggiore accuratezza per i siti presenti nell’HapMap3 Accuratezza per SNP varia fra i vari progetti Low coverage project: errori di genotipizzazione SNP 1-3% Errori di genotipizzazione ampie delezioni <1% Utilità nell’utilizzare informazioni di LD oltre ai dati del sequenziamento Accuratezza a livello dei siti di eterozigosi Tipo Frequenza Accuratezza SNP bassa 90% SNP intermedia 95% SNP alta 70-80% Del MAF <3% 86% Del MAF ~50% 97% Del MAF >90% 83% Accuratezza nella genotipizzazione (delezioni) Accuratezza in funzione della read depth Varianti funzionali Effetti della selezione negativa Tipo di varianti codificanti % limitate ad una % presenti in un singola poplazione singolo individuo Non-sinonime 67,3 15,8 Stop-introducing 77,3 25,9 Splice-disrupting 82,2 21,6 HGMD 84,7 19,9 Sinonime 61,1 11,8 Varianti geniche Tipo 1000 genomes totali 1000 genomes nuovi dbSNP v.131 1000 genomes X individuo SNPs totali 15.275.256 55% 30,442,771^ 3 milioni SNPs sinonimi 60.157 23.498 108.137 11.000 SNPs non-sinonimi 68.300 34.161 174.611 10.000 Indel in frame 714 383 nd 50-200 Codoni di stop prematuri 77 40 7.113 80-100 Perdita codoni di stop 1057 755 nd 10 Alterazione sito di splicing 517 399 1.926* 30-50 Frameshift indels 954 551 31.416 30-40 Delezioni geniche 147 71 na Geni con varianti LOF 2304 nd >12.196 300 Mutazioni HGMD 671 nd na 50-100 ^ dal dbSNP 132; *dal dbSNP 129 Mutazioni causanti malattia Individuate 671 (1,3%) delle 50361 varianti riportate nell’HGMD-DM Alcune categorie di patologie maggiormente rappresentate Importanza del numero di campioni Utilizzando campioni sequenziati ad alta copertura sarebbero necessari: 100 campioni per identificare il 99% delle varianti sinonime di un individuo 250 campioni per trovare il 99% delle varianti non sinonime 320 campioni per trovare il 97,4% delle varianiti LOF Utilizzando campioni sequenziati a bassa copertura sarebbero necessari: 250 campioni per identificare il 99% delle varianti sinonime 320 campioni per trovare il 98,5% delle varianti non sinonime e il 96,3% delle varianti LOF Applicazione agli studi di associazione Alternative possibili nel definire varianti associate a determinati tratti o patologie: Sequenziamento diretto di ampie coorti a fenotipo noto Imputazione delle varianti in campioni genotipizzati mediante l’utilizzo di un pannello di riferimento di soggetti sequenziati Individuazione eQTL Confronto del numero dei cis-eQTLs trovati da Stranger et al. 2007 e individuabili mediante l’utilizzo dei dati del progetto low-coverage, su 142 soggetti in comune fra i due studi Genotype Set Population Sample Size 317K 610K 1M 1000G CEU 43 321 375 420 522 YRI 42 504 273 345 518 CHB+JPT 59 759 893 968 1154 144 1052 1266 1428 1872 ALL N.B.: Incremento maggiore negli YRI (+varianti nuove, -LD) Accuratezza dell’imputazione Imputazione nello studio degli eQTL: esempio Studio su 400 bambini con antenati europei (Dixon et al. 2007) Dati da low-coverage panel e HapMapII come pannelli di riferimento per l’imputazione Maggiore capacità di imputazione per varianti con frequenza >10% Incremento cis-eQTL individuati: Low-coverage: 16% HapMap: 9% Individuazione di varianti addizionali che possano essere alla base di ciascuna associazione Es.: trovata una variante di un sito di splicing del gene GSDMB in LD con uno SNP vicino al gene ORMDL3, precedentemente associato ad alcune malattie immuno-mediate Imputazione nello studio degli eQTL: esempio Ruolo delle varianti non sinonime nella determinazione dei tratti complessi Catalogo NHGRI GWAS riporta 1227 SNP associati con uno o più tratti fenotipici 1185 (96,5 %) di questi presenti nel data set CEU del progetto low coverage Meno del 30% annotate come varianti non sinonime (6,5%) o in LD con varianti non sinonime La maggior parte del contributo delle varianti comuni all’espressione di tratti complessi sembrerebbe di natura regolatoria Mutazioni de novo SNP Frequenza di mutazione locus-specifica 1,8-2,5x10-8 SNP Numero medio di sostituzioni nucleotidiche per individuo ~30 CNV Frequenza di mutazione locus-specifica 1,7x10-6-1,2x10-4 Delezioni Numero medio di eventi per 1/8 individuo Duplicazioni Numero medio di eventi per 1/50 individuo Van Ommen 2005 Lupski 2007 Mutazioni de novo Frequenza di mutazione per base per generazione 1.2 x 10-8 in CEU (49 mutazioni) 1.0 x 10-8 in YRI (35 mutazioni) Una quota rilevante (~95%) delle potenziali mutazioni de novo erano in realtà mutazioni somatiche o delle linee cellulari 1 mut. germinale codificante sinonima vs 17 mut. non germinale (1 sinonima e 16 non sinonime) Mutazioni non germinali stimate: 0,36 % di tutte le varianti nello studio low coverage 0,61% delle varianti funzionali nello studio low coverage 2,4 % di tutte le varianti nello studio “exon” 3,1% delle varianti funzionali nello studio “exon” Utilità nello studio delle popolazioni Misura delle differenze fra le varie popolazioni Differenze “fissate” fra popolazioni 2 fra CEU e CHB+JPT (es. SLC24A5 var. missenso) 4 fra CEU e YRI 72 fra CHB+JPT e YRI Indentificate 139 varianti non-sinonime con ampie differenze nelle frequenze alleliche fra le popolazioni Presenza di varianti altamente differenziate Fra i siti più differenziati c’è una maggiore quota di varianti non sinonime Mappaggio fine del selective sweep e analisi delle dinamiche di adattamento locale Valutazione delle differenze nelle frequenze alleliche fra le popolazioni Aumentata risoluzione dei confini degli hotspot di ricombinazione Ampiezza media degli hotspot ridotta a 2,3 kb rispetto alle 5,5 kb stimate dal progetto HapMapII Distribuzione genomica degli hotspot di ricombinazione in varie popolazioni Differenze degli YRI: Quota di ricombinazione a livello degli hotspot inferiore negli YRI rispetto alle altre popolazioni Distribuzione degli hotspot meno concentrata negli YRI (70% degli hotspot, invece che 80%, nel 10% del genoma) Differenze di lunghezza nel dominio Zinc-finger del gene PRDM9, che influenza gli eventi di ricombinazione intorno gli hotspot Riduzione della differenziazione tra popolazioni nelle vicinanze di SNP con rilevanti differenze alleliche tra le popolazioni Valutazione degli eventuali effetti mutagenici della ricombinazione NO aumento della variazione degli SNP localizzati in prossimità dei motivi di legame di PRDM9, in corrispondenza dei siti con aumentata frequenza di ricombinazione La ricombinazione può influenzare il destino di una nuova mutazione ma non influenza la frequenza con cui appaiono le nuove mutazioni Limiti dello studio Bassa sensibilità per le varianti rare Rumore di fondo nella stima delle frequenze alleliche Alcuni falsi positivi Raccolta dati fra campioni, piattaforme e popolazioni non casuale Utilizzo di genotipi imputati Incremento degli SNP nel dbSNP Build 129 (aprile 2008) 14,708,752 Build 130 (maggio 2009) 17,804,034 Build 131 (aprile 2010) 23,653,737 Build 132 (settembre 2010) 30,442,771 Conclusioni Esistenza di robusti protocolli per la generazione di dati dal NGS Validazione degli algoritmi per l’individuazione delle varianti e la definizione accurata dei genotipi Sequenziamento low-coverge fornisce un efficiente approccio per identificare varianti in tutto il genoma Sequenziamento targeted high-coverge permette una migliore definizione delle varianti di interesse funzionale Utilità dei dati ottenuti: Migliore comprensione della variabilità genetica umana Studi GWAS (imputazione, genotyping chip) Implicazioni per la genetica di popolazione Progetto 1000 genomes completo 2500 soggetti totali (31 popolazioni) Sequenziamento low-coverage dell’intero genoma Coverage >4x Sequenziamento high-coverage di tutte le regioni codificanti Genotipizzazione mediante array (<10 milioni di varianti dal progetto low-coverage) Miglioramenti metodologici Miglioramento delle tecniche di sequenziamento Aumento del numero dei campioni Sviluppo di algoritmi più efficienti Contemporanea genotipizzazione con chip Incremento del genoma accessibile Incremento atteso della quota di genoma accessibile in funzione della lunghezza delle read e degli inserti Risultati attesi Individuazione delle seguenti percentuali di varianti: Progetto low-coverage 95% con MAF >1% nei 5 principali gruppi etnici 90-95% con MAF >1% in ciascuna popolazione studiata 85% con MAF >1% in popolazioni strettamente correlate a quelle studiate Progetto esoni 95% con MAF 0,3% 60% con MAF 0,1% Metodi: genotipizzazione Cromosoma Y Meccanismi di formazione delle SV Accuratezza nella genotipizzazione