Linkage HapMap Lezione 4 By NA 1 Linkage:fase di piu locus Definizione della regione candidata con analisi di linkage: ricostruzione degli aplotipi studiando la segregazione nelle famiglie. E’ necessario risalire alla fase e identificare i ricombinanti 7 5 4 6 6 2 6 5 2 6 2 2 8 6 3 2 1 8 2 2 1 6 2 2 By NA 8 6 3 2 1 8 2 5 2 5 5 5 2 2 1 9 5 5 6 5 2 6 2 2 7 5 4 6 6 2 1 4 1 3 7 5 6 5 2 6 2 2 2 2 1 9 5 5 3 6 5 5 7 8 6 5 2 6 2 2 3 6 5 5 7 8 7 4 4 2 5 4 2 5 2 6 2 2 6 5 2 6 2 2 7 4 4 2 5 4 1 4 1 3 7 5 6 5 2 6 2 2 2 2 1 9 5 8 8 3 8 2 7 10 10 4 6 4 1 6 8 3 8 2 7 10 10 3 2 3 5 8 8 3 8 2 7 10 5 3 5 3 1 7 8 3 8 4 2 3 10 3 2 3 5 8 Possedere un particolare polimorfismo non vuol dire avere il fenotipo, lo studio di linkage e’ a livello di popolazione, serve ad individuare una regione non la mutazione 2 Linkage possibili inconvenienti Ci possono essere inconvenienti che complicano la possibilita’ di assegnare un locus a una regione definita da marcatori: Errori umani: errata lettura dei dati, scambio di campioni, paternita’…… Errori nell’interpretazione del fenotipo: un falso ricombinante.Se i marcatori sono molti e vicini la presenza di un doppio ricombinante fa sospettare un errore Eterogeneita’ genetica: famiglie con fenotipo simile vengono accorpate e non si riesce a trovare il linkage. Sclerosi tuberosa: due loci distinti E’ importante disporre di numerosi siti polimorfici, che non siano soggetti a dominanza e recessivita’. I polimorfismi del DNA sono l’ideale! By NA 3 Probabilita’ di trovare ricombinanti NB non si conosce a a la loro posizione reciproca quindi bb ci sono due possibilita’ A A B B Aa B b a a bb SE I LOCI NON SONO ASSOCIATI LA PROBABILITA’ E’ 1/2 X 1/2 X 1/2 X1/2 = 1/16=0.0625 SE I LOCI SONO ASSOCIATI LA PROBABILITA DIPENDE DA QUANTO SONO DISTANTI a a b b A a B b a a b b Aa bb RICOMBINANTE NON RICOMBINANTI SE LA FREQUENZA DI RICOMBINAZIONE E’ 10% LA P DI 3 NR E 1R= 0.1X0.9X0.9X0.9=0.073=7.3% Non ho la possibilita’ di scegliere fra le due ipotesi: solo un gran numero di osservazioni mi potrebbe permettere di riconoscere quale e’ la situazione piu’ probabile NON ESISTE NULLA CHE POSSA SOSTITUIRE I GRANDI NUMERI….COME POSSIAMO OTTENERE GRANDI NUMERI NELL’UOMO??? By NA 4 Come fare il linkage Il calcolo del linkage e’ quindi statistico: occorre una progenie numerosa e bisogna conoscere la fase (aplotipo) dei parentali. come si fa visto che le famiglie umane sono di solito piccole? Si ricorre al lod score By NA 5 Linkage-lod score Il linkage e’ una relazione di vicinanza fra due loci ed e’ funzione della loro distanza. La definizione di un linkage fra due loci si basa su calcoli statistici che permettono di quantizzare la probabilta’ che i risultati ottenuti non siano dovuti al caso . Nel caso dell’uomo l’analisi della progenie di una singola famiglia raramente fornisce informazioni sia per lo scarso numero di meiosi sia per la difficolta’ di risalire alla fase. Bisogna mettere insieme i dati provenienti da piu’ famiglie. P di un assortimento genetico in una progenie se i geni sono associati Odds ratio= P di un assortimento genetico nella progenie se i geni sono indipendenti (1- n r (1/2)n+r Lod score: logaritmo in base 10 dei singoli rapporti di ogni famiglia, si possono cosi sommare. Un valore di 3 indica linkage. By NA 6 LOD SCORE LOD SCORE (Z): logaritmo della probabilita’ che i loci siano associati (data la frazione di ricombinazione q ) piuttosto che non associati (q=0.5). La probabilita’ complessiva di un gruppo di famiglie e’ il prodotto delle probabilta’ di ciascuna famiglia, percio’ la somma dei lod score. Per q = 0.5, Z=0: infatti sono il rapporto fra probabilta’ identiche e log10(1)=0. Z=3(1000:1) e’ la soglia per accettare il linkage con una probabilita’ di errore del 5%. Z=-2 esclude il linkage. Z 4 3 2 1 0 0 0.1 0.2 0.3 0.4 Frequenza di ricombinazione 0.5 P di un assortimento genetico in una progenie se i geni sono associati Z Odds ratio= By NA P di un assortimento genetico nella progenie se i geni sono indipendenti (1- n r (1/2)n+r 7 La connessione fra mappe Quindi si hanno due tipi di mappe: fisica e genetica. Il problema e’ trovare il modo di legarle: la mappa fisica mi dice in che un gruppo di sequenze formano un contiguo su un frammento di cromosoma, ma non mi permette di identificare geni candidati. La mappa genetica me lo permetterebbe perche’ non riguarda specifiche sequenze, ma anche locus di cui non conosco la sequenza. Non posso pero’ studiare il gene candidato perche’ non ho la sequenza corrispondente. La possibilita’ di utilizzare STS e EST polimorfici ha permesso di risolvere il problema By NA 8 Gli STS: Sequence Target Site L’automazione del sequenziamento permette di sequenziare corte sequenze (300pb) clonate a caso da cui ricavare primers per “screenare” con la PCR ormai automatizzata le librerie e costruire mappe fisiche attraverso la creazione di contigui . Quando sono polimorfiche sono marcatori comuni alle mappe sia genetiche che fisiche e permettono di legarle fra loro 1 DNA genomico A+,B-,C+.. B+,D+,G+ Clonaggio H+,F+,T-.. Sequenziamento GACTTAG........CATAGCA ~300bp B* D G* H F* Q 2 mappa fisica:contiguo A C B D G H F Q A-,B+,C+.. F+,T-,Q+.. screening library con PCR STS A,B,C.. By NA A* C scelta dei primers x A,B,C.. mappa genetica: A, G e F sono in linkage il loro ordine e’ F-A-G H F Q A C B D G I due contigui sono sullo stesso cromosoma e via cosi.... 9 Confronto fra mappa fisica e genetica By NA 10 Linkage possibili inconvenienti Ci possono essere inconvenienti che complicano la possibilita’ di assegnare un locus a una regione definita da marcatori: Errori umani: errata lettura dei dati, scambio di campioni, paternita’…… Errori nell’interpretazione del fenotipo: un falso ricombinante.Se i marcatori sono molti e vicini la presenza di un doppio ricombinante fa sospettare un errore Eterogeneita’ genetica: famiglie con fenotipo simile vengono accorpate e non si riesce a trovare il linkage. Sclerosi tuberosa: due loci distinti E’ importante disporre di numerosi siti polimorfici, che non siano soggetti a dominanza e recessivita’. I polimorfismi del DNA sono l’ideale! By NA 11 Riconoscere i ricombinanti R By NA 12 Doppio ricombinante? By NA 13 Linkage disequilibrium Il linkage disequilibrium e’ una situazione per cui un particolare aplotipo e’ statisticamente piu’ probabile in un sottogruppo di una popolazione. Indica che la popolazione deriva da un comune ancestore o, nel caso delle mutazioni patogene, che la mutazione e’ avvenuta su un cromosoma ancestrale comune alla popolazione. Il linkage disequilibrium non ha niente a che fare con la presenza della mutazione patogena e’ una osservazione che facilita la mappatura genetica. Indica che fisicamente associato al locus A polimorfico c’e’ un altro locus che, quando mutato origina la malattia. Essendo un fenomeno legato all’origine comune degli individui della popolazione, in un’altra popolazione il disequilibrium riguardera’ un altro allele del locus A By NA 14 Linkage disequilibrium E’ necessario considerare tutte le cause disequilibrium e’ solo una delle cause dell’associazione: il linkage Causa-effetto e selezione naturale: Un certo allele rende piu’ suscettibili a manifestare la malattia o permette alle persone malate di sopravvivere e di avere figli Errori per la stratificazione della popolazione o per mancata correzione statistica: se una popolazione e’ composta di sottoinsiemi geneticamente distinti entrambi i marker possono essere piu’ frequenti, ma senza che questo implichi un’associazione. Nel secondo caso i dati non vengono confermati da studi successivi By NA 15 Fibrosi Cistica e linkage disequilibrium Il gene della Fibrosi Cistica e’ stato clonato grazie alla presenza del linkage disequilibrium. CHR CF (254 con mut) CHR NORMALI (318 wild-type) ALLELE di XV-2C ALLELE di KM-19 numero percentuale numero percentuale A 1 1 17 6.7 74 28.9 B 1 2 218 86.5 35 16.4 C 2 1 7 2.8 110 44 D 2 2 10 4 31 10.7 APLOTIPO Incerto 2 4 Dati ottenuti su 114 famiglie britanniche con un figlio affetto. Il cromosoma CF, identificato perche’ presente nell’affetto, tende a portare gli alleli X1 e K2. By NA 16 Possibili cause del linkage disequilibrium Potrebbe essere causa dell’effetto del fondatore: la mutazione potrebbe essere comparsa in un antenato della popolazione Nord-Europea che portava l’aplotipo B e probabilmente gli eventi di ricombinazione non hanno avuto sufficiente tempo per rispristinare una situazione di equilibrio, cioe ’ ad una associazione casuale. Cio ’ significa anche che gli eventi di ricombinazione sono rari tra il gene CF e i due marcatori cioe ’ il locus malattia e ’ strettamente associato ai due marcatori XV-2C e KM-19 La presenza di un particolare aplotipo potrebbe conferire un vantaggio selettivo nell’individuo che lo porta (come accade per gli antigeni HLA: particolari aplotipi sembrano migliorare la risposta immunitaria e percio’ sono sottoposti a pressione selettiva) La conoscenza del linkage disequilibrium oltre a dare una indicazione della localizzazione precisa del locus malattia, risulta utile per la consulenza: permette di calcolare con maggiore precisione il rischio di trasmissione. Es: normalmente 1/25 portatori nella popolozione nord-europea, ma se un individuo ha aplotipo BB il rischio e’ maggiore, mentre e’ molto ridotto per aplotipi AA. By NA 17 Origine del linkage disequilibrium (LD) Alla sua comparsa, una nuova mutazione è in LD (grigio) con tutti I loci dello stesso cromosoma. Attraverso le generazioni la ricombinazione riduce progressivamente l’area di LD. Contano soprattutto: 1. Tasso di ricombinazione By NA 2. Numero di generazioni 18 Consortium. 2005. A haplotype map of the human genome. Nature 437: 1299-1320. Nature 449: 851-861, 2007. By NA 19 HapMap I By NA 20 HapMap I ... more than one million SNPs for which accurate and complete genotypes have been obtained in 269 DNA samples from four populations, including ten 500-kilobase regions in which essentially all information about common DNA variation has been extracted. These data document the generality of recombination hotspots, a block-like structure of linkage disequilibrium and low haplotype diversity, leading to substantial correlations of SNPs with many of their neighbours. We show how the HapMap resource can guide the design and analysis of genetic association studies, shed light on structural variation and recombination, and identify loci that may have been subject to natural selection during human evolution. By NA 21 HapMap II We show that 10–30% of pairs of individuals within a population share at least one region of extended genetic identity arising from recent ancestry We demonstrate increased differentiation at nonsynonymous, compared to synonymous, SNPs, resulting from systematic differences in the strength or efficacy of natural selection between populations. By NA 22 HapMap I La % di ricombinazione, in una regione campione di 500kb e’ discontinua: 80% delle ricombinazioni in 15% della sequenza. HOT SPOT di ricombinazione By NA 23 HapMap II Hotspots account for approximately 60% of recombination in the human genome and about 6% of sequence Il genoma e’ ereditato a blocchetti By NA 24 linkage disequilibrium m By NA 25 HapMap linkage disequilibrium conseguenze: The number of tag SNPs that contain most of the information about the patterns of genetic variation is estimated to be about 300,000 to 600,000, which is far fewer than the 10 million common SNPs. By NA 26 Science 319:1100-1104 (2008) By NA 27 Nature 451:998-1003 (2008). By NA 28 Science 22 febbraio 2008 Heterozigosity By NA 29 Nature 21 febbraio 2008 Linkage disequilibrium / distanza By NA 30 By NA 31 By NA 32