Organizzazione dei genomi e del genoma umano (2) Capitolo 9 + Articoli (importante da studiare!) https://www.dropbox.com/sh/7uw0xjo43024pdz/AADnlDT35kPF7CzJKpWXfCgYa?dl=0 Organizzazione del genoma umano: le novita’ dal sequenziamento completo del genoma umano Tesi di dottorato Ventura disponibile nel sito docente Dati recenti … Il genoma umano puo’ essere completamente compreso grazie al completamento del Progetto Genoma Umano Il confronto tra geni e sequenze e’ essenziale per la comprensione della funzione ed evoluzione della specie. Attraverso la comparazione si possono evidenziare regioni genomiche piu’ conservate e regioni genomiche meno conservate Tantissime caratteristiche e proprieta’ del genoma umano, e dei vertebrati in generale, sono chiare alla luce dei fenomeni evolutivi PLASTICITA’ GENOMICA La capacità del genoma di evolvere ed in tal modo di diversificarsi tra specie e tra individui La plasticità del genoma umano Nel genoma umano esistono regioni particolarmente libere di evolversi, sequenze che possono variare nel genoma senza che ci sia alcuna conseguenza per l’individuo. Esempi di queste sono: - i centromeri e le sequenze ripetitive dei centromeri - regioni pericentromeriche e le duplicazioni segmentali in esse presenti Recentemente è stato scoperto un altro fenomeno evolutivo: il r i p o s i z i o n a m e n t o d e l c e n t ro m e ro m e d i a n t e l a neocentromerizzazione Le scimmie antropomorfe GGO PTR HSA PPY MMU PTR GGO PPY MMU Un po’ di dati sulle divergenze: HSA-PTR (Pan troglodytes) 5.5 mya HSA-GGO (Gorilla gorilla) 6.7 mya HSA-PPY (Pongo pygmeus) 8.2 mya HSA-MMU (Macaca mulatta) 20 mya HSA in bandeggio C Una prima differenza tra le specie di Primati e’ distribuzione dell’eterocromatina costitutiva. PTR in bandeggio C GGO in bandeggio C I segnali si evidenziano non solo ai centromeri ma anche a livello di telomeri e in localizzazione interstiziale PERCHE’? Perche’? In PTR e GGO le unità ripetute costituenti il centromero sono in numero equivalente al numero di unità ripetute costituenti il telomero. Nell’uomo, invece, gli unici elementi visibili in bandeggio C sono l’eterocromatina centromerica e l’eterocromatina del braccio lungo del cromosoma Y. E cosa dire in termini di sequenza? Per rispondere a questa domanda faccio uno studio comparativo. Ad esempio, comparo il comportamento di una specifica sonda in varie specie. Di regola una sonda di un cromosoma umano riconosce la porzione omologa sul cromosoma di un’altra specie. Se la sonda è relativa ad una regione del cromosoma 8 riconoscerà una regione omologa al cromosoma 8. e cosa accade invece per le sonde dei centromeri? E’ possibile studiare l’evoluzione del cariotipo mediante l’IBRIDAZIONE COMPARATIVA di sonde BAC (ottenute da un organismo specifico) su vetrini della specie che si vuole studiare. Sonda del cromosoma 4 ibridata su diversi primati HSA PTR GGO PPY MMU HSA pDMX1 Sonda alfoide umana Cromosoma X GGO con pDMX1 Sonda alfoide umana cromosoma X HSA pBR12 Sonda alfoide umana cromosoma XII GGO con pBR12 Sonda alfoide umana localizzazione multipla eccetto omologo HSA12 E cosa dire delle sequenze alfoidi che costituiscono il centromero? A differenza delle altre sequenze genomiche, le sequenze alfoidi centromeriche di una specie non hanno omologhi nei corrispondenti cromosomi … eccezione e’ la sequenza alfoide del cromosoma X che si localizza in tutte le Grandi Scimmie sempre sul cromosoma X CONCLUSIONI DA QUESTI DATI SPERIMENTALI E cosa dire delle sequenze alfoidi che costituiscono il centromero? A differenza delle altre sequenze genomiche, le sequenze alfoidi centromeriche di una specie non hanno omolghi nei corrispondenti cromosomi….eccezione e’ la sequenza alfoide del cromosoma X che accende in tutte le Grandi Scimmie sempre il cromosoma X Come mai le sequenze alfoidi pur cosi’ importanti non sono conservate nelle linee evolutive? Cosa e’ realmente importante? La ripetizione degli elementi e ... cosa dire delle sequenze telomeriche? In quanto FUNZIONALMENTE importanti le sequenze telomeriche sono estremamente conservate nell’evoluzione La plasticità del genoma umano Nel genoma umano esistono regioni particolarmente libere di evolversi, sequenze che possono variare nel genoma senza che ci sia alcuna conseguenza per l’individuo. Esempi di queste sono: - i centromeri e le sequenze ripetitive dei centromeri - regioni pericentromeriche e le duplicazioni segmentali in esse presenti Recentemente è stato scoperto un altro fenomeno evolutivo: il r i p o s i z i o n a m e n t o d e l c e n t ro m e ro m e d i a n t e l a neocentromerizzazione Di norma sonde ottenute dalle regioni eucromatiche non pericentromeriche di una specie riconoscono tra le varie specie la stessa regione (indicando le regioni di sintenia uomo-specie). Le similarita’ tra regioni pericentromeriche invece ... Organizzazione regione pericentromerica HSA10 D10S141 A e B duplicazione 110-180kb stesso orientamento (>90%) 10p 10q cen 300-350kb 300-350kb ZNF11/33/37 A e B duplicazione 210-250kb Invertito (>95%) Sonda pericentromerica della regione 10q11 BAC rp11-80b18 HSA Si evince che esistono delle regioni di similarita’ condivise tra le regioni pericentromeriche di diversi cromosomi, all’interno della s t e s s a s p eci e (sim ile alla distribu zione de lle r e gioni subtelomeriche!!!) Sonda pericentromerica HSA10 su PTR BAC rp11-80b18 La stessa sonda riconosce in scimpanze’ regioni cromosomiche differenti rispetto a uomo. Indicando che la distribuzione delle sequenze pericentromeriche ha seguito una storia a se stante per il gruppo dello scimpanze’! PTR Sonda pericentromerica HSA10 su GGO BAC rp11-80b18 Lo stesso discorso vale per il gorilla distinto da uomo e scipanze’. IMP. L’omologia per la regione pericentromerica del chr10 e’ mantenuta SEMPRE GGO Sonda pericentromerica HSA10 su PPY BAC rp11-80b18 Piu’ la distanza evolutiva aumenta, minori sono le regioni in cui abbiamo segnale!!! PPY La diffusione tra le varie regioni pericentromeriche e’ tipica dei primati “superiori” Sonda pericentromerica HSA10 su MMU BAC rp11-80b18 X X In macaca il segnale si ritrova solamente sulla regione sintenica a uomo al chr10 MMU In definitiva … Le sequenze che fiancheggiano il centromero del cromosoma 10 umano hanno un’organizzazione estremamente complessa in quanto sono costituite da sequenze braccia-specifiche, duplicazioni stabili e sequenze instabili con omologia verso i telomeri e le localizzazioni centromeriche di altri cromosomi. Queste sequenze hanno subito (e subiscono ancora) un notevole numero di rimaneggiamenti tanti da sdisperderli nei genomi. Jackson MS, Rocchi M, Thomson G, Hearn T, Crozier M, Guy J, Kirk D, Mulligan L, Ricco A, Marzella R, Viggiano L, and Archidiacono N. Hum. Mol. Genet. 8:205-215 (1999) Inoltre… E’ sorprendente come le sequenze delle regioni pericentromeriche sembrano aver subito un elevatissimo livello di duplicazione, trasposizione, inversione e delezione, in altre parole un’evoluzione piu’ rapida e complessa rispetto alle regioni non pericentromeriche analizzate fino ad oggi. Le regioni attorno ai centromeri sono caratterizzate da alta plasticita’ Le regioni pericentromeriche sono “piu’ tolleranti” delle altre regioni genomiche nell’accettare duplicazioni e variazioni di sequenza. ESISTE UNA MINORE FORZA SELETTIVA La plasticita’ del genoma umano Nel genoma umano esistono regioni particoalrmente libere di evolversi, sequenze che possono variare nel genoma senza che ci sia alcuna conseguenza per l’individuo. Esempi di queste sono: - sequenze ripetitive dei centromeri - regioni pericentromeriche e le duplicazioni segmentali in esse presenti Regioni del genoma piu’ grandi di 1 Kb senza “motivi” ricorrrenti che le rendono dissimili dalle altre sequenze ripetute del genoma con una percentuale di similarita’ >90% Duplicazioni segmentali, evidenziate mediante FISH e scoperte con analisi di sequenza Evan Eichler Programmi informatici per trovare le similarita’ di sequenza Tutti i programmi di ricerca di similarita’ si basano sul confronto di sequenza. Le due sequenze che si vogliono paragonare si allineano e si da’ un punteggio a questo allineamento, cio’ che cambia tra i programmi e’ in genere il modo di fare vedere il risultato e il modo di calcolare22il punteggio di similarita’. 22 Programmi informatici per trovare le similarita’ di sequenza Tutti i programmi di ricerca di similarita’ si basano sul confronto di sequenza. Le due sequenze che si vogliono paragonare si allineano e si da’ un puntegio a questo allineamento, cio’ che cambia tra i programmi e’ in genere il modo di fare vedere il risultato e il modo di calcolare il punteggio di similarita’. 22 22 Allineare due sequenze • Cosa vuol dire allineare due sequenze? seq1: TCATG seq2: CATTG TCAT-G .CATTG 4 caratteri uguali 1 inserzione/delezione GENEALYZER OUTPUT Duplicazioni segmentali Frammenti di DNA di varia dimensione (anche maggiore di 200 Kb) che condividono il 95-99% di similarita’. Possono essere intercromosomici Possono essere intracromosomici Duplicazioni segmentali con similarita’ 98-100% Sequenze duplicate (intra+inter) Centromeri e p acrocentrici 10Mb Dupliconi del cromosoma 22 (E.E.Eichler) Comparazione del contenuto in SD Famiglie multigeniche 40% del genoma e’ composto da gruppi di sequenze non alleliche che mappano percio’ in loci diversi, ma sono strettamente correlate, sono presenti cioe’ sequenze con un numero di copie multiple. Il numero di copie di una sequenza puo’ essere identificato e studiato attraverso: il sequenziamento e bioinformatica per identificare l’appartenenza di nuove sequenze ad una famiglia gia’ descritta e definire il grado di omologia fra le diverse copie. L’analisi su Southern blot e/o FISH di una nuova sequenza clonata rivela la presenza di un pattern complesso di ibridazione. La sequenza puo’ quindi essere utilizzata per identificare e clonare le altre. Lo screening di una library genomica identifica un numero di positivi superiori all’atteso e conferma la supposizione consentendo il clonaggio delle sequenze correlate. A partire da una sequenza nota di cui e’ noto esistere copie nel genoma attraverso l’uso di primers degenerati delle regioni che si suppone siano conservate, si possono amplificare tramite PCR,le altre sequenze Famiglie multigeniche Due sequenze vengono definite come appartenenti alla stessa famiglia quando presentano omologia di sequenza anche in una regione ristretta della sequenza. Si distinguono in: Famiglie multigeniche: DNA ripetuto che contiene geni funzionali Famiglie di sequenze di DNA non genico Famiglie multigeniche Le famiglie presentano variabilita’ nell’omologia con la sequenza di riferimento e nel grado con cui le sequenze conservate definiscono la famiglia. Ne deriva che l’appartenenza ad una famiglia e’ data non solo dall’omologia complessiva, ma dal presentare un dominio condiviso o organizzazione simile. Si possono presentare 1. raggruppati; 2. interspersi. Famiglie multigeniche (con elementi raggruppati) Alcuni membri (valido per il gruppo dei raggruppati che per i dispersi) possono essere non funzionali: pseudogeni Pseudogeni si distinguono in: Pseudogeni: 1. non processati 2. processati Pseudogeni non processati: 1.convenzionali 2.espressi Copie non funzionali del DNA genomico di un gene. Contengono esoni, introni e spesso le sequenze fiancheggianti. Data la loro somiglianza nell’organizzazione genomica, la loro natura non funzionale puo’ essere riconosciuta, a livello di sequenza, dalla presenza di codoni di stop nella regione corrispondente alla porzione codificante del gene funzionale o dalla presenza di un’elevato numero di mutazioni ognuna della quali originerebbe una molecola mutante. Sono comuni nelle famiglie di geni raggruppati Talvolta possono venire espressi a livello di RNA o addirittura come polipeptide, che non viene utilizzato nella molecola funzionale: gene della globina-θ, sicuramente viene espresso, ma non se ne riscontra la presenza nell’emoglobina funzionale Pseudogeni I Derivano da duplicazione genica rendono un locus hot-spot di mutazione Raggruppamento α-γλοβινε 16p13 ξ2 ψξ1 ψα2 Raggruppamento β-γλοβινε 11p15 ε Gγ Aγ Raggruppamento ormone della crescita 17q23 hCH-N CS-L ψα1 ψβ CS-A α2 α1 δ hCH-V θ β CS-B Pseudogeni I Derivano da duplicazione genica e accumulo progressivo di mutazioni pressione selettiva A lenta duplicazione diversificazione genica rapida A o o Funzione originale Funzione A2 correlata Nessuna ψA funzione Pseudogeni I Pseudogeni non processati sono presenti nel genoma in regioni non sinteniche con la copia codificante. Caratteristica di questi pseudogeni e’ di essere copie tronche del gene. La loro localizzazione e’ prevalentamente pericentromerica e la loro presenza in queste viene ascritta alla plasticita’ pericentromerica che costituisce un aspetto particolare della piu’ generale plasticita’ insita nel genoma umano….duplicazioni segmentali Pseudogeni II Pseudogeni processati: sono copie, in genere, non funzionali degli esoni di un gene espresso e si ritrovano nelle famiglie dei geni interspersi. La loro origine sembrerebbe dovuta all’integrazione di una sequenza di DNA originatesi per azione di una trascrittasi inversa. Geni si distinguono in tre categorie in relazione all’RNApol che li trascrive: classe I (geni per l’rRNA), classe II (geni per l’mRNA) e classe III (geni per i tRNA, RNA 5S ed RNA7SL) se sono copie di trascritti dalla RNApolimerasi II di solito non sono espressi perche’ privi del promotore. Possono venire espressi se integrati vicino ad un promotore, in questo caso l’espressione potrebbe non essere nello spazio e nel tempo quella originaria (espressione selettiva in un tessuto specifico e/o in uno specifico momento nello sviluppo: geni espressi nel testicolo, SRY) se sono copie di trascritti dalla RNApolimerasi III possono avere al loro interno il promotore ed essere espressi. Possono raggiungere un elevato numero di copie (sequenze Alu) Articoli da studiare ! !