L’espressione genica e il trascrittoma Genoma Insieme delle informazioni genetiche che caratterizzano un organismo. Trascrittoma Insieme degli RNA messaggeri prodotti da una determinata popolazione cellulare. Per ogni tipo cellulare diverso sono espressi all’incirca 10000 geni diversi. Proteoma Insieme delle proteine prodotte da una determinata popolazione cellulare. Differenziamento cellulare ESPRESSIONE DEL GENOMA UMANO NELLE CELLULE DIFFERENZIATE • Tutte le cellule di un organismo hanno lo stesso corredo genomico • L’espressione genica tessuto specifica determina il fenotipo morfo-funzionale dei tipi cellulari e tissutali • In ogni cellula differenziata ed in ogni particolare momento dello sviluppo e’ attivo solo un sottoinsieme di geni In tutti gli organismi viventi le informazioni contenute nel genoma non si esprimono contemporaneamente, e sono finemente regolate Geni ad espressione costitutiva (housekeeping) Geni ad espressione condizionale (inducibili, reprimibili) Geni specializzati (tessuto-specifici, stadio-specifici, che a loro volta possono essere costitutivi o condizionali) REGOLAZIONE DELL’ESPRESSIONE GENICA • Puo’ agire su ciascuno dei livelli che caratterizzano il passare dell’informazione genica dal DNA alle proteine • Negli Eucarioti superiori la regolazione dell’espressione genica si svolge principalmente come controllo della trascrizione • Principali tipi di regolazione: Controllo epigenetico Controllo trascrizionale Controllo post-trascrizionale Attivazione/inattivazione dell’espressione genica negli eucarioti: • Decisioni cellulari durante lo sviluppo: ad es. differenziamento (geni accesi/spenti) • Regolazione del ciclo cellulare (attivazione e inattivazione ciclica) • Attivazione cellulare in risposta a mediatori esterni quali fattori di crescita, ormoni etc. (reversibile, rapida) “One-gene approach” Il gene di interesse e’ espresso in un tessuto o in un dato momento dello sviluppo ? Quanto e’ attivo dal punto di vista trascrizionale ? Real Time PCR PCR semiquantitativa Ibridazione DNA genico o cDNA con RNA totale o poly(A)+RNA (Northern blot) Ibridazione in situ “Large-scale approach” Quali geni sono espressi in un tessuto ed in un dato momento dello sviluppo ? Quanto ciascuno di essi e’ attivo dal punto di vista trascrizionale ? Profilo d’espressione del genoma (TRASCRITTOMA) Metodi per lo studio su larga scala dell’espressione genica Sequenziamento sistematico di ESTs da librerie di cDNA cDNA microarrays SAGE (Serial Analysis of Gene Expression) Preparazione librerie cDNA Clonati in batteri Sequenziamento librerie cDNA Il sequenziamento del DNA “codificante” si basa sulla purificazione dell'RNA messaggero da cellule o da campioni di tessuto e sulla sua retrotrascrizione in vitro in una sequenza di DNA complementare (cDNA). In genere i cDNA vengono frammentati e clonati in vettori batterici. Si ottengono in questo modo delle collezioni di batteri, nelle quali ogni colonia contiene un inserto corrispondente ad un frammento di sequenza di un gene espresso, dette librerie di cDNA. Conversione dell’mRNA in cDNA per trascrizione inversa AAAAA RT TTTTT RT AAAAA TTTTT Il primer oligo dT lega mRNA La trascrittasi inversa copia il primo strand di cDNA La RT digerisce e stacca mRNA e AAAAA RT copia il secondo TTTTT strand cDNA cDNA a doppio filamento Sequenziamento librerie cDNA Primers universali • Scoprire l’esistenza di nuovi geni • Associare l’espressione di geni a linee cellulari e tessuti diversi •Determinare la sequenza completa dei trascritti Cosa sono le Expressed Sequence Tags (EST)? sequencing sequencing cDNA 5’EST 200~500 nucleotidi 3’EST Cosa sono le Expressed Sequence Tags (EST)? Chromosome sequence Mapping back to chromosome sequence 5’EST 3’EST Cosa sono le Expressed Sequence Tags (EST)? • LeESTs sono piccoli frammenti di sequenze di DNA (200-500 nt) generati per sequenziamento di una o entrambe le estremità di un gene espresso. L’idea è sequenziare porzioni di DNA che rappresentano i geni espressi in determinate cellule, tessuti e organi da differenti organismi e usare queste “tags” per individuare un gene su una porzione di DNA cromosomico per appaiamento di basi. Identificare i geni con questo metodo può essere complicato dalla presenza di introni. Normalizzazione delle librerie di cDNA N° di copie N° di copie Al fine di trovare con la stessa probabilità sia le sequenze abbondanti che quelle rare si attua una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il fatto che i cDNA più abbondanti, si appaiano o ibridizzano più rapidamente e possono essere rimossi dall’insieme di cDNA di partenza. In questo modo l’insieme rimanente si svuota delle sequenze più abbondanti ovvero si arricchisce di quelle più rare. Tipo di cDNA Tipo di cDNA Supponendo di avere il cDNA di 8 geni espressi con intensità diversa, mostriamo il grafico dell’abbondanza di copie di cDNA prima e dopo la normalizzazione della libreria. Si perdono le informazioni sul livello di espressione dei geni, si usa per scoprire nuovi geni. I microarray di cDNA Esperimenti microarray 5 fasi: • spotting del DNA sonda • preparazione cDNA target • ibridazione • lettura (SCAN) • analisi statistica e gestione dati Acquisizione immagini da microarray cDNA • Identificazione della posizione degli spot • Costruzione di un’area locale intorno ad ogni spot • Calcolo dell’intensità di ogni singolo spot (mediana dell’intensità dei pixel) • Calcolo del background locale Come si misura l’espressione dei geni? Metodo del campione di riferimento Calcolare il rapporto tra le intensità della fluorescenza, dopo adatte trasformazioni, per due campioni analizzati tramite ibridazione competitiva sullo stesso microarray. Un campione funziona come controllo, o “campione di riferimento” ed è marcato con un colorante che ha uno spettro di fluorescenza diverso dall’altro. Per convenzione una induzione (o repressione) dell’espressione genica pari a due volte il livello di espressione nel campione di riferimento indica un cambiamento significativo. Metodo del campione di riferimento = malato = sano Gene 1 Gene 2 Normalizzazione dei dati Molte variabili possono influire sui risultati è necessaria una normalizzazione dei dati per eliminare distorsioni sistematiche – efficienza diversa delle due marcature; – diverse quantità di mRNA per un canale e per l’altro (Cy3 e Cy5); – diversi parametri di scansione; – bilanciamento dei laser; – effetti di punte, effetti spaziali o di supporto. •Normalizzazione per intensita' totale •Normalizzazione con metodi di regressione •Normalizzazione con metodi di rapporto Intensità totale: assume che la quantità iniziale di mRNA sia identica nei due campioni. Le fluttuazioni sono bilanciate in modo che la quantità totale di RNA che si lega all’array per ogni campione sia la stessa. Nelle situazioni di sbilanciamento può essere calcolato un fattore di normalizzazione in grado di ricondurre alla situazione di uguale intensità totale. Metodo di regressione: Assume che usando mRNA di campioni simili, la maggior parte dei geni sia espressa allo stesso livello. In uno scatterplot i geni si raggruppano lungo una linea la cui pendenza è 1. Prevede la ricerca della migliore interpolazione con metodi di regressione Metodo del rapporto:assume che la quantità totale di RNA prodotto sia circa la stessa per geni essenziali come gli housekeeping. E’ possibile sviluppare una funzione di probabilità approssimata per il rapporto tra i due canali, utilizzata sia per normalizzare i dati sia per identificare geni espressi differenzialmente. Matrice di dati righe = espressione del singolo gene in diverse condizioni colonne = rappresentano le condizioni analizzate Ad ogni cella si assegna il valore relativo di espressione: rapporto tra l’intensità di un gene a una data condizione rispetto alla condizione standard (i dati sono trasformati come log in base2) Identificazione di geni differenzialmente espressi Un gene viene considerato differenzialmente espresso se la sua espressione genica si discosta dalla situazione di uguale espressione nei due canali in modo significativo. • metodo del valore soglia: valori > valore soglia positivo valori < valore soglia negativo sovraespressi sottoespressi il valore soglia ottimale dipende dalla qualità dei dati: usare controlli di qualità interni per determinare la soglia di confidenza. Analisi statistiche più rigorose Metodo dell’ANOVA Metodo dell’ANOVA (analisi della varianza) Sviluppata per verificare la significatività delle differenze tra le medie aritmetiche di vari gruppi. Confronto simultaneo tra due o più medie. I dati vengono trasformati in log2 e i canali normalizzati, quindi viene utilizzato il metodo dell’ANOVA: Livello di espressione standardizzato • sono necessarie numerose repliche per ogni esperimento • non c’è bisogno di un campione di riferimento 1 0 -1 1 2 3 4 Ripetizione dell’esperimento Microarray a oligonucleotidi GeneChip Affymetrix Ibridizzazione della sonda marcata Scansione del GeneChip con scanner laser Elaborazione dei dati Microarray a cDNA e a oligo: 2 tecniche a confronto Microarray a cDNA: • applicabili a qualunque organismo • più economici = più repliche • più flessibili per progettazione sperimentale • l’ibridazione è su migliaia di basi ( non decine) Microarray a oligo: • si possono analizzare un n > di geni • variabilità minore da chip a chip • non sono necessari macchinari, si possono acquistare • possono essere confrontati dati di diversi gruppi di ricerca Estrazione di dati da microarray Qual è il senso biologico dei dati?: individuare geni con profili di espressione simili e riunirli in gruppi. Il raggruppamento implica la co-regolazione, quindi i geni sono coinvolti in processi biologici simili. Oltre a descrivere la risposta dei geni ai diversi trattamenti, l’analisi dei microarray descrive i livelli di regolazione coordinata dell’espressione genica su scala genomica. Può portare a formulare ipotesi di funzione per geni sconosciuti. Estrazione di dati da microarray Metodi di clustering: sono metodi di statistica multivariata che raggruppano unità statistiche sulla base di misure di similarità/ dissimilarità. Simili rispetto a cosa ? Definizione di distanza I geni sono punti nello spazio: punti vicini nello spazio sono raggruppati insieme Distanze Distanza Euclidea: raggruppa geni che hanno andamenti simili a livelli di espressione simili. Correlazione di Pearson: raggruppa geni che hanno andamenti simili indipendentemente dal livello di espressione che hanno. Algoritmi di clustering Gli algoritmi di clustering si basano sulla misura di vicinanza scelta. Ogni algoritmo è caratterizzato dal metodo utilizzato per identificare i gruppi omogenei di elementi Gerarchici Non Gerarchici Algoritmi per il Clustering Divisivi Aggregativi Gerarchici: non necessitano di informazioni a priori (botton-up) Non-gerarchici: cercano di raggruppare gli elementi in un numero predefinito k di gruppi (top-down) Divisivi: da un unico cluster con tutti gli elementi procede dividendolo in cluster più piccoli Aggregativi: partono con tanti cluster quanti sono i geni e procedono raggruppandoli in cluster sempre più grandi Tipico algoritmo gerarchico agglomerativo • L’algoritmo è semplice 1. Calcola la matrice di distanze a coppie 2. All’inizio, ogni punto è un singolo cluster 3. Unisci i cluster più vicini 4. Aggiorna la matrice di distanze 5. Ripetere i punti precedenti fino a quando rimane un singolo cluster • L’operazione chiave è il calcolo della vicinanza tra due cluster – Questo concetto di vicinanza costituisce la differenza principale tra algoritmi differenti Esempio di calcolo clustering gerarchico Come calcolo le nuove distanze? 3 metodi: Legame semplice Legame completo Legame intermedio Algoritmi non-gerarchici Cercano di raggruppare gli elementi in modo tale che siano il più possibile omogenei all’interno dei cluster e il più possibile disomogenei tra i vari cluster k-means Procedura iterativa: 1. Scegli un numero di classi 2. Assegna gli oggetti alle classi (a caso o in base ad un’altra classificazione) 3. Sposta gli oggetti nelle classi il cui centroide è più vicino (la varianza intra-classe diminuisce) 4. Ripeti lo step 3 finchè non c’è più nessun cambiamento nella composizione delle classi Risultati del clustering gerarchico Analisi Componenti Principali (PCA) La PCA è una tecnica per la riduzione del numero di variabili casuali che descrivono un fenomeno. L’obiettivo e’ quello di identificare un sottoinsieme di variabili casuali dalle quali dipende la maggiore varianza (‘variabilità’) del fenomeno OBIETTIVI • Ridurre la dimensionalità di un dataset, composto da p variabili tra loro correlate; • Trovare relazioni non precedentemente sospettate tra le variabili. Determinazione abbondanza assoluta La tecnica dei microarray non fornisce dati sui livelli assoluti di espressione: un metodo per determinare l’abbondanza assoluta di ciascun trascritto espresso in una data popolazione di cellule è l’analisi seriale dell’espressione genica (SAGE, serial analysis of gene expression) SAGE è un metodo sperimentale ideato per utilizzare i vantaggi del sequenziamento su larga scala per avere informazioni quantitative di espressione genica (Velculescu et al. 1995, Zhang et al, 1997) Il metodo non è influenzato da fattori come i campioni di riferimento, gli artefatti di ibridazione o la frequenza dei cloni e fornisce una misura precisa del vero numero trascritti per ogni cellula. E’ un metodo molto costoso e non consente ripetizioni di esperimenti. Sintesi DNA a doppia elica a partire dai messaggeri con primer oligo(dT) biotinilato Taglio con enzima di restrizione ed isolamento della porzione 3’ del cDNA per purificazione mediante sfere a streptavidina Separazione del cDNA in 2 aliquote, ciascuna ligata con un linker diverso, contenente un sito di taglio per un enzima di restrizione (tagging enzyme) che taglia ad una distanza definita dal sito riconociuto (20bp) Il linker con attaccato un breve tratto di cDNA (9-12 bp) viene rilasciato Ligazione tags a due a due, taglio ditags in modo da creare estremita’ coesive Analisi automatizzata dei risultati: identificazione di tutte le specie di tags, conteggio della frequenza di ciascuna, assegnazione a sequenze geniche note ed annotazione Clonaggio dei concatameri e sequenziamento Le tag possono essere unite insieme in serie, a costituire lunghe molecole di DNA, che vengono clonate e sequenziate in modo automatizzato Isolamento delle “tag” Ligazione Sequenziamento Livellodi espressione Quantificazione di ciascuna “tag” e determinazione del pattern di espressione GENE GENE Normale Normale GENE GENE Alterato Alterato Il risultato della SAGE e’ di tipo digitale: una lista di tags e la frequenza di ciascuna di esse La fase in cui si stabilisce la corrispondenza tra tag e gene e’ cruciale per una corretta stima del livello di espressione del gene La corrispondenza tag-gene non e’ sempre biunivoca,come ci si aspetterebbe Gli errori di sequenziamento hanno effetti molto pesanti sui dati SAGE (1% 10% che ci sia almeno 1 errore su 10 bp) Le assegnazioni tag/EST sono affette da un errore maggiore La tecnica consiste nel sequenziamento da messaggeri cellulari di brevi oligonucleotidi, che fungono da etichette di sequenza (TAG). Il numero di volte in cui una singola “tag” viene osservata permette di quantificare l’abbondanza del messaggero identificato nella popolazione dei messaggeri e, indirettamente il livello di espressione del gene corrispondente Tecnologia basata su MICROSFERE Metodo MegaCloneTM Permette un clonaggio parallelo in un sistema acellulare di centinaia di migliaia di cloni genomici o do DNA. • una tag (etichetta) è legata all’estremità 3’ di ciascun frammento di DNA (cDNA) e la sequenza è amplificata mediante PCR • gli amplificati vengono legati su microsfere mediante ibridazione con la sequenza complementare (anti-tag) legata con legami covalenti alla microsfera • le sequenze vengono separate per citometria di flusso e clonate e sequenziate oppure sequenziate con il metodo del sequenziamento su larga scala con contrassegni in parallelo (MPSS) • negli studi comparativi è possibile separare le microsfere in base all’ abbondanza dei trascritti Clonaggio in parallelo con l’uso di TAGs I. Costruzione della library Brenner et al., PNAS 97:1665-70. cDNA TTTTTTT TTTTTTTT AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA TTTTTTT TTTTTTTT AAAAAAA AAAAAAA AAAAAAA TTTTTTTT AAAAAAA AAAAAAA TTTTTTTTT AAAAAAA TTTTTTTT GATC GATC TTTTTTTT AAAAAAA AAAAAAA TTTTTTTTTT AAAAAAA AAAAAAA AAAAAAA AAAAAAA Ogni microsfera contiene il prodotto derivato dal terminale 3’di un singolo trascritto 1) Marcatura con Tag 2) Amplificazione tramite PCR AAAAA TTTTT 3) Ibridazione con microsfera III. Sequenziamento diretto II. Separazione per citometria a flusso + NNNN 4321 Brenner et al., Nat. Biotech. 18:630-4. NNNX RS CODEX1 NNXN RS CODEX2 NXNN RS CODEX3 XNNN RS CODEX4 2) Sequence by hybridization 16 cycles for 4 bp Caso studio sull’utilizzo dei microarray Oltre a costruire atlanti di espressione genica, molti studi del trascrittoma hanno iniziato a identificare le differenze di espressione genica nelle cellule tumorali e quelle associate ad altre malattie umane. Gli scopi di questi studi sono: • ottenere una migliore classificazione dei tipi di tumori e identificare i tipi cellulari da cui i tumori provengono • caratterizzare i profili di espressione che possono aiutare a prevedere la risposta terapeutica • raggruppare i geni per formulare ipotesi riguardanti il loro meccanismo di azione nella cancerogenesi • identificare nuovi bersagli genici per la chemioterapia Ross et al. 2000 : tipi di tumori simili tra loro tendono a condividere profili di espressione genica, in parte correlati alle differenze caratteristiche del loro tessuto di origine. Hanno inoltre identificato marcatori che possono rivelarsi utili nella diagnosi clinica e suggeriscono funzioni per geni non ancora caratterizzati. Scherf et al. 2000: l’esposizione di linee cellulari tumorali a oltre 70000 composti ha permesso di ottenere una classificazione in parallelo dei tipi di tumore in base all’attività di inibizione da parte del farmaco. Profili di espressione in risposta ai farmaci 3 analisi di clustering di tipo gerarchico: • 1 cluster per valutare il livello di espressione genica • 1 cluster per valutare la sensibilità ad un gruppo di farmaci • 1 cluster per valutare la correlazione tra il livello di espressione genica e la sensibilità ai farmaci Questo tipo di analisi consente di identificare i geni candidati coinvolti nella risposta ai farmaci. Marcatori di prognosi Con i microarray è possibile prevedere la mortalità o la risposta terapeutica delle leucemie. Alizadeh et al 2000: identificazione dei profili di espressione che raggruppano le leucemie in gruppi correlati con la prognosi a lungo termine. Variabilità di espressione di circa 8000 geni unici tra 60 linee cellulari provenienti dal National Cancer Institute Analisi del pattern di espressione genica e la loro relazione con le proprietà fenotipiche di 60 linee cellulari METODI • 9703 cDNA umani che includono 8000 geni differenti • campione di riferimento mRNA da 12 linee cellulari • la variazione in espressione si ottiene normalizzando il rapporto Cy5/Cy3 • algoritmo di clustering gerarchico e matrice di visualizzazione • l’obiettivo è raggruppare linee cellulari con repertori simili di geni espressi e raggruppare quei geni i cui livelli di espressione variano in modo simile tra le 60 linee cellulari • campioni in triplicato per valutare la varianza delle analisi • analisi di clustering effettuata due volte usando sotto-gruppi di geni per valutare la robustezza dell’analisi Pattern di espressione relativo al tessuto di origine • 1161 cDNA che variavano di almeno 7 volte rispetto al riferimento • nella matrice le righe rappresentano i livelli di espressione aggiustati sulla media, le colonne le linee cellulari • linee cellulari che hanno origine dallo stesso tessuto raggruppano insieme • le linee cellulari del carcinoma del polmone e del tumore al seno presentano patterns più eterogenei Pattern di espressione relativo ad altri fenotipi cellulari • 6831 con le misurazioni più attendibili nel set di riferimento • i tre cluster d, e, f sono arricchiti con geni con variazione dei livelli di espressione correlata con il tasso di proliferazione della linea cellulare • i geni ridondanti clusterizzano insieme confermando la riproducibilità e consistenza delle misurazioni • l’elevata espressione di geni coinvolti nel metabolismo dei farmaci può riflettere una selezione per la resistenza ai chemioterapici Clusters genici relativi alle caratteristiche del tessuto nelle linee cellulari a geni altamente espressi nelle linee cellulari derivate da leucemia b cluster di geni espressi nel colon e seno, moderatamente espressi ovaio e polmone c cluster di geni espressi nelle linee del melanoma d geni altamente espressi in tutti i glioblastoma: la > parte derivano dal carcinoma renale Confronto espressione genica campioni clinici di tumore al seno e colture di linee cellulari (tumore al seno e leucemia) Confronto del pattern di espressione di due biopsie di cancro al seno con con un campione di tessuto normale e le linee cellulari derivate da tumore al seno e leucemia. Il tumore al seno ha una complessa organizzazione istologica. L’analisi ha permesso di individuare il contributo di ogni tipo cellulare che costituisce la struttura della ghiandola. Caratteristiche istologiche delle biopsie le linee cellulari hanno espressione > di geni del cluster di proliferazione dovuto alla coltivazione in vitro CONCLUSIONI • Microarray a cDNA - costruzione delle librerie Analisi di clustering - normalizzazione • Microaray a oligonucleotidi - creazione dei genechip • metodi per valutare l’abbondanza assoluta - metodo SAGE - tecnica delle microsfere