Facoltà di Ingegneria dell’Informazione Laurea Specialistica e Magistrale in Ingegneria Informatica Facoltà di Ingegneria dei Sistemi Laurea Magistrale in Ingegneria Biomedica Dipartimento di Elettronica e Informazione Bioinformatica e Biologia Computazionale per la Medicina Molecolare Marco Masseroli, PhD [email protected] Bioinformatica e Biologia Computazionale per la Medicina Molecolare Misurazione dell’Espressione Genica Marco Masseroli, PhD [email protected] © Marco Masseroli, PhD 2 Misurazione Espressione Genica Indice • • • • • • • • • • Introduzione Tecniche di analisi di espressione genica Northern blot – Analisi di un singolo trascritto DNA microarrays Piattaforme tecnologiche - Filtri di nylon ad alta densità - cDNA microarray (spotted) - Microarray di oligonucleotidi Confronto cDNA vs oligonucleotidi Riassunto esperimento microarray Serial Analysis of Gene Expression (SAGE) Disegno sperimentale di studi del trascrittoma Esperimenti “statici” con microarray Esperimenti “dinamici” con microarray Analisi dati di espressione Acquisizione e pre-elaborazione segnale Data mining Problemi analisi dati di microarray Microarray and Gene Expression Data (MGED) Tools per l’analisi dati da microarray © Marco Masseroli, PhD 3 Misurazione Espressione Genica Introduzione Dai geni alle proteine © Marco Masseroli, PhD 4 Misurazione Espressione Genica Introduzione • Geni di cellula codificano un “pool” di informazione biologica • Espressione genica: conversione di informazione codificata in un gene, prima in RNA messaggero, poi in proteina • Non tutti geni sempre necessari alla vita di cellula Solo geni costitutivi sono sempre espressi Altri geni espressi quando serve • Espressione geni è regolata da necessità cellula: condizioni ambiente e funzioni da svolgere (es. geni per sintesi lattosio) • In organismi pluricellulari: L’ambiente di una cellula è l’organismo stesso A partire da una stessa cellula, meccanismo “regolazione genica differenziale” porta ad avere diverse cellule specializzate (tutte con stesso DNA) © Marco Masseroli, PhD 5 Misurazione Espressione Genica Introduzione • L’informazione genica è la stessa in tutte le cellule somatiche di un organismo. Specifica la natura di tutte le proteine presenti nell’organismo • L’espressione genica, e quindi proteica, si differenzia a seconda del tipo di cellula e della risposta all’ambiente (stato della cellula) • Il trascrittoma è l’insieme completo dei trascritti e dei loro livelli di espressione in un particolare tipo di cellule o di tessuto in condizioni ben definite • In una cellula viene espresso solo 20% circa del trascrittoma • N.B. I livelli dei trascritti non si traducono necessariamente in espressione o attività di proteine (alcuni trascritti non sono tradotti; alcune proteine tradotte non “funzionano”) © Marco Masseroli, PhD 6 Misurazione Espressione Genica Introduzione • Conoscere genoma e geni non basta per capire come un gene, una cellula, un organismo funzionano • Per capire gli organismi biologici nel loro complesso (e complessità) bisogna studiare: regolazione ed espressione dei geni funzionalità delle proteine espresse occorrenze quantitative dei metaboliti effetti dei difetti dei geni sul fenotipo di un organismo • Systems biology: studio delle interazioni tra i componenti di un sistema biologico, e di come tali interazioni determinano funzioni e comportamento del sistema © Marco Masseroli, PhD 7 Misurazione Espressione Genica Introduzione • Per l’analisi funzionale dei genomi esistono metodi moderni: Trascrittomica Proteomica Metabolomica • Generalmente utilizzano procedure high-throughput che richiedono rilevanti attività di gestione e analisi dei dati L’obbiettivo è identificare i componenti del sistema (i.e. trascritti, proteine, metaboliti) e loro interazioni e funzioni • Tali approcci di genotipizzazione (determinazione genotipo e suoi componenti di un individuo/organismo) devono essere correlati con, e completati da, analisi fenotipiche high-throughput di organismi modello e cellule in vitro © Marco Masseroli, PhD 8 Misurazione Espressione Genica Tecniche di analisi di espressione genica • Dopo sequenziamento (conoscenza della sequenza) e annotazione (conoscenza dei componenti: geni, elementi di regolazione, …) del genoma, l’analisi del trascrittoma è importante area di ricerca della scienza genomica funzionale • Come si misura l’espressione genica? • Metodi per esaminare il livello di espressione di un gene alla volta: RT-PCR (Reverse Transcriptase Polymerase Chain Reaction; amplifica numero di sequenze nucleotidiche specifiche derivate (per transcrittasi inversa) da mRNA) • Le principali tecniche di analisi di tutto il trascrittoma sono: Microarray a cDNA Microarray di oligonucleotidi SAGE (Serial Analysis of Gene Expression) © Marco Masseroli, PhD 9 Misurazione Espressione Genica Tecniche di analisi di espressione genica • 1980: analisi RNA di uno o pochi geni alla volta: Northern Blotting PCR quantitativa (Q-RT-PCR, o real-time PCR) • 1995 - …: analisi RNA dell’intero genoma (DNA microarrays) Tecniche di biologia molecolare Micro/Nano tecnologie Informatica - Alta densità (potenzialmente misura l’RNA di tutto il genoma della cellula) • Due tecnologie principali di DNA microarrays: cDNA spotted arrays (Schena et al. 1995) Oligonucleotide arrays (Lockhart et al. 1996) © Marco Masseroli, PhD 10 Misurazione Espressione Genica Northern blot - Analisi di un singolo trascritto Patologico Normale (riferimento) Northern blotting: tecnica di laboratorio per studiare l’espressione genica individuando l’RNA (o mRNA isolato) in un campione • Espressione genica: quantificazione del livello di abbondanza di un trascritto in un singolo campione • Regolazione genica: comportamento del trascritto in comparazione trattato-controllo Diminuzione dell’attività di un gene Aumento dell’attività di un gene Comparsa di una nuova attività genica © Marco Masseroli, PhD 11 Misurazione Espressione Genica Northern blot - Analisi di un singolo trascritto © Marco Masseroli, PhD 12 Misurazione Espressione Genica Northern blot - Analisi di un singolo trascritto • Northern blot: analisi di trascritti (mRNA) (video: http://www.youtube.com/watch?v=KfHZFyADnNg) • Southern blot: analisi di DNA (video: http://www.youtube.com/watch?v=ftkdAbV_5gE) • Western blot: analisi di proteine © Marco Masseroli, PhD 13 Misurazione Espressione Genica RT-PCR - Analisi di un singolo trascritto • La polymerase chain reaction (PCR) è una tecnica di laboratorio che sfrutta replicazione DNA per amplificare una singola o poche copie di specifica sequenza di DNA, lunga fino a ~10 kb, ma anche fino a 40 kb, sintetizzandone miliardi di copie (http://www.phgfoundation.org/ tutorials/dna/4.html) • PCR si basa su cicli termici ripetuti di riscaldamento e raffreddamento di una soluzione in cui avviene la reazione di replicazione del DNA (video: http://www.youtube.com/watch? v=_YgXcJ4n-kQ) © Marco Masseroli, PhD 14 Misurazione Espressione Genica RT-PCR - Analisi di un singolo trascritto • La reverse transcriptase polymerase chain reaction (RT-PCR) è variante della PCR, in cui un’elica di RNA è prima retro-trascritta nel suo DNA complementare (cDNA), usando l’enzima trascrittase inversa, e il risultante cDNA è amplificato mediante PCR tradizionale, o real-time PCR, realizzata in un ciclatore termico per il controllo automatico di tempi e temperatura • RT-PCR non va confusa con la real-time polymerase chain reaction, o PCR quantitativa (Q-PCR, o qRT-PCR) Ciclatore termico per PCR © Marco Masseroli, PhD 15 Misurazione Espressione Genica Clonaggio con plasmidi • Altro metodo per replicare tratti di DNA sfrutta i plasmidi (DNA extranucleare) di batteri (es. E. coli) come vettori per clonare sequenze di DNA • Frammenti di DNA da clonare, esogeno al batterio usato come vettore, vengono inseriti nella sequenza del DNA del plasmide utilizzando degli enzimi di restrizione, per tagliare il DNA del plasmide, e l’enzima DNA ligase per legare al DNA del plasmide il frammento di DNA da clonare, creando così un plasmide ricombinante (video: http://www.youtube.com/watch?v=acKWdNj936o http://www.youtube.com/watch?v=x2jUMG2E-ic) © Marco Masseroli, PhD 16 Misurazione Espressione Genica DNA microarrays Microarrays: disposizioni ordinate e miniaturizzate di frammenti di DNA con sequenze note su supporto solido Ciascuna posizione contiene un frammento di DNA (singola elica) specifico, chiamato sonda (probe), e complementare alla sequenza di un trascritto Quando il frammento è messo in presenza del frammento complementare, test, (mRNA marcato con fluorocromo), questi tenderanno ad appaiarsi per complementarietà con interazione forte In scansione, quantità di segnale di fluorescenza derivante da una specifica posizione dell’array è direttamente proporzionale ad abbondanza del trascritto corrispondente nel campione biologico utilizzato (http://www.phgfoundation.org/ tutorials/dna/6.html) © Marco Masseroli, PhD A B C D E 1 2 3 4 5 17 Misurazione Espressione Genica DNA microarrays • Applicazioni: non solo misurazione espressione genica: Misurazione abbondanza di un trascritto genico Caratterizzazione sequenza di un gene (es. esoni/introni) Caratterizzazione alterazioni del numero di copie di un dato gene o sequenza di DNA (es. dovute a mutazioni cromosomiche di duplicazione) Caratterizzazione interazioni DNA-proteine … © Marco Masseroli, PhD 18 Misurazione Espressione Genica DNA microarrays • DNA microarrays: principio e passi principali: Costruzione del microarray (supporto solido sul quale sono immobilizzati, in posizioni ben definite, migliaia di sequenze di geni differenti (sonde, o probes)) Estrazione RNA totale di cellule da esaminare (test) - Retrotrascrizione a cDNA (coding DNA), se necessaria - Amplificazione e marcatura Ibridazione (del test) al microarray Valutazione attività genica • Poiché permettono di determinare il profilo di espressione della cellula in un dato stato, si dice anche che consentono expression profiling © Marco Masseroli, PhD 19 Misurazione Espressione Genica DNA microarrays • ….. L’intensità della fluorescenza è misurata con uno scanner (confocale) ad alta sensibilità © Marco Masseroli, PhD 20 Misurazione Espressione Genica DNA microarrays • Una tecnologia che sta cambiando il modo di affrontare la biologia molecolare • I metodi tradizionali: un gene/alcuni geni osservati in un esperimento: manca una visione di insieme Ricerca guidata da ipotesi • Tecnologia con microarrays: migliaia di geni su un array al fine di studiare la loro funzione simultaneamente Ricerca che genera ipotesi, guidata dai dati • Due le tecnologie più utilizzate: cDNA microarray e oligonucleotide chip Entrambe misurano il livello di espressione genica in termini di abbondanza di mRNA © Marco Masseroli, PhD 21 Misurazione Espressione Genica DNA microarrays – Piattaforme tecnologiche High density filters (quasi obsoleti) cDNA microarrays Oligonucleotide arrays (oligo chips) Dettaglio: Dettaglio: Dettaglio: • ~2’400 cloni in 12 cm x 8 cm • marcatura radioattiva • 1 condizione sperimentale per filtro • ~25'000 cloni in 5 cm x 2 cm • marcatura fluorescente • 2 condizioni sperimentali per array © Marco Masseroli, PhD • ~60'000 geni in 1.28 cm x 1.28 cm • marcatura fluorescente • 1 condizione sperimentale per array 22 Misurazione Espressione Genica DNA microarrays – Filtri di nylon ad alta densità • Ormai poco usati • Devono essere comprati dal produttore • Sulla membrana di nylon del filtro è spottato un set di cDNA • La rappresentatività del filtro è definita dal costruttore • Filtro deve essere ibridizzato con cDNA, un campione per filtro • Campione è marcato con 33P-dCTP (marker radioattivo) • Immagine del filtro ibridizzato è ottenuta con fosfoimager • Intensità ibridizzazione valutata con software commerciali, ma ulteriori elaborazioni necessarie © Marco Masseroli, PhD 23 Misurazione Espressione Genica DNA microarrays – Filtri di nylon ad alta densità Vantaggi: • Tecnicamente facili: non sono necessarie procedure di setup o di fabbricazione • Di uso immediato: non richiedono strumentazione specifica • Relativamente poco costosi • Buona sensitività: sonde radioattive Svantaggi: • Utente non ha il controllo di cosa c’è effettivamente sul filtro • Bassa qualità dei cloni spottati • Qualità delle immagini bassa (alto background, macchie) • Confronto tra due filtri è difficile (sono necessari vari esperimenti replicati ed efficiente sistema di analisi) • Spesso sostituiti con cDNA microarray miniaturizzati © Marco Masseroli, PhD 24 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) 1. Preparazione del cDNA microarray: si utilizzano intere porzioni di ESTs (Expressed Sequence Tags, brevi sottosequenze di una sequenza di cDNA trascritto) Si fissano per ogni gene molte copie di EST (500-5’000 bp) ottenute da librerie di cDNA (amplificate tramite RT-PCR) su uno spot di un vetrino (10-50 spot per mm2). Ciascuna EST dovrebbe essere specifica (set unigenico) © Marco Masseroli, PhD 25 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) 2. Preparazione campioni : si preparano due campioni di mRNA, retrotrascritti a cDNA e resi fluorescenti con colori diversi (marcatori Cy3, verde, e Cy5, rosso). 3. Ibridizzazione: i campioni preparati sono messi a contatto con il cDNA microarray preparato; i geni espressi nei campioni si ibridizzano con la loro sequenza complementare sul microarray 4. Misura espressione genica: la misura di fluorescenza in ogni spot del microarray determina quali geni sono espressi in ciascuno dei due campioni Esempio: misura di fluorescenza di Cy5 effettuata con laser elio-neon (HeNe) a 633 nm e l’emissione avviene a 680 nm © Marco Masseroli, PhD 26 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Preparazione del microarray: Collezione di cloni (plasmidi in E. Coli) Cloni di cDNA sono selezionati e cresciuti Lisi dei batteri ed estrazione del DNA plasmidico Amplificazione del DNA in PCR Controllo su gel dei prodotti di PCR Preparazione in piastra da 384 (16x24) pozzetti Spotting su vetrino © Marco Masseroli, PhD 27 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Dettagli “tecnici”: • Possono esserci fino a 15’000 elementi per vetrino (ma più spesso ce ne sono circa 5’000) • I vetrini sono tipicamente grandi 2.5 x 2.5 cm Vetrini più lunghi possono essere usati ma richiedono campioni con una maggiore quantità di cDNA marcato • Gli spot distano tipicamente 120-250 µm • Vengono stampati da robot con testine contenenti da 4 a 32 puntine distanti tra di loro circa 1 cm • Esistono puntine di varie forme • Video: http://www.youtube.com/watch?v=Pjr1Oyc0KrY) © Marco Masseroli, PhD 28 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Vari tipi di puntine da stampa: A) I modelli a pinzetta, o a puntina divisa, trasferiscono piccolissime quantità (nanolitri) della soluzione di cDNA all’array tramite fenomeni di capillarità nel momento in cui la puntina tocca la superficie solida B) Le puntine e le estremità TeleChemTM applicano piccole goccioline tramite il contatto tra la puntina e il substrato © Marco Masseroli, PhD 29 Misurazione Espressione Genica DNA microarrays – cDNA microarray (spotted) C) Il modello a puntina-e-ansa raccoglie il cDNA in una piccola ansa e in seguito una puntina trasferisce la soluzione su un vetrino, mantenendo uniforme la densità D) I modelli a getto d’inchiostro (es. di STMicroelectronics) spruzzano quantità ancora più piccole (picolitri) di goccioline di liquido sotto pressione © Marco Masseroli, PhD 30 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Preparazione dei campioni, ibridizzazione e misura: © Marco Masseroli, PhD 31 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) • Sono complessivamente piuttosto costosi a causa del setup della loro preparazione Si devono ottenere cloni di cDNA attraverso amplificazione di EST tramite PCR (per ciascun spot occorrono 10 ng di materiale) Si usano cloni di lunghezza intorno alle 1-2 kb • Le soluzioni contenenti i cloni amplificati possono essere utilizzate per produrre sino a 1’000 vetrini • Servono 2 giorni per produrre 100 microarray con 5’000 geni • Infine occorre produrre cDNA marcati a partire dai campioni biologici, usando la trascrittasi inversa in presenza di nucleotidi resi fluorescenti o radioattivi © Marco Masseroli, PhD 32 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Il principio dell’analisi con microarray a cDNA • Dopo che frammenti di EST disposti in piastre da 96 o 384 pozzetti sono depositati ad alta densità su un vetrino da microscopio, si effettua una ibridizzazione sull’array con due diversi tipi di cDNA, contrassegnati con coloranti fluorescenti e derivati da campioni indipendenti di mRNA. • Dopo il lavaggio, un laser effettua una scansione del vetrino e si calcola il rapporto di fluorescenza indotta nei due campioni per ciascuna EST: questo valore indica la quantità relativa di trascritto per l’EST presente nei campioni • Video: http://www.youtube.com/watch?v=ffOgVQekKnk © Marco Masseroli, PhD 33 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Video: http://www.youtube.com/watch?v=VNsThMNjKhM © Marco Masseroli, PhD 34 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Immagini di cDNA microarray Rosso: gene espresso, per es. nei trattati ma non nei controlli Verde: gene espresso, per es. nei controlli ma non nei trattati Giallo: gene espresso in entrambi i campioni Grigio: gene non espresso in nessuno dei campioni © Marco Masseroli, PhD 35 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Tumor cell Dalle immagini ai dati: Healthy cell • Allineamento della griglia: ogni sonda deve essere localizzata nell’immagine dell’array • Segmentazione: identificazione dei pixels appartenenti a ogni spot • Estrazione dell’intensità: calcolo di un valore numerico che rappresenti il livello d’espressione (media, mediana, …) • Correzione del background: l’intensità del background è calcolata e sottratta dal valore di intensità dello spot • Qualità dello spot: sono calcolati parametri (es. circolarità, uniformità, diametro, …) per valutare la qualità di uno spot, di un vetrino e di un esperimento © Marco Masseroli, PhD 36 Misurazione Espressione Genica DNA microarrays – cDNA microarrays (spotted) Pregi e difetti della tecnica “spotted”: • Ibridazione competitiva: analisi su mRNA da cellule in due condizioni diverse Vantaggio: misure relative (spesso espresse sotto forma di log2) Svantaggio: definizione del riferimento, problemi colorimetrici, possibili differenze delle quantità dei due mRNA • Difficoltà di comparare risultati provenienti da differenti array: l’intensità dipende dalle quantità di sonde depositate • Si richiede molto mRNA per preparare il target (50-200 µg) © Marco Masseroli, PhD 37 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Microarrays di oligonucleotidi: genechips di Affymetrix e altri • Al posto delle EST ci sono oligonucleotidi lunghi 20-80 basi progettati per rappresentare ORFs • Composizione di ogni sequenza di oligonucleotidi: Perfect match (PM): una sequenza che può ibridizzarsi Mismatch (MM): una sequenza che non dovrebbe ibridizzarsi, dato che la base centrale e invertita PM ATGAGCTGATGCGATGCCATGAGAG MM ATGAGCTGATGCCATGCCATGAGAG Per ogni probe con sequenza di PM vi è sul chip un altro probe con sequenza di MM © Marco Masseroli, PhD 38 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi • Ogni gene viene rappresentato da un insieme di 10-20 oligonucleotidi (es. lunghi 25 bp nei chips Affymetrix), che corrispondono a varie posizioni sul gene che rappresentano © Marco Masseroli, PhD 39 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Costruzione di arrays di oligonucleotidi (realizzata da aziende specializzate che vendono tali arrays) Gli oligonucleotidi sono sintetizzati in situ sul chip di silicio tramite litografia, usando un lampo di luce e una maschera per permettere alla luce di colpire solo i punti richiesti sulla superficie del chip (processo simile a quello per la produzione delle CPU dei calcolatori) © Marco Masseroli, PhD 40 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi • In ciascun passaggio, il lampo di luce “deprotegge” (cioè libera) gli oligonucleotidi nel punto desiderato del chip; si aggiungono quindi nucleotidi “protetti” di uno dei quattro tipi possibili (A, C, G, o T), in modo che un solo nucleotide si aggiunga alle catene desiderate © Marco Masseroli, PhD 41 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Sintesi oligonucleotidi in sito • Su substrato di silicio vengono sintetizzati oligonucleotidi tramite cicli di addizione di uno specifico nucleotide in specifiche posizioni; I nucleotidi “bloccati” vengono deprotetti tramite esposizione alla luce • Sono accessibili all’aggiunta del nucleotide successivo soltanto quelli localizzati in corrispondenza dei buchi della maschera fotolitografica Vantaggi: - sequenze oligo verificate - lunghezza oligo predeterminata http://www.affymetrix.com/ Video: http://www.youtube.com/watch?v=MuN54ecfHPw © Marco Masseroli, PhD 42 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi La realizzazione di maschere fotolitografiche con risoluzione costantemente in aumento permette di sintetizzare sulla stessa superficie un numero di singole cellette sempre maggiore 7000000 6000000 Dimensioni cella (µm) Numero di celle sintetizzabili su “standard” array 12.8 mm2 25 262’144 18 505’679 11 1’354’000 8 2’560’000 5 6’553’600 2 … 1 … numero celle 5000000 4000000 3000000 2000000 1000000 0 25 µm 18 µm 11 µm 8 µm © Marco Masseroli, PhD 5 µm 43 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Maskless Array Synthesis (MAS): invece di maschere fotolitografiche, viene utilizzato un DMD (Digital Micromirror Device) che utilizza migliaia di specchi che riflettono la luce in specifiche posizioni del supporto solido per effettuare la deprotezione del gruppo chimico http://www.nimblegen.com/ © Marco Masseroli, PhD 44 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Microarray scannerizzato (con laser confocale) Ciascuna cella misura il livello di espressione di una sequenza genica Livello di espressione genica quantificato dall’intensità (I) della cella nell’immagine scannerizzata Espressione = avg[I(PM)-I(MM)] © Marco Masseroli, PhD 45 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Dalle immagini ai dati: stessi passi che per cDNA microarrays © Marco Masseroli, PhD 46 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Punteggio della detection • Si calcola il seguente score: Ri = [I(PM)i - I(MM)i] / [I(PM)i + I(MM)i] (range [1;-1]) • Determina l’abilità della sonda (probe) di identificare il target • Detection p-value: si effettua il test di ipotesi che lo score differisca significativamente da una soglia vicina a zero (si valuta l’evidenza di una ibridizzazione non casuale) Si usa il Wilcoxon signed ranked test © Marco Masseroli, PhD 47 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi • Una detection call descrive se l’ibridizzazione di un probe set è avvenuta (P, presente), non è avvenuta (A, assente) o è stata solo marginale (M) Viene assegnata sulla base del p-value • Valori suggeriti: Presente: p-value < 0.04 Marginale: 0.04 ≤ p-value ≤ 0.06 Assente: altrimenti 1 p-value 0 © Marco Masseroli, PhD 48 Misurazione Espressione Genica DNA microarrays – Microarrays di oligonucleotidi Commento • Procedura molto rapida ed efficace, ma è molto costoso fare le maschere, per cui questa tecnica è realizzata da aziende specializzate e utilizzabile solo per organismi modello • Richiede inoltre di progettare opportunamente la combinazione di sequenze di oligonucleotidi che discriminano tra le varie ORF • N.B. Come campione (test) si usa mRNA amplificato e marcato anziché cDNA (come nei cDNA microarray) © Marco Masseroli, PhD 49 Misurazione Espressione Genica DNA microarrays – Confronto cDNA vs oligonucleotidi • Microarrays a cDNA: Possono essere applicati a qualunque organismo senza necessità di aver sequenziato il genoma completo Complessivamente più economici (ma setup costoso) Sono più flessibili e si affidano all’ibridizzazione tra molte basi e non poche • in tale modo superano anche alcuni problemi legati ai polimorfismi • Attualmente esistono anche alcune altre soluzioni proposte da Agilent (http://www.home.agilent.com/) che usano oligonucleotidi più lunghi (con 60-80 basi) e deposizione a getto d’inchiostro © Marco Masseroli, PhD 50 Misurazione Espressione Genica DNA microarrays – Confronto cDNA vs oligonucleotidi • Chips di oligonucleotidi: Possono contenere una maggiore quantità di geni, anche geni previsti ma non ancora presenti in librerie di cDNA Sono utilizzabili anche da chi non ha le possibilità di costruirsi un vetrino Hanno probabilmente minore variabilità tra un chip e l’altro - E’ maggiormente possibile (anche se comunque difficoltosa) la comparazione dei dati prodotti da diversi gruppi di ricerca © Marco Masseroli, PhD 51 Misurazione Espressione Genica DNA microarrays – Confronto cDNA vs oligonucleotidi Piattaforma a due colori: 2 campioni biologici su 1 unico array (cDNA microarrays) normali tumorali Comparazione tra cellule Marcatura dei trascritti Geni che si comportano in modo DIVERSO Microarray contenente una rappresentazione dell’intero genoma = + Pseudocolor image © Marco Masseroli, PhD Pseudocolor image 52 Misurazione Espressione Genica DNA microarrays – Confronto cDNA vs oligonucleotidi Piattaforma a singolo colore: 1 campione biologico su 1 array (oligo chips) normali tumorali Comparazione tra cellule Marcatura dei trascritti Geni che si comportano in modo DIVERSO Microarray contenente una rappresentazione dell’intero genoma VS = Immagine rappresenta variazione di espressione (asse y) di vari geni (linee) sovra(arancione) e sotto- (azzurro) espressi in successivi istanti temporali (asse x) © Marco Masseroli, PhD 53 Misurazione Espressione Genica Riassunto esperimento microarray Spotted microarray In-situ synthesized microarray © Marco Masseroli, PhD 54 Misurazione Espressione Genica Riassunto esperimento microarray ID Trascritto Risultati lettura array Livello di espressione (rfu) [unità di fluorescenza relative] p-value I livelli di espressione di decine di migliaia di trascritti vengono quantificati in un unico esperimento Si parla quindi di analisi a livello genomico © Marco Masseroli, PhD 55 Misurazione Espressione Genica Riassunto esperimento microarray Ricerca trascritti regolati (in comparazione trattato-controllo) • L’analisi comparativa permette di comparare, per ciascun trascritto rappresentato, il livello di espressione in una condizione rispetto ad un’altra Comparando direttamente il livello di espressione del medesimo trascritto [probeset] • E’ così possibile identificare e quantificare in modo accurato le alterazioni a livello trascrizionale tra due campioni Controllo p16 = 1’000 rfu Trattato p16 = 2’500 rfu rfu: relative fluorescent unit © Marco Masseroli, PhD 56 Misurazione Espressione Genica Serial Analysis of Gene Expression (SAGE) Analisi SAGE • Metodo per determinare l’abbondanza (o concentrazione) assoluta di ciascun trascritto espresso in una popolazione di cellule mediante sequenziamento automatico in serie di marcatori specifici per ciascun gene, prodotti tramite tecniche molecolari collegate tra loro • Principi su cui si basa la SAGE: Una sequenza corta di 10-14 bp contiene informazioni sufficienti per identificare in modo univoco un trascritto - Queste sequenze possono essere attaccate le una alle altre per formare una sequenza più lunga Il numero di volte in cui appare una sequenza corta esprime livello di espressione di trascritto corrispondente © Marco Masseroli, PhD 57 Misurazione Espressione Genica Serial Analysis of Gene Expression (SAGE) • Vengono pertanto sequenziati in serie marcatori unici lunghi 15 bp In ciascuna reazione di sequenziamento vengono ottenuti fino a 50 marcatori • Solitamente si usano due marcatori per gene, quindi occorrono circa 50’000 marcatori per l’intero genoma umano Procedura complessa e molto costosa (5’000 euro per campione) - Non adatta per ripetere gli esperimenti diverse volte Fornisce quella che si ritiene la misura esatta del numero di trascritti © Marco Masseroli, PhD 58 Misurazione Espressione Genica Serial Analysis of Gene Expression (SAGE) Passi dell’analisi SAGE: 1. Isolare l’mRNA del campione biologico da analizzare 2. Trascrivere mRNA in cDNA 3. Tagliare le opportune sequenze del cDNA con enzimi di restrizione per ottenere brevi sequenze 4. Attaccare un adattatore creando un “di-tag” 5. Collegare i di-tag tra di loro 6. Amplificare in vettore batterico le catene lunghe di di-tag 7. Sequenziare le catene amplificate 8. Via software riconoscere le sequenze corte, contarle e associarle al relativo trascritto © Marco Masseroli, PhD 59 Misurazione Espressione Genica Serial Analysis of Gene Expression (SAGE) © Marco Masseroli, PhD 60 Misurazione Espressione Genica Microarray and Gene Expression Data (MGED) Sforzo di standardizzazione dei dati di microarray e annotazioni • Il gruppo MGED (Microarray and Gene Expression Data): http://www.mged.org/ • Obbiettivo del gruppo è di facilitare: l’adozione di standards per l’annotazione di esperimenti con DNA microarrays e la rappresentazione dei loro dati l’introduzione di controlli sperimentali e di metodi di normalizzazione dati/risultati • Coinvolge molti centri a livello mondiale (TIGR, Affymetrix, Stanford, Sanger, Agilent, Rosetta, ecc.) Coordinato da European Bioinformatics Institute (EBI) © Marco Masseroli, PhD 61 Misurazione Espressione Genica Microarray and Gene Expression Data (MGED) Glossario MGED (http://www.mged.org/) • MIAME (Minimum Information About a Microarray Experiment): standard per l’annotazione degli esperimenti • MAGE-OM (MicroArray Gene Expression - Object Model): modello dei dati generati con microarrays • ArrayExpress (http://www.ebi.ac.uk/microarray-as/ae/): database basato su MAGE-OM • MAGE-ML (MicroArray Gene Expression – Markup Language): linguaggio di markup per condividere, fra database, gli esperimenti e i loro dati • Expression Profiler (http://www.ebi.ac.uk/expressionprofiler/): strumento di analisi dei dati da microarrays che utilizza direttamente ArrayExpress © Marco Masseroli, PhD 62 Misurazione Espressione Genica Microarray and Gene Expression Data (MGED) Principi generali di MIAME [Brazma et al., Nature Genetics, 2001] • Le informazioni raccolte devono essere sufficienti per interpretare i risultati e replicare gli esperimenti • L’informazione deve essere strutturata in modo che l’interrogazione e l’analisi automatica siano fattibili © Marco Masseroli, PhD 63 Misurazione Espressione Genica Microarray and Gene Expression Data (MGED) Contenuto del database dal punto di vista dell’analisi dei dati • Campioni Annotazioni • Geni Annotazioni • Espressioni geniche Livelli di espressione © Marco Masseroli, PhD 64 Misurazione Espressione Genica Microarray and Gene Expression Data (MGED) ArrayExpress (http://www.ebi.ac.uk/microarray-as/ae/) • Database di dati di esperimenti con microarrays, in cui le informazioni sono riportate in modo standard Conforme con MIAME • Interfaccia Web: Queries: esperimenti, arrays, campioni Browsing: viste su esperimenti © Marco Masseroli, PhD 65 Misurazione Espressione Genica Microarray and Gene Expression Data (MGED) ArrayExpress - queries © Marco Masseroli, PhD 66 Misurazione Espressione Genica Microarray and Gene Expression Data (MGED) ArrayExpress - browsing: geni up o down regolati in esperimenti con Saccharomyces cerevisiae (lievito) in condizione di crescita “rehydration” © Marco Masseroli, PhD 67 Misurazione Espressione Genica Disegno sperimentale di studi del trascrittoma Disegni sperimentali di studi di espressione genica: • Esperimenti “statici” Due o più classi di soggetti (fenotipi/trattamenti diversi) - Esempio 1: Selezione di geni differenzialmente espressi (in diverse classi di soggetti) - Esempio 2: Classificazione (supervisionata) • Esperimenti “dinamici” Un soggetto a tempi diversi - Serie temporali di espressione genica durante una perturbazione - Esempio 3: Selezione di geni differenzialmente espressi nel tempo – Clustering © Marco Masseroli, PhD 68 Misurazione Espressione Genica Esperimenti “statici” con microarray Due o più classi di soggetti (fenotipi/trattamenti diversi) © Marco Masseroli, PhD 69 Misurazione Espressione Genica Esperimenti “statici” con microarray Esempio 1: Selezione di geni differenzialmente espressi (d.e.) © Marco Masseroli, PhD 70 Misurazione Espressione Genica Esperimenti “statici” con microarray Esempio 2: Classificazione (supervisionata) 6 gruppi (tipologie) di Leucemia linfoblastica acuta (ALL) infantile M=m1+m2=132; N=26’000 © Marco Masseroli, PhD 71 Misurazione Espressione Genica Esperimenti “dinamici” con microarray Un soggetto a tempi diversi © Marco Masseroli, PhD 72 Misurazione Espressione Genica Esperimenti “dinamici” con microarray Esempio 3: Selezione di geni differenzialmente espressi nel tempo Clustering 379 geni insulina-regolati Principalmente geni del metabolismo dei lipidi e del trasporto di elettroni Principalmente geni della glicolisi © Marco Masseroli, PhD 73 Misurazione Espressione Genica Esperimenti “dinamici” con microarray Esempio 3: Selezione di geni differenzialmente espressi nel tempo Reverse engineering • Gene networks • Synthetic biology © Marco Masseroli, PhD 74 Misurazione Espressione Genica Analisi dati di espressione Dati di espressione Immagini scannerizzate da microarrays © Marco Masseroli, PhD 75 Misurazione Espressione Genica Acquisizione e pre-elaborazione segnale • Acquisizione e pre-elaborazione del segnale (intensità della fluorescenza) includono: Analisi dell’immagine Normalizzazione di immagini/dati Trasformazioni dati • Software: GenePix, MAS5, … Immagini © Marco Masseroli, PhD Dati 76 Misurazione Espressione Genica Acquisizione e pre-elaborazione segnale • Analisi dell’immagine Identificare la posizione delle sonde (probes) relative ad ogni gene (Gridding) Differenziare i pixel relativi a foreground e background (Segmentation) Estrazione delle intensità delle varie aree dell’immagine © Marco Masseroli, PhD 77 Misurazione Espressione Genica Acquisizione e pre-elaborazione segnale Normalizzazione di immagini/dati • Identificare e rimuovere l’errore sistematico Es. diversa concentrazione delle sonde e diversa efficienza di ibridazione portano a differente luminosità delle misure fornite da diversi array - Per esperimenti che coinvolgono più array a oligonucleotidi si possono ad esempio scalare le misure in modo che le intensità medie siano tutte uguali Normalizzare sulla base di un insieme di geni che deve essere invariante tra le varie condizioni sperimentali, detti geni house keeping • Software: dChip (http://www.dchip.org/) © Marco Masseroli, PhD 78 Misurazione Espressione Genica Acquisizione e pre-elaborazione segnale Trasformazioni dati • Trasformazione logaritmica • Riconoscimento degli outliers • Gestione dei missing values © Marco Masseroli, PhD 79 Misurazione Espressione Genica Data mining • Selezione di geni differenzialmente espressi • Clustering, o class discovery Non supervisionato • Classificazione, o class prediction Supervisionata Dati di espressione © Marco Masseroli, PhD 80 Misurazione Espressione Genica Problemi analisi dati di microarray • Dimensione dei data sets • Differenti supporti • Differenti tecnologie sulle diverse piattaforme Oligonucleotidi / spotted cDNA • Riferimenti a database esterni non stabili Codici identificanti sequenze sul microarray possono variare in diverse versioni di database • Annotazioni dei campioni e degli arrays Spesso non complete/sufficienti e non realizzate con terminologia controllata © Marco Masseroli, PhD 81 Misurazione Espressione Genica Tools per l’analisi dati da microarray • Expression Profiler (http://www.ebi.ac.uk/expressionprofiler/) Tool completamente integrato con DB ArrayExpress • Bioconductor (http://www.bioconductor.org/) Strumento per analisi dati Risultato di un progetto software open source • Tools specializzati Public / open source Commercial © Marco Masseroli, PhD 82 Misurazione Espressione Genica Riferimenti Alcuni riferimenti: • Esempio interattivo di esperimento con microarray: http://www.bio.davidson.edu/courses/genomics/chip/chip.html • Animazione interattiva di PCR: http://www.dnalc.org/ddnalc/resources/pcr.html • Ibridizzazione DNA, sequenziamento, PCR, microarray: http://www.phgfoundation.org/tutorials/dna/ • I “nostri” tools: Microgen: http://www.bioinformatics.polimi.it/Microgen/ GAAS: http://www.bioinformatics.polimi.it/GAAS/ • Orange - Open source data visualization and analysis tool: http://www.ailab.si/orange/ © Marco Masseroli, PhD 83