UNIVERSITA’ DEGLI STUDI DI PISA LAUREA IN INGEGNERIA BIOMEDICA CORSO DI ANALISI E MODELLI DI SEGNALI BIOMEDICI Erika Melissari Microarray a DNA: tecnologie di costruzione dei vetrini Microarray a cDNA - sonde sintetizzate prima dell’ancoraggio al vetrino - lunghezza delle sonde: 200-400 mer - tecnologia spotted microarray Microarray ad oligonucleotidi - sonde sintetizzate direttamente sul vetrinosintetizzazione in situ - oligonucleotidi corti; lunghezza delle sonde: 20-40 mer (Affymetrix GeneChip) - oligonucleotidi lunghi; lunghezza delle sonde: 60 mer (Agilent) I microarray: la tecnologia “Spotted” Array Affymetrix GeneChip® I microarray: la tecnologia Agilent® Esperimento microarray COMPARATIVO Classe/i sperimentale/i vs classe di controllo Metto a confronto molti campioni provenienti da 2 o più popolazioni. P.es. campioni di tessuto o di cellule: -Trattati con farmaco vs non trattati con farmaco -Tumorali vs sani -Cuore vs Fegato vs Polmone QUANTITATIVO Per ciascun gene ottengo una quantificazione numerica della differenza di espressione fra le popolazioni che sto confrontando: Fold-Change Def: Fold-Change: -calcolato per ciascun gene -rapporto fra il valore medio dell’espressione del gene nei campioni in condizione sperimentale vs il valore medio dell’espressione del gene nei campioni in condizione di controllo Microarray per l’analisi dell’espressione genica Centinaia di copie monofilamento di regioni specifiche di ciascun gene formano uno SPOT Fase “wet” di un esperimento microarray Estrazione mRNA Retrotrascrizione e Marcatura Ibridazione Scansione Analisi dei dati Immagine 16-bit formatoTIFF Quantizzazione deidei dati dati Quantizzazione Pre-trattamento dei dati Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione del risultato Quantizzazione dei dati Trasformazione dell’informazione di colore in informazione numerica Scansione + estrazione dei valori di foreground e di background Scansione del vetrino Scansione Scansione del vetrino Scanner a due laser Lunghezze d’onda di eccitazione/assorbimento dei fluorocromi 635 nm - Red 532 nm - Green Canali separati in acquisizione formazione di due immagini Codifica su 16 bit: 2^16 = 65536 livelli di colore Occupazione di memoria: 250 MB 1GB Risoluzione spaziale: 52 μm Quantizzazione dei dati • “Gridding” dell’immagine GAL file (Gene Array List file) Segmentazione Segmentazione perspaziale intensità • Segmentazione: spaziale; per intensità; • Segnale Background Estrazione delle intensità del foreground (segnale proveniente da ibridizzazione specifica) e del background (rumore). Per ciascuno spot: media dei pixel; mediana dei pixel. Analisi dei dati Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento deidei dati dati Pre-trattamento Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione del risultato Pre-trattamento dei dati • Correzione del background Fenomeni che generano per sottrazione dal segnale utile del rumore (background): suo valore calcolato su aree dedicate esterne allo del spotsegnale “legame campione netto marcato al microarray in aree esterne allo spot spotting” scorretto; legami aspecifici del campione con il • Applicazione supporto;di indicatori di qualità agli spot per la selezione dei geni giudicati idonei per la successiva analisi fluorescenza propria di reagenti eliminatidel consegnale netto / SD del rumore SNRnon = Mediana il lavaggio. Analisi dei dati Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento dei dati Normalizzazione Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed interpretazione del risultato Normalizzazione (1) DEF: Correzione dell’effetto sistematico di fonti di variabilità che possono influenzare i risultati di un esperimento microarray. Tali fonti possono essere generate da: Quantità iniziali diverse di RNA ibridizzato sul vetrino; Diversa efficienza di incorporazione dei due fluorocromi durante il processo di marcatura; Diversa efficienza dello scanner nell’eccitazione dei due fluorofori; Diversa efficienza dei due fluorofori nell’emissione dell’energia acquistata; Diversa efficienza dello scanner nell’acquisizione dei due canali. Ipotesi biologica che “autorizza” il processo di normalizzazione Ipotesi: la condizione sperimentale studiata influenza significativamente l’espressione di “pochi” geni rispetto alla totalità dei geni presenti sul vetrino N.B.: valida solo su vetrini dove è possibile indagare l’intero trascrittoma di un organismo Normalizzazione (2) Esperimento Self-Self: è un metodo utilizzato durante i primi studi sui microarray che ha consentito di rilevare la presenza di errori sistematici. Due aliquote dello stesso campione vengono marcate con i due fluorofori e ibridizzate sullo stesso vetrino SCATTERPLOT MA-PLOT A =½ log (R*G) M = log (R/G) Fold Change Perché si usa il log del FoldChange? Intervalli di rappresentatività dell’espressione differenziale -Rende uguali gli intervalli di rappresentatività dei geni sotto-espressi e dei geni sovra-espressi -Rende gaussiana la distribuzione dei log(Fold-Change) Normalizzazione (3) Il processo di normalizzazione è necessario anche per confrontare e mettere insieme dati provenienti da repliche Repliche sperimentali: l’mRNA estratto da ogni individuo viene diviso in aliquote, marcato e ibridizzato su almeno tre vetrini insieme a un altro campione marcato con l’altro fluoroforomiglioro la qualità delle osservazioni su ciascun individuo, ma ciò non è sufficiente per quantificare l’espressione media di un gene in una popolazione di individui dello stesso tipo Repliche biologiche: l’mRNA proviene da campioni biologici dello stesso tipo ma distinti (ad esempio individui diversi). Ciascuno di essi viene marcato e ibridizzato una o al più due volte su rispettivamente uno o due vetrini miglioro l’accuratezza nella stima della media di popolazione, ma peggioro quella del singolo individuo 1. Le repliche migliorano l’accuratezza della misura. Più repliche abbiamo, meglio riusciamo ad osservare la quota random degli errori...ma i costi??? Come disegno un esperimento efficiente? DEF: Efficienza ~ 1/varianza delle stime “Posso comprare solo 10 array ma non ho problemi a reperire campioni.” posso puntare a migliorare la misurazione della differenza media di espressione nelle popolazioni a confrontonon ibridizzo copie sperimentali ma copie biologiche “Ho solo 10 campioni (non ho problemi a comprare array).” posso puntare a migliorare l’efficienza nella misurazione dell’espressione nei singoli campioniibridizzo più copie sperimentali per ciascun campione 2. Non è sempre possibile realizzare esperimenti con il massimo livello di replicazioneBisogna stabilire qual è il disegno sperimentale più EFFICIENTE rispetto al quesito biologico che si vuole indagare e al budget a disposizione Normalizzazione (4) • Normalizzazione within array per correggere errori sistematici su ciascun array separatamente • Normalizzazione between arrays per correggere errori sistematici che possono rendere eterogenei array biologicamente simili (copie sperimentali o biologiche) Normalizzazione within array 1. Normalizzazione globale -> Centraggio della distribuzione log2 R/G norm= log2 R/G ± c Non normalizzata Normalizzata Normalizzazione within array 2. Normalizzazione intensità-dipendente Interpolazione (fitting) LO(W)ESS (LOcally WEighted polynomial regreSSion) globale -Fisso l’ampiezza della finestra di dati -Calcolo la curva di smooting reale attraverso l’interpolazione polinomiale dei dati contenuti nella finestra -Sposto la finestra e ri-calcolo la curva di smooting al suo interno -“Raccordo” i pezzi in modo che non vi siano discontinuità e ricostruisco la curva di smooting reale complessiva “spazzolando” tutta la distribuzione dei dati - Per ciascuna finestra calcolo lo scostamento fra smooting reale e smooting ideale - “Sposto” i dati contenuti nella finestra in modo da azzerare lo scostamento Normalizzazione between arrays Normalizzazione scale riscalatura della dispersione dei logfold-change fra array per equilibrare i valori di M fra array scale 4 copie biologiche di swirl zebrafish (danio rerio) Analisi dei dati Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento dei dati Normalizzazione Estrazione dei Estrazione deidatidati di espressione differenziale di espressione differenziale Verifica biologica ed interpretazione del risultato Estrazione dei risultati Metodi statistici - t-statistic, ANOVA (ANalysis Of VAriance), Bayesian-statistic, S-score e test su permutazione dei dati Lista di geni differenzialmente espressi - A ciascun gene è associato un p-value e un valore di log(fold-change) medio, rappresentativo della differenza di espressione rilevata fra il gruppo di soggetti che formano il campione sperimentale e il gruppo dei soggetti di controllo Lista di geni differenzialmente espressi Rank GeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1 DUSP1 NM_004417 ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA 0.7606655 0.0004 2 SRGAP1 BC029919 gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA 1.0329521 0.00038 3 HES1 NM_005524 0.7117039 0.00026 4 SMAD3 U68019 -0.4286814 0.00021 5 RHEBL1 NM_144593 -0.5070915 0.00018 7 FZD10 NM_007197 -0.6491815 0.00015 8 RGS16 NM_002928 0.6270794 0.00012 9 GPR56 NM_201525 -0.3310189 0.0001 10 ZNF831 NM_178457 0.3905212 0.008 11 TFPI NM_001032281 -0.5849317 0.0075 ... ... ... ... ... ... 2500 BTG1 NM_001731 ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA -0.3668739 0.05 ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA Analisi dei dati Immagine 16-bit formatoTIFF Quantizzazione dei dati Pre-trattamento dei dati Normalizzazione Estrazione dei dati di espressione differenziale Verifica biologica ed Verifica biologica ed interpretazione dei risultati interpretazione del risultato Verifica biologica ed Interpretazione dei risultati Validare un sottoinsieme di geni differenzialmente espressi attraverso metodiche alternative (real time RT-PCR) Analizzare la lista dei geni DE per formulare ipotesi sul fenomeno biologico indagato attraverso informazioni sui singoli genisingle-gene analysis ricostruzione di reti biochimiche (pathway) di trasmissione del segnale pathway analysis caratterizzazione ontologicagene ontology analysis Lista di geni differenzialmente espressi Rank GeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1 DUSP1 NM_004417 ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA 0.7606655 0.0004 2 SRGAP1 BC029919 gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA 1.0329521 0.00038 3 HES1 NM_005524 0.7117039 0.00026 4 SMAD3 U68019 -0.4286814 0.00021 5 RHEBL1 NM_144593 -0.5070915 0.00018 7 FZD10 NM_007197 -0.6491815 0.00015 8 RGS16 NM_002928 0.6270794 0.00012 9 GPR56 NM_201525 -0.3310189 0.0001 10 ZNF831 NM_178457 0.3905212 0.008 11 TFPI NM_001032281 -0.5849317 0.0075 ... ... ... ... ... ... 2500 BTG1 NM_001731 ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA -0.3668739 0.05 ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA Interpretazione biologica e single gene analysis Rank GeneSymbol Accession Number (Transcript) Description Differential expression (Up- or Down-regulation) P-value 1 DUSP1 NM_004417 ref|Homo sapiens dual specificity phosphatase 1 (DUSP1), mRNA 0.7606655 0.0004 2 SRGAP1 BC029919 gb|Homo sapiens SLIT-ROBO Rho GTPase activating protein 1, mRNA 1.0329521 0.00038 3 HES1 NM_005524 0.7117039 0.00026 4 SMAD3 U68019 -0.4286814 0.00021 5 RHEBL1 NM_144593 -0.5070915 0.00018 7 FZD10 NM_007197 -0.6491815 0.00015 8 RGS16 NM_002928 0.6270794 0.00012 9 GPR56 NM_201525 -0.3310189 0.0001 10 ZNF831 NM_178457 0.3905212 0.008 11 TFPI NM_001032281 -0.5849317 0.0075 ... ... ... ... ... ... 2500 BTG1 NM_001731 ref|Homo sapiens B-cell translocation gene 1, anti-proliferative (BTG1), mRNA -0.3668739 0.05 ref|Homo sapiens hairy and enhancer of split 1, (Drosophila) (HES1), mRNA gb|Homo sapiens mad protein homolog (hMAD-3) mRNA, complete cds ref|Homo sapiens Ras homolog enriched in brain like 1 (RHEBL1), mRNA ref|Homo sapiens frizzled homolog 10 (Drosophila) (FZD10), mRNA ref|Homo sapiens regulator of G-protein signaling 16 (RGS16), mRNA ref|Homo sapiens G protein-coupled receptor 56 (GPR56), transcript variant 3, mRNA ref|Homo sapiens zinc finger protein 831 (ZNF831), mRNA ref|Homo sapiens tissue factor pathway inhibitor (lipoprotein-associated coagulation inhibitor) (TFPI), transcript variant 2, mRNA Banche dati Banche dati NCBI http://www.ncbi.nlm.nih.gov/ - GeneInfo sui geni - Nucleotide Info sui trascritti - PubMedRicerca di pubblicazioni scientifiche di ambito medico - …. Kegg http://www.genome.jp/kegg/ - Kegg GenesInfo sui geni e sui trascritti - Kegg PathwayInfo sulle reti di trasduzione del segnale genico (pathway) Gene Ontology http://www.geneontology.org/ Informazioni sulla classificazione ontologica dei geni\prodotti genici Per sapere qualcosa in più su un gene: Banche dati per l’annotazione dei geni Banche dati NCBI http://www.ncbi.nlm.nih.gov/ - GeneInfo sui geni - Nucleotide Info sui trascritti - Homologene Info sugli omologhi - OMIMInfo su malattie Mendeliane - PubMedRicerca di pubblicazioni di ambito medico/scientifico - …. Banca dati Gene Nome (GeneSymbol) del genepuò essere identico per organismi differenti Banca dati Nucleotide Codice del trascrittoè specifico per ogni organismo “Portale”di informazioni bio-molecolari GeneCards http://www.genecards.org/ …ma le interazioni? Interpretazione biologica della lista dei geni differenzialmente espressi: pathway e ontological analyses Utilizzare le informazioni contenute in: - reti di interazione biochimica e di trasduzione del segnale genomico (pathway) pathway analysis - Ontologie functional analysis relative a gruppi di geni differenzialmente espressi allo scopo di ipotizzare quale sia l’effetto a livello molecolare del fenomeno biologico indagato Per sapere qualcosa in più sulle interazioni fra geni: Banche dati di pathway e ontologie Kegg http://www.genome.jp/kegg/ contiene: - Kegg GenesInfo sui geni e sui trascritti - Kegg PathwayInfo sulle reti di trasduzione del segnale genico (pathway) Gene Ontology http://www.geneontology.org/ contiene: Informazioni sulla classificazione ontologica dei geni\prodotti genici KEGG http://www.genome.jp/kegg/ General pathway Human Pathway Ogni scatolina rappresenta un gene. I simboli: rappresenta un’attivazione fra due geni --| rappresenta una inibizione fra due geni human Cos’è un’ontologia? An ontology is a specification of a conceptualization that is designed for reuse across multiple applications and implementations. …a specification of a conceptualization is a written, formal description of a set of concepts and relationships in a domain of interest. Peter Karp (2000) Bioinformatics 16:269 … un insieme di definizioni Cos’è un’ontologia genica? Ontologia genica: un vocabolario di definizioni, indipendente dall’organismo, che descrive i geni attraverso i loro prodotti genici (proteine) • “trasferimento” delle informazioni funzionali fra organismi differenti a parità di complessità del genoma • “trasferimento” delle informazioni funzionali da organismi “meno complessi” ad organismi “più complessi” • univocità nella descrizione delle caratteristiche di un gene Tre ontologie • Funzione molecolare -> funzione biochimica di un prodotto genico - enzima, lega gli ioni calcio, lega i nucleotidi, etc • Processo biologico -> processo di co-regolazione all’interno del quale il prodotto genico può essere inserito - metabolismo di una molecola, glicolisi, ciclo della cellula, apoptosi • Componente cellulare -> “luogo” della cellula nel quale un determinato prodotto genico può agire - membrana cellulare, reticolo endoplasmatico Struttura gerarchica -> DAG (grafi aciclici diretti) Componente cellulare Dove agisce un prodotto Componente cellulare Componente cellulare Funzione molecolare Attività o compito del prodotto genico glucose-6-phosphate isomerase activity Funzione molecolare insulin binding insulin receptor activity 24th Feb 2006 Jane Lomax Processo biologico -una serie di eventi a cui prende parte il prodotto cell division Processo biologico transcription Processo biologico regulation of gluconeogenesis DAG Categorie ontologiche o GO term: tutti i sottolivelli di un’ontologia Ontologie -> A ciascun GO term è associata: - una definizione - un insieme di geni che in esso vengono annotati per ciascun organismo Categorie ontologiche Struttura di un’ontologia Ogni ontologia non è una lista di termini biologici, ma è strutturata in livelli gerarchici Software per l’analisi di pathway e di ontologie Pathway Analysis - Pathway-Express Functional Analysis - Onto-Express NB: questi software ricevono come input la lista dei geni differenzialmente espressi PathwayExpress : http://vortex.cs.wayne.edu/projects.htm Impact Analysis: mappatura dei geni differenzialmente espressi nei pathway molecolari e valutazione della propagazione della perturbazione della trasduzione del segnale genico provocata dalla variazione di espressione genica PathwayExpress : http://vortex.cs.wayne.edu/projects.htm L’Impact Factor è formato da tre contributi: - Numero di geni differenzialmente espressi mappati in un pathway rispetto al numero di geni che formano il pathwaylivello di rappresentatività della lista dei geni DE nel pathway - Fold-change dei geni differenzialmente espressi mappatientità della perturbazione del pathway provocata dai geni differenzialmente espressi - Posizione dei geni differenzialmente espressi all’interno del pathwayun gene posizionato a monte (p.es. sulla membrana cellulare o su un nodo cui fa capo una sottorete) di una cascata di segnale è “più importante” di un gene posizionato a valle 62 OntoExpress: http://vortex.cs.wayne.edu/projects.htm Over-representation analysis: ci sono dei gruppi di geni differenzialmente espressi rappresentati in maniera “sproporzionata” in qualche GO term? Questa rappresentatività “sproporzionata” è statisticamente significativa rispetto al totale dei geni che vengono annotati in quel GO term? Cellular Component Molecular Function Biological Process 63 Info Erika Melissari Ospedale S. Chiara, edificio 43, secondo piano Ospedale S. Chiara, edificio 43, piano terra, c/o Laboratorio Dott.ssa Pellegrini [email protected] Iscrizione all’esame e date appelli www.ing.unipi.it Prenotazione esami Materiale http://131.114.94.135/lezioni/bioingegneria/Biologia_Molecolare/