Dott.ssa Silvia Pellegrini Laboratorio Microarray Dipartimento di Patologia Sperimentale, Biotecnologie Mediche, Infettivologia ed Epidemiologia Tel. 050 2211251 e-mail: [email protected] Le scienze della vita sono attualmente al centro di una vera e propria rivoluzione 1953: modello di Watson e Crick Progetto Genoma Umano 1990 2003 Genoma L’insieme di tutte le molecole di DNA presenti nel nucleo di ogni cellula Nell’uomo: 44 cromosomi autosomici 2 cromosomi sessuali Struttura del DNA 2 2 2 cromosoma nucleo cellula Coppie di basi istoni Doppia elica gene della beta-globina umana 1 61 121 181 241 301 361 421 481 541 601 661 721 781 841 901 961 1021 1081 1141 1201 1261 1321 1381 1441 1501 1561 1621 1681 1741 1801 1861 1921 1981 2041 ccctgtggag ccagggctgg aactgtgttc tctgccgtta ggcaggttgg ggagacagag ttttcccacc tggggatctg gaaagtgctc tgccacactg gagtctatgg taggaagggg agtgtggaag cttttgttta atgccttaac aaaaaacttt catattcata catatttatg taattttgca cttatttcta tgcctctttg tatttctgca gctaatagca ggattattct tcccacagct tcaccccacc cccacaagta tccctaagtc gcctaataaa tactaaaaag caaaccttgg gctaatgcac ttcttgtaga ttgttttagc tcagccttga ccacacccta gcataaaagt actagcaacc ctgccctgtg tatcaaggtt aagactcttg cttaggctgc tccactcctg ggtgccttta agtgagctgc gacccttgat agaagtaaca tctcaggatc attcttgctt attgtgtata acacagtctg atctccctac ggttaaagtg tttgtaattt atactttccc caccattcta tataaatatt gctacaatcc gagtccaagc cctgggcaac agtgcaggct tcactaagct caactactaa aaacatttat ggaatgtggg gaaaatacac attggcaaca ggcttgattt tgtcctcatg ct gggttggcca cagggcagag tcaaacagac gggcaaggtg acaagacagg ggtttctgat tggtggtcta atgctgttat gtgatggcct actgtgacaa gttttctttc gggtacagtt gttttagttt tctttttttt acaaaaggaa cctagtacat tttattttct taatgtttta taaaaaatgc taatctcttt aagaataaca tctgcatata agctaccatt taggcccttt gtgctggtct gcctatcaga cgctttcttg actgggggat tttcattgca aggtcagtgc tatatcttaa gcccctgatg gcaggttaaa aatgtctttt atctactccc ccatctattg accatggtgc aacgtggatg tttaaggaga aggcactgac cccttggacc gggcaaccct ggctcacctg gctgcacgtg cccttctttt tagaatggga cttttatttg tcttctccgc atatctctga tactatttgg tttattttta atatgtgtac tttcttcttt ctttcagggc gtgataattt aattgtaact ctgcttttat tgctaatcat gtgtgctggc aagtggtggc ctgtccaatt attatgaagg atgatgtatt atttaaaaca actccatgaa cctatgcctt gttttgctat cactacccat aggagcaggg cttacatttg acctgactcc aagttggtgg ccaatagaaa tctctctgcc cagaggttct aaggtgaagg gacaacctca gatcctgaga ctatggttaa aacagacgaa ctgttcataa aatttttact gatacattaa aatatatgtg attgatacat acatattgac taatatactt aataatgata ctgggttaag gatgtaagag tttatggttg gttcatacct ccatcacttt tggtgtggct tctattaaag gccttgagca taaattattt taaagaaatg agaaggtgag attcatccct gctgtatttt ttgcttatcc agggcaggag cttctgacac tgaggagaag tgaggccctg ctgggcatgt tattggtcta ttgagtcctt ctcatggcaa agggcacctt acttcagggt gttcatgtca tgattgcatc caattgtttt attatactta gtaacttaaa tgcttatttg aatcattata caaatcaggg ttttgtttat caatgtatca gcaatagcaa gtttcatatt ggataaggct cttatcttcc ggcaaagaat aatgccctgg gttcctttgt tctggattct ctgaatattt atgagctgtt gctgcaacca cagaaaagga acattactta tgcatctctc Il contenuto di informazioni del DNA umano è dato dall’alternanza di 4 lettere A, G, T, C Flusso delle informazioni genetiche Il codice genetico Alcuni dati sul genoma umano 3 miliardi di paia di basi 2% codificanti Circa 20.000 geni diversi Più di 10 milioni di variazioni Non siamo tutti uguali… Non esiste un’unica sequenza del genoma umano, ma circa il 10% dei 3 miliardi di paia di basi che compongono il genoma umano variano da individuo a individuo e costituiscono dei polimorfismi genetici. Polimorfismi genetici Forme alleliche diverse di una stessa sequenza presenti in più dell’1% degli individui di una popolazione I. Single Nucleotide--SNPs II. “indel” (inserzioni/delezioni) G TGACG A TG Variable Number of Tandem Repeats SNP (Single Nucleotide Polymorphism) Polimorfismi a singolo nucleotide ovvero cambiamenti di una base Una sequenza di DNA di 60 basi in 25 soggetti diversi SNPs • Variazioni di sequenza comuni • Possono avere un significato funzionale diretto – Aumento dell’attività della proteina – Diminuzione dell’attività della proteina • Possono essere semplicemente associati ad altre variazioni di sequenza con significato funzionale • Possono essere silenti Variazioni di una base nella regione codificante di un gene portano ad un’alterazione della sequenza aminoacidica della proteina corrispondente con possibile cambiamento funzionale Esempio di variazione di una sola base di tipo causativo anemia a cellule falciformi Hb-A Hb-S GAA > GAG Glu > Val globuli rossi a falce Molto più complicato è il caso delle malattie multifattoriali causate dall’alterazione di più geni che agiscono in concomitanza con numerosi fattori ambientali In questo caso le alterazioni geniche rappresentano fattori di suscettibilità, ciascuno dei quali contribuisce in una certa misura alla malattia, che si manifesterà soltanto quando i fattori di rischio nel loro insieme (geni e ambiente) superano una data soglia ApoE e malattia di Alzheimer 112 158 ApoE ε2 GACGTGTGCGGCCGC……CAGAAGTGCCTGGCA ApoE ε3 GACGTGTGCGGCCGC……CAGAAGCGCCTGGCA ApoE ε4 GACGTGCGCGGCCGC……CAGAAGCGCCTGGCA ApoE ε2 Cys Cys ApoE ε3 Cys Arg ApoE ε4 Arg Arg Major depression episodes (%) 35 “s” genotype (n = 581) 35 30 30 25 25 20 20 15 15 10 10 5 5 0 n0= (184) “l” genotype (n = 264) 1 2 0 1 2 4+ (138) 3 (104) (64) n0 = (79) (3) 3 (57)4+ (91)of individuals having different numbers (29) Groups of life events (26) I polimorfismi possono essere responsabili di una diversa suscettibilità alle malattie… …come pure della variabilità individuale nella risposta alla terapia farmacologica Farmacogenetica Esamina le varianti genetiche che determinano la risposta ad un farmaco e studia il modo in cui queste varianti possono essere usate per prevedere il tipo di risposta •Farmaco giusto •dose giusta •paziente gusto Selezione sulla base di fattori predisponenti alle malattie Selezione sulla base di fattori responsabili di una diversa risposta al trattamento Terapia personalizzata diagnosi precoce A caccia di alleli di suscettibilità T A TG A T T G CC G C T A G G Studi di associazione casi-controlli Popolazione senza malattia Popolazione con malattia SNP A T TG C A T G C C A G T A G G T A TG A T T G CC G C T A G G Gene A Malati Controlli sani Nessuna variante del gene (verde o nera) è associata con la malattia Gene B La variante rossa del gene è associata con la malattia Malati Questo tipo di analisi può essere fatto senza conoscere la funzione del gene Controlli sani Selezione delle due popolazioni • devono differire solo per il fenotipo di interesse • devono essere il più omogenee possibile per tutti gli altri aspetti (sesso, età, etnia…) • non devono esserci stratificazioni all’interno (= sottogruppi diversi) • devono essere sufficientemente numerose (la numerosità del campione per rilevare associazioni statisticamente significative dipende dalla frequenza degli SNP studiati) Single SNP analysis Genotyping of candidate genes and SNPs Whole genome scans L’utilizzo degli aplotipi può facilitare l’analisi da Nature 426, 789-796 (2003) HapMap project http://www.hapmap.org Il futuro: l’intero assetto genetico su un chip grande come una carta di credito La necessità di un approccio informatico alla ricerca nel settore biomedico deriva da questa recente esplosione di informazioni biologiche generate dalla comunità scientifica BIOINFORMATICA Disciplina situata all’interfaccia tra informatica e scienze biologiche (quali la biologia molecolare e la genetica) che applica algoritmi informatici per la risoluzione di problemi biologici Questa quantità enorme di informazioni è conservata e resa disponibile per l’intera comunità scientifica da tre organismi principali NCBI = National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov EMBL = European Molecular Biology Laboratory http://www.embl-heidelberg.de KEGG =Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/ creano Database di pubblico accesso diffondono informazioni biomediche sviluppano software per l’analisi di dati