Biologia Molecolare Caratterizzazione di un gene clonato Il sequenziamento Sequenziare significa determinare la successione dei monomeri che costituiscono un polimero biologico •PROTEINE (sequenza di Aminoacidi) •DNA (sequenza di nucleotidi) •DNA Genomico •cDNA Principi del sequenziamento del DNA Molte tecniche di biologia molecolare si basano sulla possibilità di replicare molecole di DNA in vitro: -Molecola stampo -Nucleotidi trifosfato -DNA polimerasi -Primers -Appropriato buffer di reazione La replicazione del DNA I Nucleotidi utilizzati durante questa sintesi non sono nucleotidi normali (cioè nucleosidi-fosfato) ma sono nucleosidi trifosfato. Questi legami fosfato sono legami ad alta energia, la loro rottura e la liberazione del pirofosfato fornisce energia più che sufficiente per la generazione del nuovo legame covalente tra un nucleotide e un altro Metodo di Sanger Metodo di Sanger Sequenziamento automatico • Stesso principio del metodo di Sanger • Il primer o i ddNTP sono marcati con un marcatore fuorescente • Lettura tramite laser della molecola appena questa esce dal gel • Utilizzo di una sola corsia – Se si marca il primer? – Se si marcano i ddNTP • Gel di poliacrillamide o capillare • Dato di sequenza acquisito automaticamente e trasferito al computer Interpretazione automatica del dato elettroferogramma Allungare la sequenza • Con i metodi automatici è possibile ottenere sequenze oltre il migliaio di basi • Con l’allungamento della sequenza diminuisce la risoluzione e l’intensità del segnale • Aumento probabilità che una struttura secondaria termini la sintesi • L’affidabilità diminuisce allontanandosi dal primer Walking Sequenziamento shotgun • Per sequenziare un frammento lungo la migliore stratgia è quella di dividerlo in framenti più piccoli. • Il DNA può essere frammentato e clonato in una librerie M13 o in plasmidi. • La libreria deve contenere frammenti parzialmente sovrapposti • Dalla libreria si prelevano cloni a caso e si sequenziano Sequenziamento shotgun Diminuzione della produttività • Una accurata determinazione del 90% della sequenza può essere ottenuta molto rapidamente • Per ottenere un ulteriore 9% sarà necessario un tempo paragonabile a quello utilizzato per ottenere il 90% • Una quantità simile di lavoro sarà necessaria per ottenere un ulteriore 0,9% Il flusso dell’informazione genica Il dogma centrale della biologia •L’informazione genica è contenuta nel DNA •Questa informazione è perpetuata nelle generazioni future tramite il processo semiconservativo chiamato duplicazione del DNA •L’espressione della informazione genica è invece un processo che passa attraverso un intermediario transitorio: l’RNA messaggero. Questa molecola è sintetizzata sulla base di uno STAMPO sul DNA e l’informazione in esso contenuta serve per dirigere la sintesi di proteine. •L’informazione passa (quasi) sempre dal DNA all’RNA e da questo alle proteine. Mantenimento dell’informazione DNA Trasferimento dell’informazione Trascrizione Retrotrascrizione RNA Traduzione Informazione contenuta nella Informazione contenuta nella Effettuata da alcuni virus sequenza a RNA sequenza e nella quantità chiamati retrovirus Ruolo funzionale Proteina Informazione contenuta nella struttura e nella quantità IL DNA: natura ed informazione Contenuto informativo del DNA La struttura del DNA è costante. Il DNA è sempre una doppia elica INDIPENDENTEMENTE dalla sequenza di nucleotidi che lo compone. L’ossatura di zucchero e fosfato è costante. La parte variabile, e quindi più informativa, è rappresentata dalla sequenza di BASI AZOTATE. Per questo motivo, in bioinformatica, l’informazione contenuta nel DNA è rappresentata da una stringa composta da un alternanza 4 caratteri che rappresentano le basi azotate del DNA. GCGGCGGCGGGCGGGTACTGGCTTCTGGGGCCAGGGGCCAGGGGCGGTGGGCGCCGGGACCGCGG AGCTGAGGAGCGGGGCCCGGCCAGGGCTGGAGACTTTGCGCCCGGGGGCACCGGGGCTGCGCGCGG TCGCACACATCCACCGGCGCGGCTTCCCTCGGCGGCCCGGGCTCCGCTCATCCTGCGGCGGGCGGCG CCGCTCAGGGGCGGGAAGAGGAGGCGGTAGACGCGACCACAGAAGATGTCGGGCCAAACGCTCACGG ATCGGATCGCCGCCGCTCAGTACAGCGTTACAGGCTCTGCTGTAGCAAGAGCGGTCTGCAAAGCCACTA CTCATGAAGTAATGGGCCCCAAGAAAAAGCACCTGGACTATTTGATCCAGGCTACCAACGAGACCAATGT TAATATTCCTCAGATGGCCGACACTCTCTTTGAGCGGGCAACAAACAGTAGCTGGGTGGTTGTGTTTAAG GCTTTAGTGACAACACATCATCTCATGGTGCATGGAAATGAGAGATTTATTCAATATTTGGCTTCTAGAAATA CACTATTCAATCTCAGCAATTTTTTGGACAAAAGTGGATCCCATGGTTATGATATGTCTACCTTCATAA I Geni • Il gene è l'unità ereditaria e funzionale degli organismi viventi. • La maggior parte dei geni codifica proteine, che sono le macromolecole maggiormente coinvolte nei processi biochimici e metabolici della cellula. • Altri geni non codificano proteine, ma producono RNA non codificante, che può giocare un ruolo fondamentale nella sintesi delle proteine e nell'espressione genica (La trascrizione del DNA in RNA e la traduzione dell'RNA in proteina). • Parte del contenuto dei geni non viene trascritto, ma può coordinare la stessa espressione genica. • Tra queste regioni figurano i promotori, i terminatori e gli introni . Struttura del gene Non tutti gli esoni codificano • Gli esoni sono normalmente codificanti, ad eccezione di quelli alle estremità 5' e 3' del gene. • Tali esoni prendono il nome di UTR (UnTranslated Region). Introni Esoni • In questo caso il 5' UTR è costituito da tutto il 1° esone e da parte del 2° esone (regione arancione). • La regione codificante è indicata in blu, inizia nel 2° esone e termina nell'ultimo esone. • Il 3' UTR è costituito da parte dell'ultimo esone (regione gialla). I Geni • Il gene è l’unità ereditaria e funzionale degli organismi viventi; ad esso sono associate molteplici informazioni: Analisi Filogenetica Struttura Sequenze omologhe in altri genomi Sequenza Gene Proteina (Funzione) Localizzazione genomica Le sequenze biologiche • Le sequenze nucleotidiche vengono rappresentate mediante stringhe su un alfabeto di 4 caratteri (A, C, G, T), nelle quali ciascun carattere rappresenta un singolo nucleotide. • Analogamente le sequenze proteiche (o aminoacidiche) vengono rappresentate mediante stringhe su un alfabeto di 20 caratteri, ciascuno dei quali rappresenta un singolo aminoacido. Lo Standard IUB/IUPAC Acidi Nucleici A Adenina R G o A (Purine) B GTC C Citosina Y T o C (Pirimidine) D GAT G Guanina K GoT H ACT T Timina M AoC V GCA U Uracile W AoT N A C G T (Any) - Gap Aminoacidi A Alanina B Acido Aspartico o Asparagina C Cisteina D Acido Aspartico E Acido Glutammico F Fenilalanina G Glicina H Istidina I Isoleucina K Lisina L Leucina M Metionina N Asparagina P Prolina Q Glutammina R Arginina S Serina T Treonina U Selenocisteina V Valina W Triptofano Y Tirosina Z Acido Glutammico o Glutammina X Qualsiasi (Any) * Stop traduzione - Gap NCBI • NCBI (National Center for Biotechnology Information) è l’istituto americano che ospita GenBank, una delle tre banche dati primarie di sequenze nucleotidiche (http://www.ncbi.nlm.nih.gov). • Oltre a GenBank in NCBI sono disponibili numerosi altri Database tra cui: – GenPept: Database di sequenze proteiche – Gene: Database di geni – Pubmed: Database di letteratura biomedica (Abstract, articoli e citazioni) • NCBI offre anche svariati strumenti per l’analisi di dati biologici tra cui BLAST, un tool che permette di effettuare ricerche per similarità nei database di sequenze. Entrez • I vari database di NCBI sono accessibili mediante un unico motore di ricerca che prende il nome di Entrez: http://www.ncbi.nlm.nih.gov/Entrez/index.html Esempio di ricerca: BAX (1) • Ricerchiamo i dati relativi al gene BAX utilizzando Entrez: • Otterremo i risultati suddivisi per categoria: Esempio: BAX (2) • Nella pagina dei risultati relativi alle nucleotidiche clicchiamo sul link alla cercata: sequenze sequenza • A questo punto otterremo la pagina coi risultati (formato GenBank), che andiamo a vedere nel dettaglio nella prossima slide. Esempio: BAX (3) LunghezzaTipo delladi sequenza sequenza Accession Organismo Number Riferimenti bibliografici Esempio: BAX (4) Link alla regione codificante Estremi della CDS Link alla proteina corrispondente Esempio: BAX (5) • Cliccando su “CDS” otteniamo la regione codificante della sequenza: Il formato FASTA • E’ possibile scegliere il formato di visualizzazione della sequenza; scegliamo il formato più utilizzato, il FASTA. • E’ anche possibile inviare la sequenza nel formato prescelto direttamente su file (Send to -> File). Esempio: BAX (6) • A questo punto andiamo a visualizzare la proteina codificata cliccando sul link relativo; si aprirà una pagina simile a quella vista per la sequenza nucleotidica (formato GenPept): Esempio: BAX (7) • Facciamo adesso un passo indietro tornando alla schermata di Entrez. Clicchiamo su Gene: Esempio: BAX (8) • Verrà visualizzata una pagina con informazioni dettagliate sul gene: Accession Number della entry di Gene Informazioni Nome del gene varie sul gene, e specie di tassonomia, appartenenza tipo, breve descrizione Esempio: BAX (9) • Scorrendo la pagina si trovano le informazioni strutturali: Accession number della sequenza del gene Accession numbers dei rispettivi geni (GenBank) Struttura delle Accession number isoforme del gene (in delle rispettive blu la regione non proteinetradotta, (GenPept) in rosso la regione codificante) Esempio: BAX (10) • Informazioni sulla localizzazione genomica Coordinate Cromosoma Geni BAX e suo limitrofiposizionali e relativo orientamento orientamento Esempio: BAX (11) • In fondo alla pagina troviamo ulteriori inf. : Pathways: Fenotipo (modo cascate in di cui reazioni si Informazioni generali sulla Omologhi del gene in altre Sequenze correlate Varianti del gene all’interno manifesta delle la quali è della funzione e suifunzione processi specie coinvolta proteina interessati. codificata) la proteina codificata biologici La Gene Table • E’ possibile scegliere dalla tendina in alto a sinistra, di visualizzare la Gene Table: • La Gene Table mostra i confini di esoni ed introni del gene: