La predizione della struttura genica e lo splicing alternativo Raffaella Rizzi DISCo – Università di Milano-Bicocca [email protected] Introduzione biologica DNA Doppia catena polinucleotidica definita sull’alfabeto: A, C, G, T Gene Regione di DNA che codifica proteine Il sequenziamento Cosa significa sequenziare? determinare la struttura primaria delle molecole biologiche (DNA/RNA e proteine) sequenza dei nucleotidi {a,c,g,t|u} per DNA/RNA g c c t c c g c c g t c t g c g ordine degli amminoacidi per le proteine Glu Ile Phe Thr Val His Il sequenziamento Cosa si ottiene? single-end read DNA/RNA acgttgtgcagtgacggtaa Il sequenziamento Cosa si ottiene dal sequenziamento di una molecola di DNA/RNA paired-end read (o mate-pair) insertion size DNA/RNA A A agttgcgt aatgcctg B B insertion size A=B Il sequenziamento Perché è importante? … per determinare il genoma di un organismo vivente (problema del Genome Assembly) Genoma Sanger Sequencing (1977) Metodo di sequenziamento capillare Basato su enzima Piuttosto costoso Processa pochissimi reads in un run (un centinaio) Lunghezza frammenti fino a 1000 bp Errore basso Espressione di un gene DNA 5’ 3’ 3’ 5’ TRANSCRIPTION pre-mRNA 5’ exon 1 exon 2 exon 3 SPLICING by spliceosome mRNA CDS exon 1 exon 2 exon 3 atg…………[stop] splicing product tag [stop] taa tga 3’ Pattern di un introne Introni canonici: 99.24 % GT Introni non canonici: AG 0.69 % 0.05 % 0.02 % GC AG AT AC ALTRO Burset et al., Nucleic Acids Res. 2000, 28:4363-4375 Espressione di un gene Ma le cose funzionano davvero così? Numero Geni corpo umano : 40000 circa Numero Proteine : centinaia di migliaia La corrispondenza 1 a 1 non è rispettata. Perché? SPLICING ALTERNATIVO Alternative Splicing (AS) Gene mRNA1 5’ exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 3’ Alternative Splicing (AS) Gene 5’ mRNA1 mRNA2 exon 1’ exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’’ 3’ Alternative Splicing (AS) Gene 5’ mRNA1 mRNA2 mRNA3 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon 3 3’ Alternative Splicing (AS) Gene 5’ mRNA1 mRNA2 mRNA3 mRNA4 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon 1’’’ exon 3 exon 2 exon 3 3’ Alternative Splicing (AS) Gene 5’ mRNA1 mRNA2 mRNA3 mRNA4 mRNA5 exon 1 exon 2 exon 3 exon 1 exon 2 exon 3 exon 2 exon 3 exon 1’ exon 1’’ exon 1 exon 1’’’ exon 1 exon 3 exon 2 exon 2 exon 3 exon 3’ 3’ Alternative Splicing (AS) Gene 5’ exon 1 exon 2 mRNA1 exon 1 exon 2 mRNA2 exon 1 exon 3 exon 4 exon 4 exon 3 exon 4 3’ Perché AS è importante? AS avviene nel 40-60% dei geni umani (Modrek and Lee, 2002) AS genera numerosi trascritti a partire da un singolo gene AS is specifico del tessuto in cui si trova la cellula (Graveley, 2001) AS è correlato alle malattie Problema di AS AS è ancora un problema aperto Si ha la necessità di software tools per predire le forme di splicing alternativo di un gene analizzare il meccanismo di splicing tramite la rappresentazione delle possibili isoforme Trascritti e sequenze EST Un trascritto è l’elenco delle basi (A,T,C,G) che compongono un mRNA maturo Un EST è un frammento di cDNA (copia complementare di un mRNA, prodotta in vitro ) mRNA cDNA ATTGCGTTAACTGGACTGA TAACGCAATTGACCTGACT AATTGACCT EST Expressed Sequence Tag Cos’è un single-end read da un mRNA (messenger RNA)? EST (Expressed Sequence Tag) esoni (codificanti) introni (non codificanti) A B C D B’ mRNA1 A B D mRNA2 A C D mRNA3 A B’ C EST D Gene ESTs Le sequenze EST sono dati importanti e disponibili pubblicamente per: identificare geni lungo un genoma predire la struttura in esoni e introni di un geni …e le sue isoforme alternative (alternative splicing prediction) per studi di espressione genica Reference The Unigene Database: http://www.ncbi.nlm.nih.gov/unigene. Il sequenziamento di EST Perché è importante? … per determinare la struttura e l’espressione di un gene A B A’ C A’: suffisso di A C’: prefisso di C D’: prefisso di D B B C’ A’ B A’ B D D A EST C D’ C Gene Splice junctions de-novo Gene A’ C D A EST B B C’ A’ B A’ B D’ C Splice junctions de-novo A B A’ A C D C D B EST B A’ B A’ B splice junction C’ D’ C Gene Perché predire AS è difficile? La predizione della struttura di un gene è un compito difficile a causa di gli errori di sequenziamento nelle EST rendono difficoltosa la localizzazione delle splice junctions le duplicazioni possono produrre più di un possibile allineamento EST-genomica I dati in input sono enormi: efficienza in tempo e spazio What is available? Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4): - Spidey (Wheelan et al., 2001) - Squall (Ogasawara & Morishita, 2002) - Ecgene (Kim et al., 2005) - AceView (http://www.ncbi.nih.gov/IEB/Research/Acembly/) - Splicing graphs (Heber et al., 2002) What is available? Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat, Sim4): drawbacks - Spidey => independent single EST alignment - Squall => independent single EST alignment - Ecgene => detects variants of more than 15bp - AceView =>over-prediction - Splicing graphs => over-prediction ASPIC software ASPIC (Alternative Splicing PredICtion) implements an optimization strategy that: performs a multiple alignment of transcript data to the genomic sequence detects the intron set that minimizes the number of splicing sites P. Bonizzoni, R. Rizzi, G. Pesole. ASPIC: a novel method to predict the exon-intron structure gene that isisoforms optimallycompatible compatible to generates the minimal setofofatranscript with the detected a splicing set of transcript events sequences. BMC Bioinformatics (2005), 6(1):244. T. Castrignanò, R. Rizzi, I.G. Talamo, P. D’Onorio De Meo, A. Anselmo, P. Bonizzoni, G. Pesole. ASPIC: a web resource for alternative splicing prediction and transcript isoforms characterization. Nucleic Acids Research (2006), 34(Web Server Issue):W440:3. ASPIC web site http://www.caspur.it/ASPIC/ INPUT: A genomic sequence by pasting a sequence into a text box by uploading a sequence as a text file by specifying an ENSEMBL ID or a HUGO name (only for human) by specifying a chromosomal range ASPIC web site http://www.caspur.it/ASPIC/ INPUT: A collection of transcripts by pasting them into a text box by uploading them as a text file by specifying a UNIGENE ID The minimum dimension for exons on the genomic sequence ASPicDB ASPicDB Ricostruzione isoforme Problema di ricostruzione di isoforme full-length Data la struttura in exoni-introni del gene, trovare tutte le possibili combinazioni di esoni (o parti di essi) che danno luogo ad un isoforma completa A B C D Isoform#1 A B C D Isoform#2 A C D Isoform#3 A B D Gene