La predizione della struttura
genica e lo splicing alternativo
Raffaella Rizzi
DISCo – Università di Milano-Bicocca
[email protected]
Introduzione biologica
DNA
Doppia catena polinucleotidica
definita sull’alfabeto: A, C, G, T
Gene
Regione di DNA che codifica
proteine
Il sequenziamento
Cosa significa sequenziare?
 determinare la struttura primaria delle molecole biologiche
(DNA/RNA e proteine)
sequenza dei nucleotidi {a,c,g,t|u} per DNA/RNA
g
c
c
t
c
c
g
c
c
g
t
c
t
g
c
g
ordine degli amminoacidi per le proteine
Glu
Ile
Phe
Thr
Val
His
Il sequenziamento
Cosa si ottiene?
 single-end read
DNA/RNA
acgttgtgcagtgacggtaa
Il sequenziamento
Cosa si ottiene dal sequenziamento di una molecola di
DNA/RNA
 paired-end read (o mate-pair)
insertion size
DNA/RNA
A
A
agttgcgt
aatgcctg
B
B
insertion size
A=B
Il sequenziamento
Perché è importante?
… per determinare il genoma di un organismo vivente
(problema del Genome Assembly)
Genoma
Sanger Sequencing (1977)
Metodo di sequenziamento capillare
Basato su enzima
Piuttosto costoso
Processa pochissimi reads in un run (un
centinaio)
Lunghezza frammenti fino a 1000 bp
Errore basso
Espressione di un gene
DNA
5’
3’
3’
5’
TRANSCRIPTION
pre-mRNA
5’
exon 1
exon 2
exon 3
SPLICING by spliceosome
mRNA
CDS
exon 1
exon 2
exon 3
atg…………[stop]
splicing product
tag
[stop] taa
tga
3’
Pattern di un introne
Introni canonici:
99.24 %
GT
Introni non canonici:
AG
0.69 %
0.05 %
0.02 %
GC
AG
AT
AC
ALTRO
Burset et al., Nucleic Acids Res. 2000, 28:4363-4375
Espressione di un gene
Ma le cose funzionano davvero così?
Numero Geni corpo umano : 40000 circa
Numero Proteine : centinaia di migliaia
La corrispondenza 1 a 1 non è rispettata. Perché?
SPLICING ALTERNATIVO
Alternative Splicing (AS)
Gene
mRNA1
5’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
exon 1’
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’’
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
mRNA3
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 3
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
mRNA3
mRNA4
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
exon 3
exon 2
exon 3
3’
Alternative Splicing (AS)
Gene
5’
mRNA1
mRNA2
mRNA3
mRNA4
mRNA5
exon 1
exon 2
exon 3
exon 1
exon 2
exon 3
exon 2
exon 3
exon 1’
exon 1’’
exon 1
exon 1’’’
exon 1
exon 3
exon 2
exon 2
exon 3
exon 3’
3’
Alternative Splicing (AS)
Gene
5’
exon 1
exon 2
mRNA1
exon 1
exon 2
mRNA2
exon 1
exon 3
exon 4
exon 4
exon 3
exon 4
3’
Perché AS è importante?




AS avviene nel 40-60% dei geni umani
(Modrek and Lee, 2002)
AS genera numerosi trascritti a partire
da un singolo gene
AS is specifico del tessuto in cui si trova
la cellula (Graveley, 2001)
AS è correlato alle malattie
Problema di AS
AS è ancora un problema aperto
Si ha la necessità di software tools per


predire le forme di splicing alternativo di un
gene
analizzare il meccanismo di splicing tramite la
rappresentazione delle possibili isoforme
Trascritti e sequenze EST


Un trascritto è l’elenco delle basi (A,T,C,G) che
compongono un mRNA maturo
Un EST è un frammento di cDNA (copia
complementare di un mRNA, prodotta in vitro )
mRNA
cDNA
ATTGCGTTAACTGGACTGA
TAACGCAATTGACCTGACT
AATTGACCT
EST
Expressed Sequence Tag
Cos’è un single-end read da un mRNA (messenger
RNA)?
 EST (Expressed Sequence Tag)
esoni (codificanti)
introni (non codificanti)
A
B
C
D
B’
mRNA1
A
B
D
mRNA2
A
C
D
mRNA3
A
B’
C
EST
D
Gene
ESTs
Le sequenze EST sono dati importanti
e disponibili pubblicamente per:


identificare geni lungo un genoma
predire la struttura in esoni e introni di un
geni
…e le sue isoforme alternative (alternative
splicing prediction)

per studi di espressione genica
Reference
The Unigene Database: http://www.ncbi.nlm.nih.gov/unigene.
Il sequenziamento di EST
Perché è importante?
… per determinare la struttura e l’espressione di un
gene
A
B
A’
C
A’: suffisso di A
C’: prefisso di C
D’: prefisso di D
B
B
C’
A’
B
A’
B
D
D
A
EST
C
D’
C
Gene
Splice junctions de-novo
Gene
A’
C
D
A
EST
B
B
C’
A’
B
A’
B
D’
C
Splice junctions de-novo
A
B
A’
A
C
D
C
D
B
EST
B
A’
B
A’
B
splice junction
C’
D’
C
Gene
Perché predire AS è difficile?
La predizione della struttura di un gene
è un compito difficile a causa di

gli errori di sequenziamento nelle EST rendono difficoltosa la
localizzazione delle splice junctions

le duplicazioni possono produrre più di un possibile allineamento
EST-genomica

I dati in input sono enormi: efficienza in tempo e spazio
What is available?
Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat,
Sim4):
- Spidey (Wheelan et al., 2001)
- Squall (Ogasawara & Morishita, 2002)
- Ecgene (Kim et al., 2005)
- AceView (http://www.ncbi.nih.gov/IEB/Research/Acembly/)
- Splicing graphs (Heber et al., 2002)
What is available?
Fast Blast-like programs to produce a single EST alignment to a genomic sequence (Blat,
Sim4): drawbacks
- Spidey => independent single EST alignment
- Squall => independent single EST alignment
- Ecgene => detects variants of more than 15bp
- AceView =>over-prediction
- Splicing graphs => over-prediction
ASPIC software
ASPIC (Alternative Splicing PredICtion) implements an optimization
strategy that:
 performs a multiple alignment of transcript data to the genomic sequence

detects the intron set that minimizes the number of splicing sites
P. Bonizzoni, R. Rizzi, G. Pesole. ASPIC: a novel method to
predict
the exon-intron
structure
gene that isisoforms
optimallycompatible
compatible to
 generates
the minimal
setofofatranscript
with the detected
a splicing
set of transcript
events sequences. BMC Bioinformatics (2005), 6(1):244.
T. Castrignanò, R. Rizzi, I.G. Talamo, P. D’Onorio De Meo, A. Anselmo, P. Bonizzoni, G.
Pesole. ASPIC: a web resource for alternative splicing prediction and transcript isoforms
characterization. Nucleic Acids Research (2006), 34(Web Server Issue):W440:3.
ASPIC web site
http://www.caspur.it/ASPIC/
INPUT:

A genomic sequence
 by pasting a sequence into a text box
by uploading a sequence as a text file
by specifying an ENSEMBL ID or a HUGO name (only for
human)
 by specifying a chromosomal range


ASPIC web site
http://www.caspur.it/ASPIC/
INPUT:
A
collection of transcripts
 by pasting them into a text box



by uploading them as a text file
by specifying a UNIGENE ID
The minimum dimension for exons on the genomic
sequence
ASPicDB
ASPicDB
Ricostruzione isoforme
Problema di ricostruzione di isoforme full-length
 Data la struttura in exoni-introni del gene, trovare tutte le
possibili combinazioni di esoni (o parti di essi) che danno
luogo ad un isoforma completa
A
B
C
D
Isoform#1
A
B
C
D
Isoform#2
A
C
D
Isoform#3
A
B
D
Gene
Scarica

AltSpl