I LEZIONE
PARTE B
Lavorare con le sequenze nucleotidiche:
• Formato FASTA
• Traduzione
• Mascheramento
• Inverso complementare
(Utilizzo di BCM sequence utilities)
ANALISI DI SEQUENZE
IL FORMATO FASTA
• una sola linea di descrizione che inizia con “>”
• poi la sequenza, senza spazi, linee vuote, e caratteri
“strani”.
• solo caratteri che seguano il codice IUB/IUPAC per gli
aminoacidi e gli acidi nucleici
• il “–” indica un gap
>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN
(OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTK
QESKPVQMMCMNNSFNVATLPAEKMKILELPFASGDLSMLVLLPDEV
SDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTSV
LMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAG
STGVIEDIKHSPESEQFRADHPFLFLIKHNPTNTIVYFGRYWSP
IL FORMATO FASTA
Codice per gli acidi nucleici:
A --> adenosine
M --> A C (amino)
C --> cytidine
S --> G C (strong)
G --> guanine
W --> A T (weak)
T --> thymidine
B --> G T C (not A)
U --> uridine
D --> G A T (not C)
R --> G A (purine)
H --> A C T (not G)
Y --> T C (pyrimidine)
V --> G C A (not T)
K --> G T (keto)
N --> A G C T (any)
- gap of indeterminate length
IL FORMATO FASTA
Codice per gli aminoacidi:
A alanine
B aspartate or asparagine
M methionine
C cystine
D aspartate
E glutamate
F phenylalanine
G glycine
H histidine
I isoleucine
K lysine
L leucine
* translation stop
P proline
Q glutamine
N asparagine
R arginine
S serine
T threonine
U selenocysteine
V valine
W tryptophan
Y tyrosine
Z glutamate or glutamine
X any
ANALISI DI SEQUENZE
• Uso di BCM ReadSeq per la conversione in formato
FASTA
• Uso di BCM Reverse Complement, per fare l’inverso
complementare di una sequenza
TRADUZIONE
• Il codice genetico: senza sovrapposizione  triplette  codoni
• 20 amminoacidi e 4 nucleotidi  4, 42, 43=64  piu’ parole del
necessario  degenerazione (tutti i codoni hanno un significato 
alcuni aa sono specificati da piu’ codoni).
• Da 1 a 6 codoni per aa.
• Vacillamento nella terza posizione.
• Codoni di STOP: UAG, UGA e UAA
TRADUZIONE The STANDARD Genetic Code
Serina
Codone
UCU o UCC
UCA o UCG
AGU o AGC
tRNA
tRNAser1
tRNAser2
tRNAser3
anticodone
AGG + vacillamento
AGU + vacillamento
UCG + vacillamento
TRADUZIONE
Diversi codici genetici
Codice genetico mitocondriale di animali
• AUA  Met invece di Ile
• UGA  Trp invece di STOP
• AGA e AGG  STOP invece di Arg (UAA, UAG, AGA,
AGG)
Altri codici in micoplasmi, protozoi e funghi.
• Uso di BCM 6 frames translation per la traduzione di
sequenze nucleotidiche
MASCHERAMENTO
Piu’ del 25% del genoma degli eucarioti e’ formato da DNA
altamente ripetitivo
DNA ripetitivo:
 DNA ripetuto in tandem
 DNA ripetuto intersperso
MASCHERAMENTO
Major classes of tandemly repeated human DNA:
Class
Size of repeat
Major chromosomal
location(s)
Various locations on selected
chromosomes
‘Megasatellite' DNA
(blocks of hundreds of
kb in some cases)
several kb
Satellite DNA
(blocks often from 100 kb
to several Mb in length)
5–171 bp
Especially at centromeres
Minisatellite DNA
(blocks often within
the 0.1–20 kb range)
6–64 bp
At or close to telomeres of all
chromosomes
Microsatellite DNA
(blocks often less than 150 bp)
1–4 bp
Dispersed throughout all
chromosomes
MASCHERAMENTO
Il DNA ripetuto intersperso si origina per ricombinazione o,
soprattutto per trasposizione. La maggior parte dei
trasposono sono retrotrasposoni, che, nei mammiferi,
includono:
LINEs (long interspersed nuclear elements)
Elementi LINE-1 nell’uomo ed in altri mammiferi.
SINEs (short interspersed nuclear elements)
Alu repeat, una ogni circa 3 Kb nel genoma umano, anche
Alu trascritte.
La sequenza delle ripetizioni e’ specie-specifica o lineagespecifica
Primati: alpha satellite 340 basi
MASCHERAMENTO
Uso di RepeatMasker per il mascheramento di
sequenze genomiche
Scarica

Lez1B