BIOinformatica
MASTER in
Applicazioni BioMediche e Farmaceutiche.
Università degli Studi “La Sapienza”
ROMA
Anno 2002/2003
Analisi in silico per la ricerca di domini
conservati di NRPSs batteriche in
genomi eucariotici
Direttore Master: Prof.ssa Anna Tramontano
Relatore: Prof. Stefano Pascarella
Pietro Buffa
Generalità sulle Non Ribosomal Peptide Syntetases, NRPSs
Le NRPSs provvedono ad una sintesi peptidica differente da
quella svolta dai ribosomi, essi si presentano generalmente come
grossi enzimi multifunzionali con un’organizzazione molecolare
di tipo modulare.
Il modulo più semplice è composto da tre domini
indispensabili per il corretto funzionamento dell’enzima:
• Dominio di Adenilazione
• Dominio di Tiolazione
• Dominio di Condensazione
Catalizza l’allungamento del peptide nascente.
Lega l’aminoacido al gruppo prostetico di
fosfopanteteina (PP), formando un aminoacil-tioestere.
Catalizza l’attivazione dell’aminoacido (aminoacil-adenilato).
Diversi studi condotti sul dominio di Adenilazione di questa
famiglia di enzimi hanno dimostrato che:
• La natura del substrato che sarà inserito nel peptide
sintetizzato dalle NRPSs è controllata principalmente da questo
dominio.
• La presenza di un aminoacil-adenilato è la necessaria
premessa alla formazione dell’aminoacil-tioestere nel dominio
di Tiolazione e quindi alla sintesi del peptide.
• Studi condotti su oltre 150 domini di Adenilazione provenienti
da organismi diversi, hanno rivelato la presenza di importanti
residui conservati coinvolti nel legame e nell’idrolisi dell’ATP.
Sulla base di queste osservazioni è oggi possibile prevedere la
specificità di un dominio di adenilazione a partire dalla
struttura primaria con una accuratezza di circa l’86%
(Stachelhaus et al, 1999).
• Nel 1997 Mohamed Marahiel della Philipps university of
Marburg ha ottenuto la struttura cristallografica del dominio
di Adenilazione della Gramicidina sintetasi di Bacillus brevis.
La struttura cristallografica, l’unica fino ad oggi risolta, è stata
ottenuta con i substrati complessati, rispettivamente la L-Phe e AMP ad
una risoluzione di 1,9Å.
In giallo il dominio maggiore, in rosso il dominio minore. AMP e Phe
sono mostrati come modelli a spazio pieno.
SCOPO DEL LAVORO
Punto di partenza di questa ricerca è stata la recente
identificazione da parte di due ricercatori Giapponesi (T.
Kasahara e T. Kato, Nature 2003) di una importante molecola:
la Pirrolo Quinolina Quinone (PQQ), cruciale per la
degradazione dell’aminoacido Lisina da parte di particolari
deidrogenasi PQQ-dipendenti nel topo (acido 2-aminoadipico 6semialdeide deidrogenasi AAS) . Queste deidrogenasi,
presentano una organizzazione dei domini che è tipica degli
enzimi NRPS di origine batterica:
Dominio di Adenilazione legante AMP
COOH
Dominio di Tiolazione legante PP
NH
COOH
Ed un Dominio legante il PQQ
OH
HS
NH
O-
NH
O
O
.
.
O
P
O
HOOC
O
O
N
O
-
Scopo della ricerca è quello di verificare se proteine contenenti
i domini AMP e PP compaiono anche in altri organismi (oltre
che in Topo e Drosophila dove sono stati recentemente
riscontrati) e se si, associati a quale altro dominio.
RISULTATI DELLA RICERCA
Ricerca di nuove sequenze proteiche correlate alle
NRPSs batteriche in diversi genomi eucariotici
CODICE Seq.
ORGANISMO
DOMINI
LUNG
Prot.
In SILICO
2870
NO
2870
NO
Una preliminare ricerca sulle banche dati proteiche, ha
permessoA.dithaliana
individuare 15
proteine correlate alle
AMP-PP-WD40(PQQ)
Nr:GI_8885525
1175 NRPSs NO
battericheA.(contenenti
cioèAMP-PP-WD40(PQQ)
i domini fondamentali),
Nr:GI_22327387
thaliana
1040 non ancora
NO
annotate nella
loro funzione
in banca dati.
AMP-PP-WD40(PQQ)
Nr:GI_20466612
A. thaliana
1040
NO
Nr:GI_17556356
C. elegans
C-AMP-PP-C-PP-C-AMP-P
Sono state
utilizzate come
sonda le proteine:
AMP-PP-PP-C-AMP-PP
C. elegans
Trembl :q95q02
AAS
Nr:GI_24817561
(Acido
2-aminoadipico
6-semialdeide deidrogenasi)
di
AMP-PP-WD40(PQQ)
C. elegans
707
NOtopo
Nr:GI_24817562
C. elegans
[Accession
number,
AMP-PP-WD40(PQQ)
30348962]
714
NO
Nr:GI_20151443
D. melanogaster
AMP-PP- ?
703
NO
Nr:GI_24648676
D. melanogaster
AMP-PP- ?
879
NO
U26 di Drosophila [Accession number, AAF52679]
EBONY
di Drosophila [Accession
number, CAA11962]
AMP-PP- ?
D. melanogaster
879
Nr:GI_32867661
NO
Nr:GI_22945960
D. melanogaster
AMP-PP-PQQ
1012
NO
Nr :GI_3286766
D. melanogaster
AMP-PP- ?
879
NO
Nr:GI_5777799
D. melanogaster
AMP-PP-PQQ
824
NO
Nr:GI_21291643
A. gambiae
AMP-PP-?
881
NO
Nr:GI_31235353
A. gambiae
AMP-PP-PQQ
824
NO
Le sequenze precedentemente elencate sono state utilizzate come
sonda per ricerche di similarità sulle Banche Dati Genomiche
utilizzando il modulo “tblastn” del programma BLAST
implementato sia su NCBI che su ENSEMBL.
R. Norvegicus (Rat)
M. Musculus
H. Sapiens
D. Melanogaster
C. Elegans
C. Briggsae
A.Thaliana
D. Rerio (Zebrafish)
Per alcuni genomi non si sono
avuti risultati positivi.
A.Gambiae
S. Scrofa
G. Gallus
B. Taurus
C. Intestinalis
F. Rubripes
O. sativa
Per altri si è trovata una
notevole similarità e la presenza
di residui chiave veniva
mantenuta. Per queste sequenze
si è proceduto all’esportazione
delle rispettive sequenze
genomiche in formato FASTA.
Costruzione di geni in silico per le sequenze ritrovate
in seguito alle ricerche genomiche
Le sequenze genomiche precedentemente esportate e salvate vengono
utilizzate in questa seconda fase del lavoro, per cercare di ottenere,
attraverso l’uso di programmi quali GenScan e genomeScan, una corretta
costruzione del gene specifico per ogni sequenza ed arrivare alla fine, alla
predizione della relativa sequenza proteica completa.
ORGANISMO
CODICE
SEQUENZ
A SONDA
LOCALIZZAZIONE
GENOMICA
LUNGHEZZA
PROTEINA
Rattus
norvegicus
30348962
Crom.14
Contig: RNOR01037209
1152 AA
Homo Sapiens
30348962
Crom. 4
Contig:AC06820.5.1.147534
556 AA
Danio Rerio
(zebrafish)
30348962
Contig: CTG11952.6
1003 AA
Fugu Rubripes
30348962
Scaffold: 632
1088 AA
Ciona
Intestinalis
Oryza sativa
30348962
AABS01000029_1
1074 AA
8885525
Nr:GI_19925098
1285 AA
Oryza sativa
8885525
Nr:GI_19961040
1551 AA
Oryza sativa
8885525
Nr:GI_19963553
1461 AA
• Abbiamo utilizzato 35 sequenze
Realizzazione di un allineamento multiplo completo
• Da tutte le 35 seq. È stata manualmente eliminata la regione
contenente il dominio C-terminale
• E’ stato utilizzato il programma HMMERalign
DFFxxLGG(HD)S(LI)
Residui fondamentali del dominio
di tiolazione. La serina lega il
gruppo prostetico di
fosfopanteteina.
– Parte dell’allineamento multiplo di 35 sequenze proteiche appartenenti alla famiglia della NRPSs,.
L’allineamento è stato formattato utilizzando il programma ESPRIT 2.1.
• Sono state eliminate dall’allineamento multiplo le regioni iniziali e terminali poichè non avendo
corrispondenze ben definite, potevano creare un fastidioso rumore di fondo che andrebbe a disturbare
la successiva fase di generazione dell’albero evolutivo
Realizzazione dell’albero filogenetico
Linea filetica dei Batteri
Sono stati utilizzati i programmi:
PROTDIST
KITSCH
e DRAWTREE
Linea filetica dei Funghi
Linea filetica dei Vegetali
Linea filetica degli
organismi eucariotici
superiori animali
Albero filogenetico.
DISCUSSIONE
Il completamento in corso di vari progetti gnomici ha
permesso di individuare numerose proteine correlate
alle NRPSs batteriche in organismi eucariotici
superiori non ancora annotate in banca dati.
La conoscenza del sistema sintetico delle NRPSs e la
comprensione più approfondita dell’evoluzione che
queste proteine enzimatiche , conosciute fino a poco
tempo fa soltanto a livello batterico, potrebbero avere
avuto, potrebbe risultare utile per cercare di far luce
su determinate vie metaboliche non ancora molto
chiare in diversi organismi superiori.
RINGRAZIAMENTI
Scarica

Tesi Master