SCAN PROSITE
ExPASy proteomic tool
COS’E’ SCAN PROSITE
È uno strumento di ExPASy molto utile nell’analisi di
proteine.
Il principio su cui si basa è il fatto che se nella proteina
considerata è presente un dominio funzionale
riscontrato anche in altre,è molto probabile che
esso espleti una funzione simile in tutte.
FUNZIONI DI SCAN PROSITE
•
Riconosce i motivi che la “nostra” proteina ha in
comune con le altre del database PROSITE
Cerca solo motivi e profili presenti in PROSITE
(database di domini di famiglie proteiche,costituito
da pattern regolari che rappresentano siti biologici
significativi,definiti lungo la sequenza proteica in
modo contiguo.).
•
Riconosce i motivi che la “nostra” proteina ha in
comune con altre contenute in database di
sequenze proteiche
I motivi ricercati possono essere quelli contenuti in
PROSITE,in altri database(UniProtKB/Swiss-Prot di
default,ma anche PDB o UniProtKB/TrEMBL) o
forniti dall’utente,che li può creare grazie al
programma PRATT.
•
Grazie alle due funzioni precedenti permette di
accrescere l’affidabilità delle predizioni funzionali di
una proteina ignota
Si accede dalla pagina web di
ExPASy,cliccando su Tools-Pattern and profile
searches-Scan Prosite
USI DI SCAN PROSITE :
QUICK SCAN MODE
a) Analizzo una o più sequenze contro tutti i motivi di PROSITE
SEQUENCE(S) TO
BE SCANNED
Incollo la mia
sequenza,che può
essere:
•Grezza (solo aa)
•In formato FASTA
•In formato UniProtKB
E poi clicco su
“SCAN”
USI DI SCAN PROSITE :
QUICK SCAN MODE
•
UniProtKB (Swiss-Prot and TrEMBL) AC and/or ID:
cliccando sul link mi si apre questa pagina che
propone tools per la ricerca della proteina di mio
interesse in UniProtKB
•
PDB identifier(s)
b) Analizzo una sequenza di PDB o di
UniProtKB (Swiss-Prot o TrEMBL) contro
tutti i motivi di PROSITE
Li incollo nella casella di testo e
clicco su “SCAN”
USO DI SCAN PROSITE:
ADVANCED SCAN MODE
c)Analizzo UniProtKB (Swiss-Prot o TrEMBL) o PDB contro un particolare motivo di PROSITE
Motif(s) to scan for
Inserisco l’AC o l’ID che identifica
il motivo di PROSITE da
ricercare.
Poi clicco su “START SCAN”
Posso scegliere tra Swiss-Prot,
TrEMBL,o PDB(o tutte e tre) da
queste check box
USO DI SCAN PROSITE:
ADVANCED SCAN MODE
Cliccando sul link a PROSITE si apre la pagina
del database,da cui è possibile ricercare il
dominio voluto dall’apposito spazio “Search”
Per esempio si può digitare come parola chiave per la ricerca
del dominio il termine “binding” e PROSITE fornisce la lista degli
ID dei domini inerenti all’indicazione fornita
USO DI SCAN PROSITE:
ADVANCED SCAN MODE
d)Analizzo UniProtKB (Swiss-Prot o TrEMBL) contro un particolare pattern fornito dall’utente
Cliccando sull’opportuno link,si apre una pagina
con le istruzioni sintattiche per creare un pattern:
1)Per identificare un aa si usa la nomenclatura IUPAC con
codice di una lettera (es: A=Ala…)
2)Il simbolo “x” è usato per indicare che in una posizione
può esserci qualsiasi aa
3)Se in una posizione può esserci più di un aa,le alternative vengono indicate tra parentesi quadre. Es: [A,L,T]:
c’è o Ala,o Lys o Thr
4)Se in una posizione possono esserci tutti gli aa tranne uno o alcuni,gli esclusi vengono indicati tra parentesi
graffe. Es: {ALT}:ci possono essere tutti gli aa tranne Ala,Lys o Thr
5)Ogni elemento del pattern è separato dagli altri da un trattino
6)Se un elemento del pattern è ripetuto,il numero di ripetizioni è indicato tra parentesi tonde. Es: A(2)=A – A
7)Quando un pattern si riferisce all’N terminale della proteina,si indica con “<“ prima dell’inizio del pattern; se
invece si riferisce al C terminale si indica con “>” alla fine del pattern.
8) Per cercare una sequenza che non contenga un certo aa, per es. La Cys,si scrive : <{C}*>
USO DI SCAN PROSITE:
ADVANCED SCAN MODE
Nella parte della schermata del tool dedicata ai motivi da ricercare,è possibile utilizzare un’opzione di
non poca importanza nello studio di proteine: quella che permette di randomizzare i database.
Essa permette di cercare un pattern contro un database casuale,per testare la sua specificità.
Questa operazione di randomizzazione può essere fatta con due metodi (e solo contro pattern,non
contro profili)
•
REVERSE SEQUENCES : randomizza prendendo al contrario la sequenza in entrata
(sconsigliato in caso di sequenze palindrome o ricche in un determinato aa )
•
SHUFFLE : randomizza prendendo a caso i residui in una finestra di 20 aa
ALTRE OPZIONI DEI MOTIVI DA RICERCARE:
•Posso includere varianti di splicing
•Posso escludere frammenti
•Posso mettere filtri alla ricerca per quanto riguarda
l’organismo in cui ricercare i motivi (es:E. coli, Homo
sapiens…) oppure la descrizione della proteina (es:
proteasi,ligasi…)
•Posso selezionare il numero massimo di X che si appaiano con residui conservati
PATTERN MATCHING MODE
Ci sono tre parametri che possono essere scelti per condizionare il comportamento del meccanismo
di pattern matching:
•
GREED(:ingordigia) : estende alla massima lunghezza gli elementi del pattern
•
OVERLAP (:sovrapposizione) :permette matches parzialmente sovrapposti
•
INCLUDE (:includere) : permette matches inclusi l’uno nell’altro (implica sovrapposizione)
Di default il pattern matching mode scelto è quello GREEDY (permette overlap ma non include)
Match mode:
greed,overlap o
include
PATTERN MATCHING MODE
Esempio:
Sequenza: ABACADAEAFA
Pattern: A-X(1,3)-A
•
•
•
Greed:1,overlap:1,include:0 : 4 matches
ABACADAEAFA
ooooo......
..ooooo....
....ooooo..
......ooooo
Greed=1, overlap=0 : 2 matches
ABACADAEAFA
ooooo......
......ooooo
Greed=0, overlap=0 : 3 matches
ABACADAEAFA
ooo........
....ooo....
……..ooo
•
Greed=1, overlap=1, include=1 : 5 matches
ABACADAEAFA
ooooo......
..ooooo....
....ooooo..
......ooooo
........ooo
•
Greed=0, overlap=1, include=0 or 1 : 5
matches
ABACADAEAFA
ooo........
..ooo......
....ooo....
......ooo..
........ooo
OUTPUT: FORMATO
L’output può presentarsi in diversi formati,che possono essere scelti dalla lista presente sotto la voce
“OUTPUT”.
•
Graphical rich view : in HTLM viene visualizzata una rappresentazione grafica delle hits sulla
proteina in input e delle predizioni delle caratteristiche; le immagini possono essere scaricate.
•
Simple HTLM output : semplice visualizzazione HTLM dei risultati senza alcuna
rappresentazione grafica
•
Plain text output: visualizzazione solo testuale,senza alcun link HTLM
•
Plain text fasta output : visualizzazione solo testuale in formato fasta; ogni hit è mostrata come
una sequenza in formato fasta dove il titolo della sequenza stessa è :
“>[matched protein]/[hit start]-[hit stop]/[matching PROSITE motif]/score(solo per profili)/confidence
level tag(in ogni caso)”.
OUTPUT: OPZIONI
Dalla prima check box posta sotto la casella di testo,posso decidere di escludere dalla ricerca tutti i
motivi con alta probabilità di essere presenti,così da poter visualizzare in output solo i motivi più
peculiari.
•
i suddetti domini verranno segnalati dalla scritta “OCCURS FREQUENTLY” nel simple HTLM/text
output
•
I suddetti domini verranno elencati sotto la dicitura “HITS BY FREQUENTLY OCCURRING
PROFILES” nel formato rich view
Dalla seconda check box
posso invece decidere di
analizzare la sequenza in
input solo contro i pattern di
PROSITE,ma non contro i
motivi. Di default questa
casella è in stato OFF,ma si
può attivarla con il tick,solo
nel caso in cui si lanci una
ricerca contro tutti i motivi di
PROSITE.
OUTPUT: OPZIONI
SHOW LOW LEVEL SCORE
Mostra le hit più deboli dal punto di vista del punteggio,che è sotto una determinata soglia (cut-off)
I profili di PROSITE hanno almeno 2 livelli di cut off:
•
Livello 0 : cut off affidabile
•
Livello -1 : cut off border line che produce più falsi positivi
In questo caso usa il livello -1. Nel risultato le hit deboli vengono segnalate.
•
Con la dicitura “hits with a low confidence level (-1)” nel formato rich view
•
Con la dicitura “low confidence” nel simple HTLM/text output.
SHOW ONLY SEQUENCES WITH AT LEAST X HITS
Nel risultato vengono mostrate le proteine per cui si trovano hit almeno X volte.
Il valore di X applicato di default è 1.
MAXIMUM OF MATCHED SEQUENCES
Il numero massimo di proteine diverse che sono mostrate in output. Il valore di default è 1000. Se il valore supera
quellodi default,l’output non può più essere mostrato all’interno del web browser,ma il risultato sarà spedito via
mail.
RETRIEVE COMPLETE SEQUENCES
Aggiunge la sequenza della proteina alle informazioni sulle proteine mostrate in output. Di default non è attivo.
N.B: Nell’output in formato fasta,la sequenza completa della proteina soppianterebbe la sequenza del match; e inoltre
l’output in formato rich view verrebbe trasformato in HTLM text perché il rich view non mostra la retrieve sequence
OUTPUT: OPZIONI
Formato
output
Show only
sequences
with at least X
hits
Max of
matched
sequence
E mail
Retrieve
complete
sequence
Show low level
score
OUTPUT RICH VIEW: CARATTERISTICHE
Per ogni match viene fornita un’immagine scaricabile del risultato.
•
I profili sono rappresentati come forme colorate con il loro nome di PROSITE
•
I pattern come barre colorate senza testo
Se c’è un overlap tra più matches, questo è rappresentato con un’ulteriore barra,o,se rappresentato
sulla stessa (- del 10% di overlap), delle linee verticali indicheranno l’inizio e la fine dell’overlap.
•
Per alcuni profili sono aggiunte anche delle caratteristiche biologiche,come ponti disolfuro,siti
attivi, altri siti importanti ecc…
ESEMPIO
Output per la proteina “fascina”, una proteina che lega l’actina e interviene nei processi di motilità e
riproduzione cellulare e nella costruzione del citoscheletro.
Non escludendo i motivi con alta
frequenza,di cui questa proteina è
ricca, in output ho la
rappresentazione dei vari siti di
interesse all’interno della proteina:
• ASN_GLYCOSYLATION
N-
glycosylation site
•MYRISTYL N-myristoylation site
•PKC_PHOSPHO_SITE Protein
kinase C phosphorylation site
•CK2_PHOSPHO_SITE Casein
kinase II phosphorylation site
Viene mostrata la sequenza
query,con evidenziata la parte
interessata da un particolare
motivo.
•TYR_PHOSPHO_SITE Tyrosine
kinase phosphorylation site
•CAMP_PHOSPHO_SITE cAMP
- and cGMP-dependent protein
kinase phosphorylation site
Scarica

Stoppa_Alice_SCAN PROSITE presentazione