SCAN PROSITE ExPASy proteomic tool COS’E’ SCAN PROSITE È uno strumento di ExPASy molto utile nell’analisi di proteine. Il principio su cui si basa è il fatto che se nella proteina considerata è presente un dominio funzionale riscontrato anche in altre,è molto probabile che esso espleti una funzione simile in tutte. FUNZIONI DI SCAN PROSITE • Riconosce i motivi che la “nostra” proteina ha in comune con le altre del database PROSITE Cerca solo motivi e profili presenti in PROSITE (database di domini di famiglie proteiche,costituito da pattern regolari che rappresentano siti biologici significativi,definiti lungo la sequenza proteica in modo contiguo.). • Riconosce i motivi che la “nostra” proteina ha in comune con altre contenute in database di sequenze proteiche I motivi ricercati possono essere quelli contenuti in PROSITE,in altri database(UniProtKB/Swiss-Prot di default,ma anche PDB o UniProtKB/TrEMBL) o forniti dall’utente,che li può creare grazie al programma PRATT. • Grazie alle due funzioni precedenti permette di accrescere l’affidabilità delle predizioni funzionali di una proteina ignota Si accede dalla pagina web di ExPASy,cliccando su Tools-Pattern and profile searches-Scan Prosite USI DI SCAN PROSITE : QUICK SCAN MODE a) Analizzo una o più sequenze contro tutti i motivi di PROSITE SEQUENCE(S) TO BE SCANNED Incollo la mia sequenza,che può essere: •Grezza (solo aa) •In formato FASTA •In formato UniProtKB E poi clicco su “SCAN” USI DI SCAN PROSITE : QUICK SCAN MODE • UniProtKB (Swiss-Prot and TrEMBL) AC and/or ID: cliccando sul link mi si apre questa pagina che propone tools per la ricerca della proteina di mio interesse in UniProtKB • PDB identifier(s) b) Analizzo una sequenza di PDB o di UniProtKB (Swiss-Prot o TrEMBL) contro tutti i motivi di PROSITE Li incollo nella casella di testo e clicco su “SCAN” USO DI SCAN PROSITE: ADVANCED SCAN MODE c)Analizzo UniProtKB (Swiss-Prot o TrEMBL) o PDB contro un particolare motivo di PROSITE Motif(s) to scan for Inserisco l’AC o l’ID che identifica il motivo di PROSITE da ricercare. Poi clicco su “START SCAN” Posso scegliere tra Swiss-Prot, TrEMBL,o PDB(o tutte e tre) da queste check box USO DI SCAN PROSITE: ADVANCED SCAN MODE Cliccando sul link a PROSITE si apre la pagina del database,da cui è possibile ricercare il dominio voluto dall’apposito spazio “Search” Per esempio si può digitare come parola chiave per la ricerca del dominio il termine “binding” e PROSITE fornisce la lista degli ID dei domini inerenti all’indicazione fornita USO DI SCAN PROSITE: ADVANCED SCAN MODE d)Analizzo UniProtKB (Swiss-Prot o TrEMBL) contro un particolare pattern fornito dall’utente Cliccando sull’opportuno link,si apre una pagina con le istruzioni sintattiche per creare un pattern: 1)Per identificare un aa si usa la nomenclatura IUPAC con codice di una lettera (es: A=Ala…) 2)Il simbolo “x” è usato per indicare che in una posizione può esserci qualsiasi aa 3)Se in una posizione può esserci più di un aa,le alternative vengono indicate tra parentesi quadre. Es: [A,L,T]: c’è o Ala,o Lys o Thr 4)Se in una posizione possono esserci tutti gli aa tranne uno o alcuni,gli esclusi vengono indicati tra parentesi graffe. Es: {ALT}:ci possono essere tutti gli aa tranne Ala,Lys o Thr 5)Ogni elemento del pattern è separato dagli altri da un trattino 6)Se un elemento del pattern è ripetuto,il numero di ripetizioni è indicato tra parentesi tonde. Es: A(2)=A – A 7)Quando un pattern si riferisce all’N terminale della proteina,si indica con “<“ prima dell’inizio del pattern; se invece si riferisce al C terminale si indica con “>” alla fine del pattern. 8) Per cercare una sequenza che non contenga un certo aa, per es. La Cys,si scrive : <{C}*> USO DI SCAN PROSITE: ADVANCED SCAN MODE Nella parte della schermata del tool dedicata ai motivi da ricercare,è possibile utilizzare un’opzione di non poca importanza nello studio di proteine: quella che permette di randomizzare i database. Essa permette di cercare un pattern contro un database casuale,per testare la sua specificità. Questa operazione di randomizzazione può essere fatta con due metodi (e solo contro pattern,non contro profili) • REVERSE SEQUENCES : randomizza prendendo al contrario la sequenza in entrata (sconsigliato in caso di sequenze palindrome o ricche in un determinato aa ) • SHUFFLE : randomizza prendendo a caso i residui in una finestra di 20 aa ALTRE OPZIONI DEI MOTIVI DA RICERCARE: •Posso includere varianti di splicing •Posso escludere frammenti •Posso mettere filtri alla ricerca per quanto riguarda l’organismo in cui ricercare i motivi (es:E. coli, Homo sapiens…) oppure la descrizione della proteina (es: proteasi,ligasi…) •Posso selezionare il numero massimo di X che si appaiano con residui conservati PATTERN MATCHING MODE Ci sono tre parametri che possono essere scelti per condizionare il comportamento del meccanismo di pattern matching: • GREED(:ingordigia) : estende alla massima lunghezza gli elementi del pattern • OVERLAP (:sovrapposizione) :permette matches parzialmente sovrapposti • INCLUDE (:includere) : permette matches inclusi l’uno nell’altro (implica sovrapposizione) Di default il pattern matching mode scelto è quello GREEDY (permette overlap ma non include) Match mode: greed,overlap o include PATTERN MATCHING MODE Esempio: Sequenza: ABACADAEAFA Pattern: A-X(1,3)-A • • • Greed:1,overlap:1,include:0 : 4 matches ABACADAEAFA ooooo...... ..ooooo.... ....ooooo.. ......ooooo Greed=1, overlap=0 : 2 matches ABACADAEAFA ooooo...... ......ooooo Greed=0, overlap=0 : 3 matches ABACADAEAFA ooo........ ....ooo.... ……..ooo • Greed=1, overlap=1, include=1 : 5 matches ABACADAEAFA ooooo...... ..ooooo.... ....ooooo.. ......ooooo ........ooo • Greed=0, overlap=1, include=0 or 1 : 5 matches ABACADAEAFA ooo........ ..ooo...... ....ooo.... ......ooo.. ........ooo OUTPUT: FORMATO L’output può presentarsi in diversi formati,che possono essere scelti dalla lista presente sotto la voce “OUTPUT”. • Graphical rich view : in HTLM viene visualizzata una rappresentazione grafica delle hits sulla proteina in input e delle predizioni delle caratteristiche; le immagini possono essere scaricate. • Simple HTLM output : semplice visualizzazione HTLM dei risultati senza alcuna rappresentazione grafica • Plain text output: visualizzazione solo testuale,senza alcun link HTLM • Plain text fasta output : visualizzazione solo testuale in formato fasta; ogni hit è mostrata come una sequenza in formato fasta dove il titolo della sequenza stessa è : “>[matched protein]/[hit start]-[hit stop]/[matching PROSITE motif]/score(solo per profili)/confidence level tag(in ogni caso)”. OUTPUT: OPZIONI Dalla prima check box posta sotto la casella di testo,posso decidere di escludere dalla ricerca tutti i motivi con alta probabilità di essere presenti,così da poter visualizzare in output solo i motivi più peculiari. • i suddetti domini verranno segnalati dalla scritta “OCCURS FREQUENTLY” nel simple HTLM/text output • I suddetti domini verranno elencati sotto la dicitura “HITS BY FREQUENTLY OCCURRING PROFILES” nel formato rich view Dalla seconda check box posso invece decidere di analizzare la sequenza in input solo contro i pattern di PROSITE,ma non contro i motivi. Di default questa casella è in stato OFF,ma si può attivarla con il tick,solo nel caso in cui si lanci una ricerca contro tutti i motivi di PROSITE. OUTPUT: OPZIONI SHOW LOW LEVEL SCORE Mostra le hit più deboli dal punto di vista del punteggio,che è sotto una determinata soglia (cut-off) I profili di PROSITE hanno almeno 2 livelli di cut off: • Livello 0 : cut off affidabile • Livello -1 : cut off border line che produce più falsi positivi In questo caso usa il livello -1. Nel risultato le hit deboli vengono segnalate. • Con la dicitura “hits with a low confidence level (-1)” nel formato rich view • Con la dicitura “low confidence” nel simple HTLM/text output. SHOW ONLY SEQUENCES WITH AT LEAST X HITS Nel risultato vengono mostrate le proteine per cui si trovano hit almeno X volte. Il valore di X applicato di default è 1. MAXIMUM OF MATCHED SEQUENCES Il numero massimo di proteine diverse che sono mostrate in output. Il valore di default è 1000. Se il valore supera quellodi default,l’output non può più essere mostrato all’interno del web browser,ma il risultato sarà spedito via mail. RETRIEVE COMPLETE SEQUENCES Aggiunge la sequenza della proteina alle informazioni sulle proteine mostrate in output. Di default non è attivo. N.B: Nell’output in formato fasta,la sequenza completa della proteina soppianterebbe la sequenza del match; e inoltre l’output in formato rich view verrebbe trasformato in HTLM text perché il rich view non mostra la retrieve sequence OUTPUT: OPZIONI Formato output Show only sequences with at least X hits Max of matched sequence E mail Retrieve complete sequence Show low level score OUTPUT RICH VIEW: CARATTERISTICHE Per ogni match viene fornita un’immagine scaricabile del risultato. • I profili sono rappresentati come forme colorate con il loro nome di PROSITE • I pattern come barre colorate senza testo Se c’è un overlap tra più matches, questo è rappresentato con un’ulteriore barra,o,se rappresentato sulla stessa (- del 10% di overlap), delle linee verticali indicheranno l’inizio e la fine dell’overlap. • Per alcuni profili sono aggiunte anche delle caratteristiche biologiche,come ponti disolfuro,siti attivi, altri siti importanti ecc… ESEMPIO Output per la proteina “fascina”, una proteina che lega l’actina e interviene nei processi di motilità e riproduzione cellulare e nella costruzione del citoscheletro. Non escludendo i motivi con alta frequenza,di cui questa proteina è ricca, in output ho la rappresentazione dei vari siti di interesse all’interno della proteina: • ASN_GLYCOSYLATION N- glycosylation site •MYRISTYL N-myristoylation site •PKC_PHOSPHO_SITE Protein kinase C phosphorylation site •CK2_PHOSPHO_SITE Casein kinase II phosphorylation site Viene mostrata la sequenza query,con evidenziata la parte interessata da un particolare motivo. •TYR_PHOSPHO_SITE Tyrosine kinase phosphorylation site •CAMP_PHOSPHO_SITE cAMP - and cGMP-dependent protein kinase phosphorylation site