Bioinformatica
Corso di Laurea Specialistica in Biologia Cellulare e Molecolare
Ricerca pattern e di motivi
funzionali
8/5/2008
Stefano Forte
Orario di ricevimento
• Stefano Forte
Lunedi e Mercoledi 10.00 – 11.00
Ufficio 34 dipartimento di Matematica e
Informatica (Sopra box bidelli)
Tel. 095 7383082
email: [email protected]
Ricerca di pattern e motivi funzionali
• Data una nuova sequenza, cosa si puo’ dire
della funzione da essa codificata?
• Ua volta evidenziata, tramite un allineamento
multiplo, una regione altamente conservata
e’ possibile identificare nuove sequenze che
abbiano regioni simili?
• La ricerca di pattern studia l’organizzazione e
il disegno di sistemi che riconoscono motivi e
regolarita’ nei dati a disposizione
Definizione di un motivo
• Un motivo e’ definito come un insieme di
caratteri (nucleotidi o aminoacidi) non
necessariamente contigui in sequenza, che si
trovano sempre o spesso associati ad una
precisa struttura o funzione biologica.
• Una sequenza consenso e’ un tipico esempio
di motivo
• I motivi possono essere rappresentati
utilizzando le espressioni regolari. Queste
sono formule che si possono usare per
definire pattern testuali.
Le espressioni regolari
• Le espressioni regolari sono composte da
caratteri (nello stesso alfabeto su cui si
definisce il pattern) e metacaratteri (altri
caratteri a quali vengono attribuiti significati
particolari.
• Esempi di metacaratteri
. qualsiasi caratteri singolo
* nessuna o piu’ occorrenze di qualsiasi carattere
[abc] uno dei caratteri elencati dentrole parentesi
$ fine stringa
Le espressioni regolari
• Ad esempio, l’espressione regolare
C*TT.A$
Identifica le stringhe:
CGTTTA
TTCGTTCGTTTA
ACGTGTGGTGTTAA
Ma non
CTTGCA
Le espressioni regolari e i motivi
• Attraverso le espressioni regolari possiamo
definire un motivo che identifica una o piu’
sequenze di caratteri.
• Le espressioni regolari specificano motivi di
tipo deterministico: una sequenza puo’
contenere o non contenere il patter.
• Altre espressioni piu’ complesse possono
specificare per motivi di tipo probabilistico, in
cui esiste una certa associazione
probabilistica tra un pattern e le sequenze
associate ad una funzione
Motivi funzionali ideali e reali
• Un motivo funzionale e’ ideale se tutte le
sequenze associate ad una funzione e
soltanto le sequenze associate a quella
funzione sono identificate dal motivo
• Il motivo funzionale e’ reale se identifica
anche delle sequenze non associate a quella
funzione o se esistono delle sequenze
associate a quella funzione che non sono
identificate dal motivo funzionale
Calcolare l’affidabilita’ di un motivo
• Sensitivita’ =VP / (VP + FN)
– Essa rappresenta la misura della proporzione di
sequenze della famiglia selezionate dal motivo
• selettivita’ = VP / (VP + FP)
– Misura la proporzione di sequenze della famiglia
sul totale delle sequenze identificate dal motivo
• Specificita’ = VN / (VN + FP)
– Misura la proporzione di sequenze che non fanno
parte della famiglia che non vengono selezionate
dal motivo
Scanprosite
PROSITE consists of documentation
entries describing protein domains,
families and functional sites as well as
associated patterns and profiles to
identify them.
The ScanProsite tool allows to scan protein sequence(s) against the PROSITE
database. The user can provide either an UniProt Knowledgebase or Protein
Data Bank (PDB) sequence identifier(s) (AC(s) or/and ID(s)) or a sequence(s)
in fasta or UniProtKB format. By default the motifs to search for the occurrence
are PROSITE patterns and profiles
The ScanProsite tool also allows to search for hits by specific
motif(s) in protein sequence database(s).
Scanprosite
Sintassi dei pattern di Scanprosite
Scarica

ricerca pattern