Bioinformatica Corso di Laurea Specialistica in Biologia Cellulare e Molecolare Ricerca pattern e di motivi funzionali 8/5/2008 Stefano Forte Orario di ricevimento • Stefano Forte Lunedi e Mercoledi 10.00 – 11.00 Ufficio 34 dipartimento di Matematica e Informatica (Sopra box bidelli) Tel. 095 7383082 email: [email protected] Ricerca di pattern e motivi funzionali • Data una nuova sequenza, cosa si puo’ dire della funzione da essa codificata? • Ua volta evidenziata, tramite un allineamento multiplo, una regione altamente conservata e’ possibile identificare nuove sequenze che abbiano regioni simili? • La ricerca di pattern studia l’organizzazione e il disegno di sistemi che riconoscono motivi e regolarita’ nei dati a disposizione Definizione di un motivo • Un motivo e’ definito come un insieme di caratteri (nucleotidi o aminoacidi) non necessariamente contigui in sequenza, che si trovano sempre o spesso associati ad una precisa struttura o funzione biologica. • Una sequenza consenso e’ un tipico esempio di motivo • I motivi possono essere rappresentati utilizzando le espressioni regolari. Queste sono formule che si possono usare per definire pattern testuali. Le espressioni regolari • Le espressioni regolari sono composte da caratteri (nello stesso alfabeto su cui si definisce il pattern) e metacaratteri (altri caratteri a quali vengono attribuiti significati particolari. • Esempi di metacaratteri . qualsiasi caratteri singolo * nessuna o piu’ occorrenze di qualsiasi carattere [abc] uno dei caratteri elencati dentrole parentesi $ fine stringa Le espressioni regolari • Ad esempio, l’espressione regolare C*TT.A$ Identifica le stringhe: CGTTTA TTCGTTCGTTTA ACGTGTGGTGTTAA Ma non CTTGCA Le espressioni regolari e i motivi • Attraverso le espressioni regolari possiamo definire un motivo che identifica una o piu’ sequenze di caratteri. • Le espressioni regolari specificano motivi di tipo deterministico: una sequenza puo’ contenere o non contenere il patter. • Altre espressioni piu’ complesse possono specificare per motivi di tipo probabilistico, in cui esiste una certa associazione probabilistica tra un pattern e le sequenze associate ad una funzione Motivi funzionali ideali e reali • Un motivo funzionale e’ ideale se tutte le sequenze associate ad una funzione e soltanto le sequenze associate a quella funzione sono identificate dal motivo • Il motivo funzionale e’ reale se identifica anche delle sequenze non associate a quella funzione o se esistono delle sequenze associate a quella funzione che non sono identificate dal motivo funzionale Calcolare l’affidabilita’ di un motivo • Sensitivita’ =VP / (VP + FN) – Essa rappresenta la misura della proporzione di sequenze della famiglia selezionate dal motivo • selettivita’ = VP / (VP + FP) – Misura la proporzione di sequenze della famiglia sul totale delle sequenze identificate dal motivo • Specificita’ = VN / (VN + FP) – Misura la proporzione di sequenze che non fanno parte della famiglia che non vengono selezionate dal motivo Scanprosite PROSITE consists of documentation entries describing protein domains, families and functional sites as well as associated patterns and profiles to identify them. The ScanProsite tool allows to scan protein sequence(s) against the PROSITE database. The user can provide either an UniProt Knowledgebase or Protein Data Bank (PDB) sequence identifier(s) (AC(s) or/and ID(s)) or a sequence(s) in fasta or UniProtKB format. By default the motifs to search for the occurrence are PROSITE patterns and profiles The ScanProsite tool also allows to search for hits by specific motif(s) in protein sequence database(s). Scanprosite Sintassi dei pattern di Scanprosite