ANALISI BIOINFORMATICA DELLE PROTEINE Matteo Ramazzotti [email protected] Programma Banche dati proteiche. Interrogazione delle banche dati. Allineamento di sequenze proteiche. Matrici di sostituzione. Allineamento con gap. Allineamento globale e locale. BLAST e FASTA. Allineamento multiplo. Visualizzazione degli allineamenti. Applicazioni dei profili di multiallinemento. Ricerca di pattern e motivi funzionali nelle proteine. Banche dati dei profili proteici. Filogenesi molecolare. L’orologio molecolare. Analisi della struttura primaria delle proteine. Struttura secondaria delle proteine. Strumenti per la predizione della struttura secondaria. Visualizzazione tridimensionale delle proteine. Strumenti per la proteomica. RasMol. Swiss PDB Viewer. Strumenti per la predizione della struttura tridimensionale. Homology modelling. Interazione tra proteine. Docking. Testi consigliati: G.Valle et al. – “Introduzione alla bioinformatica” – Zanichelli A.Tramontano – “Bioinformatica” - Zanichelli Cos’è la bioinformatica E’ una scienza multidisciplinare che integra conoscenze informatiche, chimiche, matematiche, biologiche allo scopo di collezionare ed elaborare sistematicamente ogni informazione per ottenere la massima resa dalle ricerche sperimentali ma anche per sviluppare queste ultime in modo più mirato. Grazie alla bioinformatica è possibile avere uno sguardo d’insieme su tutte le conoscenze scientifiche e da questo partire per ulteriori osservazioni sia mediante metodi informatici, sia mediante metodi sperimentali. Chi si occupa di bioinformatica può appartenere a due categorie principali: SVILUPPATORI: coloro che si occupano di creare nuovi strumenti informatici per l’analisi scientifica UTENTI: coloro che utilizzano gli strumenti bioinformatici per ottenere dati e da questi partire per l’analisi sperimentale vera e propria. il programma che si utilizza può definirsi il metodo sperimantale della bioinformatica le banche dati posso definirsi il materiale sperimentale utilizzato dalla bioinformatica Banche dati Si possono raggruppare in quattro categorie principali: - di biosequenze (dette anche primarie) - genomiche - di espressione genica - proteiche Nel corso verranno trattate le banche dati proteiche anche se non bisogna dimenticare che molti dati sulle proteine derivano dalle banche dati primarie, cioè quelle nucleotidiche. Traduzione in silico Data una sequenza nucleotidica è possibile tradurla utilizzando tutti e tre i frame di lettura (+1, +2, +3) di entrambi i filamenti (senso e antisenso), allo scopo di individuare una Open Reading Frame (ORF) cioè una sequenza proteica di lungheza adatta ad essere una proteina (non meno di 70-100 residui). In questo modo, e con programmi appositi che scansionano tutto un genoma, è possibile trovare tantissime proteine PUTATIVE, cioè possibili ma non verificate. T +2 N +1 E R A R M N E P A C L S L S L S L S L S F F M D R G G W M Y V P A C I N Q V C L H P S I H T H S F S L T R 1 gaacgcgaatgcctctctctctttcgatgggtatgccaattgtccacattcactcgt F +3 A R V F S R A H I E R G R E R E R E K K R S R E P H I Y T P A H I L W G Q N I G D T C V W E N M S V * T R E Il codice genetico Si definisce DEGENERATO e RIDONDANTE. E’ composto da 64 diversi codoni che codificano i 20 amino acidi. La tebella accanto mostra le varie degenerazioni dei codoni per ogni amino acido. Alanine Ala A GC[CATG] Cysteine Cys C TG[CT] Aspartic AciD Asp D GA[CT] Glutamic Acid Glu E GA[AG] Phenylalanine Phe F TT[CT] Glycine Gly G GG[CATG] Histidine His H CA[CT] Isoleucine Ile I AT[CAT] Lysine Lys K AA[AG] Leucine Leu L CT[CATG], TT[AG] Methionine Met M ATG AsparagiNe Asn N AA[CT] Proline Pro P CC[CATG] Glutamine Gln Q CA[AG] ARginine Arg R CG[CATG], AG[AG] Serine Ser S TC[CTAG], AG[CT] Threonine Thr T AC[CATG] Valine Val V GT[CATG] Tryptophan Trp W TGG TYrosine Tyr Y TA[CT] - - TA[AG], TGA STOP Aminoacil-tRNA tRNA rRNA mRNA Trascrizione ------------RBS----ATG AAA TAC TAA Struttura primaria Sintesi proteica Struttura secondaria Folding Struttura terziaria Gli amino acidi Sono composti organici che presentano almeno un gruppo carbossilico (-COOH) a funzione acida e un gruppo aminico (-NH2) a funzione basica Le proteine sono composte soltanto da alfa-amino acidi, legati tra loro mediante legami detti PEPTIDICI che si instaurano tra il COOH e l’NH2. Ciò che diversifica i vari amino acidi è la catena laterale legata al carbonio alfa, che può conferire all’amino acido caratteristiche chimico-fisiche diverse. In base alla catena laterale si riconoscono 5 gruppi principali di amino acidi Acidi Polari non carichi Basici Strutturali Idrofobici Aromatici I polimeri di alfa amino acidi (le proteine) sono influenzati dalle caratteristiche chimico-fisiche delle catane laterali e in base a principi di interazioni deboli di tipo idrofobico o elettrostatico si osservano dei ripiegamenti, fino al raggiungimento della minor energia termodinamica. Questo processo, denominato FOLDING, è alla base del funzionamento delle proteine, visto che solo se sono correttamente strutturate esse assumeranno la loro forma e soprattutto FUNZIONE definitiva. La strutturazione delle proteine dipende quindi principalmente dalla sequenza dei residui che la compongono, oltre che dall’ambiente in cui si strutturano Struttura delle proteine Il legame peptidico ha delle caratteristiche di doppio legame e costringe i due atomo adiacenti a giacere sullo stesso piano. La rotazione della molecola avviene intorno al carbonio alfa, ma non tutti gli angoli di rotazione sono permessi a causa degli ingombri sterici delle diverse catene laterali e dello scheletro stesso. Il legame peptidico genera una polarità negli scheletri proteici per cui si vengono a formare PONTI IDROGENO tra gli idrogeni dei gruppi amidici e ossigeni dei carbonili. Queste interazioni deboli portano la struttura primaria della proteina (la sequenza dei suoi residui) a ripiegarsi in una STRUTTURA SECONDARIA in cui sono riconoscibili due formazioni 1- Alfa elica: struttura compatta avvolta in cui i legami idrogeno sono disposti parallelamente allo scheletro. 2 - Beta-strand: struttura rilassata in cui i ponti idrogeno si stabiliscono tra catene adiacenti che possono essere parallele o antiparallele, a formare dei foglietti beta. Le varie strutture secondarie si collegano tra loro mediante anse (loop) in cui non ci sono ponti idrogeno intramolecolari e che quindi non hanno un’organizzazione definita. In realtà alcune connessioni tra strutture secondarie sono conservate: es. per congiungere due beta-strands antiparalleli serve un connettore che permetta una curva molto stretta. La connessione HAIRPIN LOOP è un esempio. Strutture secondarie che si uniscono formano molto spesso delle strutture super-secondarie denominate MOTIVI Beta-turn-beta up-down greca jelly-roll Alpha-turn-alpha super-barrel coiled-coil four helix bundle beta-alpha-beta fold di Rossmann Alcune strutture terziarie Dominio doppio Dominio singolo Dominio triplo Dominio quadruplo Strutture quaternarie simmetriche Alcune osservazioni importanti 1) nello scrivere le proteine o i nucleotidi, usate sempre il carattere COURIER, non altri caratteri con spaziatura ineguale come il times, altrimenti succede questo: VILMA anzichè: VILMA e si perdono gli allineamenti VLLMA VLLMA 2) utilizzate sempre il blocco note o simili per editare le sequenze, in modo da non avere formattazioni impreviste. Il formato SOLO TESTO è il più adatto. 3) non copiate MAI a mano le sequenze, anche se brevi. Usate sempre il copia e incolla. Quindi: tenete i dati in formato elettronico, non cartaceo. 4) per modificare l’aspetto delle sequenze, utilizzate programmi appositi, non fate nulla a mano. Un ottimo programma è il Sequence Manipulation Suite (SMS) Banche dati Nascita delle banche dati Inizio anni 70: nasce la tecnologia del DNA ricombinante, che permette di manipolare le sequenze nucleotidiche e di capire la struttura, la funzione e l’organizzazione del DNA. Fine anni 70: pubblicazione dei primi dati genomici, con le prime sequenze nucleotidiche codificanti liberamente accessibili attraverso i rudimenti della rete disponibili a quel tempo tra le varie università. 2001: il Consorzio Pubblico Internazionale e la Celera Genomics forniscono dati del genoma umano completo, aprendo la strada ai progetti di sequenziamento a tappeto. Successivamente, l’approccio biotecnologico ha fornito una serie imponente di dati di natura proteomica grazie all’analisi spettrometrica e all’elettroforesi 2-D, ed una serie altrettanto vasta di dati di trascrittomica grazie alla tecnologia dei microarrays. Insieme ai dati nasce l’esigenza di sistemi di archiviazione e di ritrovamento facili e esaustivi, in modo da averli a disposizione in ogni istante, dato che sebbene ci siano tantissime informazioni, ognuna deve essere validata e confermata, essendo per la maggior parte dati grezzi non rielaborati. Conoscere il dato non significa capire il dato, serve sempre un approccio sperimentale classico perchè questo sia veramente verificato. => una banca dati è il posto dove cercare i dati da cui partire per una ricerca, non il suo punto di arrivo. I pionieri 1965: Margareth Dayhoff compila un atlante di proteine omologhe studiando le relazioni tra le sequenze primarie 1970: l’atlante viene reso pubblico in versione elettronica nella banca dati NBRF nascita della prima banca dati proteica. Ancora non ci sono dati di sequenziamento nucleotidico nella banca, sono tutti dati di natura biochimica classica, ma l’idea di rendere disponibili in modo libero dei dati accumulati e organizzati è alla base del concetto che muove gli organizzatori e i curatori delle banche dati, e che muove anche i fondi per la loro gestione Banche dati primarie 1981: nasce nel Laboratorio Europeo di Biologia Molecolare ad Heidelberg (Germania) l’EMBL-datalibrary, 519 entries con sequenze di DNA e RNA, autore Kurt Stueber 1982: nasce una banca dati simile negli USA, darà vità alla GenBank, autore Walter Goad 1986: nel National Institute of Genetics in Mishima (Giappone) nasce un mirror della GenBank, la DDBJ EMBL GenBank DDBJ => circa le stesse informazioni, organizzate in modo diverso Infrastrutture principali EMBNet, nata nel 1988 come rete europea a supporto della ricerca bio-molecolare, oggi conta 41 nodi nazionali in paesi europei ed extraeuropei (In Italia il nodo è a Bari) APBioNet (Asian-Pacific Biologic Network), recentemente gemelleta con EMBNet, organizzazione analoga Oggi i due database primari più importanti sono nei centri EBI (Cambridge, UK) : EMBL data-library NCBI (USA) : GenBank Organizzazione di un database biologico L’oggetto principale è la ENTRY, una unità riconoscibile grazie ad un identificatore univoco, che possiede una descrizione organizzata in campi standardizzati riconoscibili grazie ad HEADERS univoci nella banca dati. es. Identificatore ----------------- Autore ----------------- Data ----------------- ecc. Ogni banca dati presenta 2 versioni delle entries: Flat-file: un file di testo semplice, formattato, non interattivo HTML (o XML): interattivo, di facile consultazione L’interattività ha un ruolo centrale per una banca dati, perchè permette di navigare tra le sue entries e quelle di altri databases sia i flat-file sia le pagine XML sono ricchi di cross-references, riferimenti che mandano ad altre banche dati generiche o specializzate. Si ottiene così per ogni entry una serie di informazioni spesso ridondanti, tra cui è bene sapresi orientare, anche perchè alcune sembrano in contraddizione, es. - una proteina può avere dei riferimenti a sequenze codificanti diverse - una entry può avere più nomi per descriverla o può corrispondere a più autori Un esempio di entry proteica EMBL (flat-file) 1: AAC74054. orf, hypothetical...[gi:1787203] LOCUS AAC74054 92 aa linear DEFINITION orf, hypothetical protein [Escherichia coli K12]. ACCESSION AAC74054 VERSION AAC74054.1 DBSOURCE locus AE000199 accession AE000199.1 KEYWORDS . SOURCE Escherichia coli K12. ORGANISM Escherichia coli K12 BCT 01-DEC-2000 GI:1787203 Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (residues 1 to 92) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., Riley,M., Collado-Vides,J., Glasner,J.D., Rode,C.K., Mayhew,G.F., Gregor,J., Davis,N.W., Kirkpatrick,H.A., Goeden,M.A., Rose,D.J., Mau,B. and Shao,Y. TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 PUBMED 9278503 REFERENCE 2 (residues 1 to 92) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (16-JAN-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: [email protected] Phone: 608-262-2534 Fax: 608-263-7459 REFERENCE 3 (residues 1 to 92) AUTHORS Blattner,F.R. TITLE Direct Submission JOURNAL Submitted (02-SEP-1997) Guy Plunkett III, Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA. Email: [email protected] Phone: 608-262-2534 Fax: 608-263-7459 REFERENCE 4 (residues 1 to 92) AUTHORS Plunkett,G. III. TITLE Direct Submission JOURNAL Submitted (13-OCT-1998) Laboratory of Genetics, University of Wisconsin, 445 Henry Mall, Madison, WI 53706, USA COMMENT This sequence was determined by the E. coli Genome Project at the University of Wisconsin-Madison (Frederick R. Blattner, director). Supported by NIH grants HG00301 and HG01428 (from the Human Genome Project and NCHGR). The entire sequence was independently determined from E. coli K12 strain MG1655. Predicted open reading frames were determined using GeneMark software, kindly supplied by Mark Borodovsky, Georgia Institute of Technology, Atlanta, GA, 30332 [e-mail: [email protected]]. Open reading frames that have been correlated with genetic loci are being annotated with CG Site Nos., unique ID nos. for the genes in the E. coli Genetic Stock Center (CGSC) database at Yale University, kindly supplied by Mary Berlyn. A public version of the database is accessible (http://cgsc.biology.yale.edu). Annotation of the genome is an ongoing task whose goal is to make the genome sequence more useful by correlating it with other data. Comments to the authors are appreciated. Updated information will be available at the E. coli Genome Project's World Wide Web site (http://www.genetics.wisc.edu). *** The E. coli K12 sequence and its annotations are periodically updated; this is version M54. No sequence changes. Annotation updates: updated gene identifications and products; all new functional assignments courtesy of Monica Riley; added promoters, protein binding sites, and repeated sequences described in reference 1. The unique numeric identifiers beginning with a lowercase 'b' assigned to each gene (protein- or RNA-encoding) are now designated as gene synonyms instead of labels. This should allow them to be searched for in Entrez as gene names. Method: conceptual translation. FEATURES Location/Qualifiers source 1..92 /organism="Escherichia coli K12" /strain="K12" /sub_strain="MG1655" /db_xref="taxon:83333" Protein 1..92 /function="orf; Unknown" CDS 1..92 /gene="b0968" /coded_by="AE000199.1:121..399" /note="o93; 44 pct identical (2 gaps) to 85 residues from acylphosphatase, organ-common type isozyme, ACYO_CHICK SW:P07032 (98 aa)" /transl_table=11 ORIGIN 1 mskvciiawv ygrvqgvgfr yttqyeakrl gltgyaknld dgsvevvacg eegqveklmq 61 wlksggprsa rvervlseph hpsgeltdfr ir // Revised: July 5, 2002. Ogni banca dati ha dei suoi codici di identificazione e definisce le sue entries secondo un rigido standard, imponendo a priori un certo numero di possibili campi contrassegnati da tag specifici. Nell’esempio visto prima: ACCESSION AAC74054 indica il numero di accesso, ORGANISM Escherichia coli K12 Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. indica l’organismo a cui appartiene e la sua tassonomia. Qualsiasi cosa è standardizzata, dai tags agli spazi ed ai segni di punteggiatura. Questo permette ai programmi di RETRIEVAL, cioè di ricerca, di trovare rapidamente ciò che si cerca. Banche dati dell’EMBL Banche dati dell’NCBI Banche dati proteiche più utilizzate UniProt raccoglie le informazioni dei database Swiss-prot, TrEMBL e PIR. Offre la possibilità di effettuare Text Search o Blast Search. Viene curato anche un database NON RIDONDANTE (UniRef). Molto curato e dattagliato, con annotazioni circa funzione, struttura, modificazioni e altre informazioni utili E’ la traduzione in silico di ogni entry codificante del database primario dell’EMBL, non è accurato, ma è ricchissimo E’ il discendente diretto del database della Dayhoff, è curato a mano e le annotazioni sono molto ricche e precise Banche dati proteiche più utilizzate E’ un database di famiglie e domini proteici comprensiva di pattern e motivi (signatures) che identificano e rendono riconoscibili e classificabili le proteine. La ricerca in prosite comprende anche altri database strutturali e di classificazione. una signature formattata, definita anche pattern. Banche dati proteiche più utilizzate Pfam è una raccolta di proteine allineate e di profili generati con gli HMM che descrivono quasi tutte le famiglie e i domini proteici conosciuti. Da qui è possibile una analisi dettagliata sfruttando le risorse disponibili nel server del Sanger Institute per l’analisi familiare delle proteine. Il Proteome Analysis Database è una immensa raccolta di proteine catalogate per organismo di appartenenza e permette analisi interproteomiche mediante opportuni programmi di confronto. Banche dati proteiche più utilizzate Database di Protein Fingerprints, cioè pattern caratteristici di certe famiglie proteihce Database di domini proteici generato in modo automatico da Swiss-Prot e TrEMBL Database di architetture proteiche annotate per organismo e per famiglia Database di strutture tridimensionali di proteiene altre componenti proteiche