Fisica Computazionale applicata alle Macromolecole Struttura e funzione delle proteine 1 Pier Luigi Martelli Università di Bologna [email protected] 051 2094005 338 3991609 PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE Livelli di organizzazione strutturale Primaria Secondaria Terziaria Quaternaria PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINE Gli elementi di struttura secondaria Foglietto b a -elica C Chi è responsabile della struttura delle proteine? La strutturazione di una sequenza amminoacidica dipende da meccanismi cellulari? Esperimento di Anfinsen Rinaturazione in vitro della ribonucleasi pancreatica bovina: • 4 ponti disolfuro • riduzione dei ponti e denaturazione perdita di attività catalitica • rimozione degli agenti denaturanti riossidazione dei ponti disolfuro ripristino dell’attività Anfinsen CB, 1973, Principles that govern the folding of protein chains, Science 181:223-230 Anfinsen CB, 1973, NOBEL LECTURE Chi è responsabile della struttura delle proteine? Ipotesi termodinamica di Anfinsen La struttura tridimensionale funzionale di una proteina in ambiente fisiologico (stato nativo) corrisponde allo stato termodinamicamente più stabile. La sequenza amminoacidica contiene tutta l’informazione necessaria a determinare la struttura della proteina in ambiente fisiologico N.B. In vivo il folding di una catena proteica può essere aiutato e assistito da altre proteine (chaperonine, disolfuro isomerasi,…) che accelerano il processo e evitano l’aggregazione di più catene. Caso particolare: inserzione in membrana Problema del folding Determinare la struttura tridimensionale di una proteina a partire dalla sua sequenza amminoacidica. Interesse teorico Studio di un sistema intrinsecamente complesso Interesse pratico Le tecniche sperimentali attuali non consentono di determinare facilmente la struttura di una qualsiasi proteina (diffrazione a raggi X di un cristallo, NMR). Molto più semplice avere la sequenza amminoacidica. La funzione però dipende dalla struttura 3D SwissProt (sequenze) 120000 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 Anno 1990 1989 1988 1987 1986 1985 1984 1983 1982 1981 1980 1979 1978 1977 1976 1975 1974 1973 1972 0 PDB (strutture) 100000 80000 60000 40000 Numero di file depositati Un po’ di numeri…. 140000 20000 Approccio molecolare Il sistema catena amminoacidica-solvente costituisce un sistema molecolare di atomi in interazione. • Scrivere le equazioni di interazione • Minimizzare l’energia libera • oppure, data una condizione iniziale, lasciare evolvere il sistema dinamico fino all’equilibrio, risolvendo iterativamente le equazioni del moto (Dinamica Molecolare) Approccio molecolare Forze stabilizzanti Legami covalenti Legami peptidici disolfuro (creano la catena primaria), Ponti Interazione di non legame Forze Coulombiane (ponti salini, attrazioni dipolari..) Ponti a Idrogeno Forze di dispersione alla London Forze di repulsione Effetto Idrofobico Componenti entalpiche e entropiche. presenza del solvente polare Dipende dalla Approssimazioni classiche Interazioni di “non legame” Coulomb Lennard-Jones Approssimazioni classiche Interazioni di “legame” Lunghezza di legame Angolo di legame Angolo diedro Approccio molecolare Potenziali di interazione approssimati Approssimazioni classiche di “potenziali” quantomeccanici. Molte approssimazioni sono drastiche: polarizzabilità, forze di dispersione.. Limiti computazionali Si possono simulare solo piccoli sistemi (105-106 atomi) per brevissimi tempi (10-8-10-6 s) Inadatto alla risoluzione del problema del folding Utile per studiare i moti di una molecola o l’interazione con altre molecole (Docking) Approccio molecolare Esempio di dinamica molecolare Analisi di sequenza Preliminarmente dobbiamo affrontare i seguenti temi Informazione disponibile Banche dati primarie (sequenze e strutture) Classificazione strutturale delle proteine Proteine globulari, di membrana Domini Uguaglianza tra proteine Folds Classificazione funzionale delle proteine Banche dati Banche dati primarie Dati derivanti da esperimenti: Sequenze genomiche Sequenze proteiche Strutture Dati di espressione genica Banche derivate Dati derivanti da elaborazione, annotazione referenziazione incrociata dei dati primari Moltissime banche dati specializzate sono disponibili Baxevanis AD, 2005, The Molecular Biology Database Collection: 2005 update, e Banche dati: Genomi NCBI http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome 24 Archaea 255 Bacteria 9 Eukaryota (+ 11 Mappe) Genomi Batterici E.Coli K12 http://www.ncbi.nlm.nih.gov/genomes/framik.cgi?db=Genome&gi=115 Genomi Batterici E.Coli K12 gi|16127998|ref|NP_414545.1| threonine synthase [Escherichia coli K12] MKLYNLKDHNEQVSFAQAVTQGLGKNQGLFFPHDLPEFSLTEIDEMLKLDFVTRSAKILSAFIGDEIPQE ILEERVRAAFAFPAPVANVESDVGCLELFHGPTLAFKDFGGRFMAQMLTHIAGDKPVTILTATSGDTGAA VAHAFYGLPNVKVVILYPRGKISPLQEKLFCTLGGNIETVAIDGDFDACQALVKQAFDDEELKVALGLNS ANSINISRLLAQICYYFEAVAQLPQETRNQLVVSVPSGNFGDLTAGLLAKSLGLPVKRFIAATNVNDTVP RFLHDGQWSPKATQATLSNAMDVSQPNNWPRVEELFRRKIWQLKELGYAAVDDETTQQTMRELKELGYTS EPHAAVAYRALRDQLNPGEYGLFLGTAHPAKFKESVEAILGETLDLPKELAERADLPLLSHNLPADFAAL RKLMMNHQ gi|16127999|ref|NP_414546.1| orf, hypothetical protein [Escherichia coli K12] …………………………….. gi|6626251:3734-5020, b0004 ATGAAACTCTACAATCTGAAAGATCACAACGAGCAGGTCAGCTTTGCGCAAGCCGTAACCCAGGGGTTGG GCAAAAATCAGGGGCTGTTTTTTCCGCACGACCTGCCGGAATTCAGCCTGACTGAAATTGATGAGATGCT GAAGCTGGATTTTGTCACCCGCAGTGCGAAGATCCTCTCGGCGTTTATTGGTGATGAAATCCCACAGGAA ATCCTGGAAGAGCGCGTGCGCGCGGCGTTTGCCTTCCCGGCTCCGGTCGCCAATGTTGAAAGCGATGTCG GTTGTCTGGAATTGTTCCACGGGCCAACGCTGGCATTTAAAGATTTCGGCGGTCGCTTTATGGCACAAAT GCTGACCCATATTGCGGGTGATAAGCCAGTGACCATTCTGACCGCGACCTCCGGTGATACCGGAGCGGCA GTGGCTCATGCTTTCTACGGTTTACCGAATGTGAAAGTGGTTATCCTCTATCCACGAGGCAAAATCAGTC CACTGCAAGAAAAACTGTTCTGTACATTGGGCGGCAATATCGAAACTGTTGCCATCGACGGCGATTTCGA TGCCTGTCAGGCGCTGGTGAAGCAGGCGTTTGATGATGAAGAACTGAAAGTGGCGCTAGGGTTAAACTCG GCTAACTCGATTAACATCAGCCGTTTGCTGGCGCAGATTTGCTACTACTTTGAAGCTGTTGCGCAGCTGC CGCAGGAGACGCGCAACCAGCTGGTTGTCTCGGTGCCAAGCGGAAACTTCGGCGATTTGACGGCGGGTCT GCTGGCGAAGTCACTCGGTCTGCCGGTGAAACGTTTTATTGCTGCGACCAACGTGAACGATACCGTGCCA CGTTTCCTGCACGACGGTCAGTGGTCACCCAAAGCGACTCAGGCGACGTTATCCAACGCGATGGACGTGA GTCAGCCGAACAACTGGCCGCGTGTGGAAGAGTTGTTCCGCCGCAAAATCTGGCAACTGAAAGAGCTGGG TTATGCAGCCGTGGATGATGAAACCACGCAACAGACAATGCGTGAGTTAAAAGAACTGGGCTACACTTCG GAGCCGCACGCTGCCGTAGCTTATCGTGCGCTGCGTGATCAGTTGAATCCAGGCGAATATGGCTTGTTCC TCGGCACCGCGCATCCGGCGAAATTTAAAGAGAGCGTGGAAGCGATTCTCGGTGAAACGTTGGATCTGCC AAAAGAGCTGGCAGAACGTGCTGATTTACCCTTGCTTTCACATAATCTGCCCGCCGATTTTGCTGCGTTG CGTAAATTGATGATGAATCATCAGTAA ……………………………….. Genomi Eucariotici Homo Sapiens http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606 Genomi Eucariotici Homo Sapiens http://www.ncbi.nlm.nih.gov/mapview/maps.cgi?org=hum&chr=9 Genomi Eucariotici Homo Sapiens: ENSEMBL www.ensembl.org Genomi Eucariotici Homo Sapiens: ENSEMBL Banche dati: Sequenze Sequenze nucleotidiche EMBL http://www.ebi.ac.uk/embl/index.html Sep-2005: 47,652,836 sequenze(51,954,360,988 basi) Sequenze proteiche NonRedundant (da tutte le fonti) www.ncbi.nlm.nih.gov Nov-2005: 2,993,827 sequenze (1,030,492,065 AA) SwissProt (annotato ) www.expasy.ch Oct-2005: 197,277 sequenze (71,273,976 AA) TrEMBL (Automaticamente annotato) Oct-2005: 2,273,976 sequenze Banche dati: EMBL Esempio di file: ECADHE Banche dati: SwissProt Ricerca con SRS http://www.expasy.org/srs5/ Campi Connettivi booleani Esempio di file: ADHE_HORSE Banche dati: Strutture PDB http://www.rcsb.org/pdb/ Banche dati: Strutture Banche dati: Strutture Esempio di File PDB: 2OHX Come visualizzare strutture proteiche RASMOL http://www.umass.edu/microbio/rasmol/ APRI RASMOL RASTOP http://www.geneinfinity.org/rastop/ APRI RASTOP N.B. Sono VISUALIZZATORI di coordinate 3D (file PDB) NON COSTRUISCONO LA STRUTTURA DALLA SEQUENZA