Fisica Computazionale applicata alle
Macromolecole
Struttura e funzione delle proteine 1
Pier Luigi Martelli
Università di Bologna
[email protected]
051 2094005
338 3991609
PRINCIPI DI BASE DELLA STRUTTURA DELLE
PROTEINE
Livelli di organizzazione strutturale
Primaria
Secondaria
Terziaria
Quaternaria
PRINCIPI DI BASE DELLA STRUTTURA DELLE
PROTEINE
Gli elementi di struttura secondaria
Foglietto b
a -elica
C
Chi è responsabile della struttura delle proteine?
La strutturazione di una sequenza amminoacidica dipende
da meccanismi cellulari?
Esperimento di Anfinsen
Rinaturazione in vitro della ribonucleasi pancreatica bovina:
• 4 ponti disolfuro
• riduzione dei ponti e denaturazione  perdita di attività
catalitica
• rimozione degli agenti denaturanti  riossidazione
dei ponti disolfuro  ripristino dell’attività
Anfinsen CB, 1973, Principles that govern the folding of protein
chains, Science 181:223-230
Anfinsen CB, 1973, NOBEL LECTURE
Chi è responsabile della struttura delle proteine?
Ipotesi termodinamica di Anfinsen
La struttura tridimensionale funzionale di una proteina in
ambiente fisiologico (stato nativo) corrisponde allo stato
termodinamicamente più stabile.
La sequenza amminoacidica contiene tutta l’informazione
necessaria a determinare la struttura della proteina in
ambiente fisiologico
N.B. In vivo il folding di una catena proteica può essere
aiutato e assistito da altre proteine (chaperonine, disolfuro
isomerasi,…) che accelerano il processo e evitano
l’aggregazione di più catene.
Caso particolare: inserzione in membrana
Problema del folding
Determinare la struttura tridimensionale di una proteina a
partire dalla sua sequenza amminoacidica.
Interesse teorico
Studio di un sistema intrinsecamente complesso
Interesse pratico
Le tecniche sperimentali attuali non consentono di
determinare facilmente la struttura di una qualsiasi
proteina (diffrazione a raggi X di un cristallo, NMR).
Molto più semplice avere la sequenza amminoacidica.
La funzione però dipende dalla struttura 3D
SwissProt (sequenze)
120000
2003
2002
2001
2000
1999
1998
1997
1996
1995
1994
1993
1992
1991
Anno
1990
1989
1988
1987
1986
1985
1984
1983
1982
1981
1980
1979
1978
1977
1976
1975
1974
1973
1972
0
PDB (strutture)
100000
80000
60000
40000
Numero di file depositati
Un po’ di numeri….
140000
20000
Approccio molecolare
Il sistema catena amminoacidica-solvente costituisce un
sistema molecolare di atomi in interazione.
• Scrivere le equazioni di interazione
• Minimizzare l’energia libera
• oppure, data una condizione iniziale, lasciare evolvere il
sistema dinamico fino all’equilibrio, risolvendo
iterativamente le equazioni del moto (Dinamica Molecolare)
Approccio molecolare
Forze stabilizzanti
Legami covalenti
Legami peptidici
disolfuro
(creano
la
catena
primaria),
Ponti
Interazione di non legame
Forze Coulombiane (ponti salini, attrazioni dipolari..)
Ponti a Idrogeno
Forze di dispersione alla London
Forze di repulsione
Effetto Idrofobico
Componenti entalpiche e entropiche.
presenza del solvente polare
Dipende
dalla
Approssimazioni classiche
Interazioni di “non legame”
Coulomb
Lennard-Jones
Approssimazioni classiche
Interazioni di “legame”
Lunghezza di legame
Angolo di legame
Angolo diedro
Approccio molecolare
Potenziali di interazione approssimati
Approssimazioni classiche di “potenziali” quantomeccanici.
Molte approssimazioni sono drastiche: polarizzabilità, forze
di dispersione..
Limiti computazionali
Si possono simulare solo piccoli sistemi (105-106 atomi) per
brevissimi tempi (10-8-10-6 s)
Inadatto alla risoluzione del problema del folding
Utile per studiare i moti di una molecola o l’interazione
con altre molecole (Docking)
Approccio molecolare
Esempio di dinamica molecolare
Analisi di sequenza
Preliminarmente dobbiamo affrontare i seguenti temi
Informazione disponibile
Banche dati primarie (sequenze e strutture)
Classificazione strutturale delle proteine
Proteine globulari, di membrana
Domini
Uguaglianza tra proteine
Folds
Classificazione funzionale delle proteine
Banche dati
Banche dati primarie
Dati derivanti da esperimenti:
Sequenze genomiche
Sequenze proteiche
Strutture
Dati di espressione genica
Banche derivate
Dati
derivanti
da
elaborazione,
annotazione
referenziazione incrociata dei dati primari
Moltissime banche dati specializzate sono disponibili
Baxevanis AD, 2005, The Molecular Biology Database Collection: 2005 update,
e
Banche dati: Genomi
NCBI
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome
24 Archaea
255 Bacteria
9 Eukaryota (+ 11 Mappe)
Genomi Batterici E.Coli K12
http://www.ncbi.nlm.nih.gov/genomes/framik.cgi?db=Genome&gi=115
Genomi Batterici E.Coli K12
gi|16127998|ref|NP_414545.1| threonine synthase [Escherichia coli K12]
MKLYNLKDHNEQVSFAQAVTQGLGKNQGLFFPHDLPEFSLTEIDEMLKLDFVTRSAKILSAFIGDEIPQE
ILEERVRAAFAFPAPVANVESDVGCLELFHGPTLAFKDFGGRFMAQMLTHIAGDKPVTILTATSGDTGAA
VAHAFYGLPNVKVVILYPRGKISPLQEKLFCTLGGNIETVAIDGDFDACQALVKQAFDDEELKVALGLNS
ANSINISRLLAQICYYFEAVAQLPQETRNQLVVSVPSGNFGDLTAGLLAKSLGLPVKRFIAATNVNDTVP
RFLHDGQWSPKATQATLSNAMDVSQPNNWPRVEELFRRKIWQLKELGYAAVDDETTQQTMRELKELGYTS
EPHAAVAYRALRDQLNPGEYGLFLGTAHPAKFKESVEAILGETLDLPKELAERADLPLLSHNLPADFAAL
RKLMMNHQ
gi|16127999|ref|NP_414546.1| orf, hypothetical protein [Escherichia coli K12]
……………………………..
gi|6626251:3734-5020, b0004
ATGAAACTCTACAATCTGAAAGATCACAACGAGCAGGTCAGCTTTGCGCAAGCCGTAACCCAGGGGTTGG
GCAAAAATCAGGGGCTGTTTTTTCCGCACGACCTGCCGGAATTCAGCCTGACTGAAATTGATGAGATGCT
GAAGCTGGATTTTGTCACCCGCAGTGCGAAGATCCTCTCGGCGTTTATTGGTGATGAAATCCCACAGGAA
ATCCTGGAAGAGCGCGTGCGCGCGGCGTTTGCCTTCCCGGCTCCGGTCGCCAATGTTGAAAGCGATGTCG
GTTGTCTGGAATTGTTCCACGGGCCAACGCTGGCATTTAAAGATTTCGGCGGTCGCTTTATGGCACAAAT
GCTGACCCATATTGCGGGTGATAAGCCAGTGACCATTCTGACCGCGACCTCCGGTGATACCGGAGCGGCA
GTGGCTCATGCTTTCTACGGTTTACCGAATGTGAAAGTGGTTATCCTCTATCCACGAGGCAAAATCAGTC
CACTGCAAGAAAAACTGTTCTGTACATTGGGCGGCAATATCGAAACTGTTGCCATCGACGGCGATTTCGA
TGCCTGTCAGGCGCTGGTGAAGCAGGCGTTTGATGATGAAGAACTGAAAGTGGCGCTAGGGTTAAACTCG
GCTAACTCGATTAACATCAGCCGTTTGCTGGCGCAGATTTGCTACTACTTTGAAGCTGTTGCGCAGCTGC
CGCAGGAGACGCGCAACCAGCTGGTTGTCTCGGTGCCAAGCGGAAACTTCGGCGATTTGACGGCGGGTCT
GCTGGCGAAGTCACTCGGTCTGCCGGTGAAACGTTTTATTGCTGCGACCAACGTGAACGATACCGTGCCA
CGTTTCCTGCACGACGGTCAGTGGTCACCCAAAGCGACTCAGGCGACGTTATCCAACGCGATGGACGTGA
GTCAGCCGAACAACTGGCCGCGTGTGGAAGAGTTGTTCCGCCGCAAAATCTGGCAACTGAAAGAGCTGGG
TTATGCAGCCGTGGATGATGAAACCACGCAACAGACAATGCGTGAGTTAAAAGAACTGGGCTACACTTCG
GAGCCGCACGCTGCCGTAGCTTATCGTGCGCTGCGTGATCAGTTGAATCCAGGCGAATATGGCTTGTTCC
TCGGCACCGCGCATCCGGCGAAATTTAAAGAGAGCGTGGAAGCGATTCTCGGTGAAACGTTGGATCTGCC
AAAAGAGCTGGCAGAACGTGCTGATTTACCCTTGCTTTCACATAATCTGCCCGCCGATTTTGCTGCGTTG
CGTAAATTGATGATGAATCATCAGTAA
………………………………..
Genomi Eucariotici Homo Sapiens
http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606
Genomi Eucariotici Homo Sapiens
http://www.ncbi.nlm.nih.gov/mapview/maps.cgi?org=hum&chr=9
Genomi Eucariotici Homo Sapiens: ENSEMBL
www.ensembl.org
Genomi Eucariotici Homo Sapiens: ENSEMBL
Banche dati: Sequenze
Sequenze nucleotidiche
EMBL http://www.ebi.ac.uk/embl/index.html
Sep-2005: 47,652,836 sequenze(51,954,360,988 basi)
Sequenze proteiche
NonRedundant (da tutte le fonti) www.ncbi.nlm.nih.gov
Nov-2005: 2,993,827 sequenze (1,030,492,065 AA)
SwissProt (annotato ) www.expasy.ch
Oct-2005: 197,277 sequenze (71,273,976 AA)
TrEMBL (Automaticamente annotato)
Oct-2005: 2,273,976 sequenze
Banche dati: EMBL
Esempio di file: ECADHE
Banche dati: SwissProt
Ricerca con SRS http://www.expasy.org/srs5/
Campi
Connettivi booleani
Esempio di file: ADHE_HORSE
Banche dati: Strutture
PDB
http://www.rcsb.org/pdb/
Banche dati: Strutture
Banche dati: Strutture
Esempio di File PDB: 2OHX
Come visualizzare strutture proteiche
RASMOL http://www.umass.edu/microbio/rasmol/
APRI RASMOL
RASTOP http://www.geneinfinity.org/rastop/
APRI RASTOP
N.B. Sono VISUALIZZATORI di coordinate 3D (file PDB)
NON COSTRUISCONO LA STRUTTURA DALLA SEQUENZA
Scarica

Lezione1