L’analisi comparativa rappresenta l’approccio bioinformatico
più rilevante per la caratterizzazione funzionale delle sequenze
nucleotidiche e proteiche.
I siti funzionalmente più rilevanti, mostreranno, infatti, un elevato
grado di conservazione in tutte le sequenze considerate.
Per effettuare analisi comparative è necessario selezionare un
certo numero di sequenze ed effettuare un allineamento multiplo.
L’allineamento multiplo viene rappresentato sotto forma di una tabella
costituita da righe, corrispondenti alle sequenze omologhe considerate,
e da colonne, corrispondenti a ciascun sito dell’allineamento.
Con omologia posizionale si intende che tutti i residui siano
evolutivamente correlati.
Esso viene realizzato con algoritmi che effettuano allineamento globale
che quindi considerano l’intera lunghezza delle sequenze in esame.
Il tempo impegato però diventa eccessivamente lungo cresce in modo
esponenziale rispetto al numero di sequenze da allineare.
Metodo allineamento progressivo: si basa sull’ipotesi che le sequenze
che devono essere allineate siano filogeneticamente correlate.
1. Allineamento tra tutte le possibili coppie: N sequenze si dovranno
Effettuare N*(N-1)/2 allineamenti a coppie.
2. I punteggi di similarità calcolati tra tutte le diverse coppie possono
Essere utilizzati per costruire un albero o dendrogramma.
3. L’albero ottenuto viene utilizzato come guida per l’allineamento
progressivo, che verrà formato formando via via dei cluster di seq.
allineate. Un cluster potrà poi essere allineato ad una sequenza o ad
un altro cluster.
4. Una volta che due o più sequenze vengono allineate in un cluster,
L’allineamento rimane fissato. Per cui si può incorrere in problemi
di minimo locale.
La bonta dell’allineamento dipende dall’algoritmo ma anche dalla scelta
delle sequenze.
L’allineamento risulta problematico anche quando le sequenze sono di
diversa lunghezza.
ClustalW che ha la peculiarità di allineare una nuova sequenza ad un
allineamento precedente.
Identità amminoacidica superiore 50%
Identità nnucleotidica superiore 70%
Soluzione ottima
Quando no ricorrano tali condizioni, l’allineamento richiede una
ulteriore fase di aggiustamento, che tenga conto di informazioni
addizionali quali:
•Conservazioni di siti funzionali e catalitici noti a priori
•Predizioni di struttura secondaria
•Predizioni di struttura terziaria
>sp|P01922|HBA_HUMAN Hemoglobin alpha chain (Human)
VLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGK
KVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPA
VHASLDKFLASVSTVLTSKYR
>sp|P02023|HBB_HUMAN Hemoglobin beta chain (Human)
VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLSTPDAVMGNPKV
KAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKLHVDPENFRLLGNVLVCVLAHHFGK
EFTPPVQAAYQKVVAGVANALAHKYH
>sp|P01958|HBA_HORSE Hemoglobin alpha chains (Horse)
VLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSHGSAQVKAHGK
KVGDALTLAVGHLDDLPGALSNLSDLHAHKLRVDPVNFKLLSHCLLSTLAVHLPNDFTPA
VHASLDKFLSSVSTVLTSKYR
>sp|P02062|HBB_HORSE Hemoglobin beta chain (Horse)
VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSNPGAVMGNPKV
KAHGKKVLHSFGEGVHHLDNLKGTFAALSELHCDKLHVDPENFRLLGNVLVVVLARHFGK
DFTPELQASYQKVVAGVANALAHKYH
>sp|P02179|MYG_BALAC Myoglobin (Minke whale)
VLSDAEWHLVLNIWAKVEADVAGHGQDILIRLFKGHPETLEKFDKFKHLKTEAEMKASED
LKKHGNTVLTALGGILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISDAIIHVLHSRHP
AEFGADAQAAMNKALELFRKDIAAKYKELGFQG
P01922
P02023
P01958
P02062
P02179
HBA-Human
HBB-Human
HBA-Horse
HBB-Horse
MYG-Whale
- Predizione Struttura Secondaria
-Modeling per Omologia
-Modeling per Threading
-Modeling Ab Initio
Predizione Struttura Secondaria
I metodi usati sono tre e si basano sulle informazione raccolte
dalle proteine la cui struttura terziaria è già risolta.
-Statistico di Chou e Fasman: i 20 aa mostrano preferenze
significative per particolari strutture secondarie
(A,R,Q,E,M,L,K eliche) (C,I,F,T,W,Y,V foglietti)
GOR attendibilità del 56%
-Stereochimico di Lim: tiene conto delle proprietà idrofobiche,
idrofiliche ed elettrostatiche considerando il loro ruolo nel folding
(alternanza di idrofilici e idrofobici, foglietti) utile per predire eliche
anfipatiche e transmembrana. SOSUI, TMPRED, ecc.
-Neural Network: tiene conto di entrambe le precedenti e del processo
evolutivo a partire dall’allineamento multiplo. PHD 70%
Predizioni di struttura
CHOU &
FASMAN
secondaria
Algoritmi predizione struttura secondaria
153320+1062164 sequenze proteiche conosciute
SwissProt +Trembl
26059 strutture conosciute
Tecniche lunghe per determinare la struttura delle proteine
(NMR, Cristallografia)
Incapacità di prevedere il folding di una proteina
Questo ha portato alla necessità di sviluppare una nuova
metodologia.
Rost B. Twilight zone of protein sequence alignments. Protein Eng 1999 Feb;12(2):85-94
Sequence alignments unambiguously distinguish between protein pairs of similar and non-similar structure when the
pairwise sequence identity is high (>40% for long alignments). The signal gets blurred in the twilight zone of 20-35%
sequence identity. Here, more than a million sequence alignments were analysed between protein pairs of known
structures to re-define a line distinguishing between true and false positives for low levels of similarity. Four results stood
out. (i) The transition from the safe zone of sequence alignment into the twilight zone is described by an explosion of false
negatives. More than 95% of all pairs detected in the twilight zone had different structures. More precisely, above a cut-off
roughly corresponding to 30% sequence identity, 90% of the pairs were homologous; below 25% less than 10% were. (ii)
Whether or not sequence homology implied structural identity depended crucially on the alignment length. For example, if
10 residues were similar in an alignment of length 16 (>60%), structural similarity could not be inferred. (iii) The 'more
similar than identical' rule (discarding all pairs for which percentage similarity was lower than percentage identity) reduced
false positives significantly. (iv) Using intermediate sequences for finding links between more distant families was almost
as successful: pairs were predicted to be homologous when the respective sequence families had proteins in common. All
findings are applicable to automatic database searches.
Step 1: determinare proteine correlate a quella sotto studio
Step2: Identificare regioni strutturalmente conservate (SCR)
e strutturalmente variabili (SVR)
Step3: costruire le SCR e le SVR usando le coordinate della
struttura stampo
Step 4:Modellare le catene laterali
Step5: Rifinire la struttura ottenuta con minimizzazione e
dinamica molecolare
Step 1
Capire a quale famiglia appartiene la mia proteina
Comparare la sequenza con le migliaia contenute nei database.
BLAST
FASTA
Tecnica dell’allineamento di sequenza importante per:
-identificare le regioni conservate nella sequenza
-trovare corrispondenze tra gli aa della proteina strutturata e quelli
della sconosciuta> in modo da trasferire le coordinate da quella
strutturata a quella non.
Le proteine cambiano molto rapidamente la loro sequenza.
Difficile indicare il grado di similarità necessario per
dimostrare in modo non ambiguo che due proteine sono
OMOLOGHE.
Doolittle dichiara:
1. Se due squenze sono più lunghe di 100 aa e l’identità
è maggiore del 25% esse sono plausibilmente correlate
2. Se l’identità è tra il 15-25 % potrebbero essere correlate
3. Se l’identità è sotto il 15% probabilmente non sono
correlate
Se ci troviamo nella situazione intermedia
dobbiamo fare altre valutazioni
Confronto della predizione di struttura secondaria
Residui idrofobici interni conservati
Ponti a disolfuro conservati
Pattern funzionali conservati
Quando l’identità di sequenza fra proteine si trova sotto il 25%
un altro metodo di procedere è quello via THREADING
In questo caso si cerca di adattare un profilo 1D ad uno 3D.
Informazioni a partire dalla nostra sequenza primaria
di accessibilità e struttura secondaria.
Da queste informazioni si procede grazie all’utilizzo di un’
algoritmo (MaxHom) ad individuare lo stesso tipo di profilo
in una proteina di cui si conosca già la struttura.
http://bioinf.cs.ucl.ac.uk/psipred/psiform.html
GenThreader necessita come input le predizioni di
BLAST e PSIPRED
L’utlimo approccio utilizzabile è il Modeilin AB INITIO
Si basa sull’energia e parte esclusivamente dalla sequenza
primaria.
Sfrutta una lista di criteri geometrici tali da campionare tutte
le possibili conformazioni e trovare quelle con minimo di
energia.
SCEF (Self Consistent Electrostatic-Field) ed il Metodo Monte
Carlo si basano sull’osservazione delle forze che entrano in gioco
nel determinare il folding di proteine (X e NMR), in questo modo
tenendo conto del principio di Boltzman, si può usare un metodo
statistico per ottenere le strutture 3D
Scelta del genoma
ORF Finder
ESEMPIO
Escherichia Coli 5231428 bp
NP_752656
NP_752656
Formato FASTA è il codice di interscambio universale
tra software
> NP_752656
MKLQNSFRDYTAESALFVRRALVAFLGILLLTGVLIANLYNLQIVRFTDYQTRSNENRIK
LVPIAPSRGIIYDRNGIPLALNRTIYQIEMMPEKVDNVQQTLDALRSVVDLTDDDIAAFR
KERARSHRFTSIPVKTNLTEVQVARFAVNQYRFPGVEVKGYKRRYYPYGSALTHVIGYVS
KINDKDVERLNNDGKLANYAATHDIGKLGIERYYEDVLHGQTGYEEVEVNNRGRVIRQLK
EVPPQAGHDIYLTLDLKLQQYIETLLAGSRAAVVVTDPRTGGVLALVSTPSYDPNLFVDG
ISSKDYSALLNDPNTPLVNRATQGVYPPASTVKPYVAVSALSAGVITRNTTLFDPGWWQL
PGSEKRYRDWKKWGHGRLNVTRSLEESADTFFYQVAYDMGIDRLSEWMGKFGYGHYTGID
LAEERSGNMPTREWKQKRFKKPWYQGDTIPVGIGQGYWTATPIQMSKALMILINDGIVKV
PHLLMSTAEDGKQVPWVQPHEPPVGDIHSGYWELAKDGMYGVANRPNGTAHKYFASAPYK
IAAKSGTAQVFGLKANETYNAHKIAERLRDHKLMTAFAPYNNPQVAVAMILENGGAGPAV
GTLMRQILDHIMLGDNNTDLPAENPAVAAAEDH
Penicillin binding protein Staphylococcus Aureus
1MWX
1MWS
Allineamento multiplo
Localizzazione cellulare della proteina
Predizione strutture secondaria GORIV
Predizione profilo idrofobico-idrofilico
Ricerca motivi strutturali MotifScan
Predizione localizzazione cellulare
PSORT
Predizione proteine di membrana
SOSUI
This amino acid sequence is of a MEMBRANE PROTEIN
which have 1 transmembrane helix.
No.
1
N terminal transmembrane region C terminal type
20
RALVAFLGILLLTGVLIANLYNL 42
length
PRIMARY 23
Predizione
Struttura
secondaria
GORIV
Profilo idropatia
ProtScale
Ricerca motivi in banca dati PROSITE
MotifScan
Scarica

Modulo Sequenza lez. 3