I dati molecolari necessitano di una correzione per
tener conto degli eventi mutazionali multipli
Immaginiamo due specie, che si siano appena distaccate
(t0) dal loro antenato comune recente, delle quali abbiamo
sequenziato un segmento di DNA di 100 nucleotidi.
Al t0 il segmento di DNA sarà probabilmente identico in
tutte e due le specie, e quindi a questo stadio la loro
distanza molecolare sarà nulla.
DNA (100 nucleotidi) Specie A
DNA (100 nucleotidi) Specie B
t0= 0% distanza molecolare
Dopo un pò, in una delle due specie, potrebbe verificarsi il
cambiamento di un nucleotide in una determinata posizione.
Es.
T
DNA (100 nucleotidi) Specie A
DNA (100 nucleotidi) Specie B
C.
t1= 1% distanza molecolare
Dopo un altro lasso di tempo avrà luogo un secondo
cambiamento, poi un terzo e così via.
Con il trascorrere del tempo la distanza molecolare tra le
due specie aumenterà, giacchè è probabile che nel
segmento di DNA ciascun cambiamento interessi un sito
diverso dei 100 possibili.
Dopo un po' potrebbe aver luogo un cambiamento in un sito
in cui se ne era già verificato uno.
Es
C
G.
Questo cambiamento evolutivo non aumenterà la distanza
tra le due specie. Quando ebbe luogo il primo cambiamento
e la T diventò C l'evento produsse una differenza dell'1%.
Se ora la C diventa G la differenza sarà ancora dell'1%.
Pertanto al di là di un certo livello, la distanza molecolare
tra le due specie tende ad appiattirsi e questo anche se
esse continuano ad evolvere separatamente.
I cambiamenti successivi non contribuiscono più ad
aumentare la distanza, perchè si tratta di eventi multipli
che interessano lo stesso sito.
Nel caso del Dna, poichè ha quattro basi, la distanza
molecolare tra le specie cessa di aumentare intorno al 75%.
Supponiamo che una specie
presenti, in corrispondenza
di un sito, il nucleotide C.
Se andiamo a vedere quale
base si trova in quello
stesso sito in una specie
molto diversa (tanto da
poter pensare che il sito
abbia subito molti eventi
mutazionali), la probabilità
di trovare una C è del 25%
mentre la probabilità di
trovare una G, una T o una
A è del 75%.
Pertanto, nel caso di
specie molto diverse, la
curva che descrive la
distanza tende ad
appiattirsi intorno al 75%.
E' possibile operare una correzione delle distanze
molecolari in modo da tener conto degli eventi mutazionali
multipli.
Per farlo ci si serve di modelli statistici di evoluzione delle
sequenze, che permettono di calcolare quanti cambiamenti
sono alla base dei dati di sequenziamento osservati.
Supponiamo di analizzare due sequenze di DNA di 100
nucleotidi in due specie molto diverse e di osservare 70 siti
che differiscono.
Il calcolo potrebbe dimostrare, per es, che 30 siti non sono
cambiati, 30 sono cambiati una volta, 20 due volte, 10 tre
volte, 6 quattro volte, 4 cinque volte.
Sommiamo allora
cambiamenti:
il
numero
il
numero
totale
dei
(30x1)+(20x2)+(10x3)+(6x4)+(4x5)=144.
Questo è il numero corretto degli eventi mutazionali!
Confrontiamolo ora con i 70 siti che differiscono nelle due
sequenze: il numero grezzo di differenze osservate (70)
deve essere corretto, portandolo a un numero di eventi
inferito di 144.
La curva della figura si divide in
tre regioni (I, II, III).
In I la quantità dei cambiamenti
è piccola e le distanze molecolari
riflettono accuratamente la
quantità di evoluzione.
Non occorre apportare correzioni
per tener conto degli eventi
mutazionali multipli.
In II dovremo operare la
correzione.
In III l'evoluzione ha
randomizzato le sequenze;
raggiunto il plateau, non è più
possibile risalire alla reale
quantità di cambiamenti evolutivi
e la correzione per tener conto
degli eventi mutazionali multipli è
impossibile.
L'inferenza filogenetica è impossibile in sequenze che si
siano allontanate in modo così cospicuo.
Quando tutti i siti sono stati interessati dai cambiamenti,
si dice che le sequenze hanno raggiunto la saturazione.
Ci troviamo a questo punto nella regione III della curva
e, ai fini dell'inferenza filogenetica, esse non sono più di
alcuna utilità.
L'arte della filogenetica molecolare consiste nel saper
trovare molecole che, nel corso di un processo di
evoluzione divergente, si siano allontanate nella giusta
misura.
L'inferenza filogenetica è relativamente semplice nella
regione I della curva, mentre è più difficile via via che ci
spostiamo nella regione II e diventa impossibile nella
regione III.
L’USO DI MOLECOLE PER DEDURRE RELAZIONI
FILOGENETICHE
Supponiamo di usare una molecola a rapida evoluzione per
un gruppo antico: nel corso della sua filogenesi, la
molecola sarà andata incontro a numerose modificazioni e
gli eventi mutazionali multipli interessanti lo stesso sito,
diventando comuni, portano alla perdita dell’informazione
filogenetica contenuta nella somiglianza della sequenza.
Allo stesso modo, molecole che si evolvono lentamente sono
inutili quando si vogliono risolvere i dettagli fini della
filogenesi, giacchè non presentano un numero sufficiente
di cambiamenti.
molecole evolutesi
lentamente
Differiscono per poche sequenze di
aminoacidi o di basi
Utili per studiare le relazioni evolutive tra
organismi con
antenati comuni remoti.
molecole evolutesi
rapidamente
Differiscono per molte sequenze di
aminoacidi o di basi
Utili per studiare le relazioni evolutive
tra organismi con
antenati comuni più recenti
La filogenetica molecolare si è imbattuta in diversi
problemi
1. Le sequenze molecolari di specie diverse possono
essere difficili da allineare.
Quando confrontiamo una sequenza di DNA in due specie e
contiamo quanti nucleotidi sono cambiati nel corso della
loro evoluzione, dobbiamo essere sicuri che ciascun sito di
una specie corrisponda allo stesso sito nell’altra specie.
•
•
In altre parole dobbiamo essere in grado di allineare
correttamente le due sequenze e dobbiamo fare in modo
che il nucleotide 39 della specie 1 corrisponda al 39 della
specie 2.
Esistono vari metodi per affrontare questo problema, che
tuttavia a volte possono fallire.
2. L’elevato numero di alberi possibili potrebbe
rendere impraticabile l’obiettivo di analizzarli
tutti.
•
•
•
Il numero di alberi possibile aumenta in modo esplosivo
con l'aumentare del numero di specie. Per 50 specie
esistono 3x1076 possibili alberi, e per i 30 milioni specie,
che probabilmente vivono oggi sulla Terra, il numero è
10300.000.000.
Nessun computer è in grado di compiere una ricerca su
una tale quantità di alberi e pertanto ai fini pratici il
limite superiore è costituito da circa 25 specie.
Se il numero di specie è troppo elevato perchè l'analisi
di tutti gli alberi possibili sia praticabile, la ricerca deve
essere effettuata ricorrendo ad un algoritmo.
Un algoritmo è una regola che prescrive come effettuare
la ricerca da un albero ad un altro e come valutare quale
dei due sia il migliore. Alla fine l'algoritmo consentirà di
trovare un albero migliore di tutte le alternative con le
quali viene confrontato, effettuando però la ricerca su un
numero limitato di alberi.
Ecco un'analogia.
Supponiamo di trovarci a San Francisco e di dare istruzioni
a qualcuno su come arrivare a Los Angeles. Un criterio di
ottimalità potrebbe essere “trovare la città con la
popolazione più grande degli Stati Uniti”.
Il poveretto che ricevesse tale indicazione dovrebbe
visitare ogni città del paese e censire le loro popolazioni,
così da potere essere sicuro di trovare la propria
destinazione.
Un algoritmo, invece, potrebbe suonare più o meno così:
“dirigiti a sud, tenendo l'Oceano Pacifico alla tua destra e
prosegui finchè non trovi una città con più di un milione di
abitanti”.
In tal modo solo una piccola parte degli Stati Uniti dovrà
essere oggetto della ricerca e la conclusione sarà
soddisfacente, perchè tra il punto di partenza e quello di
arrivo non esiste nessun'altra città in grado di soddisfare il
criterio enunciato.
I particolari algoritmi usati nella ricerca filogenetica sono
andati migliorando negli ultimi anni e qui non entreremo nei
dettagli. Quello che ci interessa è che, nel cercare gli
alberi possibili, gli algoritmi possono cadere nella trappola
degli 'optimum locali'.
Un optimun locale è un albero che sembra il migliore
possibile quando lo si confronta
con gli altri alberi
indagati dall'algoritmo, ma che in realtà è meno
parsimonioso di altri alberi non indagati.
Una soluzione pratica a questo problema consiste
nell'eseguire gli algoritmi diverse volte, cominciando ogni
volta da un punto di partenza diverso nello 'spazio degli
alberi'.
Se tutte le ricerche convergono su una stessa risposta,
disponiamo di un'indicazione assai convincente che l'albero
trovato è il più parsimonioso.
Se però le ricerche danno esiti contradditori,
potrebbe indicare che i dati sono inadeguati.
Gli algoritmi sono attendibili, ma non a prova di errore.
ciò
3. In una filogenesi molecolare la divergenza fra
le specie potrebbe essere troppo esigua o
eccessivamente pronunciata.
Come abbiamo detto la filogenetica molecolare incontra
delle difficoltà quando l'evoluzione non ha ancora indotto
una divergenza sufficiente o, al contrario, quando la
divergenza prodotta è eccessiva (quando le molecole si
sono allontanate troppo e tutti i siti sono ormai saturi di
cambiamento).
Difficile è soprattutto costruire la filogenesi delle forme
di vita che ebbero antenati comuni in un passato molto
remoto.
Per esempio nessuna molecola evolve abbastanza lentamente
da rivelarci le relazioni risalenti a 3000 milioni di anni fa
fra i tre principali domini della vita: Archibatteri,
Eubatteri ed Eucarioti.
Furono le molecole di rRNA 16S, presenti in tutti gli esseri
viventi e caratterizzate da una lentissima evoluzione, che
permesiro di
scoprire che il mondo dei viventi non si
divideva in Procarioti ed Eucarioti, ma appunto in
Archibatteri, Eubatteri ed Eucarioti.
Il mondo dei Procarioti rivelava così un inatteso livello di
divergenza interna.
La profonda separazione genetica che c’è fra Eubatteri ed
Archibatteri non è meno grande di quella che separa gli
Eubatteri dagli Eucarioti.
Woese e Olsen, nel 1986, incorporarono nel set di dati le
sequenze omologhe 16S dei mitocondri e dei cloroplasti,
giungendo alla sorprendente constatazione che le sequenze
di questi organelli non si collocavano, nell’albero
filogenetico, in prossimità della sequenza nucleare del loro
ospite eucariote, bensì all’interno degli eubatteri.
In quest’albero,
rimasto celebre,
molti vedono la
prova definitiva
dell’origine
endosimbiontica dei
mitocondri e dei
cloroplasti.
4. Linee filetiche diverse possono evolvere a
velocità diverse.
L'inferenza filogenetica diventa difficile quando alcune
linee filetiche evolvono velocemente ed altre più
lentamente. I metodi statistici risentono in tal caso
dell'azione confondente di due problemi correlati.
Uno l'abbiamo incontrato nel caso dei Coccodrilli e degli
Uccelli: linee filetiche che conservano numerose omologie
ancestrali possono finire per essere raggruppate sebbene
non siano imparentate.
Questo è un problema soprattutto per i metodi fondati
sulla misura della distanza, i quali non sono in grado di
distinguere le somiglianze ancestrali da quelle derivate.
I metodi ispirati alla parsimonia non risentono della
confusione creata dalle omologie ancestrali.
Questi ultimi possono essere tuttavia afflitti da un secondo
problema, l'attrazione causata dai rami lunghi.
Le linee che portano alle specie 3 e 4 sono evolute rapidamente. I segni
tracciati lungo quelle linee indicano un gran numero di cambiamenti
evolutivi, tanto che tutti i siti sono saturati da eventi mutazionali
multipli. Le sequenze nelle specie 3 e 4 presentano, per effetto del
caso, una somiglianza del 25%. Le linee che portano alle specie 1 e 2
sono invece cambiate poco. I rami lunghi (linee filetiche 3 e 4) sono in
questo caso più simili dei rami brevi e si ritrovano raggruppati nella
filogenesi.
Il problema può essere affrontato scartando specie in cui
l'evoluzione sia stata eccezionalmente rapida, o analizzando
nuove specie che 'spezzino' i rami lunghi.
Nell'analisi delle relazioni filogenetiche umane i dati
molecolari hanno messo proficuamente in discussione quelli
paleontologici
Ramapithecus è un gruppo di antropomorfe estinte, vissute circa 9-12 milioni di anni fa.
Fino alla fine degli anni Sessanta, quasi tutti i paleontologi pensavano che questo genere fosse
imparentato più strettamente con l'uomo e meno con lo scimpanzè o il gorilla.
Apparentemente, Ramapithecus e Homo condividevano un certo numero di caratteri derivati:
1. arcata dentaria arrotondata ( a forma di V negli scimpanzè);
2. canini piccoli (grossi negli scimpanzè, soprattutto nei maschi);
3. spesso strato di smalto dentario (sottile negli scimpanzè e in tutti gli altri Homininoidea).
Agli inizi degli anni sessanta venne dimostrata, attraverso diversi studi, la somiglianza molecolare fra
esseri umani e grandi scimmie antropomorfe.
Secondo questi studi, la linea filetica di Homo si staccò da quella
delle grandi scimmie antropomorfe circa 5 milioni di anni fa e la
filogenesi corretta è mostrata nell'albero b.
I caratteri morfologici che per lungo tempo avevano dimostrato
la parentela fra Ramapithecus e Homo non resistettero a un
riattento esame.
•L'arcata dentaria era stata ricostruita in modo erroneo
(assemblando parti di esemplari diversi).
•La riduzione del canino poteva essere dovuta al fatto che
l'esemplare considerato di Ramapithecus era di sesso femminile.
•Lo spessore dello smalto, che era stato considerato un
carattere derivato, si scoprì essere uno stato ancestrale.
Inoltre quando si procedette a confrontare Ramapithecus con
l'orango e con un altro fossile (Sivapithecus), di cui generalmente
si ammette la stretta parentela con l'orango, emersero chiare
somiglianze.
Gli esemplari un tempo classificati come Ramapithecus sono oggi
inclusi nel genere Sivapithecus.
Scarica

Diapositiva 1