I dati molecolari necessitano di una correzione per tener conto degli eventi mutazionali multipli Immaginiamo due specie, che si siano appena distaccate (t0) dal loro antenato comune recente, delle quali abbiamo sequenziato un segmento di DNA di 100 nucleotidi. Al t0 il segmento di DNA sarà probabilmente identico in tutte e due le specie, e quindi a questo stadio la loro distanza molecolare sarà nulla. DNA (100 nucleotidi) Specie A DNA (100 nucleotidi) Specie B t0= 0% distanza molecolare Dopo un pò, in una delle due specie, potrebbe verificarsi il cambiamento di un nucleotide in una determinata posizione. Es. T DNA (100 nucleotidi) Specie A DNA (100 nucleotidi) Specie B C. t1= 1% distanza molecolare Dopo un altro lasso di tempo avrà luogo un secondo cambiamento, poi un terzo e così via. Con il trascorrere del tempo la distanza molecolare tra le due specie aumenterà, giacchè è probabile che nel segmento di DNA ciascun cambiamento interessi un sito diverso dei 100 possibili. Dopo un po' potrebbe aver luogo un cambiamento in un sito in cui se ne era già verificato uno. Es C G. Questo cambiamento evolutivo non aumenterà la distanza tra le due specie. Quando ebbe luogo il primo cambiamento e la T diventò C l'evento produsse una differenza dell'1%. Se ora la C diventa G la differenza sarà ancora dell'1%. Pertanto al di là di un certo livello, la distanza molecolare tra le due specie tende ad appiattirsi e questo anche se esse continuano ad evolvere separatamente. I cambiamenti successivi non contribuiscono più ad aumentare la distanza, perchè si tratta di eventi multipli che interessano lo stesso sito. Nel caso del Dna, poichè ha quattro basi, la distanza molecolare tra le specie cessa di aumentare intorno al 75%. Supponiamo che una specie presenti, in corrispondenza di un sito, il nucleotide C. Se andiamo a vedere quale base si trova in quello stesso sito in una specie molto diversa (tanto da poter pensare che il sito abbia subito molti eventi mutazionali), la probabilità di trovare una C è del 25% mentre la probabilità di trovare una G, una T o una A è del 75%. Pertanto, nel caso di specie molto diverse, la curva che descrive la distanza tende ad appiattirsi intorno al 75%. E' possibile operare una correzione delle distanze molecolari in modo da tener conto degli eventi mutazionali multipli. Per farlo ci si serve di modelli statistici di evoluzione delle sequenze, che permettono di calcolare quanti cambiamenti sono alla base dei dati di sequenziamento osservati. Supponiamo di analizzare due sequenze di DNA di 100 nucleotidi in due specie molto diverse e di osservare 70 siti che differiscono. Il calcolo potrebbe dimostrare, per es, che 30 siti non sono cambiati, 30 sono cambiati una volta, 20 due volte, 10 tre volte, 6 quattro volte, 4 cinque volte. Sommiamo allora cambiamenti: il numero il numero totale dei (30x1)+(20x2)+(10x3)+(6x4)+(4x5)=144. Questo è il numero corretto degli eventi mutazionali! Confrontiamolo ora con i 70 siti che differiscono nelle due sequenze: il numero grezzo di differenze osservate (70) deve essere corretto, portandolo a un numero di eventi inferito di 144. La curva della figura si divide in tre regioni (I, II, III). In I la quantità dei cambiamenti è piccola e le distanze molecolari riflettono accuratamente la quantità di evoluzione. Non occorre apportare correzioni per tener conto degli eventi mutazionali multipli. In II dovremo operare la correzione. In III l'evoluzione ha randomizzato le sequenze; raggiunto il plateau, non è più possibile risalire alla reale quantità di cambiamenti evolutivi e la correzione per tener conto degli eventi mutazionali multipli è impossibile. L'inferenza filogenetica è impossibile in sequenze che si siano allontanate in modo così cospicuo. Quando tutti i siti sono stati interessati dai cambiamenti, si dice che le sequenze hanno raggiunto la saturazione. Ci troviamo a questo punto nella regione III della curva e, ai fini dell'inferenza filogenetica, esse non sono più di alcuna utilità. L'arte della filogenetica molecolare consiste nel saper trovare molecole che, nel corso di un processo di evoluzione divergente, si siano allontanate nella giusta misura. L'inferenza filogenetica è relativamente semplice nella regione I della curva, mentre è più difficile via via che ci spostiamo nella regione II e diventa impossibile nella regione III. L’USO DI MOLECOLE PER DEDURRE RELAZIONI FILOGENETICHE Supponiamo di usare una molecola a rapida evoluzione per un gruppo antico: nel corso della sua filogenesi, la molecola sarà andata incontro a numerose modificazioni e gli eventi mutazionali multipli interessanti lo stesso sito, diventando comuni, portano alla perdita dell’informazione filogenetica contenuta nella somiglianza della sequenza. Allo stesso modo, molecole che si evolvono lentamente sono inutili quando si vogliono risolvere i dettagli fini della filogenesi, giacchè non presentano un numero sufficiente di cambiamenti. molecole evolutesi lentamente Differiscono per poche sequenze di aminoacidi o di basi Utili per studiare le relazioni evolutive tra organismi con antenati comuni remoti. molecole evolutesi rapidamente Differiscono per molte sequenze di aminoacidi o di basi Utili per studiare le relazioni evolutive tra organismi con antenati comuni più recenti La filogenetica molecolare si è imbattuta in diversi problemi 1. Le sequenze molecolari di specie diverse possono essere difficili da allineare. Quando confrontiamo una sequenza di DNA in due specie e contiamo quanti nucleotidi sono cambiati nel corso della loro evoluzione, dobbiamo essere sicuri che ciascun sito di una specie corrisponda allo stesso sito nell’altra specie. • • In altre parole dobbiamo essere in grado di allineare correttamente le due sequenze e dobbiamo fare in modo che il nucleotide 39 della specie 1 corrisponda al 39 della specie 2. Esistono vari metodi per affrontare questo problema, che tuttavia a volte possono fallire. 2. L’elevato numero di alberi possibili potrebbe rendere impraticabile l’obiettivo di analizzarli tutti. • • • Il numero di alberi possibile aumenta in modo esplosivo con l'aumentare del numero di specie. Per 50 specie esistono 3x1076 possibili alberi, e per i 30 milioni specie, che probabilmente vivono oggi sulla Terra, il numero è 10300.000.000. Nessun computer è in grado di compiere una ricerca su una tale quantità di alberi e pertanto ai fini pratici il limite superiore è costituito da circa 25 specie. Se il numero di specie è troppo elevato perchè l'analisi di tutti gli alberi possibili sia praticabile, la ricerca deve essere effettuata ricorrendo ad un algoritmo. Un algoritmo è una regola che prescrive come effettuare la ricerca da un albero ad un altro e come valutare quale dei due sia il migliore. Alla fine l'algoritmo consentirà di trovare un albero migliore di tutte le alternative con le quali viene confrontato, effettuando però la ricerca su un numero limitato di alberi. Ecco un'analogia. Supponiamo di trovarci a San Francisco e di dare istruzioni a qualcuno su come arrivare a Los Angeles. Un criterio di ottimalità potrebbe essere “trovare la città con la popolazione più grande degli Stati Uniti”. Il poveretto che ricevesse tale indicazione dovrebbe visitare ogni città del paese e censire le loro popolazioni, così da potere essere sicuro di trovare la propria destinazione. Un algoritmo, invece, potrebbe suonare più o meno così: “dirigiti a sud, tenendo l'Oceano Pacifico alla tua destra e prosegui finchè non trovi una città con più di un milione di abitanti”. In tal modo solo una piccola parte degli Stati Uniti dovrà essere oggetto della ricerca e la conclusione sarà soddisfacente, perchè tra il punto di partenza e quello di arrivo non esiste nessun'altra città in grado di soddisfare il criterio enunciato. I particolari algoritmi usati nella ricerca filogenetica sono andati migliorando negli ultimi anni e qui non entreremo nei dettagli. Quello che ci interessa è che, nel cercare gli alberi possibili, gli algoritmi possono cadere nella trappola degli 'optimum locali'. Un optimun locale è un albero che sembra il migliore possibile quando lo si confronta con gli altri alberi indagati dall'algoritmo, ma che in realtà è meno parsimonioso di altri alberi non indagati. Una soluzione pratica a questo problema consiste nell'eseguire gli algoritmi diverse volte, cominciando ogni volta da un punto di partenza diverso nello 'spazio degli alberi'. Se tutte le ricerche convergono su una stessa risposta, disponiamo di un'indicazione assai convincente che l'albero trovato è il più parsimonioso. Se però le ricerche danno esiti contradditori, potrebbe indicare che i dati sono inadeguati. Gli algoritmi sono attendibili, ma non a prova di errore. ciò 3. In una filogenesi molecolare la divergenza fra le specie potrebbe essere troppo esigua o eccessivamente pronunciata. Come abbiamo detto la filogenetica molecolare incontra delle difficoltà quando l'evoluzione non ha ancora indotto una divergenza sufficiente o, al contrario, quando la divergenza prodotta è eccessiva (quando le molecole si sono allontanate troppo e tutti i siti sono ormai saturi di cambiamento). Difficile è soprattutto costruire la filogenesi delle forme di vita che ebbero antenati comuni in un passato molto remoto. Per esempio nessuna molecola evolve abbastanza lentamente da rivelarci le relazioni risalenti a 3000 milioni di anni fa fra i tre principali domini della vita: Archibatteri, Eubatteri ed Eucarioti. Furono le molecole di rRNA 16S, presenti in tutti gli esseri viventi e caratterizzate da una lentissima evoluzione, che permesiro di scoprire che il mondo dei viventi non si divideva in Procarioti ed Eucarioti, ma appunto in Archibatteri, Eubatteri ed Eucarioti. Il mondo dei Procarioti rivelava così un inatteso livello di divergenza interna. La profonda separazione genetica che c’è fra Eubatteri ed Archibatteri non è meno grande di quella che separa gli Eubatteri dagli Eucarioti. Woese e Olsen, nel 1986, incorporarono nel set di dati le sequenze omologhe 16S dei mitocondri e dei cloroplasti, giungendo alla sorprendente constatazione che le sequenze di questi organelli non si collocavano, nell’albero filogenetico, in prossimità della sequenza nucleare del loro ospite eucariote, bensì all’interno degli eubatteri. In quest’albero, rimasto celebre, molti vedono la prova definitiva dell’origine endosimbiontica dei mitocondri e dei cloroplasti. 4. Linee filetiche diverse possono evolvere a velocità diverse. L'inferenza filogenetica diventa difficile quando alcune linee filetiche evolvono velocemente ed altre più lentamente. I metodi statistici risentono in tal caso dell'azione confondente di due problemi correlati. Uno l'abbiamo incontrato nel caso dei Coccodrilli e degli Uccelli: linee filetiche che conservano numerose omologie ancestrali possono finire per essere raggruppate sebbene non siano imparentate. Questo è un problema soprattutto per i metodi fondati sulla misura della distanza, i quali non sono in grado di distinguere le somiglianze ancestrali da quelle derivate. I metodi ispirati alla parsimonia non risentono della confusione creata dalle omologie ancestrali. Questi ultimi possono essere tuttavia afflitti da un secondo problema, l'attrazione causata dai rami lunghi. Le linee che portano alle specie 3 e 4 sono evolute rapidamente. I segni tracciati lungo quelle linee indicano un gran numero di cambiamenti evolutivi, tanto che tutti i siti sono saturati da eventi mutazionali multipli. Le sequenze nelle specie 3 e 4 presentano, per effetto del caso, una somiglianza del 25%. Le linee che portano alle specie 1 e 2 sono invece cambiate poco. I rami lunghi (linee filetiche 3 e 4) sono in questo caso più simili dei rami brevi e si ritrovano raggruppati nella filogenesi. Il problema può essere affrontato scartando specie in cui l'evoluzione sia stata eccezionalmente rapida, o analizzando nuove specie che 'spezzino' i rami lunghi. Nell'analisi delle relazioni filogenetiche umane i dati molecolari hanno messo proficuamente in discussione quelli paleontologici Ramapithecus è un gruppo di antropomorfe estinte, vissute circa 9-12 milioni di anni fa. Fino alla fine degli anni Sessanta, quasi tutti i paleontologi pensavano che questo genere fosse imparentato più strettamente con l'uomo e meno con lo scimpanzè o il gorilla. Apparentemente, Ramapithecus e Homo condividevano un certo numero di caratteri derivati: 1. arcata dentaria arrotondata ( a forma di V negli scimpanzè); 2. canini piccoli (grossi negli scimpanzè, soprattutto nei maschi); 3. spesso strato di smalto dentario (sottile negli scimpanzè e in tutti gli altri Homininoidea). Agli inizi degli anni sessanta venne dimostrata, attraverso diversi studi, la somiglianza molecolare fra esseri umani e grandi scimmie antropomorfe. Secondo questi studi, la linea filetica di Homo si staccò da quella delle grandi scimmie antropomorfe circa 5 milioni di anni fa e la filogenesi corretta è mostrata nell'albero b. I caratteri morfologici che per lungo tempo avevano dimostrato la parentela fra Ramapithecus e Homo non resistettero a un riattento esame. •L'arcata dentaria era stata ricostruita in modo erroneo (assemblando parti di esemplari diversi). •La riduzione del canino poteva essere dovuta al fatto che l'esemplare considerato di Ramapithecus era di sesso femminile. •Lo spessore dello smalto, che era stato considerato un carattere derivato, si scoprì essere uno stato ancestrale. Inoltre quando si procedette a confrontare Ramapithecus con l'orango e con un altro fossile (Sivapithecus), di cui generalmente si ammette la stretta parentela con l'orango, emersero chiare somiglianze. Gli esemplari un tempo classificati come Ramapithecus sono oggi inclusi nel genere Sivapithecus.