2024-09-07|閱讀時間 ‧ 約 31 分鐘

生物演化的數據化,建立演化樹的方法

本篇文章可能有些脫離科普的範疇,不過文章內容可以讓大家了解演化樹是怎麼建立出來的。請細細品味~🤭🤭🤭


系統發生樹(感謝Liang L et al提供)

系統發生樹(感謝Liang L et al提供)


生物的系統發生樹(phylogenetic tree),又稱演化樹,是一種用來描述生物演化關係的圖形模型。它通過分支結構展示特定物種從共同祖先演化而來的過程。每個分支點代表一次演化分歧的發生,系統發生樹的根部代表的是所有該群物種的共同祖先,而越接近樹冠的分支則代表越後期的物種。過往的系統發生樹以生物物種間的形態、樣貌差異多寡作為參考基準,但隨著分子生物技術的發展,現代生物往往利用基因的DNA序列作為演化親緣關係的主要參考資料。由於古生物保留至今的線索多以化石形式呈現,因此古生物的系統發生樹則依舊以生物形態、樣貌來建立,並利用最大簡約法(maximum parsimony)找到最可能的系統發生樹。


DNA序列要如何建立系統發生樹?

要建立一群物種的演化關係,代表這群物種之間一定有某些共同的特點,而且這個特點在不同物種間都存在些微差異,就是藉由這個差異的多寡來認定牠們的親緣關係。

以一個假想基因A為例,不同物種間的基因A的DNA序列差異如下:

物種1: CAGTCGATGTCGTAGTGCTA

物種2: CAGGCGTTGTCGTAGTGGTA

物種3: CAGGCGTTGTCATAGTGGTA

接著我們將這三個物種兩兩做比較,數出不同的位點數量:

物種1與物種2: 不同的位點為第4, 7, 18 ⇒ 3個

物種1與物種3: 不同的位點為第4, 7, 12, 18 ⇒ 4個

物種2與物種3: 不同的位點為第12 ⇒ 1個

之後將其作為資料矩陣:

從資料矩陣來看,我們可以得知物種2與物種3的關係較相近,牠們有三個位點是與物種1不同的(第4、7、18位點),而物種3隨後又在第12個位點突變成A,依照這樣的關聯性建立系統發生樹。

以真實的基因為例,肌動蛋白(actin)的基因能在酵母菌、植物、動物身上找到,是一個這些生物的共同祖先就已存在的基因。肌動蛋白基因的DNA序列在不同物種上都會有些許差異,而且我們「通常」能推測酵母菌的肌動蛋白DNA序列會比起鳥類和哺乳類物種間的肌動蛋白DNA序列差距更大。另外再以胰島素(insulin)為例,胰島素的基因是動物出現之後才演化出來的基因,因此酵母菌與植物沒有這個基因存在。在不同動物間的胰島素基因序列也存在許多差異。

以下我就用家麻雀(Passer domesticus)、人類(Homo sapiens)、家犬(Canis lupus familiaris)、家貓(Felis catus)這四種物種的胰島素基因序列做比對,從中可觀察出序列之間的差異性。


因真實的基因序列要比之前的假想基因A還要長且其變異較複雜,有些基因甚至比胰島素基因還要長好幾倍,光靠人力計算這些物種的關係是毫無效率的,所以科學家有發展一套演算法,並藉由電腦程式分析其序列差異的多寡畫出基因系統發生樹。

以下便是胰島素基因序列比對後出來的結果:

這邊我們可以看見胰島素基因的系統發生樹與物種的親緣關係是相對應的,家犬與家貓同為食肉目,在親緣關係四個之中最近,接著貓狗與人都是哺乳類,而關係最遠的則是家麻雀。

當我們要將一群不同物種判定親緣關係絕對不會只使用一個基因作為標準,因為有些基因可能會出現物種親緣關係雖遠但剛好該基因的序列差異卻相近的情況出現,甚至比物種親緣近的序列還要近。這個情況很常見,參考下圖,以假想基因H為例子,當共同祖先的族群中某些個體攜帶H0的基因,而另外一些個體則帶的是H1的基因(H0和H1是同一個基因,只是DNA序列上出現些微差異)。當C物種先演化出來時,族群裡只保留了H1基因,攜帶H0的個體隨後全消失了。另一邊A與B物種的共同祖先在當時族群中還留有H0和H1的個體,但之後演化成A與B不同物種時,A族群保留了H0,B族群保留了H1。在此我們如果從H基因來比較A、B、C三個物種的親緣關係時,會發現B與C都是H1,就會誤認為B與C的關係比較近,但事實上A與B的關係才是最近的,單純依照H基因作比對的結果會與真正演化的情形相違背。

就真實例子而言,我們都知道人類與黑猩猩的關係是最近的,但人類約30%的基因組卻與大猩猩最近,如果只參考該30%就會誤認為人與大猩猩的關係更近。這問題稱作不完全譜系分類(incomplete lineage sorting),也就是特定基因做出來的系統發生樹與真實物種系統發生樹出現不一致。故在製作物種系統發生樹時都必須要考慮好這些問題,才能建立好貼近演化事實的系統發生樹。為了避免出現不完全譜系分類的情況,生物資訊方面建立了不同的方法降低其出現的機會,知名的演算法例如ASTRAL、StarBEAST2、MP-EST等等,並配合物種的全基因組定序(whole genome sequencing)與全外顯子定序(whole exome sequencing)等等的比對,才能更完善和更精準地選擇最可能的物種親緣關係譜系。


古生物如何建立系統發生樹?

古生物學家會觀察化石上生物的整體樣貌、骨骼結構、軟組織特徵、遺留分子的化學特性等等線索來分析該物種的歸類。他們如果要將同類群的不同古生物物種進行比對時,會選取各個不同部位做差異的判斷,並將這些差異數據化,比如有該項特徵時為1,沒有該特徵為0,抑或者某特徵如果是三角形為0,圓形為1,都不是則為2。最後再將這些數值統整建立出系統發生樹。

以下我提供一個假想的簡單例子:

有該特徵為1,沒有該特徵為0

(特徵1)鼻骨中央橫向擴張,覆蓋眶前孔背外側:恐龍A(0)、恐龍B(1)、恐龍C(1)

(特徵2)頂骨後方突起越過上枕骨:恐龍A(1)、恐龍B(1)、恐龍C(1)

(特徵3)肩胛骨於外側視角明顯接近頸部:恐龍A(1)、恐龍B(0)、恐龍C(0)

之後將其作為資料矩陣:

我們可以看出依據這三個特徵,恐龍B和恐龍C的物種親緣會最近,就能藉此畫出系統發生樹。

當然在真實分析古生物親緣關係時會參考數十種至數百種特徵,再藉由軟體分析所有資料矩陣才能讓結果呈現更有可信度的系統發生樹。趨同演化有時也會誤導形態上的親緣辨認,比如鯊魚的尾巴和魚龍的尾巴形態相似,但事實上鯊魚屬於軟骨魚綱,而魚龍屬於爬蟲綱,關係十分遠。因此比對越多的參考資訊越能夠降低誤判的發生。

系統發生樹是我們理解地球上各種生物之間複雜關聯的關鍵工具。它不僅揭示了生物如何隨著時間演化,還幫助我們追溯共同祖先的足跡,進一步理解物種多樣性背後的歷史和機制。隨著分子生物學技術的進步,系統發育樹的準確性和細緻度不斷提升,讓我們能更全面地探索生命的演化奧秘。

作者:水也佑

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.