現代甘蔗(也稱為秀貴甘蔗,Saccharum officinarum)是人類歷史上最重要的糖料作物之一。過去的研究知道,甘蔗應該是在新幾內亞馴化,然後透過航海與貿易,逐漸成為全世界的作物。
要搞清楚甘蔗的「家族樹」可不是一件容易的事!為什麼?到底有多難呢?
打個比方吧:想從基因層面來弄清楚甘蔗的馴化,就好像在拼一副5000 片、顏色很相似的拼圖。
為什麼這麼說呢?因為甘蔗的基因體極度龐大而且複雜。甘蔗是所謂的「高倍多元體」,也就是說它的每條染色體都有多份拷貝(多倍體),不同祖先的基因交錯重組在一起。
結果是:你根本分不清這個基因到底是來自於哪個祖先。
傳統的做法(SNP 分析)就像拿著「原圖」拼拼圖
以前的研究者以基因體來研究作物演化,是利用所謂的SNP(單一核苷酸多型)分析:
他們把 DNA 片段比對到參考基因體,看哪個鹼基(A、T、C、G)不同,再據此分辨這段基因是來自於哪一個祖先。
這就像拼拼圖時會拿著一張原始圖案(參考基因體),逐片比對顏色與線條,想找到那些細微的差異,好判定這片拼圖該屬於哪個位置。
這個方法在不那麼複雜的基因體(例如玉米、水稻)很有效,但對甘蔗來說卻幾乎行不通——因為太多片「長得一模一樣」,結果比對軟體也搞不清楚哪個才是正確位置。
法國團隊的k-mer 分析:不看整張圖,先依照每片的顏色分類
2025 年,法國 CIRAD 團隊改變了思考方式。
他們放下「原圖」,改用一種更直覺的方法:
先觀察每一片拼圖的花紋,把顏色相似的放在一起,然後再看看這些花紋有沒有重複、出現在哪些拼圖群裡。
這些「小花紋」就是所謂的k-mer。

圖片作者:ChatGPT
在這篇研究裡,他們選用長度為50 個鹼基的 k-mer(50-mer),代表一段短短的 DNA 片段。
他們沒有先把所有甘蔗基因體的片段拼成整條染色體,而是直接去數每個k-mer片段在資料中出現的頻率。
為什麼挑50個鹼基?
因為在分子生物學與生物資訊領域中,有一個經驗法則:
隨機 DNA 序列只要超過大約 17–25 個鹼基(通常取 20–25mer),在整個基因體中就幾乎不會重複。
通常我們會選「27mer」,因為這個數值屬於這個區間稍微再高一點的安全範圍,也就是說,當一段 DNA 序列長度達 27 個鹼基時,它出現在基因體中「完全一模一樣」的機率幾乎趨近於零。
為什麼?
假設每個位置上只有四種鹼基(A、T、C、G),那麼 27 個鹼基的排列組合有 427
種可能,這是一個大約 7 × 1016 的天文數字。
即使是人類基因體(30 億 bp)或甘蔗那樣的超大基因體(>10¹¹ bp),要出現兩段完全相同的 27mer 幾乎不可能——除非是重複序列或轉位子。
在這個研究裡,法國研究團隊選了50mer,這樣對甘蔗這種高倍多元體來說,不僅找到一模一樣的序列的機會更低,而且這麼長的一段,將來還可以用來製作螢光探針,定位它在染色體上的位置。
因此,若某段k-mer只出現在新畿內亞野生蔗(S. robustum),那就是這個祖先的「指紋」;
若某段出現在多個物種中,就代表它們有共同的來源;
若某些稀有片段只在特定區域的樣本中出現,那可能來自該區域的未知祖先物種。
這個方法,讓研究團隊成功重建了甘蔗的血統比例。他們發現,現代甘蔗的基因體有約 74%來自於新畿內亞野生蔗,另外25%來自甜根子草(S. spontaneum,也稱為割手蜜),然後還有大約 1%來自一個原生於新喀里多尼亞與太平洋島嶼的未知祖先。
研究團隊在顯微鏡下也看到這 1% 的未知祖先。透過使用那些 50-mer 設計的螢光原位雜交(FISH)探針,讓染色體上不同祖先的區段真的「亮」了出來。
k-mer 分析的思維其實是一種革命性的思考:
它不再追求每個字母的精確比對、不執著於要把整個基因體給「畫」出來,而是看整體「圖案」的分布。
這就像我們不再試著拼出整幅圖,而是先用花紋分類所有拼圖,再由這些花紋推回哪一套拼圖、哪個祖先。
這個方法不只解開了甘蔗的家譜,
還讓人看見人類與植物共同的遷徙路線:
他們發現,甘蔗的確是在新幾內亞第一次被人類馴化。當地的人把新幾內亞野生蔗馴化為秀貴甘蔗(S. officinarum)。
接著,秀貴甘蔗向西傳入亞洲,與甜根子草雜交;另外它也向東航向太平洋,與未知祖先再度混血。
到了近代,透過育種再把它們再度混合,培育出現代高糖品系。
甘蔗基因體研究的突破提醒我們:
有時理解生命,不需要逐字讀懂 DNA,反而要學會看「整體的紋理」。
這種從「比對差異」轉向「比對存在」的思維,
正在重塑我們探索多倍體植物的方式。
未來,我們或許會發現,每一株作物的演化故事,都藏在這些微小而重複的花紋之中。
然後,因為用了拼圖來做比喻,我查了一下發現,
世界上最多片的拼圖是40,320片...
參考文獻:
Garsmeur, O., Rio, S., Pompidor, N., et al. (2025). The genomic footprints of wild Saccharum species trace domestication, diversification, and modern breeding of sugarcane. Cell, 188(24), 1–15. https://doi.org/10.1016/j.cell.2025.09.017
















