
文不對題一下,閱讀前喝杯自己烘的咖啡。
這幾年的AI發展已經像是宇宙大霹靂那樣的狀態,一發不可收拾,沒人可以正確預測這股噴流會噴發到多少光年之外,各國也正在研擬法規因應這不知道會發展到甚麼地步的另類「軍武競賽」,說是軍武其實也不為過,美國川普政府將AI視為「戰略工具」、國家發展的存亡之戰,他在美國《 AI 行動計畫》裡明確強調其「AI主權」的意識,甚至加速國內的AI創新以及相對的法規鬆綁,要大家衝起來。
台灣在這一波的AI競賽中,自然也是重要的一環,除了掌握技術晶片技術這塊鐵板,繁體中文的訓練語料其實更是台灣的一塊瑰寶,國科會的TAIDE計畫,算是看到了這個區塊,兩年前我就開始關注他們研發的後續,從Meta Llama2為基底的TAIDE 7B一直到今年八月(2025/8/22)已「Gemma-3-12b」為基礎的「Gemma-3-TAIDE-12b-chat」,確實可以感受到台灣團隊在繁體中文語料訓練建構上的努力,可惜在使用與推廣上,似乎還需要多家努力,畢竟世界主流仍在那幾個大語言模型平台,但是以落地模型應用來說,「Gemma-3-TAIDE-12b-chat」的應用品質已經是非常不錯的了。


每次給新TAIDE模型的第一堂隨堂考試,這次總算過關了。
這幾天也試著與「Gemma-3-TAIDE-12b-chat」互動,看看它的能耐,我的設備是RTX3060(12GB GPU)顯示卡,主機記憶體是128GB,我習慣使用LMS運作地端模型(真的非常好用!),個人覺得它在台灣文化與語料的這一部分,這個模型能回覆的內容已經非常豐富多元,重點就是不用連網就能用,雖然有時候還是會有一點點小幻覺,但正確性比起上一個版本,已經大幅改善,特別是改寫文章的閱讀性也非常不錯,總之必須給予非常明確的指令會運作的比較好,我的感覺是它的回應模式就像老實純樸的台灣人,你不多問它也不會多講,例如請它改寫文章就必須明確的指定回應的風格以及大概的文字規範,不然它的回覆就是省話一哥。

「Gemma-3-taide-12b-chat」的回覆中,會自動特別註明台語拼音的註解,當然chatgpt也有這樣的能力,但是對於離線落地即可使用的模型來說,這已經是一個AI主權的優勢應用。

客語表達也沒有問題,相較於chatgpt的回答,我認為語境更正確。
模型訓練其實不容易,必須在合法合規的前提下取得相對多量多元的資料來源,之前有中央通訊社發生的版權事件就是一個實例,在AI法規還趕不上現實世界的實際需求之下,繁體中文的語料訓練在全世界以英文為主流的模型市場來說,可說是非常稀有,台灣更是全世界僅存少數一個以繁體為主要文化脈絡的國家,如果能在這一方面取得領先地位,對繁體用語以及文化知識保存,甚至語言脈絡來說都是一個重大的成就,其實...應該可以算是世界遺產等級了吧(但真的不要變成"遺產"阿,要生生不息延續下去)。
只可惜它不是多模態的語言模型,只能針對文字語境做處裡,期待有一天TAIDE會有專屬於台灣文化的多模態開放式語言模型的問世。
更重大的意義仍是台灣可以保有自己的AI主權意識,希望國科會的TAIDE團隊繼續努力,讓更多人認識台灣自己的語言模型。
有興趣的朋友可以試看看TAIDE的模型:https://taide.tw/index
落地模型介面可使用LMS:https://lmstudio.ai/