AI技術的研發
之前這系列文章談得比較多的是AI科技對外界的影響,以及普世如何面對AI。讀者可能從很多地方聽到類似的泛泛之論,每個人也都可以擁有自己的觀點,思考及選擇要如何與越來越普及的AI共存共榮。
現在我們來探談一個較小眾的議題:如何開發AI技術?延伸這個議題,之後我們再來談談如何成為協助開發AI技術的人?本土產業能夠做什麼?國家如何培育相關的研發人才?追蹤此系列文章的讀者,至此應該大致瞭解我所謂對工業生產效率影響極大的關鍵核心AI技術,像是如何讓LLM產生高效率且可信任的軟硬體設計,而我這裡想談的就是這類技術的研發。在此特別聲明,我絕對不是看不起其他的技術專業,只是覺得在廣泛談論AI的同時,也該對AI內部的技術面做一些較深入的探索。
當然,談得較多會是我個人涉獵較多的領域,不過會儘可能以深入淺出的科普形式呈現,讀者不用太擔心。為了簡潔,我會省去對某些術語的解說,想必對這系列文章有興趣的讀者多半會使用AI工具,不必浪費篇幅和彼此的腦力去涵蓋那些可透過AI工具獲得的詳盡解說。
要如何讓LLM產生高效率且可信任的軟硬體設計呢?對此,我做了一張高度簡化的概念圖來敘述目前的作法和所需的技術。

LLM的研發
目前絕大多數知名的通用基礎大型語言模型(Foundation LLM)均來自大型組織或企業,例如Google的Gemini、Meta的 Llama、OpenAI的ChatGPT、深度求索的DeepSeek、阿里巴巴的Qwen、阿拉伯聯合大公國政府主導的Falcon,主要是因為這些從零開始的模型訓練,需要極為龐大的訓練資料集和算力平台,遠超出小公司能力所及。
這些基礎模型通常盡可能以豐富、多元的資料集加以訓練,基本上屬於通用型(General Purpose),不過近年來因為競爭的關係,在最終的訓練階段也會輔以額外的優化,讓基礎模型在常見且公開的標竿測試(benchmarks)上表現好一些。這算不算作弊呢?我想,根據標竿測試而改進產品,原本就是業界的常態,因此標竿測試也應該經常更新才好,而使用者不宜全然以標竿測試的結果論英雄。但如果實際使用者的經驗與標竿測試分數之間有很大的落差,可能有損公司的形象,好比最近Meta的Llama 4就因此遭到許多批評。
什麼是更好的模型呢?從一般使用者的角度看,模型回答問題的品質或正確率越高越好,回答的速度越快越好,使用費越低廉越好。但通常智慧程度高、功能強大的模型的反應可能會比較慢,費用也會比較高,除非LLM服務商彼此廝殺到願意賠本打擊對手,那就另當別論。從LLM服務商的角度看,如果在技術上或者經濟規模上能夠以遠較競爭對手為低的成本,提供高於對手的服務品質,那麼贏面就會高出一籌了。
因此在過去這些年,發展LLM的科技巨擘,無不致力於提高模型能力、正確率、品質,研發高效率的模型訓練和推論的方法,以及打造高效率且具經濟規模的AI運算平台。為了贏得這場AI時代的卡位戰,這些科技巨擘都不惜鉅資爭聘專精於上述研發工作的科技人才。
目前已經有不少的基礎模型於網上公開讓人下載使用,這些所謂開放權重(Open-Weight)的模型,多數採用相對寬鬆的授權模式,讓人下載之後能夠加以修改、針對其應用領域進行優化,產生領域特定大型語言模型。例如我們想訓練一個專門用來設計電路的LLM,可以拿一個開放權重的模型,用專門的資料集訓練加以訓練,獲得更專業的效果,來作為特定領域的諮商服務或代理人。
什麼是更專業的效果呢?
首先是提升和確保品質。目前雖然各家廠商致力於提升LLM答題的正確率,但LLM經常為人詬病的通病是幻覺、胡言亂語,即便是在一些標竿測試獲得高分的LLM,仍然有這類的問題。因此除了提高答題的正確率之外,最好還要能確認答案,不然就要有能耐好好處理答案錯誤所衍生的問題。要知道,90%的正確率,還是有10%的錯誤率,就算正確率比人類還高,但所謂「知之為知之,不知為不知」,最好在回答之前先有一個驗證和評估的機制,來確定答案的正確性,或是給予一個信心指數供使用者參考。
話說,「知之為知之,不知為不知,是知也」這句話出自於【論語為政篇】,雖然是孔子對子路說的話,但也有針貶世人(尤其是政客)不懂裝懂的通病。通用基礎模型的訓練資料集包山包海,其中很多人產生的,很難確認訓練資料的品質,而這類模型的用途千萬種,又要如何驗證所有可能出現的問題和答案?將模型的用途限縮至特定領域,是較為務實的作法,強化訓練資料集的品質和模型產出的驗證程序的複雜度會較低,若能導入一流領域專家的智慧和協助,應該可以做得更好。
其次是提高訓練和推論的效率。為了上述的提升和確保品質,往往必須不斷加入新的資料,或是採用強化式學習(Reinforcement Learning),來優化模型,雖然限縮到特定的領域對模型做優化所需的資料集和算力成本遠低於訓練通用基礎模型,但成本仍然是重要的考量。尤其是經常需要重複進行的訓練,或是營運規模大幅成長之後,採購平台的成本和電費帳單,或是雲端算力的租用費,攸關公司的利潤,卻往往是新創公司始料未及(或刻意忽視)的議題。
如果能夠以較小的模型達成競爭對手採用較大模型才能完成的工作,就可以節省不少優化和營運的設備和算力成本。較大的模型除了增加成本之外,也會導致答題反應速度較慢,像是所謂「殺雞用牛刀」的窘境。此外也可以嘗試優化模型架構(例如混合專家模型)、模型壓縮、軟體優化、軟硬體協同設計、AI專用晶片等方法來提升訓練和推論的效率。
以我所見,國內外仍然極為缺乏擅長於上述工作的科技人才。狹隘地把資訊領域看成只是程式開發,或是利用現成的套件來發展AI應用,未免太短視淺薄了。