近幾年來社群媒體、報章雜誌等各處都標榜著運用 AI 或是與 LLM 有關的報導與文章,也許大部分的人聽過甚至用過 ChatGPT ,也可能看過 DeepSeek 的崛起影響了世界等等的報導,但有沒有想過它們到底為什麼突然能派上用場?從早期只能補字的小模型,到如今能進行翻譯、推理甚至聊天,這篇針對「湧現能力」與「上下文學習」來說明LLM 從「不能用」到「很好用」的轉變。
LLM 的定義
大型語言模型(Large Language Model, LLM)顧名思義就是相比傳統語言模型來說具有更多的參數量(運算需求更高),更大規模的訓練資料(訓練成本更高);這樣的說明好像解釋了卻也沒解釋一樣,尤其隨著硬體與學術領域新的方法與技術的創新(如前幾篇篇介紹的合成數據等)"大型語言模型"也可以很小,所以到底什麼是 LLM?
湧現能力(Emergent Abilities)
早在 2022年時就有研究 (Emergent Abilities of Large Language Models)發現當模型在參數量、訓練資料或計算資源達到某臨界點後,會突然出現且可被穩定觀測到的能力,如之前介紹到的零樣本 / 少樣本學習(Zero-shot、Few-shot Learning)、鏈式思考推理(Chain-of-Thought Reasoning)、多語言翻譯等。這種「能力跳躍」被視為區分傳統預訓練語言模型(PLM)與現代 LLM 的重要標誌,也是為什麼 LLM 突然可以用了。
- 小狗階段(小模型)
你新養的小狗,只會做最基本的事像是吃喝拉撒睡等(小的語言模型,只會做簡單任務如補幾個字、回答很短的問題)
- 小狗長大了一點(開始訓練)
當小狗長大了一些後你開始訓練牠,漸漸地學會了「起立」「坐下」「握手」等指令(模型變大,開始能做翻譯、寫小故事這種進階工作)
- 貼心的夥伴(突然開竅)
當狗再繼續長大,但你沒有特別教牠,卻突然發現牠聽得懂你說的話,甚至能分辨你今天心情好不好(突然會一些你沒特別教的技能「湧現能力」)
上下文學習(In-Context Learning, ICL)
在過去想要讓傳統語言模型獲得一些能力需要透過額外的監督式微調(Supervised Fine-Tuning, SFT)才能獲得,但進行 SFT 很昂貴因為需要人工標註這些訓練資料,且微調時又需要更多額外的運算資源與時間,且每次遇到新的任務時都要再重頭來過。
而上下文學習(In-Context Learning)第一次在 GPT-3 的《Language Models are Few-Shot Learners》此篇中所提出,研究人員發現當 LLM 訓練到一定規模後,會「突然出現」一種能力,只要在 Prompt 中提供幾個範例,並保持前後格式一致,模型就能自己產生正確答案,最重要的是此格式不需要嚴格設計,只要一致即可。
- 假設你要設計一個客服機器人,希望他能自動回答顧客的問題。
給範例(依據:顧客 - 機器人 的格式):
------------------------------------------------
顧客:這個布偶多少錢?
機器人:布偶 300 元。
顧客:這輛汽車多少錢?
機器人:汽車 200 元。
- 現在顧客詢問一個新問題
顧客:這隻洋娃娃多少錢?
- 機器人可以自動照剛剛的規則回答
機器人:「洋娃娃 250 元。」
但 ICL 其實只是一種被觀察到的現象,是什麼原因導致 LLM 具備 ICL 能力,目前也沒有一個比較好的解釋,但此 Prompt 技巧(之前其實也有簡單提到過)卻被廣泛運用到許多領域,像是客服機器人或是一些醫療或法律的查詢聊天室,這也是為什麼後來 Prompt Engineering 甚至現在的 Context Engineering 這麼受歡迎且成功的原因,細節可以參考我的《Context Engineering 前世今生》系列文章。
LLM 從不能用到可以用的轉變
其實從 LLM 的發展歷史可以看到(下圖來自《A Survey of Large Language Models》),大家所孰知的模型如 OpenAI 的 ChatGPT 系列,或是在程式領域大放異彩的 Anthropic 的 Claude 系列。

語言模型的發展歷程(任務解決能力)
從傳統 PLM 演進成現在的 LLM 最大的分界就是語言模型的任務解決能力(Task Solveing),而今天所介紹的 湧現能力(Emergent Abilities)與上下文學習(In-Context Learning, ICL)正是讓語言模型變聽話(能依據使用者的需求正確的解決任務)的重要轉捩點,但要注意的是這兩個「突然」出現的能力到底是怎麼產生的,仍然存在討論,但這也不正是 LLM 的魅力所在嗎?
但讓 LLM 變得能用還不夠,LLM 是如何變得聰明甚至接近所謂 AGI 的可能,這就要留到下次我們再接著討論大型語言模型的「指令遵循(Instruction Following)」與「逐步推理(Step by Step Reasoning)」能力吧