我們從小到大,經歷了十幾二十年的教育。你是否想過,訓練一個大型語言模型(LLM)與我們學習的過程其實非常相似?當我們打開一本課本,裡面的內容通常可以分為三種類型:
1. 背景知識:就像模型的「預訓練」
課本的主要內容通常是解釋概念、介紹背景知識。當我們閱讀這些內容時,大腦其實是在「訓練」自己,吸收資訊並建立對該領域的基本理解。對 LLM 來說,這就像預訓練(Pretraining),它們透過大量網路資料學習各種知識,就像我們讀書一樣。
2. 範例題與解答:等同於「監督微調」
課本裡經常會有範例題,老師或專家會一步步示範解題過程,讓學生可以模仿學習。這類學習方式對應到 LLM 的監督微調(Supervised Fine-tuning),也就是讓模型學習人類撰寫的「理想回答」,讓它們知道如何提供最佳回應。
3. 練習題:類似於「強化學習」
每一章通常還會有大量的練習題,這些題目通常沒有解答過程,頂多只提供最終答案。學生需要自己嘗試、犯錯、修正,最終才能掌握概念。這與**強化學習(Reinforcement Learning, RL)**非常類似 — — LLM 透過不斷嘗試,學習如何產生更好的回應。
LLM 也需要「做作業」
目前,我們已經讓 LLM 吸收了大量的背景知識(第一步)和範例解題(第二步),但「練習題」這一塊 — — 也就是讓模型透過試錯學習,仍然是一個正在發展的領域。這正是當紅的 DeepSeek 採用的重要技術。
當我們為 LLM 建立訓練數據集時,其實就像是在為它編寫一本教科書,我們需要提供知識、範例,並讓它進行大量練習。
未來,如果我們希望 LLM 變得更聰明、更接近人類的思考方式,就不能只讓它「讀書」,還要讓它真正「做作業」,透過不斷練習來精進自己。
於是,人類在這場 AI 革命中扮演的重要角色,就是如何將我們腦中的知識,轉化為適合 LLM 學習的教材。人工智慧科學家將華麗轉身為 AI 教育家,所思所想,不只要帶 LLM 上學,還要確保它真的學會了!
本文為 Andrej Karpathy 大神的文章拓展而成。[原文連結]