Let's learn AI
模型的訓練不單單是資料的堆砌,更是一場關於「參數匹配」的算力馬拉松。繼上次聊完生成式 AI 的概念後,今天我們來深入了解訓練的三大核心階段,看它如何從海量數據中蛻變成我們現在看到的智慧型態。
一、 自我監督式學習:在網路大海進行「預訓練」
學習知識需要大量的資料輸入。如果把 AI 比喻成小孩,要學會正常溝通必須滿足兩件事:第一是「語言知識」,第二是「世界知識」。具備這些背景,才有辦法與人對話。
AI 訓練的第一階段 Pre-train(預訓練),就是讓它在網路上「看」海量的人類產出物。讓機器同時學會文法單字,也學會基本常識。
- 核心價值:從海量資料中找規律:訓練 AI 模型的本質其實是一個找尋函式的過程,即 $y = f(x)$。在「自我監督式學習」中,我們給出標準答案(例如給「人工智」,後面要接「慧」),讓它在 Wiki 百科、教科書、新聞中自主學習。這種不斷修正參數以達到目標的過程,就叫做 Optimization(最佳化)。
- 導師叮嚀: 為了不讓 AI 學壞,訓練者必須像家長一樣過濾掉有害或低品質的內容(如 HTML 標籤雜訊),確保它在高品質的環境下找出數以億計的未知參數。
二、 指令微調:人類老師的「一對一監督」
當 AI 完成自學後,就進入第二階段:Supervised Learning(監督式學習),這也稱為 Fine-tuning(微調)。
- 核心價值:人類導師的精準引導 這個階段人類導師會準備大量的「問題與正確答案」配對,直接告訴 AI:「當我這樣問時,你應該這樣回答」。為什麼不一開始就由人類教?因為人力太貴了!所以「先自學、後微調」是最經濟實惠的學習策略。
- 個人經驗:調整機台的「肌肉記憶」 這讓我聯想到以前在工廠調整彈簧機台。作為「年輕師傅」,你面前有數十個旋鈕、墊片,每個微小的轉動都會影響彈簧的尺寸。
- Hyperparameter(超參數): 就像你決定轉動哪些旋鈕、調整哪些齒輪比。
- Model Parameter(模型參數): 則是最終定型後,那組能產出合格規格的「刻度數值」。
- 注意 Overfitting(過擬合): 有時會出現「死背題庫」的狀況,也就是模型在測試集表現完美,換個題目就掛了。這時我們需要增加資料多樣性,或在成功的基礎上反覆疊代調整。
三、 強化學習:刻畫符合人類的價值觀
最後,現實世界的問題往往沒有唯一標準答案。要如何讓 AI 做出價值判斷?這需要第三階段:RLHF(人類回饋強化學習)。
- 核心價值:在選項中選出「更好的」 在 RL 階段,AI 會針對同一個問題產出多個答案,再由人類進行排序。例如:當 AI 面對「如何製造炸藥」的提問時,雖然正確步驟很有「指導性」,但極度不「安全」。人類的回饋會引導模型提高安全答案的機率,降低危險答案的機率。
- 實例應用:Reward Model(回饋模型) 由於人工排序很貴,現在會訓練一個「虛擬人類(回饋模型)」來代打評分。但這也產生了副作用:如果虛擬人類被訓練得太過文鄒鄒、動不動就道歉或講贅字,AI 自然會學到這些習慣。實際上,根本沒有正常人類會那樣說話。
總結:從類比到數位的智慧轉型
機器的學習從「預訓練」到「微調」,再到「強化學習」,其實就是一場漫長且精密的尋參過程。找尋那一組能創造價值的最優解。
你會想嘗試在開源模型的基礎上,打造屬於你自己的專業 AI 嗎?歡迎在下方留言分享你的想法,或將這篇文章分享給對 AI 訓練感興趣的朋友!












