機器是怎麼學會說話的？機器學習三階段：預訓練、微調與人類回饋

2026/02/14 更新2026/02/14 發佈閱讀 5 分鐘

Let's learn AI

你是否曾經想過，像 ChatGPT 這樣的生成式人工智慧，究竟是如何讓機器進化成能寫詩、能寫程式，甚至能跟你談心的「數位大腦」？了解了它的成長訓練過程，我發現機器學習其實與一個小孩學習說話，甚至是工廠裡老師傅調整精密機台的過程驚人地相似。

模型的訓練不單單是資料的堆砌，更是一場關於「參數匹配」的算力馬拉松。繼上次聊完生成式 AI 的概念後，今天我們來深入了解訓練的三大核心階段，看它如何從海量數據中蛻變成我們現在看到的智慧型態。

一、自我監督式學習：在網路大海進行「預訓練」

學習知識需要大量的資料輸入。如果把 AI 比喻成小孩，要學會正常溝通必須滿足兩件事：第一是「語言知識」，第二是「世界知識」。具備這些背景，才有辦法與人對話。

AI 訓練的第一階段 Pre-train（預訓練），就是讓它在網路上「看」海量的人類產出物。讓機器同時學會文法單字，也學會基本常識。

核心價值：從海量資料中找規律：訓練 AI 模型的本質其實是一個找尋函式的過程，即 $y = f(x)$。在「自我監督式學習」中，我們給出標準答案（例如給「人工智」，後面要接「慧」），讓它在 Wiki 百科、教科書、新聞中自主學習。這種不斷修正參數以達到目標的過程，就叫做 Optimization（最佳化）。
導師叮嚀： 為了不讓 AI 學壞，訓練者必須像家長一樣過濾掉有害或低品質的內容（如 HTML 標籤雜訊），確保它在高品質的環境下找出數以億計的未知參數。

當 AI 完成自學後，就進入第二階段：Supervised Learning（監督式學習），這也稱為 Fine-tuning（微調）。

核心價值：人類導師的精準引導 這個階段人類導師會準備大量的「問題與正確答案」配對，直接告訴 AI：「當我這樣問時，你應該這樣回答」。為什麼不一開始就由人類教？因為人力太貴了！所以「先自學、後微調」是最經濟實惠的學習策略。
個人經驗：調整機台的「肌肉記憶」 這讓我聯想到以前在工廠調整彈簧機台。作為「年輕師傅」，你面前有數十個旋鈕、墊片，每個微小的轉動都會影響彈簧的尺寸。
- Hyperparameter（超參數）： 就像你決定轉動哪些旋鈕、調整哪些齒輪比。
- Model Parameter（模型參數）： 則是最終定型後，那組能產出合格規格的「刻度數值」。
年輕師傅靠不斷嘗試（踹），老師傅靠的是「感覺」去找參數。AI 也是如此，透過不斷嘗試超參數，直到找到能匹配資料的那組「模型參數」。
注意 Overfitting（過擬合）： 有時會出現「死背題庫」的狀況，也就是模型在測試集表現完美，換個題目就掛了。這時我們需要增加資料多樣性，或在成功的基礎上反覆疊代調整。

最後，現實世界的問題往往沒有唯一標準答案。要如何讓 AI 做出價值判斷？這需要第三階段：RLHF（人類回饋強化學習）。

核心價值：在選項中選出「更好的」 在 RL 階段，AI 會針對同一個問題產出多個答案，再由人類進行排序。例如：當 AI 面對「如何製造炸藥」的提問時，雖然正確步驟很有「指導性」，但極度不「安全」。人類的回饋會引導模型提高安全答案的機率，降低危險答案的機率。
實例應用：Reward Model（回饋模型） 由於人工排序很貴，現在會訓練一個「虛擬人類（回饋模型）」來代打評分。但這也產生了副作用：如果虛擬人類被訓練得太過文鄒鄒、動不動就道歉或講贅字，AI 自然會學到這些習慣。實際上，根本沒有正常人類會那樣說話。