機器是怎麼學會說話的?機器學習三階段:預訓練、微調與人類回饋

更新 發佈閱讀 5 分鐘



你是否曾經想過,像 ChatGPT 這樣的生成式人工智慧,究竟是如何讓機器進化成能寫詩、能寫程式,甚至能跟你談心的「數位大腦」?了解了它的成長訓練過程,我發現機器學習其實與一個小孩學習說話,甚至是工廠裡老師傅調整精密機台的過程驚人地相似。

模型的訓練不單單是資料的堆砌,更是一場關於「參數匹配」的算力馬拉松。繼上次聊完生成式 AI 的概念後,今天我們來深入了解訓練的三大核心階段,看它如何從海量數據中蛻變成我們現在看到的智慧型態。


一、 自我監督式學習:在網路大海進行「預訓練」

學習知識需要大量的資料輸入。如果把 AI 比喻成小孩,要學會正常溝通必須滿足兩件事:第一是「語言知識」,第二是「世界知識」。具備這些背景,才有辦法與人對話。

AI 訓練的第一階段 Pre-train(預訓練),就是讓它在網路上「看」海量的人類產出物。讓機器同時學會文法單字,也學會基本常識。

  • 核心價值:從海量資料中找規律:訓練 AI 模型的本質其實是一個找尋函式的過程,即 $y = f(x)$。在「自我監督式學習」中,我們給出標準答案(例如給「人工智」,後面要接「慧」),讓它在 Wiki 百科、教科書、新聞中自主學習。這種不斷修正參數以達到目標的過程,就叫做 Optimization(最佳化)。
  • 導師叮嚀: 為了不讓 AI 學壞,訓練者必須像家長一樣過濾掉有害或低品質的內容(如 HTML 標籤雜訊),確保它在高品質的環境下找出數以億計的未知參數。



二、 指令微調:人類老師的「一對一監督」

當 AI 完成自學後,就進入第二階段:Supervised Learning(監督式學習),這也稱為 Fine-tuning(微調)

  • 核心價值:人類導師的精準引導 這個階段人類導師會準備大量的「問題與正確答案」配對,直接告訴 AI:「當我這樣問時,你應該這樣回答」。為什麼不一開始就由人類教?因為人力太貴了!所以「先自學、後微調」是最經濟實惠的學習策略。
  • 個人經驗:調整機台的「肌肉記憶」 這讓我聯想到以前在工廠調整彈簧機台。作為「年輕師傅」,你面前有數十個旋鈕、墊片,每個微小的轉動都會影響彈簧的尺寸。
    • Hyperparameter(超參數): 就像你決定轉動哪些旋鈕、調整哪些齒輪比。
    • Model Parameter(模型參數): 則是最終定型後,那組能產出合格規格的「刻度數值」。
    年輕師傅靠不斷嘗試(踹),老師傅靠的是「感覺」去找參數。AI 也是如此,透過不斷嘗試超參數,直到找到能匹配資料的那組「模型參數」。
  • 注意 Overfitting(過擬合): 有時會出現「死背題庫」的狀況,也就是模型在測試集表現完美,換個題目就掛了。這時我們需要增加資料多樣性,或在成功的基礎上反覆疊代調整。



三、 強化學習:刻畫符合人類的價值觀

最後,現實世界的問題往往沒有唯一標準答案。要如何讓 AI 做出價值判斷?這需要第三階段:RLHF(人類回饋強化學習)

  • 核心價值:在選項中選出「更好的」 在 RL 階段,AI 會針對同一個問題產出多個答案,再由人類進行排序。例如:當 AI 面對「如何製造炸藥」的提問時,雖然正確步驟很有「指導性」,但極度不「安全」。人類的回饋會引導模型提高安全答案的機率,降低危險答案的機率。
  • 實例應用:Reward Model(回饋模型) 由於人工排序很貴,現在會訓練一個「虛擬人類(回饋模型)」來代打評分。但這也產生了副作用:如果虛擬人類被訓練得太過文鄒鄒、動不動就道歉或講贅字,AI 自然會學到這些習慣。實際上,根本沒有正常人類會那樣說話。



總結:從類比到數位的智慧轉型

機器的學習從「預訓練」到「微調」,再到「強化學習」,其實就是一場漫長且精密的尋參過程。找尋那一組能創造價值的最優解。

你會想嘗試在開源模型的基礎上,打造屬於你自己的專業 AI 嗎?歡迎在下方留言分享你的想法,或將這篇文章分享給對 AI 訓練感興趣的朋友!

留言
avatar-img
Warren Lo的沙龍
30會員
83內容數
WarrenLo's 軟體設計武功祕笈
Warren Lo的沙龍的其他內容
2026/02/07
人工智慧的核心認知,從機器學習的參數訓練到生成式 AI 的機率預測本質基本概念,將 AI 視為「工具人」的協作思維,初學者無需具備程式背景,也能在 AI 時代高效解決問題,掌握與虛擬助理共事的關鍵能力。
Thumbnail
2026/02/07
人工智慧的核心認知,從機器學習的參數訓練到生成式 AI 的機率預測本質基本概念,將 AI 視為「工具人」的協作思維,初學者無需具備程式背景,也能在 AI 時代高效解決問題,掌握與虛擬助理共事的關鍵能力。
Thumbnail
2025/10/11
首先在電腦上設定好 com port 通訊參數,就可以用 putty 連線。沒想到連線後後馬上看到不斷噴出的各種 debug 訊息,一噴好幾頁很難一眼就看到想要的訊息,用人工處理效率實在相當糟糕啊。當時我就在想,如果有個小程式可以幫我稍微整理這些 debug 訊息,至少調整下顯示內容應該很不錯。
Thumbnail
2025/10/11
首先在電腦上設定好 com port 通訊參數,就可以用 putty 連線。沒想到連線後後馬上看到不斷噴出的各種 debug 訊息,一噴好幾頁很難一眼就看到想要的訊息,用人工處理效率實在相當糟糕啊。當時我就在想,如果有個小程式可以幫我稍微整理這些 debug 訊息,至少調整下顯示內容應該很不錯。
Thumbnail
2025/10/04
測試領域大家愛用的程式語言是 python,幾乎都會搭配一個測試框架 ,例如 pytest, IDE 用 Microsoft vscode,考慮團隊共同開發,工作站的作業系統會選 Linux。 如何配置上述條件的 debug 環境來提高開發效率可以分兩個部分來討論
Thumbnail
2025/10/04
測試領域大家愛用的程式語言是 python,幾乎都會搭配一個測試框架 ,例如 pytest, IDE 用 Microsoft vscode,考慮團隊共同開發,工作站的作業系統會選 Linux。 如何配置上述條件的 debug 環境來提高開發效率可以分兩個部分來討論
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
🧲 特徵轉換方法 特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以: 改善數據分布:使偏斜分布更加對稱 降低異常值影響:減少極端值對模型的干擾 捕捉非線性關係:讓線性模型可以學習複雜模式 提高訓練穩定性:加速梯度下降收斂過程
Thumbnail
🧲 特徵轉換方法 特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以: 改善數據分布:使偏斜分布更加對稱 降低異常值影響:減少極端值對模型的干擾 捕捉非線性關係:讓線性模型可以學習複雜模式 提高訓練穩定性:加速梯度下降收斂過程
Thumbnail
以下為針對即將升入高一的國三畢業生設計的6堂地球科學銜接課程,每堂約50分鐘,課程內容有趣且具啟發性,旨在幫助學生從國中地球科學基礎過渡到高中地球科學的深度學習。 課程涵蓋地質學、氣象學、海洋學、天文學及環境科學,並融入互動活動及台灣相關案例,以提升學習興趣並與現實生活連結。 課程設計理
Thumbnail
以下為針對即將升入高一的國三畢業生設計的6堂地球科學銜接課程,每堂約50分鐘,課程內容有趣且具啟發性,旨在幫助學生從國中地球科學基礎過渡到高中地球科學的深度學習。 課程涵蓋地質學、氣象學、海洋學、天文學及環境科學,並融入互動活動及台灣相關案例,以提升學習興趣並與現實生活連結。 課程設計理
Thumbnail
想真正駕馭AI,就得先打好數學根基!本篇濃縮線性代數、機率統計、微積分三大支柱,帶你看懂向量矩陣、貝氏推理到梯度下降的心跳節奏。讀完你將明白模型運算、決策與最佳化如何彼此呼應,迅速破解常見數學痛點,為深度學習升級鋪路!
Thumbnail
想真正駕馭AI,就得先打好數學根基!本篇濃縮線性代數、機率統計、微積分三大支柱,帶你看懂向量矩陣、貝氏推理到梯度下降的心跳節奏。讀完你將明白模型運算、決策與最佳化如何彼此呼應,迅速破解常見數學痛點,為深度學習升級鋪路!
Thumbnail
你是不是每次對話串滿了,就得從頭開始解釋?你跟 ChatGPT 進行了一場超深入的對話,AI 終於懂你的需求,結果—— 對話串滿了,得開新對話! 重新輸入背景資訊?重頭教 AI 你的風格?超麻煩! 別擔心,這篇文章教你 如何用 Prompt 讓 AI 記住你,讓新對話無痛接軌!
Thumbnail
你是不是每次對話串滿了,就得從頭開始解釋?你跟 ChatGPT 進行了一場超深入的對話,AI 終於懂你的需求,結果—— 對話串滿了,得開新對話! 重新輸入背景資訊?重頭教 AI 你的風格?超麻煩! 別擔心,這篇文章教你 如何用 Prompt 讓 AI 記住你,讓新對話無痛接軌!
Thumbnail
在AI快速發展的時代,許多人努力在這個充滿挑戰的領域中建立自己的職業生涯。本文介紹了規劃AI職涯的三個關鍵步驟:學習基礎技能、參與專案和尋找工作,並探討了這些步驟在AI領域所面臨的獨特挑戰。透過這些步驟和建立支持性社群,可以有效地進一步職業發展。
Thumbnail
在AI快速發展的時代,許多人努力在這個充滿挑戰的領域中建立自己的職業生涯。本文介紹了規劃AI職涯的三個關鍵步驟:學習基礎技能、參與專案和尋找工作,並探討了這些步驟在AI領域所面臨的獨特挑戰。透過這些步驟和建立支持性社群,可以有效地進一步職業發展。
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
Thumbnail
稱為NeurIPS(神經資訊處理系統會議)的全球人工智慧領域盛會剛剛結束,出席者人數創下歷史新高,即使採取抽票制也難以容納。9,000張門票在12分鐘內售完,顯示了世界各地對AI興趣的爆炸式增長。
Thumbnail
稱為NeurIPS(神經資訊處理系統會議)的全球人工智慧領域盛會剛剛結束,出席者人數創下歷史新高,即使採取抽票制也難以容納。9,000張門票在12分鐘內售完,顯示了世界各地對AI興趣的爆炸式增長。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News