第二部：《深度學習》61/100 預訓練語言模型概念 📚 預先學會「語言的常識」，再微調任務！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/22 更新2025/09/22 發佈閱讀 7 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

61/100 第七週：📌 語言模型與生成式 AI（BERT、GPT）🗣🔍

61.預訓練語言模型概念 📚 預先學會「語言的常識」，再微調任務！

________________________________________

🎯 單元導讀：

訓練語言模型的過去做法是「從零開始」針對特定任務訓練，但這種方式耗時、數據量需求高、泛化能力弱。

自從 BERT、GPT、T5 等預訓練語言模型（Pretrained Language Models, PLMs）出現後，AI 進入了「先學語言，再學任務」的黃金時代。

本課將帶你理解：

✅ 預訓練模型的核心概念

✅ 預訓練-微調（Pretrain-Finetune）框架

✅ 如何培養模型的「語言常識」

________________________________________

🧠 一、什麼是預訓練語言模型（PLM）？

➤ 定義：

預訓練語言模型是指在大規模語料（如維基百科、書籍、網站）上訓練的深度模型，它不是為了特定任務，而是學會整體語言結構與知識。

________________________________________

📌 預訓練模型的核心任務類型：

類型說明常見模型

🧩 Masked LM 隨機遮掉詞彙，預測其內容（理解導向） BERT

🔁 自回歸 LM 預測下一個詞，基於序列前文（生成導向） GPT 系列

📝 文字轉文字將輸入轉成目標文字（生成任務全適用） T5

________________________________________

🔄 二、訓練流程：預訓練 + 微調（二階段法）

第一階段：預訓練（Pretraining）

• 使用無標註的大量文本

• 學習語法、語意、常識、上下文關係

• 成果為一個具備「語言理解能力」的通用模型

第二階段：微調（Finetuning）

• 將預訓練好的模型，接上少量任務資料進行調整

• 適用於翻譯、問答、情感分類、摘要、客服回應等任務

________________________________________

🔍 三、為什麼這樣的做法特別有效？

傳統方法預訓練語言模型

每個任務都從頭訓練通用知識模型只需微調

大量任務資料需求高少量資料就能達到良好效果

無法理解語境與常識已具備語言結構與語意關聯知識

➡️ 類似於：

✅ 先學好「語言能力」 → 再訓練「職業專業技能」

________________________________________

🌍 四、常見預訓練語言模型代表

模型名稱預訓練任務發展特點

BERT Masked LM + NSP 雙向理解、優秀於分類與問答任務

GPT 自回歸 LM 優秀於生成、聊天、續寫

T5 Text-to-Text 統一框架，所有任務都轉為文字生成

RoBERTa Masked LM BERT 強化版，移除 NSP、訓練更久

BART Masked Seq2Seq 結合 BERT + GPT，適合摘要與翻譯

________________________________________

🧪 五、應用場景舉例

在自然語言處理領域，不同任務常搭配不同的預訓練模型以提升效能。像是問答系統常使用 BERT 或 RoBERTa，這些模型擅長理解語境並定位答案；

自動摘要通常採用 BART 或 T5，能結合理解與生成能力，將長文濃縮成重點摘要；

多輪對話生成則依賴 GPT-3 或 ChatGPT 這類大型語言模型，具備強大的上下文記憶與自然回應能力；

情感分類方面，BERT 和百度的 ERNIE 模型能有效捕捉語意細節，用於判斷情感傾向；

而在機器翻譯任務中，則常見 mBART、T5 或多語言版本的 GPT，支援多語言處理與語言間轉換。這些預訓練模型讓各類 NLP 任務能更快速、高效地實現精準應用。

________________________________________

📚 六、小結與啟示：

✅ 預訓練語言模型為 NLP 帶來「一次訓練、多任務應用」的新典範

✅ 它們學會了「語言的常識」，讓每項下游任務更高效、效果更好

✅ 理解 PLM 的原理，是打造智能客服、知識問答、AI生成內容的基礎！

________________________________________

💬 問題挑戰與思考：

1. 為什麼預訓練模型可以有效降低每個任務的訓練資料需求？

參考答案：

因為預訓練模型已經在大量通用語料中學會了語言的基礎知識（如語意、語法、邏輯關係），只需要少量任務資料進行微調（fine-tuning）就能快速適應新任務。

2. Masked LM 與自回歸 LM 哪裡不同？使用場景有什麼差異？

參考答案：

Masked LM（如 BERT）是填空型模型，擅長理解句子語意，常用於分類、問答等理解任務；自回歸 LM（如 GPT）是左到右逐字生成模型，擅長生成自然語句，常用於對話、寫作、翻譯等生成任務。

3. 如果讓一個 PLM 運作在多語言環境，你會怎麼訓練它？

參考答案：

使用多語語料進行預訓練，採用共享詞彙（如 SentencePiece 或 BPE），並可加入語言標記（language tags）來提示模型當前語言，有助於跨語言知識遷移與生成。

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

19會員

520內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/19

第二部：《深度學習》60/100 小結與測驗：用 Transformer 訓練中英文翻譯模型 🌐 自己打造多語言橋樑！

本單元總結 Transformer 核心：注意力、自注意力、多頭機制、位置編碼、Encoder-Decoder 架構與 LayerNorm。透過 PyTorch 可實作英中翻譯模型，搭配 Label Smoothing、動態學習率等技巧，提升收斂與泛化，並可遷移至摘要與對話任務。

2025/09/19

第二部：《深度學習》60/100 小結與測驗：用 Transformer 訓練中英文翻譯模型 🌐 自己打造多語言橋樑！

2025/09/19

第二部：《深度學習》59/100 應用實例：翻譯、摘要、聊天機器人 🌍 一網打盡自然語言任務！

Transformer 架構廣泛應用於 NLP，包括翻譯、摘要、聊天機器人。翻譯強調語意對齊，摘要需壓縮重構語意更具挑戰，聊天依靠上下文理解實現自然互動。其共同基礎為 Encoder-Decoder、Self-Attention 與預訓練微調技術。

2025/09/19

第二部：《深度學習》59/100 應用實例：翻譯、摘要、聊天機器人 🌍 一網打盡自然語言任務！

2025/09/19

第二部：《深度學習》58/100 訓練技巧與 LayerNorm 🌪 穩定訓練，提升收斂效果！

LayerNorm 是 Transformer 穩定訓練的核心，針對每筆樣本特徵正規化，不受 batch 大小限制。與殘差結構結合可防止梯度爆炸或消失，提升收斂效率。常搭配 Dropout、Warm-up、Gradient Clipping 等技巧，確保模型高效穩定學習。

2025/09/19

第二部：《深度學習》58/100 訓練技巧與 LayerNorm 🌪 穩定訓練，提升收斂效果！

看更多

你可能也想看