第二部:《深度學習》61/100 預訓練語言模型概念 📚 預先學會「語言的常識」,再微調任務!

更新 發佈閱讀 7 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

61/100 第七週:📌 語言模型與生成式 AI(BERT、GPT)🗣🔍

61.預訓練語言模型概念 📚 預先學會「語言的常識」,再微調任務!

________________________________________

🎯 單元導讀:

訓練語言模型的過去做法是「從零開始」針對特定任務訓練,但這種方式耗時、數據量需求高、泛化能力弱。

自從 BERT、GPT、T5 等預訓練語言模型(Pretrained Language Models, PLMs) 出現後,AI 進入了「先學語言,再學任務」的黃金時代。

本課將帶你理解:

✅ 預訓練模型的核心概念

✅ 預訓練-微調(Pretrain-Finetune)框架

✅ 如何培養模型的「語言常識」

________________________________________

🧠 一、什麼是預訓練語言模型(PLM)?

➤ 定義:

預訓練語言模型是指在大規模語料(如維基百科、書籍、網站)上訓練的深度模型,它不是為了特定任務,而是學會整體語言結構與知識。

________________________________________

📌 預訓練模型的核心任務類型:

類型 說明 常見模型

🧩 Masked LM 隨機遮掉詞彙,預測其內容(理解導向) BERT

🔁 自回歸 LM 預測下一個詞,基於序列前文(生成導向) GPT 系列

📝 文字轉文字 將輸入轉成目標文字(生成任務全適用) T5

________________________________________

🔄 二、訓練流程:預訓練 + 微調(二階段法)

第一階段:預訓練(Pretraining)

使用無標註的大量文本

學習語法、語意、常識、上下文關係

成果為一個具備「語言理解能力」的通用模型

第二階段:微調(Finetuning)

將預訓練好的模型,接上少量任務資料進行調整

適用於翻譯、問答、情感分類、摘要、客服回應等任務

________________________________________

🔍 三、為什麼這樣的做法特別有效?

傳統方法 預訓練語言模型

每個任務都從頭訓練 通用知識模型只需微調

大量任務資料需求高 少量資料就能達到良好效果

無法理解語境與常識 已具備語言結構與語意關聯知識

➡️ 類似於:

✅ 先學好「語言能力」 → 再訓練「職業專業技能」

________________________________________

🌍 四、常見預訓練語言模型代表

模型名稱 預訓練任務 發展特點

BERT Masked LM + NSP 雙向理解、優秀於分類與問答任務

GPT 自回歸 LM 優秀於生成、聊天、續寫

T5 Text-to-Text 統一框架,所有任務都轉為文字生成

RoBERTa Masked LM BERT 強化版,移除 NSP、訓練更久

BART Masked Seq2Seq 結合 BERT + GPT,適合摘要與翻譯

________________________________________

🧪 五、應用場景舉例

在自然語言處理領域,不同任務常搭配不同的預訓練模型以提升效能。像是 問答系統 常使用 BERT 或 RoBERTa,這些模型擅長理解語境並定位答案;

自動摘要 通常採用 BART 或 T5,能結合理解與生成能力,將長文濃縮成重點摘要;

多輪對話生成 則依賴 GPT-3 或 ChatGPT 這類大型語言模型,具備強大的上下文記憶與自然回應能力;

情感分類 方面,BERT 和百度的 ERNIE 模型能有效捕捉語意細節,用於判斷情感傾向;

而在 機器翻譯 任務中,則常見 mBART、T5 或多語言版本的 GPT,支援多語言處理與語言間轉換。這些預訓練模型讓各類 NLP 任務能更快速、高效地實現精準應用。

________________________________________

📚 六、小結與啟示:

✅ 預訓練語言模型為 NLP 帶來「一次訓練、多任務應用」的新典範

✅ 它們學會了「語言的常識」,讓每項下游任務更高效、效果更好

✅ 理解 PLM 的原理,是打造智能客服、知識問答、AI生成內容的基礎!

________________________________________

💬 問題挑戰與思考:

1. 為什麼預訓練模型可以有效降低每個任務的訓練資料需求?

參考答案:

因為預訓練模型已經在大量通用語料中學會了語言的基礎知識(如語意、語法、邏輯關係),只需要少量任務資料進行微調(fine-tuning)就能快速適應新任務。

2. Masked LM 與 自回歸 LM 哪裡不同?使用場景有什麼差異?

參考答案:

Masked LM(如 BERT)是填空型模型,擅長理解句子語意,常用於分類、問答等理解任務;自回歸 LM(如 GPT)是左到右逐字生成模型,擅長生成自然語句,常用於對話、寫作、翻譯等生成任務。


3. 如果讓一個 PLM 運作在多語言環境,你會怎麼訓練它?

參考答案:

使用多語語料進行預訓練,採用共享詞彙(如 SentencePiece 或 BPE),並可加入語言標記(language tags)來提示模型當前語言,有助於跨語言知識遷移與生成。

留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
19會員
520內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/19
本單元總結 Transformer 核心:注意力、自注意力、多頭機制、位置編碼、Encoder-Decoder 架構與 LayerNorm。透過 PyTorch 可實作英中翻譯模型,搭配 Label Smoothing、動態學習率等技巧,提升收斂與泛化,並可遷移至摘要與對話任務。
2025/09/19
本單元總結 Transformer 核心:注意力、自注意力、多頭機制、位置編碼、Encoder-Decoder 架構與 LayerNorm。透過 PyTorch 可實作英中翻譯模型,搭配 Label Smoothing、動態學習率等技巧,提升收斂與泛化,並可遷移至摘要與對話任務。
2025/09/19
Transformer 架構廣泛應用於 NLP,包括翻譯、摘要、聊天機器人。翻譯強調語意對齊,摘要需壓縮重構語意更具挑戰,聊天依靠上下文理解實現自然互動。其共同基礎為 Encoder-Decoder、Self-Attention 與預訓練微調技術。
2025/09/19
Transformer 架構廣泛應用於 NLP,包括翻譯、摘要、聊天機器人。翻譯強調語意對齊,摘要需壓縮重構語意更具挑戰,聊天依靠上下文理解實現自然互動。其共同基礎為 Encoder-Decoder、Self-Attention 與預訓練微調技術。
2025/09/19
LayerNorm 是 Transformer 穩定訓練的核心,針對每筆樣本特徵正規化,不受 batch 大小限制。與殘差結構結合可防止梯度爆炸或消失,提升收斂效率。常搭配 Dropout、Warm-up、Gradient Clipping 等技巧,確保模型高效穩定學習。
2025/09/19
LayerNorm 是 Transformer 穩定訓練的核心,針對每筆樣本特徵正規化,不受 batch 大小限制。與殘差結構結合可防止梯度爆炸或消失,提升收斂效率。常搭配 Dropout、Warm-up、Gradient Clipping 等技巧,確保模型高效穩定學習。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 127 中提及: Transformer 的關鍵參數為: 原始 Transformer 模型中,左圖的 N = 6 原始 Tran
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News