AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》
61/100 第七週:📌 語言模型與生成式 AI(BERT、GPT)🗣🔍
61.預訓練語言模型概念 📚 預先學會「語言的常識」,再微調任務!
________________________________________
🎯 單元導讀:
訓練語言模型的過去做法是「從零開始」針對特定任務訓練,但這種方式耗時、數據量需求高、泛化能力弱。
自從 BERT、GPT、T5 等預訓練語言模型(Pretrained Language Models, PLMs) 出現後,AI 進入了「先學語言,再學任務」的黃金時代。
本課將帶你理解:
✅ 預訓練模型的核心概念
✅ 預訓練-微調(Pretrain-Finetune)框架
✅ 如何培養模型的「語言常識」
________________________________________
🧠 一、什麼是預訓練語言模型(PLM)?
➤ 定義:
預訓練語言模型是指在大規模語料(如維基百科、書籍、網站)上訓練的深度模型,它不是為了特定任務,而是學會整體語言結構與知識。
________________________________________
📌 預訓練模型的核心任務類型:
類型 說明 常見模型
🧩 Masked LM 隨機遮掉詞彙,預測其內容(理解導向) BERT
🔁 自回歸 LM 預測下一個詞,基於序列前文(生成導向) GPT 系列
📝 文字轉文字 將輸入轉成目標文字(生成任務全適用) T5
________________________________________
🔄 二、訓練流程:預訓練 + 微調(二階段法)
第一階段:預訓練(Pretraining)
• 使用無標註的大量文本
• 學習語法、語意、常識、上下文關係
• 成果為一個具備「語言理解能力」的通用模型
第二階段:微調(Finetuning)
• 將預訓練好的模型,接上少量任務資料進行調整
• 適用於翻譯、問答、情感分類、摘要、客服回應等任務
________________________________________
🔍 三、為什麼這樣的做法特別有效?
傳統方法 預訓練語言模型
每個任務都從頭訓練 通用知識模型只需微調
大量任務資料需求高 少量資料就能達到良好效果
無法理解語境與常識 已具備語言結構與語意關聯知識
➡️ 類似於:
✅ 先學好「語言能力」 → 再訓練「職業專業技能」
________________________________________
🌍 四、常見預訓練語言模型代表
模型名稱 預訓練任務 發展特點
BERT Masked LM + NSP 雙向理解、優秀於分類與問答任務
GPT 自回歸 LM 優秀於生成、聊天、續寫
T5 Text-to-Text 統一框架,所有任務都轉為文字生成
RoBERTa Masked LM BERT 強化版,移除 NSP、訓練更久
BART Masked Seq2Seq 結合 BERT + GPT,適合摘要與翻譯
________________________________________
🧪 五、應用場景舉例
在自然語言處理領域,不同任務常搭配不同的預訓練模型以提升效能。像是 問答系統 常使用 BERT 或 RoBERTa,這些模型擅長理解語境並定位答案;
自動摘要 通常採用 BART 或 T5,能結合理解與生成能力,將長文濃縮成重點摘要;
多輪對話生成 則依賴 GPT-3 或 ChatGPT 這類大型語言模型,具備強大的上下文記憶與自然回應能力;
情感分類 方面,BERT 和百度的 ERNIE 模型能有效捕捉語意細節,用於判斷情感傾向;
而在 機器翻譯 任務中,則常見 mBART、T5 或多語言版本的 GPT,支援多語言處理與語言間轉換。這些預訓練模型讓各類 NLP 任務能更快速、高效地實現精準應用。
________________________________________
📚 六、小結與啟示:
✅ 預訓練語言模型為 NLP 帶來「一次訓練、多任務應用」的新典範
✅ 它們學會了「語言的常識」,讓每項下游任務更高效、效果更好
✅ 理解 PLM 的原理,是打造智能客服、知識問答、AI生成內容的基礎!
________________________________________
💬 問題挑戰與思考:
1. 為什麼預訓練模型可以有效降低每個任務的訓練資料需求?
參考答案:
因為預訓練模型已經在大量通用語料中學會了語言的基礎知識(如語意、語法、邏輯關係),只需要少量任務資料進行微調(fine-tuning)就能快速適應新任務。
2. Masked LM 與 自回歸 LM 哪裡不同?使用場景有什麼差異?
參考答案:
Masked LM(如 BERT)是填空型模型,擅長理解句子語意,常用於分類、問答等理解任務;自回歸 LM(如 GPT)是左到右逐字生成模型,擅長生成自然語句,常用於對話、寫作、翻譯等生成任務。
3. 如果讓一個 PLM 運作在多語言環境,你會怎麼訓練它?
參考答案:
使用多語語料進行預訓練,採用共享詞彙(如 SentencePiece 或 BPE),並可加入語言標記(language tags)來提示模型當前語言,有助於跨語言知識遷移與生成。








