第二部：《深度學習》75/100 📌自監督在 NLP 的應用 🤓 單詞遮蔽、語序打亂、片段排序皆可訓練！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/22 更新2025/09/22 發佈閱讀 9 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

75/100 第八週：📌 自監督學習與預訓練技術 🔁

75.自監督在 NLP 的應用 🤓 單詞遮蔽、語序打亂、片段排序皆可訓練！

______________________________________

🎯 單元導讀：

自監督學習不只用在電腦視覺，也早已成為自然語言處理（NLP）預訓練模型的核心法則。

從 BERT 到 T5，NLP 的大模型都是透過「無需人工標註」的方式來學習語意、語境與句法規則。

本課帶你認識 NLP 領域中最常見的自監督訓練任務類型、背後邏輯與實際應用場景。

________________________________________

🧠 一、NLP 中的自監督任務範例

自監督語言模型透過多種預訓練任務來學習語意與結構知識。最常見的是

📕單詞遮蔽（MLM），如 BERT 與 RoBERTa，透過隨機遮住句中詞語讓模型預測原詞；

🔀語序打亂（SOP）則讓模型判斷片段語序是否合理，應用於 ALBERT 和 ELECTRA；

📦句子關係預測（NSP）幫助模型理解語句連貫性，為 BERT 所採用。

🧩句子排序（Permutation LM），如 XLNet，打亂單詞順序後要求模型重建，是偏向生成的預訓練方式；

✂️Span Prediction 則遮住一整段片語，讓模型學會填補區段內容，應用於 SpanBERT 和 T5；🧾

文本自重建則在原文中加入雜訊（如刪除、重排），再訓練模型還原原始文本，為 T5 與 BART 的關鍵技術。

這些任務共同構成了現代語言模型強大語言理解與生成能力的基礎。

________________________________________

🛠 二、代表模型與其訓練任務

幾個主流語言模型的自監督訓練方法與特色：BERT 結合 Masked LM 和 NSP，專注於語義理解任務如分類與問答；RoBERTa 移除 NSP，使用更大量語料與訓練步數，加強語意學習能力；ALBERT 改用 Sentence Order Prediction，強化句間邏輯判斷；XLNet 則透過 Permutation LM 打亂詞序進行預測，避免遮詞帶來的信息斷裂；T5 採用 Text-to-Text 框架，將所有任務統一成「填空題」格式，適用範圍最廣；而 BART 結合雜訊處理與編碼-解碼架構，兼具語意理解與文本生成能力，特別適合摘要與翻譯任務。這些模型各有優勢，構成了 NLP 領域多樣且強大的應用基礎。

________________________________________

✨ 三、自監督學習對 NLP 的貢獻

面向自監督學習的貢獻

🚫 無需標註在大規模未標記語料中學習語意與結構

📚 學語言常識學到詞彙關聯、語法規則、上下文邏輯

🔁 遷移能力強經微調後可應用於分類、摘要、翻譯、問答、對話等多種任務

🧠 語意嵌入優可產生高質量的 token / sentence embedding

________________________________________

🧩 四、延伸應用任務

下游任務微調後應用方式

文本分類用 [CLS] 向量 + softmax

命名實體辨識（NER）對每個 token 進行標註

文本摘要 Encoder-Decoder 模型（如 T5/BART）生成摘要

文本翻譯自監督學到雙語對齊語意空間

問答任務找出上下文中答案位置

多輪對話透過上下文記憶學習對話連貫性

________________________________________

🧪 五、小實驗：T5 的自監督「填空式」訓練例子

php-template

Input: 填空任務：The <extra_id_0> is playing in the <extra_id_1>.

Target: <extra_id_0> cat <extra_id_1> garden

這個範例展現了 T5 模型的自監督學習方式，稱為「填空式任務（span corruption）」。輸入句 The <extra_id_0> is playing in the <extra_id_1>. 中，部分詞語被特殊標記 <extra_id_0> 和 <extra_id_1> 所遮蔽，目標輸出則是 <extra_id_0> cat <extra_id_1> garden，表示模型需學會將遮蔽區域還原為正確的詞語。這種設計不只訓練模型理解語意，也強化其句子重建與生成能力，是 T5 將所有任務轉化為「文字輸入 → 文字輸出」格式的核心特徵，具備高度彈性與廣泛應用潛力。

T5 把所有任務（分類、翻譯、摘要）都格式化成這樣的「填空生成」，實現任務統一化設計。

________________________________________

📚 六、小結與啟示

✅ NLP 領域的自監督學習是一場從「填空、打亂、遮蔽」中學語言的革命

✅ 它讓模型從大量語料中學習常識、語意、邏輯，是現代 NLP 大模型成功的根基

✅ 這些任務不需人工標註，卻能建立強大的預訓練能力、為各種應用打下基礎

________________________________________

💬 問題挑戰與思考：

1️⃣ 為什麼 Masked LM 不適合用於生成任務？有什麼改進模型？

Masked Language Model（MLM）（如 BERT）在訓練時會遮蔽輸入中的某些詞，讓模型在完整的上下文下預測這些詞語。這意味著它依賴「雙向上下文」，也就是已知整個句子來推斷其中部分內容。

📉 因此，MLM 不適合用於生成任務，因為生成任務是「逐步往後預測」的過程（從左到右），例如寫文章、摘要、翻譯時模型並不知道後面的內容，無法用已知上下文來預測未來詞。

✅ 為了解決這個問題，出現了兩類改進模型：

• 自回歸模型（Autoregressive LM）：如 GPT，從前往後預測下一個字，適合自然語言生成。

• Encoder-Decoder 架構：如 T5、BART，透過編碼輸入、解碼輸出，支援理解與生成任務。

• Permutation LM（XLNet）：透過打亂預測順序模擬多種上下文組合，結合雙向資訊與自回歸能力。

________________________________________

2️⃣ 請設計一個中文的句子遮蔽訓練任務（給原句與遮蔽方式）

原句：小明今天早上去圖書館看書。

遮蔽後輸入：小明今天 <extra_id_0> 去 <extra_id_1> 看書。

目標輸出：<extra_id_0> 早上 <extra_id_1> 圖書館

這是 T5 或 BART 常用的「Span Corruption」遮蔽方式，讓模型學習語意結構與上下文還原能力。

________________________________________

3️⃣ 你會怎麼讓一個模型學會「段落順序的邏輯性」？

可設計如下自監督任務來學習段落邏輯順序：

📚 段落排序任務（Paragraph Ordering Prediction）

• 給一篇文章拆成三段，打亂順序，讓模型預測正確順序。

• 搭配編碼器模型（如 BERT）或序列輸出模型（如 T5），設計輸入為「段落A｜段落C｜段落B」，輸出為「A→B→C」。

• 或採用分類方式，判斷「這組段落是否為正確順序」。

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

22會員

520內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/22

第二部：《深度學習》74/100 📌BYOL 與 DINO：不依賴負樣本也能學 👯‍♀️ 進一步強化特徵辨識力！

BYOL 與 DINO 不依賴負樣本，透過自蒸餾與 EMA 穩定教師機制學習語意特徵，避免特徵塌縮。BYOL 強調自我對齊，DINO 結合 ViT 能自然顯現物件邊界。兩者在低標註或少樣本場景中具高效能，廣泛應用於分類、檢索與無監督分割。

2025/09/22

第二部：《深度學習》74/100 📌BYOL 與 DINO：不依賴負樣本也能學 👯‍♀️ 進一步強化特徵辨識力！

2025/09/22

第二部：《深度學習》73/100 📌SimCLR 與 MoCo 框架解說 📸 自學圖像特徵的典範！

SimCLR 與 MoCo 是圖像對比學習代表框架。SimCLR 依賴大批次與增強策略學習語意特徵；MoCo 則透過動態記憶庫與動量編碼器，在小批次下仍能高效學習。兩者廣泛應用於分類、檢索、醫療影像與跨模態任務。

2025/09/22

第二部：《深度學習》73/100 📌SimCLR 與 MoCo 框架解說 📸 自學圖像特徵的典範！

2025/09/22

第二部：《深度學習》72/100 📌 對比學習（Contrastive Learning）🔍 學會分辨相似與不同！

對比學習透過拉近正樣本、拉遠負樣本來學習特徵表示，廣泛應用於圖像辨識、語言嵌入、多模態對齊。代表模型有 SimCLR、BYOL、CLIP、SimCSE，核心技術包含資料增強、NT-Xent 損失與大批次負樣本。它已成為自監督學習的重要主流方法，具強大泛化能力。

2025/09/22

第二部：《深度學習》72/100 📌 對比學習（Contrastive Learning）🔍 學會分辨相似與不同！

看更多

你可能也想看

鹿刻Luke

當平台訂閱取代電影票房，台灣影視產業如何打入國際市場、吸引全球觀眾

金馬獎呼喚大家走進戲院，但Youtube、Netflix已成日常。最新研究顯示，臺灣VOD訂閱戶破700萬，年產值近百億。在全球影視產業洗牌之際，臺灣如何運用國際資金與平臺，將在地故事推向世界？專家點出，理解演算法、克服盜版、制定對接國際的政策是關鍵。

#電影產業#全球在地化#串流平台

2025/11/26

鹿刻Luke

當平台訂閱取代電影票房，台灣影視產業如何打入國際市場、吸引全球觀眾

#電影產業#全球在地化#串流平台

2025/11/26

花神沒有咖啡館的沙龍

在VOD黃金時代打造「台流」——隨選串流服務與政策制度、消費行為和演算法的關係

使台劇得以突破過往印象中偶像劇、鄉土劇等範疇，產製更多類型，甚至紅到國外、帶動台灣觀光的最重要原因，便是「隨選串流平台」服務在近十年的蓬勃發展，台灣人愛看串流的程度或許比你我想像中都高，高到連美國電影協會（MPA），都委託Frontier Economics進行研究

#電影產業#全球在地化#串流平台

2025/11/24

花神沒有咖啡館的沙龍

在VOD黃金時代打造「台流」——隨選串流服務與政策制度、消費行為和演算法的關係

#電影產業#全球在地化#串流平台

2025/11/24

碎進時間的裂縫

獨立調香師用「一週八日」演繹未道出的內在流動｜來自台灣的 Sunkronizo

在喧囂的日常中，你是否尋找能代表內心狀態的氣味？臺灣獨立調香師品牌 Sunkronizo 的「一週八日」系列香水，演繹創作者孤獨、沉靜卻自由奔放的內在。其中「星期六 Silent Wild」以綠橄欖、茶香與白麝香交織出清新、寧靜且溫暖的氣息，連結自我與世界的流動，找回那份「只是在」的和諧。

#未道出的內在流動#獨立調香師#白麝香

2025/11/28

碎進時間的裂縫

獨立調香師用「一週八日」演繹未道出的內在流動｜來自台灣的 Sunkronizo

#未道出的內在流動#獨立調香師#白麝香

2025/11/28

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28