第二部:《深度學習》75/100 📌自監督在 NLP 的應用 🤓 單詞遮蔽、語序打亂、片段排序皆可訓練!

更新 發佈閱讀 9 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

75/100 第八週:📌 自監督學習與預訓練技術 🔁

75.自監督在 NLP 的應用 🤓 單詞遮蔽、語序打亂、片段排序皆可訓練!

______________________________________

🎯 單元導讀:

自監督學習不只用在電腦視覺,也早已成為 自然語言處理(NLP)預訓練模型的核心法則。

從 BERT 到 T5,NLP 的大模型都是透過「無需人工標註」的方式來學習語意、語境與句法規則。

本課帶你認識 NLP 領域中最常見的自監督訓練任務類型、背後邏輯與實際應用場景。

________________________________________

🧠 一、NLP 中的自監督任務範例

自監督語言模型透過多種預訓練任務來學習語意與結構知識。最常見的是

📕單詞遮蔽(MLM),如 BERT 與 RoBERTa,透過隨機遮住句中詞語讓模型預測原詞;

🔀語序打亂(SOP)則讓模型判斷片段語序是否合理,應用於 ALBERT 和 ELECTRA;

📦句子關係預測(NSP)幫助模型理解語句連貫性,為 BERT 所採用。

🧩句子排序(Permutation LM),如 XLNet,打亂單詞順序後要求模型重建,是偏向生成的預訓練方式;

✂️Span Prediction 則遮住一整段片語,讓模型學會填補區段內容,應用於 SpanBERT 和 T5;🧾

文本自重建則在原文中加入雜訊(如刪除、重排),再訓練模型還原原始文本,為 T5 與 BART 的關鍵技術。

這些任務共同構成了現代語言模型強大語言理解與生成能力的基礎。

________________________________________

🛠 二、代表模型與其訓練任務

幾個主流語言模型的自監督訓練方法與特色:BERT 結合 Masked LM 和 NSP,專注於語義理解任務如分類與問答;RoBERTa 移除 NSP,使用更大量語料與訓練步數,加強語意學習能力;ALBERT 改用 Sentence Order Prediction,強化句間邏輯判斷;XLNet 則透過 Permutation LM 打亂詞序進行預測,避免遮詞帶來的信息斷裂;T5 採用 Text-to-Text 框架,將所有任務統一成「填空題」格式,適用範圍最廣;而 BART 結合雜訊處理與編碼-解碼架構,兼具語意理解與文本生成能力,特別適合摘要與翻譯任務。這些模型各有優勢,構成了 NLP 領域多樣且強大的應用基礎。

________________________________________

✨ 三、自監督學習對 NLP 的貢獻

面向 自監督學習的貢獻

🚫 無需標註 在大規模未標記語料中學習語意與結構

📚 學語言常識 學到詞彙關聯、語法規則、上下文邏輯

🔁 遷移能力強 經微調後可應用於分類、摘要、翻譯、問答、對話等多種任務

🧠 語意嵌入優 可產生高質量的 token / sentence embedding

________________________________________

🧩 四、延伸應用任務

下游任務 微調後應用方式

文本分類 用 [CLS] 向量 + softmax

命名實體辨識(NER) 對每個 token 進行標註

文本摘要 Encoder-Decoder 模型(如 T5/BART)生成摘要

文本翻譯 自監督學到雙語對齊語意空間

問答任務 找出上下文中答案位置

多輪對話 透過上下文記憶學習對話連貫性

________________________________________

🧪 五、小實驗:T5 的自監督「填空式」訓練例子

php-template

Input: 填空任務:The <extra_id_0> is playing in the <extra_id_1>.

Target: <extra_id_0> cat <extra_id_1> garden

這個範例展現了 T5 模型的自監督學習方式,稱為「填空式任務(span corruption)」。輸入句 The <extra_id_0> is playing in the <extra_id_1>. 中,部分詞語被特殊標記 <extra_id_0> 和 <extra_id_1> 所遮蔽,目標輸出則是 <extra_id_0> cat <extra_id_1> garden,表示模型需學會將遮蔽區域還原為正確的詞語。這種設計不只訓練模型理解語意,也強化其句子重建與生成能力,是 T5 將所有任務轉化為「文字輸入 → 文字輸出」格式的核心特徵,具備高度彈性與廣泛應用潛力。

T5 把所有任務(分類、翻譯、摘要)都格式化成這樣的「填空生成」,實現任務統一化設計。

________________________________________

📚 六、小結與啟示

✅ NLP 領域的自監督學習是一場從「填空、打亂、遮蔽」中學語言的革命

✅ 它讓模型從大量語料中學習常識、語意、邏輯,是現代 NLP 大模型成功的根基

✅ 這些任務不需人工標註,卻能建立強大的預訓練能力、為各種應用打下基礎

________________________________________

💬 問題挑戰與思考:

1️⃣ 為什麼 Masked LM 不適合用於生成任務?有什麼改進模型?

Masked Language Model(MLM)(如 BERT)在訓練時會遮蔽輸入中的某些詞,讓模型在完整的上下文下預測這些詞語。這意味著它依賴「雙向上下文」,也就是已知整個句子來推斷其中部分內容。

📉 因此,MLM 不適合用於生成任務,因為生成任務是「逐步往後預測」的過程(從左到右),例如寫文章、摘要、翻譯時模型並不知道後面的內容,無法用已知上下文來預測未來詞。

✅ 為了解決這個問題,出現了兩類改進模型:

自回歸模型(Autoregressive LM):如 GPT,從前往後預測下一個字,適合自然語言生成。

Encoder-Decoder 架構:如 T5、BART,透過編碼輸入、解碼輸出,支援理解與生成任務。

Permutation LM(XLNet):透過打亂預測順序模擬多種上下文組合,結合雙向資訊與自回歸能力。

________________________________________

2️⃣ 請設計一個中文的句子遮蔽訓練任務(給原句與遮蔽方式)

原句:小明今天早上去圖書館看書。

遮蔽後輸入:小明今天 <extra_id_0> 去 <extra_id_1> 看書。

目標輸出:<extra_id_0> 早上 <extra_id_1> 圖書館

這是 T5 或 BART 常用的「Span Corruption」遮蔽方式,讓模型學習語意結構與上下文還原能力。

________________________________________

3️⃣ 你會怎麼讓一個模型學會「段落順序的邏輯性」?

可設計如下自監督任務來學習段落邏輯順序:

📚 段落排序任務(Paragraph Ordering Prediction)

給一篇文章拆成三段,打亂順序,讓模型預測正確順序。

搭配 編碼器模型(如 BERT) 或序列輸出模型(如 T5),設計輸入為「段落A|段落C|段落B」,輸出為「A→B→C」。

或採用分類方式,判斷「這組段落是否為正確順序」。





留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
10會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/22
BYOL 與 DINO 不依賴負樣本,透過自蒸餾與 EMA 穩定教師機制學習語意特徵,避免特徵塌縮。BYOL 強調自我對齊,DINO 結合 ViT 能自然顯現物件邊界。兩者在低標註或少樣本場景中具高效能,廣泛應用於分類、檢索與無監督分割。
2025/09/22
BYOL 與 DINO 不依賴負樣本,透過自蒸餾與 EMA 穩定教師機制學習語意特徵,避免特徵塌縮。BYOL 強調自我對齊,DINO 結合 ViT 能自然顯現物件邊界。兩者在低標註或少樣本場景中具高效能,廣泛應用於分類、檢索與無監督分割。
2025/09/22
SimCLR 與 MoCo 是圖像對比學習代表框架。SimCLR 依賴大批次與增強策略學習語意特徵;MoCo 則透過動態記憶庫與動量編碼器,在小批次下仍能高效學習。兩者廣泛應用於分類、檢索、醫療影像與跨模態任務。
2025/09/22
SimCLR 與 MoCo 是圖像對比學習代表框架。SimCLR 依賴大批次與增強策略學習語意特徵;MoCo 則透過動態記憶庫與動量編碼器,在小批次下仍能高效學習。兩者廣泛應用於分類、檢索、醫療影像與跨模態任務。
2025/09/22
對比學習透過拉近正樣本、拉遠負樣本來學習特徵表示,廣泛應用於圖像辨識、語言嵌入、多模態對齊。代表模型有 SimCLR、BYOL、CLIP、SimCSE,核心技術包含資料增強、NT-Xent 損失與大批次負樣本。它已成為自監督學習的重要主流方法,具強大泛化能力。
2025/09/22
對比學習透過拉近正樣本、拉遠負樣本來學習特徵表示,廣泛應用於圖像辨識、語言嵌入、多模態對齊。代表模型有 SimCLR、BYOL、CLIP、SimCSE,核心技術包含資料增強、NT-Xent 損失與大批次負樣本。它已成為自監督學習的重要主流方法,具強大泛化能力。
看更多
你可能也想看
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News