第二部:《深度學習》77/100 📌資料擴充與對比資料組合 📈 提升模型的泛化與魯棒性!

更新 發佈閱讀 8 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

77/100 第八週:📌 自監督學習與預訓練技術 🔁

77.資料擴充與對比資料組合 📈 提升模型的泛化與魯棒性!

________________________________________

🎯 單元導讀:

你是否遇過模型在訓練集表現很好,但測試集準確率驟降?

這很可能是模型 過擬合、泛化能力不足,或缺乏對「真實世界變異」的容忍力。

本課介紹兩大實務關鍵技術:

資料擴充(Data Augmentation):擴展資料多樣性,減少過擬合

對比資料組合(Contrastive Pairing / Hard Negative Mining):設計挑戰性的樣本對,提升辨識力

________________________________________

📦 一、什麼是資料擴充(Data Augmentation)?

✅ 定義:

資料擴充是一種將原始資料透過變形、轉換、替換、遮蔽等手段生成新樣本的方法,用來提升模型的訓練多樣性與泛化能力。

________________________________________

🧰 常見 NLP 擴充技巧:

技術名稱 說明

同義詞替換 隨機選詞換成相似意思詞彙

隨機刪除 刪除部分非關鍵詞,測試語義容忍度

句子順序交換 在篇章中打亂部分句子,提高結構適應能力

Back Translation 將句子翻譯成另一語言再翻回來,語序會變

插入錯別字 模擬拼字錯誤情境,讓模型更具魯棒性

________________________________________

🧰 常見 CV(圖像)擴充技巧:

技術名稱 說明

翻轉、旋轉、裁切 常見空間幾何轉換

色彩變換 模擬拍照、 環境光源不同

遮蔽區塊(Cutout) 擾亂部分圖像,模擬不完整輸入

Mixup / CutMix 將兩張圖混合,提升泛化與樣本多樣性

________________________________________

🔍 二、對比資料組合:訓練模型學會「辨識差異」

➤ 核心思想:

「讓模型學會辨識什麼是相似的,什麼是不同的」是學習語意的關鍵!

________________________________________

📊 對比資料類型:

類型 說明

正樣本對(Positive) 同一實體或語意相同的兩種表達方式

簡單負樣本(Easy Negative) 隨機配對、語意明顯不同

困難負樣本(Hard Negative) 語意相近但非同義 → 可強化邊界學習力

________________________________________

🛠 建立對比對的方法:

類型 方法舉例

自動擴充產生正樣本 同句不同翻譯、同圖不同裁切

外部語料挖掘正負樣本 網頁標題 vs 網頁內容、QA配對 vs 非配對問題

使用 embedding 度量 根據語意向量找最接近但不同標籤的樣本當作 hard negative

________________________________________

🤖 三、應用場景與效益

任務類型 擴充/對比技術應用效果

文本分類 降低對特定詞依賴,提升語意概括力

文本相似度 使用相似句組合擴充資料,改善近義辨識能力

圖像檢索 結合擴充圖像與對比 loss 學出共享特徵空間

少樣本學習 人工創造樣本對,提升小資料下的穩定性

多語言模型 Back Translation 擴充可提升跨語泛化能力

________________________________________

🧠 四、小結與啟發

✅ 資料擴充是「用舊資料變出新資料」的有效手段,提升模型泛化力

✅ 對比資料組合能強化語意理解邊界與魯棒性,是自監督與遷移學習的基礎

✅ 若資料不足、任務挑戰高,擴充 + 對比設計可助你打造更穩健模型!

________________________________________

💬 問題挑戰與思考:

💬 1. 在情感分析中,哪些資料擴充方式可能會誤導模型?你會如何改進?

在情感分析任務中,不當的資料擴充可能會導致模型學習錯誤的情緒判斷。舉例來說,若使用隨機同義詞替換,可能會不小心將強烈正向詞彙「超棒」替換成較中性的「還可以」,造成情感強度失真。此外,將語句片段插入或刪除,也可能破壞整體語境,例如「我今天心情很好」加入「但工作太忙」後,其實已轉為複雜或負向語氣,卻仍可能被標記為正面。這會誤導模型對情感的邊界判斷。

要改進這類問題,可採用語意一致性的擴充策略,例如使用情緒控制的語言生成模型(如 T5 或 GPT)來產生語意與原句一致的正向或負向句子。同時,也可以在人為審查的基礎上建立高品質擴充集,避免全自動生成導致的誤差。此外,利用對比學習策略讓模型學習區分「情感相近但表達不同」與「語意偏差但表面相似」的句子,也是一種有助於提升準確性的訓練方法。

💬 2. 請設計一個「相似句 vs 非相似句」的對比學習組合方案

在設計對比學習任務時,我們可以將語句配對為「相似對」與「非相似對」。例如,相似句對可以是「我想退貨」與「請問怎麼辦理退貨?」這類語意相同但用詞不同的轉述句。而非相似句對則可以是「我想退貨」與「這件衣服很合身」,兩者表面上都在談衣服,但語意與意圖明顯不同。

這樣的對比配對策略可以進一步強化,像是使用 dropout 或隨機 masking 增強的相同句子版本作為正樣本,並引入語意接近但任務目的不同的語句作為困難負樣本(hard negative),例如「能換尺寸嗎?」與「能退貨嗎?」語氣相近但功能不同。透過這類資料設計,模型能學習更細緻的語意表徵與語句鑑別力。

💬 3. 為什麼在圖像任務中,CutMix/MixUp 可以幫助泛化?會有什麼風險?

CutMix 和 MixUp 是兩種常用於電腦視覺任務的資料增強技巧,它們透過將兩張不同的圖片進行區塊切割混合(CutMix)或像素級加權融合(MixUp),同時對應調整標籤的比例,來產生具有多樣性的訓練樣本。這種方式有助於提升模型的泛化能力,因為它打破了模型對單一物件形狀或位置的依賴,讓模型學會更穩健的語意表示。

然而,這類混合策略也存在潛在風險。最大的問題是語意模糊,例如當一張圖片同時包含「半隻貓」與「半隻狗」時,對應的標籤若為兩者的加權平均,可能會讓模型混淆不同類別之間的邊界。此外,在醫療影像或細節導向的分類任務中,這種模糊可能會削弱模型對關鍵微特徵的辨識能力。因此,在使用 CutMix 或 MixUp 時,需根據任務需求斟酌使用,並可考慮搭配 attention map 解釋或 soft-label 策略來進一步控制其訓練影響。



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/22
多模態預訓練結合圖像與文字,讓 AI 能跨模態理解與生成。CLIP 透過圖文對比學習進行檢索與零樣本分類,Flamingo 則融合 LLM 與影像特徵,支援少樣本的問答與推理。兩者代表「理解 vs 生成」路線,廣泛應用於檢索、對話、醫療等領域,並推動未來萬用多模態 AI 的發展。
2025/09/22
多模態預訓練結合圖像與文字,讓 AI 能跨模態理解與生成。CLIP 透過圖文對比學習進行檢索與零樣本分類,Flamingo 則融合 LLM 與影像特徵,支援少樣本的問答與推理。兩者代表「理解 vs 生成」路線,廣泛應用於檢索、對話、醫療等領域,並推動未來萬用多模態 AI 的發展。
2025/09/22
自監督學習在 NLP 中透過單詞遮蔽、語序打亂、片段排序等任務,讓模型無需標註即可學習語意與語法。代表模型有 BERT、RoBERTa、ALBERT、XLNet、T5、BART,廣泛應用於分類、摘要、翻譯與對話,是現代 NLP 大模型成功的核心基礎。
2025/09/22
自監督學習在 NLP 中透過單詞遮蔽、語序打亂、片段排序等任務,讓模型無需標註即可學習語意與語法。代表模型有 BERT、RoBERTa、ALBERT、XLNet、T5、BART,廣泛應用於分類、摘要、翻譯與對話,是現代 NLP 大模型成功的核心基礎。
2025/09/22
BYOL 與 DINO 不依賴負樣本,透過自蒸餾與 EMA 穩定教師機制學習語意特徵,避免特徵塌縮。BYOL 強調自我對齊,DINO 結合 ViT 能自然顯現物件邊界。兩者在低標註或少樣本場景中具高效能,廣泛應用於分類、檢索與無監督分割。
2025/09/22
BYOL 與 DINO 不依賴負樣本,透過自蒸餾與 EMA 穩定教師機制學習語意特徵,避免特徵塌縮。BYOL 強調自我對齊,DINO 結合 ViT 能自然顯現物件邊界。兩者在低標註或少樣本場景中具高效能,廣泛應用於分類、檢索與無監督分割。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News