AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》
77/100 第八週:📌 自監督學習與預訓練技術 🔁
77.資料擴充與對比資料組合 📈 提升模型的泛化與魯棒性!
________________________________________
🎯 單元導讀:
你是否遇過模型在訓練集表現很好,但測試集準確率驟降?
這很可能是模型 過擬合、泛化能力不足,或缺乏對「真實世界變異」的容忍力。
本課介紹兩大實務關鍵技術:
• 資料擴充(Data Augmentation):擴展資料多樣性,減少過擬合
• 對比資料組合(Contrastive Pairing / Hard Negative Mining):設計挑戰性的樣本對,提升辨識力
________________________________________
📦 一、什麼是資料擴充(Data Augmentation)?
✅ 定義:
資料擴充是一種將原始資料透過變形、轉換、替換、遮蔽等手段生成新樣本的方法,用來提升模型的訓練多樣性與泛化能力。
________________________________________
🧰 常見 NLP 擴充技巧:
技術名稱 說明
同義詞替換 隨機選詞換成相似意思詞彙
隨機刪除 刪除部分非關鍵詞,測試語義容忍度
句子順序交換 在篇章中打亂部分句子,提高結構適應能力
Back Translation 將句子翻譯成另一語言再翻回來,語序會變
插入錯別字 模擬拼字錯誤情境,讓模型更具魯棒性
________________________________________
🧰 常見 CV(圖像)擴充技巧:
技術名稱 說明
翻轉、旋轉、裁切 常見空間幾何轉換
色彩變換 模擬拍照、 環境光源不同
遮蔽區塊(Cutout) 擾亂部分圖像,模擬不完整輸入
Mixup / CutMix 將兩張圖混合,提升泛化與樣本多樣性
________________________________________
🔍 二、對比資料組合:訓練模型學會「辨識差異」
➤ 核心思想:
「讓模型學會辨識什麼是相似的,什麼是不同的」是學習語意的關鍵!
________________________________________
📊 對比資料類型:
類型 說明
正樣本對(Positive) 同一實體或語意相同的兩種表達方式
簡單負樣本(Easy Negative) 隨機配對、語意明顯不同
困難負樣本(Hard Negative) 語意相近但非同義 → 可強化邊界學習力
________________________________________
🛠 建立對比對的方法:
類型 方法舉例
自動擴充產生正樣本 同句不同翻譯、同圖不同裁切
外部語料挖掘正負樣本 網頁標題 vs 網頁內容、QA配對 vs 非配對問題
使用 embedding 度量 根據語意向量找最接近但不同標籤的樣本當作 hard negative
________________________________________
🤖 三、應用場景與效益
任務類型 擴充/對比技術應用效果
文本分類 降低對特定詞依賴,提升語意概括力
文本相似度 使用相似句組合擴充資料,改善近義辨識能力
圖像檢索 結合擴充圖像與對比 loss 學出共享特徵空間
少樣本學習 人工創造樣本對,提升小資料下的穩定性
多語言模型 Back Translation 擴充可提升跨語泛化能力
________________________________________
🧠 四、小結與啟發
✅ 資料擴充是「用舊資料變出新資料」的有效手段,提升模型泛化力
✅ 對比資料組合能強化語意理解邊界與魯棒性,是自監督與遷移學習的基礎
✅ 若資料不足、任務挑戰高,擴充 + 對比設計可助你打造更穩健模型!
________________________________________
💬 問題挑戰與思考:
💬 1. 在情感分析中,哪些資料擴充方式可能會誤導模型?你會如何改進?
在情感分析任務中,不當的資料擴充可能會導致模型學習錯誤的情緒判斷。舉例來說,若使用隨機同義詞替換,可能會不小心將強烈正向詞彙「超棒」替換成較中性的「還可以」,造成情感強度失真。此外,將語句片段插入或刪除,也可能破壞整體語境,例如「我今天心情很好」加入「但工作太忙」後,其實已轉為複雜或負向語氣,卻仍可能被標記為正面。這會誤導模型對情感的邊界判斷。
要改進這類問題,可採用語意一致性的擴充策略,例如使用情緒控制的語言生成模型(如 T5 或 GPT)來產生語意與原句一致的正向或負向句子。同時,也可以在人為審查的基礎上建立高品質擴充集,避免全自動生成導致的誤差。此外,利用對比學習策略讓模型學習區分「情感相近但表達不同」與「語意偏差但表面相似」的句子,也是一種有助於提升準確性的訓練方法。
💬 2. 請設計一個「相似句 vs 非相似句」的對比學習組合方案
在設計對比學習任務時,我們可以將語句配對為「相似對」與「非相似對」。例如,相似句對可以是「我想退貨」與「請問怎麼辦理退貨?」這類語意相同但用詞不同的轉述句。而非相似句對則可以是「我想退貨」與「這件衣服很合身」,兩者表面上都在談衣服,但語意與意圖明顯不同。
這樣的對比配對策略可以進一步強化,像是使用 dropout 或隨機 masking 增強的相同句子版本作為正樣本,並引入語意接近但任務目的不同的語句作為困難負樣本(hard negative),例如「能換尺寸嗎?」與「能退貨嗎?」語氣相近但功能不同。透過這類資料設計,模型能學習更細緻的語意表徵與語句鑑別力。
💬 3. 為什麼在圖像任務中,CutMix/MixUp 可以幫助泛化?會有什麼風險?
CutMix 和 MixUp 是兩種常用於電腦視覺任務的資料增強技巧,它們透過將兩張不同的圖片進行區塊切割混合(CutMix)或像素級加權融合(MixUp),同時對應調整標籤的比例,來產生具有多樣性的訓練樣本。這種方式有助於提升模型的泛化能力,因為它打破了模型對單一物件形狀或位置的依賴,讓模型學會更穩健的語意表示。
然而,這類混合策略也存在潛在風險。最大的問題是語意模糊,例如當一張圖片同時包含「半隻貓」與「半隻狗」時,對應的標籤若為兩者的加權平均,可能會讓模型混淆不同類別之間的邊界。此外,在醫療影像或細節導向的分類任務中,這種模糊可能會削弱模型對關鍵微特徵的辨識能力。因此,在使用 CutMix 或 MixUp 時,需根據任務需求斟酌使用,並可考慮搭配 attention map 解釋或 soft-label 策略來進一步控制其訓練影響。