第二部：《深度學習》9/100 訓練、驗證與測試資料切分 📂 別讓模型偷看到答案！

Hansen W

發佈於AI科技機器學習修煉坊

2025/08/29 更新2025/08/29 發佈閱讀 5 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

9/100 第一週：深度學習基礎入門

9.訓練、驗證與測試資料切分 📂 別讓模型偷看到答案！

_______________________________________

✅ 核心概念：

機器學習的關鍵目標是泛化能力，也就是模型在「從未見過的資料」上也能做出準確預測。為了評估模型是否真的學得好，我們必須將資料切分成：

• 訓練集（Training Set）：用來學習權重與偏差

• 驗證集（Validation Set）：用來調整參數與早停

• 測試集（Test Set）：模擬最終實戰表現，完全不能用來訓練！

📌 一句話總結：

資料不切分，模型就會「作弊」學到答案，失去實戰價值！

________________________________________

✅ 三種資料集的作用比較：

在機器學習中，資料集通常分為三種：訓練集、驗證集與測試集。訓練集是用來讓模型學習與反覆調整參數的資料，參與訓練與調參，但不反映最終效能；驗證集則用來幫助選擇最佳模型架構與超參數組合，不參與訓練，但用來調參；測試集則完全不參與訓練與調參，專門用來評估模型在未見資料上的最終表現，是衡量模型泛化能力的關鍵依據。

________________________________________

✅ 常見切分比例：

模型任務訓練 / 驗證 / 測試比例建議

標準應用 60% / 20% / 20%

小型資料 70% / 15% / 15%

超大資料 98% / 1% / 1%

📌 注意：驗證集 ≠ 測試集！不能「訓練用完就測試」，否則結果會過於樂觀。

________________________________________

✅ 資料切分實作（以 Python 為例）：

python

from sklearn.model_selection import train_test_split

# 假設有資料 X, 標籤 y

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.4, random_state=42)

X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

📂 結果：

• 60% → 訓練集

• 20% → 驗證集

• 20% → 測試集

這段程式碼使用 train_test_split 將原始資料集 X 和標籤 y 按照 6:2:2 的比例分成訓練集、驗證集與測試集。首先將 40% 的資料從原始資料中切出作為臨時集（X_temp、y_temp），再將這 40% 平均分為驗證集與測試集各 20%。這種分法有助於模型訓練、調參與評估的分工清晰，確保每個階段使用獨立資料，提升模型泛化能力。

________________________________________

✅ K-Fold 交叉驗證（進階補充）

當資料集太小，不容易切出穩定的驗證集時，可以使用 K-Fold Cross Validation：

📌 做法：

1. 將資料平均分成 K 份

2. 每次選其中一份當驗證，其餘當訓練

3. 重複 K 次，平均各次結果

📌 優點：

• 適合小資料集

• 評估結果更穩定、不偏頗

________________________________________

✅ 小結與啟示 💡

✅ 訓練、驗證、測試資料切分 = AI 模型訓練的三道防線

✅ 驗證集幫助「調參」，測試集才是「真正考試」

✅ 資料切得好，模型才學得真、測得準

✅ 千萬別偷看答案，否則你只是在自我欺騙！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

17會員

459內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/08/29

第二部：《深度學習》8/100 過擬合與正則化方法 🧪 Dropout、L2 正則化讓模型不作弊！

過擬合是模型記住訓練資料細節，導致無法泛化。可透過 Dropout、L2 正則化、Early Stopping 等方法限制模型過度學習，提升對新資料的表現，讓模型學會規律而非死背答案。

2025/08/29

第二部：《深度學習》8/100 過擬合與正則化方法 🧪 Dropout、L2 正則化讓模型不作弊！

2025/07/11

第二部：《深度學習》7/100 深度學習的應用場景 🌐 語音、影像、語意、創作全方位開花！

深度學習透過多層神經網路自動學習資料特徵，廣泛應用於語音辨識、影像處理、自然語言理解與創意生成等領域。其強大能力源於可處理非線性關係並支援結構化與非結構化資料，常見模型如 CNN、Transformer、GAN 等。應用實例包含 Siri 語音助理、醫療影像判讀、AI 作畫與機器翻譯等。

2025/07/11

第二部：《深度學習》7/100 深度學習的應用場景 🌐 語音、影像、語意、創作全方位開花！

2025/07/11

第二部：《深度學習》6/100 損失函數與優化器概念 📉 幫助模型走向正確方向的指南針！

損失函數用來衡量模型預測與實際結果的誤差，如 MSE、Cross Entropy 等；而優化器則根據這些誤差反向調整神經網路的權重與偏差，使模型學習更精準。常見優化器如 Adam 結合 Momentum 和 RMSProp，具備快速收斂與穩定性高的特點。兩者就像導航與方向盤，引導模型走向最優解。

2025/07/11

第二部：《深度學習》6/100 損失函數與優化器概念 📉 幫助模型走向正確方向的指南針！

看更多

你可能也想看

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

去歐洲真的是又興奮又緊張。網路上常說歐洲治安不好，行前說明會時領隊也提醒：「不要背後背包，隨身物要放在前面比較安全！」但出國玩總是想打扮得美美的啊～而且隨身總得帶些實用小物：雨傘、濕紙巾、小瓶水、萬用藥膏……體積雖小，但零零總總裝起來也不少。我在蝦皮購買了這4樣超實用旅遊好物！減緩我的焦慮感。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

海倫觀察室 Helen's Insights

告別書本絕緣體！1 歲半寶寶愛上的互動書單㊙️，精打細算媽咪的「聰明消費」秘笈！

開箱 3 套深受 0-6 歲寶寶喜愛的互動式童書，包含 Bizzy Bear 推拉書、小小音樂大師有聲書、Poke A Dot 泡泡書，有效提升寶寶閱讀興趣與親子共讀時光。搭配蝦皮雙 11 購物攻略，教你如何鎖定免運、折價券、高額回饋，並透過蝦皮分潤計畫，將日常購物開銷轉化為穩定育兒基金，聰明消費。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05