
昨天我們搞懂了 AI 的四大學習類型後,今天,我們來解決下一個讓無數新手頭痛的大魔王:「為什麼資料不能全部丟進去訓練?」
這絕對是 IPAS 考試中,用來區分「門外漢」與「內行人」的關鍵觀念題。
請記住這個將讓你永生難忘的比喻:
AI 學習 = 學生讀書考試
- 訓練集 (Training Set) ↔ 你的「教科書」與「課堂練習題」 這是模型學習知識和規律的地方。就像我們唸書時,需要大量閱讀課本、做習題來打好基礎。模型的絕大部分時間,都花在「讀」這份資料上。
- 驗證集 (Validation Set) ↔ 你的「模擬考」 當你讀完書後,會做模擬考來檢視學習成效,並調整讀書方法(例如:該加強哪個章節?)。同理,模型會用驗證集來調整自己的「超參數」(可以理解為模型的學習策略),看看怎樣的策略組合能拿到最高分。注意:模擬考的分數,不能當作你真正的實力。
- 測試集 (Test Set) ↔ 你的「正式大考」 這是模型從未見過的全新題目,用來評估模型的「真實最終實力」。就像我們在學測、指考中拿到的成績,才是評斷我們學習成果的最終標準。這份考卷的分數,才是模型的最終成績。
最重要的觀念:資料洩漏 (Data Leakage)
如果你在訓練過程中,讓模型「偷看到」了測試集的答案(例如:先對全部資料做了標準化才切分),就如同你拿著答案去考正式大考,分數再高都是假的、是作弊!這在 AI 領域是超級大忌!
在下一篇我們將拆解最頭痛、也最重要的「模型擬合」問題,判斷你的模型究竟是學霸,還是只會死背書的書呆子!
👉想一次擁有所有觀念的完整對照表與考前精華。在我們的【IPAS 考前終極衝刺包】裡,有更深入的整理。
一起跟Lun,陪你玩轉 AI 新世代。
*本內容為個人學習筆記,非官方資訊,僅供參考,請以 iPAS 官方公告為準。