交叉驗證 (Cross-Validation)

更新於 發佈於 閱讀時間約 5 分鐘

「交叉驗證 (Cross-Validation)」是一種評估機器學習模型性能的常用統計方法,特別是在數據量有限的情況下。它的主要目的是評估模型在獨立的、未參與訓練的數據集上的表現,從而更好地估計模型在真實世界中的泛化能力,並幫助選擇合適的模型和超參數。

簡單來說,交叉驗證通過將原始數據集分成多個子集(或稱為「折」),然後輪流地使用其中一個子集作為驗證集(或測試集),而使用剩下的子集作為訓練集來訓練模型。這個過程會重複多次,每次使用不同的子集作為驗證集。最後,將所有驗證結果彙總起來,得到對模型性能的綜合評估。

為什麼需要交叉驗證?

  • 更可靠的性能評估: 簡單地將數據集劃分為一個訓練集和一個測試集可能導致測試集的選擇性偏差,使得模型的性能評估不夠準確。交叉驗證通過在多個不同的數據子集上進行評估,可以得到更穩定和可靠的性能估計。
  • 模型選擇: 在比較不同模型或同一模型不同超參數設定的性能時,交叉驗證可以幫助我們選擇泛化能力更好的模型或超參數。
  • 避免過擬合: 通過在不同的驗證集上評估模型的性能,可以幫助我們判斷模型是否過度擬合了訓練數據。如果模型在訓練集上表現很好,但在交叉驗證集上的表現不佳,則可能存在過擬合。

常見的交叉驗證方法:

  • k 折交叉驗證 (k-Fold Cross-Validation):
    1. 將原始數據集隨機分成 k 個大小大致相等的互斥子集(或稱為「折」)。 進行 k 次訓練和驗證的迭代。在每次迭代中,選擇其中的一個子集作為驗證集,而將剩下的 k-1 個子集合併作為訓練集來訓練模型。 在驗證集上評估模型的性能。 最後,將 k 次驗證結果(例如,準確率、F1 分數等)取平均值,作為模型最終的性能評估。 常用的 k 值包括 5 和 10。
  • 留一交叉驗證 (Leave-One-Out Cross-Validation, LOOCV):
    • 這是 k 折交叉驗證的一個特例,其中 k 等於原始數據集中的樣本數量。 在每次迭代中,選擇一個樣本作為驗證集,而使用剩下的所有樣本作為訓練集。 這個過程會重複 n 次(n 為樣本總數),每次使用不同的樣本作為驗證集。 LOOCV 的優點是它使用了幾乎所有的數據進行訓練,因此偏差較小。但它的計算成本很高,尤其是在數據集很大時。
  • 分層 k 折交叉驗證 (Stratified k-Fold Cross-Validation):
    • 這種方法在 k 折交叉驗證的基礎上增加了分層的概念。它確保每個折中各個類別的比例與原始數據集中各個類別的比例大致相同。 這對於分類任務中類別不平衡的數據集非常重要,可以避免由於驗證集中缺少某些類別的樣本而導致的性能評估偏差。
  • 重複 k 折交叉驗證 (Repeated k-Fold Cross-Validation):
    • 為了進一步提高性能評估的穩定性,可以多次重複執行 k 折交叉驗證,每次重複都使用不同的數據劃分。 最後,將所有迭代的驗證結果進行平均。

交叉驗證的步驟總結:

  1. 將數據集劃分為 k 個子集。
  2. 對於 i 從 1 到 k:
    • 將第 i 個子集作為驗證集。 將剩下的 k-1 個子集作為訓練集。 在訓練集上訓練模型。 在驗證集上評估模型。
  3. 彙總所有驗證結果(例如,計算平均值和標準差)。

使用交叉驗證的注意事項:

  • 數據獨立性: 交叉驗證假設數據樣本之間是獨立同分布的。如果數據之間存在時間依賴性(例如,時間序列數據),則需要使用其他更適合的方法(例如,時間序列交叉驗證)。
  • 計算成本: 交叉驗證需要多次訓練和評估模型,因此計算成本可能會比較高,尤其是在數據集很大或模型很複雜時。
  • 超參數調整: 交叉驗證通常用於超參數調整。在選擇最佳超參數時,需要在不同的超參數組合下進行交叉驗證,選擇平均性能最好的組合。

總之,交叉驗證是評估機器學習模型性能和選擇模型的有力工具,它能夠提供比單純劃分訓練集和測試集更可靠的泛化能力估計。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
1會員
149內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/24
自然語言處理 (NLP) 模型在實驗室環境中表現良好是一回事,而在實際應用中成功部署則需要考慮許多其他的因素。以下是一些關於 NLP 模型在實際應用中的部署考量: 1. 模型性能與準確度: 滿足業務需求: 模型的準確度是否達到實際應用所需的標準?需要根據具體的業務目標和容錯率來衡量。 泛化能力
2025/05/24
自然語言處理 (NLP) 模型在實驗室環境中表現良好是一回事,而在實際應用中成功部署則需要考慮許多其他的因素。以下是一些關於 NLP 模型在實際應用中的部署考量: 1. 模型性能與準確度: 滿足業務需求: 模型的準確度是否達到實際應用所需的標準?需要根據具體的業務目標和容錯率來衡量。 泛化能力
2025/05/24
自然語言處理 (NLP) 中使用的神經網路建立在一些基礎的概念之上。理解這些基礎知識對於深入學習更複雜的 NLP 模型(如 RNN、LSTM、Transformer 等)至關重要。以下是 NLP 中一些關鍵的神經網路基礎知識: 感知器 (Perceptron) 和基礎前饋神經網路 (Basic F
2025/05/24
自然語言處理 (NLP) 中使用的神經網路建立在一些基礎的概念之上。理解這些基礎知識對於深入學習更複雜的 NLP 模型(如 RNN、LSTM、Transformer 等)至關重要。以下是 NLP 中一些關鍵的神經網路基礎知識: 感知器 (Perceptron) 和基礎前饋神經網路 (Basic F
2025/05/24
「編碼器-解碼器架構 (Encoder-Decoder Architecture)」是一種常見的深度學習模型架構,特別適用於處理序列到序列 (Sequence-to-Sequence) 的任務,也就是輸入是一個序列,輸出是另一個序列,且兩個序列的長度可能不同。這種架構的核心思想是將輸入序列的信息壓縮
2025/05/24
「編碼器-解碼器架構 (Encoder-Decoder Architecture)」是一種常見的深度學習模型架構,特別適用於處理序列到序列 (Sequence-to-Sequence) 的任務,也就是輸入是一個序列,輸出是另一個序列,且兩個序列的長度可能不同。這種架構的核心思想是將輸入序列的信息壓縮
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News