過採樣(Oversampling)是一種用於處理機器學習中類別不平衡問題的技術,主要通過增加少數類別的樣本數量,使得少數類和多數類的樣本比例更加均衡,從而改善模型對少數類的識別能力。
過採樣的主要方法
- 隨機過採樣(Random Oversampling):
- 從少數類樣本隨機有放回地抽取並複製,簡單直接。
- 缺點是容易導致過擬合,因為複製的樣本沒有提供新信息。
- SMOTE(Synthetic Minority Over-sampling Technique):
- 根據少數類樣本生成合成樣本,通過在特徵空間與鄰近樣本間進行插值。
- 可以增加樣本多樣性,減少過擬合風險。
- ADASYN(Adaptive Synthetic Sampling):
- 對難以分類的少數樣本生成更多合成樣本,注重邊界樣本的增強。
- 有效解決類別不平衡,提升模型在少數類別上的召回率與準確率。
- 不會丟失多數類樣本信息(相比欠採樣)。
- 適用於多種機器學習模型。
過採樣的缺點
- 隨機複製可能讓模型成為“記憶”重複數據,導致過擬合。
- 合成過程可能生成不代表真實資料的噪聲點。
- 增加訓練時間和計算成本。
其他相關技術
- 欠採樣:減少多數類樣本數量以平衡數據,
- 混合採樣:結合過採樣和欠採樣,兼顧數據平衡與質量。
簡言之,過採樣通過人為增加少數類樣本數量,幫助解決類別不均衡,提高模型對少數類別的識別能力,是處理不平衡數據集的常用策略之一。