SMOTE(Synthetic Minority Over-sampling Technique,合成少數類別過採樣技術)是一種用於處理類別不平衡問題的數據增強方法,特別用於少數類別樣本數量較少時。它通過在少數類別樣本的特徵空間中生成合成樣本來擴充少數類別數據,幫助提升機器學習模型對少數類的識別效果。
SMOTE的實現原理:
- 對少數類樣本,找出其k個最近鄰(通常k=5),
- 隨機選擇一個最近鄰,
- 在當前樣本與該鄰居樣本的特徵向量之間,隨機線性插值生成一個新的合成樣本,
- 重複此過程直到少數類樣本數量達到預期的擴充比例。
- 相比簡單複製少數類樣本,生成了具有多樣性的合成樣本,有助於模型學習更平滑的決策邊界,
- 減少過擬合的可能性,
- 搭配少數類欠採樣常能提升模型整體性能。
注意事項:
- SMOTE生成的樣本不考慮多數類邊界信息,可能在類別重疊區域造成模糊樣本,
- 在極度不平衡或高維度中,需配合異常檢測和特徵選擇以避免噪聲擾動。
使用場景與應用:
- 不平衡分類問題(如醫療診斷、欺詐偵測、故障預測)中提升少數類識別率,
- 與多種分類器(如決策樹、SVM、神經網絡)結合使用。
總結:SMOTE是一種通過合成少數類樣本來增強訓練數據平衡性的技術,是解決類別不均衡問題的通用且有效方法。