類別不平衡（Class Imbalance）常用方法

iPAS AI應用規劃師學習筆記

發佈於數據準備與模型選擇

2025/09/02 更新2025/09/02 發佈閱讀 2 分鐘

處理類別不平衡（Class Imbalance）是機器學習中常見且重要的問題，尤其在少數類樣本數量遠小於多數類時，模型容易偏向多數類，導致少數類識別效果差。常用的處理方法包括資料層面和算法層面技術。

常用處理類別不平衡方法：

1. 資料層面方法

• 過採樣（Oversampling）少數類 複製少數類樣本或用合成方法增加少數類數據。常用技術：

• SMOTE（合成少數類過採樣技術）：基於特徵空間鄰近點生成合成樣本，避免複製引起過擬合。

• ADASYN：基於數據密度自適應地生成合成樣本，聚焦難分類區域。

• 欠採樣（Undersampling）多數類 隨機刪減多數類樣本數量，達平衡數據分布。缺點是可能丟失有用信息。

• 可搭配聚類方法進行更智能欠採樣。

2. 算法層面方法

• 調整類別權重（Class Weights） 在模型訓練中給予少數類更高權重，使模型更重視少數類樣本。許多機器學習算法（如隨機森林、XGBoost）支持類別權重調整。

• 調整決策閾值（Threshold Tuning） 改變分類器概率閾值，平衡精確率與召回率，提升少數類識別。

3. 集成方法

• 利用多個弱分類器組合成強分類器（如隨機森林、提升樹），通過投票和加權提升少數類識別能力。

4. 評估指標選擇

• 採用對不平衡數據敏感的指標，如F1分數、召回率（Recall）、AUC-ROC等，避免單一準確率誤導。

簡單比喻：

類別不平衡處理就像在森林中找稀有的珍禽，用多種策略幫助模型更好發現稀有類型。

總結：

類別不平衡處理方法包含過採樣、欠採樣、類別權重調整、決策閾值調整和集成學習技術，配合適當評估指標，能有效提升少數類識別能力和模型整體表現。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記數據準備與模型選擇

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

29會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

曼徹的矽谷旅記 Mencher’s Travelogue

ML Infra 一大戰場 - 分散式訓練

本系列將討論 LLM 時代中，分散 ML workload 的各種方法。作為系列的第一篇，我們將提及 High-level 的概論，譬如分散式訓練的各種切法、Model Parallelism 的相依問題，以及改善 Network Topology 等課題。

#討論#ML#LLM

2024/08/05

曼徹的矽谷旅記 Mencher’s Travelogue

ML Infra 一大戰場 - 分散式訓練

#討論#ML#LLM

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

#AI#ai#PromptEngineering

2024/07/30

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

#深度學習#AI#人工智慧

2024/07/23

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 91

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News