今天想要跟大家分享的主題是”類別不平衡”問題,這個是實務上在導入人工智慧時,非常常見的問題,那麼什麼是”類別不平衡”呢?
當然,我個人認為如果”成本”以及”時間”允許的話,持續蒐集少量類別的資料才是最好的方法,畢竟如果是自己製造出的少數類別資料,很有可能會無法充份反應真實資料的情況。
假設我們想要根據過去的天氣資料,來預測台北明天溫度是否會超過38度,也就是說,我們將明天的溫度分成大於38度以及小於38度兩類。
然而,根據歷年來所有統計的資料來看,台北超過38度的日子其實是非常少也相當罕見的,此時,兩個類別的資料數量差距會非常大,這就是我們所謂的”類別不平衡”,或者換句話說,當某類的類別是相對於其他類別來得罕見許多。
如果我們貿然的直接將類別不平衡的資料集拿去給人工智慧做學習,那麼很有可能會讓AI學到”只會預測明天天氣低於38度”這樣的結果,表面上他好像每天的溫度預測非常的準確,但實際上他喪失了預測異常溫度的情況!這並不是我們想要的結果。
一般來說,我們會期望不同類別之間的資料量差不多,但如果真的遇到了類別不平衡,除了花更多時間以及資源去蒐集更多罕見類別資料外,也有人會利用一些方法自己去大量製造少數類別的資料,來讓類別與類別之間更加的平衡!