Frequency Encoding(頻率編碼)是將類別變數中的每個類別,依其在資料集中出現的頻率(次數比例)轉換成數值的一種方法。這種方法的核心做法是計算每個類別在樣本中出現的頻率,然後用該頻率值替代原本的類別標籤。
Frequency Encoding的特點包括:
- 將類別資料轉換為頻率數值,保持類別出現的相對重要性。 不會增加資料維度,適合高基數(類別數多)特徵。 與Label Encoding不同,不會引入虛假的序列關係。 可反映類別出現的普遍程度,對某些模型有助益。
缺點是:類別頻率相同的會被賦予相同數值,可能導致模型無法區分此類別的細節;此外,它對有序類別並不適合。
總結來說,Frequency Encoding常用於處理類別數量大且頻率分布有意義的資料,能在保持資訊的同時壓縮維度,適合多種機器學習算法。