二進制編碼(Binary Encoding)

更新 發佈閱讀 2 分鐘

Binary Encoding是一種用於機器學習中分類變數編碼的技術,它先將每個類別標籤轉換為整數,然後將這些整數轉換成二進位(binary)數字,最後將二進位的每一位拆分成獨立的欄位。例如,有8個類別時,普通的One-Hot Encoding需要8欄位,而Binary Encoding只需3欄,因為2^3=8,大幅減少維度,節省空間且避免資料稀疏。

這種方法適用於高基數(high cardinality)分類變數,能減輕One-Hot Encoding帶來的維度爆炸問題,同時克服Label Encoding可能導致的虛假序列關係。Binary Encoding既保留了類別的獨特性,也提升了編碼緊湊度,對樹模型等常見機器學習模型表現良好。

缺點是轉換後的數據可讀性較差,且部分模型(如線性模型)可能無法有效利用二進位分割特性。Python中通常使用category_encoders套件實現Binary Encoding。

總結:

  • 先使用Label Encoding將類別轉為整數。 將整數轉為二進位表示。 將二進位的每一位拆分成獨立欄位。 特別適合高基數類別變數,維度縮減明顯。
留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
43會員
571內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS Certified AI Practitioner (AIF-C01) 其他:富邦美術館志工
2025/09/04
Label Encoding是機器學習中用來將非數值型的類別資料(categorical data)轉換成數值型資料的一種基本技術。它的原理是將每個類別標籤映射成一個獨特的整數值,使得機器學習算法能夠處理這些資料。例如,顏色"red"、"blue"、"green"可分別映射成0、1、2。 Labe
2025/09/04
Label Encoding是機器學習中用來將非數值型的類別資料(categorical data)轉換成數值型資料的一種基本技術。它的原理是將每個類別標籤映射成一個獨特的整數值,使得機器學習算法能夠處理這些資料。例如,顏色"red"、"blue"、"green"可分別映射成0、1、2。 Labe
2025/09/04
Z-Score(標準分數)是衡量一個觀察值距離整體平均值多少個標準差的指標。其基本計算公式為: 其中,X 是原始數據值,μ 是母體或樣本平均值,σ 是母體或樣本標準差。透過此計算,可以知道該數值高於或低於平均數多少個標準差。例如,Z分數為1表示該數值高於平均值一個標準差,為-1表示低於平均值一個標
Thumbnail
2025/09/04
Z-Score(標準分數)是衡量一個觀察值距離整體平均值多少個標準差的指標。其基本計算公式為: 其中,X 是原始數據值,μ 是母體或樣本平均值,σ 是母體或樣本標準差。透過此計算,可以知道該數值高於或低於平均數多少個標準差。例如,Z分數為1表示該數值高於平均值一個標準差,為-1表示低於平均值一個標
Thumbnail
2025/09/03
Feature Hashing(特徵哈希)又稱為哈希技巧(Hashing Trick),是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。 Feature Hashing的原理: • 對每個特徵名稱或特徵值應用哈希函數,將其映射為一個固定維度向量中的索引位
2025/09/03
Feature Hashing(特徵哈希)又稱為哈希技巧(Hashing Trick),是一種用於將大量、尤其是類別型或文本特徵快速且節省記憶體地轉換為固定長度數值向量的方法。 Feature Hashing的原理: • 對每個特徵名稱或特徵值應用哈希函數,將其映射為一個固定維度向量中的索引位
看更多
你可能也想看
Thumbnail
「蛤!?到底什麼是編碼?網路上都查不到一個簡單的定義!」 剛進研究室的你,被教授指派了許多任務,其中一件是要把質性資料給「編碼」,你是不是也像我一樣霧煞煞QQ 快點進來看看,我幫你統整了一篇簡單易懂的說明,讓你快速了解編碼是什麼!!
Thumbnail
「蛤!?到底什麼是編碼?網路上都查不到一個簡單的定義!」 剛進研究室的你,被教授指派了許多任務,其中一件是要把質性資料給「編碼」,你是不是也像我一樣霧煞煞QQ 快點進來看看,我幫你統整了一篇簡單易懂的說明,讓你快速了解編碼是什麼!!
Thumbnail
題目敘述: Reverse Bits 給定一個32bit的整數,請逆序翻轉其二進位表達式,輸出翻轉過後的數字。 例如輸入是二進位1010111 逆序翻轉後是 1110101,對應的十進位數值是117 測試範例 Example 1: Input: n = 00000010100101000
Thumbnail
題目敘述: Reverse Bits 給定一個32bit的整數,請逆序翻轉其二進位表達式,輸出翻轉過後的數字。 例如輸入是二進位1010111 逆序翻轉後是 1110101,對應的十進位數值是117 測試範例 Example 1: Input: n = 00000010100101000
Thumbnail
中學數學基礎練習—二元一次方程式
Thumbnail
中學數學基礎練習—二元一次方程式
Thumbnail
中學數學基礎練習—二元一次方程式
Thumbnail
中學數學基礎練習—二元一次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
Thumbnail
中學數學基礎練習—一元二次方程式
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News