One-Hot Encoding 是一種在機器學習中將類別資料(Categorical Data)轉換成數值形式的常用方法。它的主要原理是為每一個類別創建一個新的二元(binary)向量欄位,該欄位在該類別出現時為1,其他類別欄位則為0。
具體說,假設有一個「顏色」特徵,包含紅色(Red)、綠色(Green)、藍色(Blue)三個類別,One-Hot Encoding會將此特徵轉換成三個欄位:Color_Red、Color_Green、Color_Blue。若資料中的顏色為「紅色」,則Color_Red為1,其他兩欄為0。
此方法的主要優點包括:- 避免類別間存在數值序列導致的誤解(例如數字標號顯示大小順序,模型可能會誤判)。 使機器學習模型可接受並有效利用類別形式的特徵。 保留各類別獨立性與非序關係。
缺點為:
- 可能導致特徵維度劇增(維度災難),尤其是類別數量多時。 產生稀疏矩陣,計算上可能較費資源。
One-Hot Encoding是處理無序類別資料的常見方法,廣泛用於預處理階段,讓機器學習模型能更好地學習與預測。
舉例說明:

這種轉換便於統計與算法處理。










