我們在「資料處理與分析概念」中完成了數據的蒐集與清洗,現在我們的數據雖然乾淨了,但還不能直接餵給機器學習模型!為什麼呢?因為數據的「形狀」和「尺度」還沒有調整到模型最喜歡的樣子!
接下來,我們要進入AI專案中一個極度考驗細心和專業度、但又常常被新手忽略的環節——數據轉換(Data Transformation)!數據轉換是將原始數據轉化為高品質且適合分析的格式的關鍵步驟。
📐 為模型量身定制數據:數據轉換的四大核心任務!
💻 數據轉換:由原理到應用
1. 什麼是數據轉換?
數據轉換的目標,是將經過清洗後的數據,調整成最適合機器學習演算法處理和分析的格式。白話比喻:為模型準備食譜 如果說數據清洗是檢查食材是否新鮮、丟棄壞掉的部分;那麼數據轉換就是嚴格按照食譜要求,將所有食材切塊、秤重、攪拌均勻。例如,模型可能不接受字串(如:「男性」),我們就需要將它轉換為數值(如:1)。又或者,如果房價數據是幾百萬,而房屋的坪數是幾十,兩者的尺度差異太大,模型就容易被「大數字」帶偏,這時我們就需要進行標準化。
簡單來說,它就是... 確保所有數據都能以統一、標準、可比較的格式進入模型,提高模型的訓練效率和準確性。
2. 數據轉換的四大核心任務
數據轉換涵蓋了多種技術,以確保數據能夠消除變數之間的單位影響,並在模型中具有可比性。

💡 核心知識點:標準化與降維的進階理解
標準化 (Normalization/Standardization)
這是最常規且重要的轉換步驟。在模型訓練中,特別是使用梯度下降(Gradient Descent)等對特徵尺度敏感的演算法時,數據標準化至關重要。
- Min-Max Scaling(最小-最大標準化): 將數據映射到 0 到 1 的區間。
- Z-score Standardization(Z-分數標準化): 將數據轉換為均值為0、標準差為 1 的分佈。
降維 (Dimensionality Reduction)
這是數據縮減的一種重要方法。當數據具有大量冗餘或高度相關的特徵時,降維技術,例如主成分分析 (Principal Component Analysis, PCA),可以透過線性變換將高維數據壓縮到低維空間,同時保留數據的主要信息,從而提升模型的效率。
白話講,它的作用就像是... 數據在進入健身房(模型訓練)前,必須先做好的熱身和塑形工作,確保每個特徵都在同一條起跑線上!
💼 情境案例應用:電商客戶價值預測
你是一個電商公司的AI應用規劃師,準備使用迴歸模型來預測客戶的終身價值 (Customer Lifetime Value, CLV)。你從數據庫中導出了一批數據,包括客戶的年齡(連續型)、近半年總消費金額(數值型)以及居住城市(類別型)。
- 初級數據分析師 (擔心地說): 「主管,我發現『總消費金額』的數值範圍從幾百元到幾百萬元不等,而『年齡』只到 70歲。如果我們直接訓練模型,總消費金額的影響會不會蓋過年齡?」
- AI規劃師 (你,指導地回答): 「是的,這就是為什麼我們需要『數據轉換』。請執行以下步驟,確保數據的格式和尺度是合適的:」
- 處理數據標準化: 「針對『總消費金額』和『年齡』這兩個數值型特徵,由於它們的量級差距太大,我們必須使用 Z-score 標準化。將它們都轉換為均值為 0、標準差為 1 的分佈。這樣,模型在訓練時才不會因為消費金額的『大數字』而產生偏誤,這確保了數據在模型中具有可比性。」
- 處理數據類型轉換: 「針對『居住城市』,這是類別型特徵。模型不能直接讀取『臺北』、『高雄』這樣的字串。請將它轉換為數值格式,例如進行 One-Hot Encoding,這就是數據類型轉換的典型應用。」
- 評估降維需求: 「如果我們最終決定添加上百個產品的『點擊次數』特徵,導致維度過高,我們就要考慮使用PCA(主成分分析)進行數據縮減,以提取核心特徵並提升運算效率。」
通過這些轉換步驟,我們將原始數據有效地調整成模型可以高效學習的格式,為準確的 CLV 預測奠定了堅實的基礎。

















