在現實世界的資料中,「年齡」可能以 10 到 100 為單位,「年收入」卻以 50 萬到 1000 萬為單位。如果直接將這兩組數值輸入模型,數值範圍巨大的特徵將會在數學上完全主導模型的判斷,使得數值範圍小的特徵形同虛設,這就是我們常說的「尺度霸凌」現象。
特徵縮放(Feature Scaling),無論是正規化(Normalization) 將數值轉換至區間,或是標準化(Standardization) 將數值轉換為 μ=0,σ=1 的分佈,目的都是在統一量級,確保所有特徵維度對模型的貢獻是公平且穩定的。
這種統一之所以關鍵,是因為它解決了三類核心模型學習機制上的偏差:1. 核心機制:距離計算的扭曲 (Distance Distortion)
許多機器學習模型在決策時,高度依賴於樣本點之間的 幾何距離 來判斷相似性或劃分邊界。如果特徵尺度差異過大,距離計算將被高尺度的特徵所支配,進而導致判斷結果失真。
• 代表模型: K-最近鄰 (KNN) 與 支持向量機 (SVM)。
• 底層邏輯:
◦ KNN 透過計算新樣本與所有訓練樣本的距離(例如歐幾里得距離),來找到最接近的 K 個鄰居,並進行分類或迴歸。當某一特徵的數值範圍比其他特徵大數百倍時,距離的計算將幾乎完全由該高尺度特徵決定,低尺度的特徵將失去判斷相似性的能力。因此,KNN 對特徵尺度是高度敏感的,必須進行特徵縮放。
◦ SVM 的目標是找到最大化類別間隔(Margin)的超平面。這個超平面的位置和間隔的計算,同樣對特徵的量級敏感。標準化處理能夠幫助 SVM 更好地找到這個最大間隔,並提升其在高維空間中的表現和訓練效率。
2. 核心機制:梯度下降的不穩 (Gradient Instability)
許多模型,尤其是採用迭代優化方法(如梯度下降)來更新模型參數(權重)時,特徵的尺度會直接影響優化過程的效率與穩定性。
• 代表模型: 線性迴歸 (Linear Regression)、邏輯迴歸 (Logistic Regression) 以及所有的 深度神經網路 (Deep Neural Networks)。
• 底層邏輯:
◦ 梯度下降依賴計算損失函數對每個參數的偏導數(即梯度)來調整權重。如果一個特徵的數值範圍很大,它對損失函數的貢獻(梯度)也會更大。
◦ 在優化過程中,這會導致模型在對應高尺度特徵的維度上,權重更新的步伐過大,產生劇烈震盪或發散;而在低尺度特徵的維度上,權重更新卻緩慢無力,難以收斂至最佳解。
◦對於這類模型,特徵縮放(特別是標準化至 μ=0,σ=1)是不可或缺的前處理步驟。在深度學習中,類似的機制如層歸一化(Layer Normalization) 也是為了穩定訓練過程中的數據分佈,避免內部協變偏移,提升收斂速度。
3. 核心機制:權重懲罰的偏差 (Regularization Bias)
在加入正則化項(Regularization Term)以防止模型過度擬合(Overfitting)時,特徵尺度會破壞懲罰機制的公平性。
• 代表模型: Lasso 迴歸 (L1 正則化) 與 Ridge 迴歸 (L2 正則化)。
• 底層邏輯:
◦ 正則化項通過懲罰模型權重(係數 β)的大小來限制模型的複雜度。例如,L2 正則化會最小化 ∑βj2。
◦ 如果特徵 XA 的數值很大,模型為了保持預測結果 Y 不變,會賦予 XA 一個非常小的權重 βA。反之,數值小的特徵 XB 會獲得一個相對大的權重 βB。
◦ 當我們對權重進行懲罰時,L2 懲罰項 ∑β2 會不成比例地壓縮權重較大的 βB(即對應低尺度特徵的權重),導致正則化的效果偏向懲罰低尺度的特徵,而非公正地懲罰所有權重。
◦ 為了讓正則化能夠基於特徵的實際重要性而非其數值大小進行懲罰,我們必須先將特徵縮放到同一尺度。
--------------------------------------------------------------------------------











