Feature Importance(特徵重要性)是機器學習中用以量化每個特徵對模型預測結果貢獻度的指標,反映哪些特徵對模型性能影響最大。
Feature Importance的意義:
- 判斷數據中對目標變量影響較大的特徵。- 協助特徵選擇,提升模型簡潔性和性能。
- 增強模型解釋性,便於理解模型是如何做決策的。
- 幫助診斷模型是否偏向某些特徵。
常見Feature Importance計算方法:
1. **基於模型內部參數的方法**
- 線性模型用係數絕對值衡量特徵重要性。
- 決策樹和隨機森林根據分裂節點的純度減少(如Gini Impurity)計算重要性。
2. **排列重要性(Permutation Importance)**
- 通過隨機打亂某個特徵的值,測量模型性能下降的程度。
- 不需重新訓練模型,評估模型對該特徵的依賴度。
3. **SHAP值(SHapley Additive exPlanations)**
- 基於博弈論,計算每個特徵對單個預測的貢獻度,提供局部和全局解釋。
4. **LIME(Local Interpretable Model-agnostic Explanations)**
- 利用局部線性模型來近似復雜模型,評估特徵對單一預測的影響。
Feature Importance的應用:
- 精簡特徵集,降低過擬合風險。
- 提升模型訓練速度與效果。
- 改善模型透明度,利於商業決策和監管合規。
簡單比喻:
Feature Importance像是比賽中各隊員的得分表,數值越高角色越關鍵。
總結:
Feature Importance衡量模型中各特徵對預測貢獻的大小,常用方法包括基於模型參數、排列重要性及SHAP解釋等,有助於特徵選擇和模型解釋。