AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》
57/100 第六週:模型評估與優化
57. 影響力評估與特徵重要性分析 📊 找出哪些變數對模型影響最大,提升模型可解釋性!
影響力評估與特徵重要性分析 📊
找出哪些變數對模型影響最大,提升模型可解釋性與決策品質!
________________________________________
🔎 一、什麼是特徵重要性(Feature Importance)?
• 特徵重要性 是衡量每個特徵(變數)對模型預測結果貢獻大小的技術
• 核心目標:
✅ 找出關鍵因素(Key Drivers)
✅ 剔除無用特徵,簡化模型
✅ 提高模型透明度與解釋性
🧠 二、為什麼特徵重要性很重要?
• 避免模型淪為黑箱(Black Box)
• 協助: ✅ 業務策略制定(行銷、風控) ✅ 特徵工程優化 ✅ 法規合規(AI 倫理與審查)
________________________________________
📈 三、常見特徵重要性分析方法
✅ 特徵重要性方法比較
1️⃣ 模型內建 Feature Importance
原理:根據樹模型中的分裂次數、資訊增益等統計指標計算特徵貢獻
優點:計算快速、邏輯直觀、內建支援
適用模型:決策樹、隨機森林、XGBoost、LightGBM 等樹模型
2️⃣ Permutation Importance(置換重要性)
原理:打亂單一特徵的值,觀察模型性能下降的幅度
優點:模型不可知(model-agnostic)、解釋力清晰
適用模型:所有機器學習模型
3️⃣ SHAP Values(SHapley Additive Explanations)
原理:基於 Shapley Value,計算每個特徵對預測結果的公平貢獻
優點:
✅ 支援全局與局部解釋
✅ 理論完整、穩定一致
適用模型:所有模型(樹模型如 RF、XGBoost 有最佳效能)
4️⃣ LIME(Local Interpretable Model-agnostic Explanations)
原理:透過對輸入資料做局部擾動,擬合簡單模型解釋個別預測
優點:
✅ 快速解釋單一預測結果
✅ 支援任意黑箱模型
適用模型:任何模型,尤其適合模型不可解釋的黑箱模型(如深度學習)
________________________________________
🛠 四、Python 示範(以隨機森林為例)
python
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_iris
import pandas as pd
import matplotlib.pyplot as plt
X, y = load_iris(return_X_y=True)
model = RandomForestClassifier().fit(X, y)
# 模型內建特徵重要性
feature_importance = model.feature_importances_
df = pd.DataFrame({'Feature': load_iris().feature_names, 'Importance': feature_importance})
df = df.sort_values(by='Importance', ascending=False)
print(df)
# 繪圖呈現
plt.barh(df['Feature'], df['Importance'])
plt.xlabel('Importance')
plt.title('Feature Importance (Random Forest)')
plt.show()
這段程式碼使用隨機森林分類器(RandomForestClassifier)對 Iris 鳶尾花資料集進行訓練,並提取模型內建的特徵重要性(feature importance),以判斷哪些變數對分類決策影響最大。資料整理後以 pandas 建立表格,再透過 matplotlib 繪製水平長條圖,直觀呈現各特徵的貢獻程度,有助於模型解釋與特徵選擇。這是樹模型中常見且快速的特徵分析方法。
✅ 結果解讀:
• 越重要的特徵對模型預測影響越大
• 可以直接做業務解讀:「哪些變數在主導模型決策?」
________________________________________
🌟 五、Permutation Importance(置換法)特點
• 不受模型結構影響,真正衡量「模型對特徵的依賴度」
• 可有效辨別「看似重要但實際不被模型用到」的假特徵
________________________________________
🎯 六、SHAP 特徵重要性(全局貢獻排名)
• 直接量化每個特徵在所有預測中的平均貢獻
• 可產生視覺化 Beeswarm 圖,直觀展現正負影響力
______________________________________
📚 七、應用場景
✅ 金融風控:找出影響拒貸的關鍵因子(如收入、負債比)
✅ 醫療決策:分析哪些檢測數據最影響疾病預測
✅ 電商推薦:理解用戶購買行為背後的主因
✅ 行銷策略:決定廣告投放時該優先關注的客群特徵
________________________________________
📌 八、總結重點
• 特徵重要性 = 讓 AI 告訴你「為什麼會這樣預測?」
• 幫助人類理性解讀 AI 決策,提升模型「可解釋性」與「可信度」
• 是合規審查(Explainable AI, XAI)必備技術
________________________________________
✅ 九、總結金句:
📊 影響力分析 = AI 模型的體檢報告,幫你找出真正關鍵的決策因子!
________________________________________