特徵選擇(Feature Selection)是機器學習中關鍵的一步,目的是從原始的特徵集中選出對目標預測最有用的子集,以提升模型性能、減少計算資源消耗和避免過擬合。常用的特徵選擇方法分為三大類:
常用特徵選擇方法:
1. 過濾器法(Filter Methods)• 不依賴具體模型,基於統計指標評估特徵與目標變數的相關性。
• 常用指標包括皮爾森相關係數、卡方檢驗、互信息(Mutual Information)等。
• 優點:計算快速,適合預處理階段使用。
• 缺點:不考慮特徵間相互依賴,可能選出冗餘特徵。
2. 包裝器法(Wrapper Methods)
• 將特徵選擇視為搜索問題,使用機器學習模型評估特徵子集的效能。
• 常用方法有遞迴特徵消除(Recursive Feature Elimination,RFE)。
• 優點:考慮特徵間的關係,效果通常較好。
• 缺點:計算成本高,耗時。
3. 嵌入法(Embedded Methods)
• 在模型訓練過程中同時執行特徵選擇,常見於帶有正則化的模型(如Lasso回歸)、決策樹和隨機森林。
• 優點:效率高,與模型緊密結合。
• 缺點:依賴於特定模型。
其他技術:
• 主成分分析(PCA):雖然屬於特徵萃取而非選擇,但常與特徵選擇配合使用,降低維度。
• 互信息法:評估特徵和目標變數間的非線性相關性。
簡單比喻:
特徵選擇就像在一大片材料中挑出最具代表性的樣本,既節省資源又讓成果更精準。
總結:
特徵選擇有過濾器法、包裝器法與嵌入法三種主流方法,依據不同問題和資源條件選擇合適方法,能有效提升機器學習模型效能與解釋性。












