15/100 特徵選擇技術 🎯 選對特徵，讓 AI 模型表現大幅提升！

Hansen W

發佈於AI科技機器學習修煉坊

2025/05/28 更新2025/05/26 發佈閱讀 8 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部：《機器學習 —— AI 智慧的啟航》

15/100 第二週：資料處理與特徵工程

15. 特徵選擇技術 🎯 選對特徵，讓 AI 模型表現大幅提升！

特徵選擇技術 🎯

在機器學習中，特徵選擇（Feature Selection）是提升模型效能的關鍵步驟之一。選擇對的特徵可以：

✅ 減少過擬合（Overfitting）

✅ 提升運算效率（降低計算成本）

✅ 提高模型準確度

特徵選擇的方法可以分為三大類：

1️⃣ 過濾法（Filter Methods）

2️⃣ 包裝法（Wrapper Methods）

3️⃣ 嵌入法（Embedded Methods）

________________________________________

1️⃣ 過濾法（Filter Methods）🔍

這類方法獨立於模型，透過統計方法篩選出對目標變數有較大影響的特徵。

🎯 常見方法

(1). 相關係數（Correlation） : 選擇與目標變數高度相關的特徵（如 Pearson、Spearman 相關係數）

(2). 卡方檢定（Chi-Square Test）: 適用於分類問題，評估變數與目標變數的獨立性

(3). 互信息（Mutual Information）: 測量變數與目標變數之間的信息增益

(4). 變異數閾值（Variance Threshold） : 移除變異數過低的特徵（例如都是同一個值）

✅ 使用方式（Python）

python

import pandas as pd

from sklearn.feature_selection import VarianceThreshold, SelectKBest, chi2

# 假設有一個特徵數據集 X 和目標變數 y

X = pd.DataFrame({

'Feature1': [1, 2, 3, 4, 5],

'Feature2': [1, 1, 1, 1, 1], # 低變異數

'Feature3': [2, 4, 6, 8, 10]

})

y = [0, 1, 0, 1, 0]

# 移除變異數低的特徵

selector = VarianceThreshold(threshold=0.1)

X_selected = selector.fit_transform(X)

# 使用卡方檢定

X_new = SelectKBest(chi2, k=2).fit_transform(X, y)

📌 適用情境

• 大量特徵時，可快速刪除不相關的特徵，減少計算量。

• 適合前期探索，搭配其他方法進一步優化。

________________________________________

2️⃣ 包裝法（Wrapper Methods）🎁

這類方法直接與機器學習模型互動，透過不同組合的特徵進行評估，選擇最好的組合。

🎯 常見方法

(1). 遞歸特徵消除（RFE, Recursive Feature Elimination）: 透過反覆訓練模型，刪除影響較小的特徵

(2). Forward Selection : 從空集合開始，每次加入對模型表現影響最大的特徵

(3). Backward Elimination : 一開始包含所有特徵，然後逐步刪除影響最小的特徵

✅ 使用方式（Python）

python

from sklearn.feature_selection import RFE

from sklearn.linear_model import LogisticRegression

# 使用邏輯回歸作為基礎模型

model = LogisticRegression()

rfe = RFE(model, n_features_to_select=2) # 選擇 2 個特徵

X_selected = rfe.fit_transform(X, y)

# 看看哪些特徵被選中了

print(rfe.support_) # 會輸出 [True, False, True]

📌 適用情境

• 適合數據量較小的情況，但計算成本較高。

• 適合用於希望找出影響模型預測結果最顯著的特徵。

________________________________________

3️⃣ 嵌入法（Embedded Methods）⚡

這類方法直接在訓練模型時進行特徵選擇，例如決策樹、Lasso 正則化等方法。

🎯 常見方法

(1). L1 正則化（Lasso Regression) : 透過 L1 正則化（Lasso）將不重要的特徵權重壓縮為 0

(2). 決策樹特徵重要性（Feature Importance） : 透過決策樹模型（如 XGBoost、Random Forest）評估特徵重要性

(3). 基於 SHAP 值的解釋（SHAP Values） : 解釋模型中不同特徵對預測結果的影響程度

✅ 使用方式（Python）

python

from sklearn.ensemble import RandomForestClassifier

import numpy as np

# 訓練隨機森林模型

model = RandomForestClassifier()

model.fit(X, y)

# 取得特徵重要性

feature_importance = model.feature_importances_

print(feature_importance) # 會輸出 [0.4, 0.1, 0.5]

📌 適用情境

• Lasso 適用於高維度數據，可自動選擇最重要的特徵。

• 決策樹特徵重要性適合處理數值和類別型特徵。

• SHAP 值適合需要高度解釋性的應用，例如金融風險評估。

________________________________________

🛠 如何選擇適合的特徵選擇方法？

在特徵選擇的過程中，根據需求與數據特性可以選擇不同的方法。若目的是快速篩選特徵，常用的過濾法（如相關係數、卡方檢定）能夠在初步特徵工程階段，快速排除與目標變數無關的特徵，提升後續建模效率。

當需要更進一步考慮模型表現時，可以採用包裝法（如遞迴特徵消除 RFE、前向選擇 Forward Selection），這類方法透過不斷測試不同特徵組合來提升模型效果，特別適用於小型數據集。

若面對的是高維度數據，或需要進行特徵重要性分析時，嵌入法（如 Lasso 正則化、決策樹算法或 SHAP 解釋器）則能自動從建模過程中挑選出關鍵特徵，兼顧效率與準確性。

選擇合適的方法能有效提升模型表現並減少過擬合風險。

📌 進階建議

• 結合多種方法：先用過濾法篩選，再用包裝法或嵌入法微調。

• 視需求選擇：如果特徵過多（>1000），建議使用嵌入法或過濾法。

• 避免過度選擇：刪除太多特徵可能會影響模型的表現，適當進行交叉驗證（Cross Validation）。

🎯 結論：選對特徵 = 提升準確度 + 減少計算成本 🚀

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

17會員

485內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/05/24

14/100 類別變數處理（獨熱One-Hot Encoding、標籤Label Encoding） 🔢

類別變數處理！一次掌握 One-Hot Encoding 與 Label Encoding 的核心概念、優缺點與 Python 實作，避免維度爆炸、消除錯誤排序，讓模型讀懂「紅藍綠」，精準預測大升級。

2025/05/24

14/100 類別變數處理（獨熱One-Hot Encoding、標籤Label Encoding） 🔢

2025/05/24

13.資料處理與特徵工程— 讓數據回歸一致尺度，模型不再左右為難！ ⚖️

當你的數據中「年齡」是兩位數、「收入」卻是五位數，AI 很可能會「誤判誰比較重要」！這一單元將帶你掌握兩大關鍵技巧：標準化與正規化，讓特徵回到同一個比較基準，提升模型的學習穩定性與準確性。無論是 SVM、KNN，還是神經網路，資料縮放都是你不可忽略的關鍵步驟。📏⚖️

2025/05/24

13.資料處理與特徵工程— 讓數據回歸一致尺度，模型不再左右為難！ ⚖️

2025/05/24

12/100 缺失值處理（刪除、填補、插值） 🕳 用最適合的方法補缺值，避免 AI 做錯決策！

缺失值不補好，模型準確度直接腰斬！本篇手把手示範 dropna、fillna、interpolate 三大招，教你何時刪、何時填、何時插值，還附 Python 範例與選擇指南。學會後，讓你的資料零漏洞、AI 決策更可靠，實戰專案立刻升級！

2025/05/24

12/100 缺失值處理（刪除、填補、插值） 🕳 用最適合的方法補缺值，避免 AI 做錯決策！

看更多

你可能也想看

黛•Adele的生活隨筆

塔羅入門指南｜塔羅師推薦蝦皮雙11必買塔羅牌、占卜布與收納小物

想開始學塔羅卻不知道要準備哪些工具？這篇整理塔羅新手必備好物清單，從塔羅牌、塔羅布到收納袋與香氛噴霧一次入手。趁蝦皮雙11優惠打造專屬占卜空間，還能加入蝦皮分潤計畫，用分享創造收入。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

黛•Adele的生活隨筆

塔羅入門指南｜塔羅師推薦蝦皮雙11必買塔羅牌、占卜布與收納小物

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

渡狼／DL

[蝦皮分潤計畫X雙11購物季] 魔法少年賈修扭蛋系列開箱！

今天不只要分享蝦皮分潤計畫，也想分享最近到貨的魔法少年賈修扭蛋開箱，還有我的雙11購物清單，漫畫、文具、Switch2、後背包......雙11優惠真的超多，如果有什麼一直想買卻遲遲還沒下手的東西，最適合趁這個購物季趕緊下單！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

渡狼／DL

[蝦皮分潤計畫X雙11購物季] 魔法少年賈修扭蛋系列開箱！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

你的職涯陪伴者葉紹平

AI時代下我們需要具備的職能有哪些

本文討論了在AI時代下我們需要具備的職能，例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情，以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得，並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。

#初學者AI指南#AI時代職能#AI工具使用

2024/07/26

你的職涯陪伴者葉紹平

AI時代下我們需要具備的職能有哪些

#初學者AI指南#AI時代職能#AI工具使用

2024/07/26

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19