15/100 特徵選擇技術 🎯 選對特徵,讓 AI 模型表現大幅提升!

更新 發佈閱讀 8 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》


15/100 第二週:資料處理與特徵工程


15. 特徵選擇技術 🎯 選對特徵,讓 AI 模型表現大幅提升!


特徵選擇技術 🎯


在機器學習中,特徵選擇(Feature Selection) 是提升模型效能的關鍵步驟之一。選擇對的特徵可以:


✅ 減少過擬合(Overfitting)

✅ 提升運算效率(降低計算成本)

✅ 提高模型準確度


特徵選擇的方法可以分為三大類:


1️⃣ 過濾法(Filter Methods)

2️⃣ 包裝法(Wrapper Methods)

3️⃣ 嵌入法(Embedded Methods)

________________________________________


1️⃣ 過濾法(Filter Methods)🔍


這類方法獨立於模型,透過統計方法篩選出對目標變數有較大影響的特徵。


🎯 常見方法


(1). 相關係數(Correlation) : 選擇與目標變數高度相關的特徵(如 Pearson、Spearman 相關係數)


(2). 卡方檢定(Chi-Square Test): 適用於分類問題,評估變數與目標變數的獨立性


(3). 互信息(Mutual Information): 測量變數與目標變數之間的信息增益


(4). 變異數閾值(Variance Threshold) : 移除變異數過低的特徵(例如都是同一個值)


✅ 使用方式(Python)


python


import pandas as pd

from sklearn.feature_selection import VarianceThreshold, SelectKBest, chi2


# 假設有一個特徵數據集 X 和目標變數 y

X = pd.DataFrame({

'Feature1': [1, 2, 3, 4, 5],

'Feature2': [1, 1, 1, 1, 1], # 低變異數

'Feature3': [2, 4, 6, 8, 10]

})

y = [0, 1, 0, 1, 0]


# 移除變異數低的特徵

selector = VarianceThreshold(threshold=0.1)

X_selected = selector.fit_transform(X)


# 使用卡方檢定

X_new = SelectKBest(chi2, k=2).fit_transform(X, y)


📌 適用情境


大量特徵時,可快速刪除不相關的特徵,減少計算量。

適合前期探索,搭配其他方法進一步優化。

________________________________________


2️⃣ 包裝法(Wrapper Methods)🎁


這類方法直接與機器學習模型互動,透過不同組合的特徵進行評估,選擇最好的組合。


🎯 常見方法


(1). 遞歸特徵消除(RFE, Recursive Feature Elimination): 透過反覆訓練模型,刪除影響較小的特徵


(2). Forward Selection : 從空集合開始,每次加入對模型表現影響最大的特徵


(3). Backward Elimination : 一開始包含所有特徵,然後逐步刪除影響最小的特徵


✅ 使用方式(Python)


python


from sklearn.feature_selection import RFE

from sklearn.linear_model import LogisticRegression


# 使用邏輯回歸作為基礎模型

model = LogisticRegression()

rfe = RFE(model, n_features_to_select=2) # 選擇 2 個特徵

X_selected = rfe.fit_transform(X, y)


# 看看哪些特徵被選中了

print(rfe.support_) # 會輸出 [True, False, True]

📌 適用情境

適合數據量較小的情況,但計算成本較高。

適合用於希望找出影響模型預測結果最顯著的特徵。

________________________________________


3️⃣ 嵌入法(Embedded Methods)⚡


這類方法直接在訓練模型時進行特徵選擇,例如 決策樹、Lasso 正則化等 方法。


🎯 常見方法


(1). L1 正則化(Lasso Regression) : 透過 L1 正則化(Lasso)將不重要的特徵權重壓縮為 0


(2). 決策樹特徵重要性(Feature Importance) : 透過決策樹模型(如 XGBoost、Random Forest)評估特徵重要性


(3). 基於 SHAP 值的解釋(SHAP Values) : 解釋模型中不同特徵對預測結果的影響程度


✅ 使用方式(Python)


python


from sklearn.ensemble import RandomForestClassifier

import numpy as np


# 訓練隨機森林模型

model = RandomForestClassifier()

model.fit(X, y)


# 取得特徵重要性

feature_importance = model.feature_importances_

print(feature_importance) # 會輸出 [0.4, 0.1, 0.5]


📌 適用情境


Lasso 適用於高維度數據,可自動選擇最重要的特徵。

決策樹特徵重要性 適合處理數值和類別型特徵。

SHAP 值 適合需要高度解釋性的應用,例如金融風險評估。

________________________________________


🛠 如何選擇適合的特徵選擇方法?


在特徵選擇的過程中,根據需求與數據特性可以選擇不同的方法。若目的是快速篩選特徵,常用的過濾法(如相關係數、卡方檢定)能夠在初步特徵工程階段,快速排除與目標變數無關的特徵,提升後續建模效率。


當需要更進一步考慮模型表現時,可以採用包裝法(如遞迴特徵消除 RFE、前向選擇 Forward Selection),這類方法透過不斷測試不同特徵組合來提升模型效果,特別適用於小型數據集。


若面對的是高維度數據,或需要進行特徵重要性分析時,嵌入法(如 Lasso 正則化、決策樹算法或 SHAP 解釋器)則能自動從建模過程中挑選出關鍵特徵,兼顧效率與準確性。


選擇合適的方法能有效提升模型表現並減少過擬合風險。


📌 進階建議


結合多種方法:先用過濾法篩選,再用包裝法或嵌入法微調。

視需求選擇:如果特徵過多(>1000),建議使用嵌入法或過濾法。

避免過度選擇:刪除太多特徵可能會影響模型的表現,適當進行交叉驗證(Cross Validation)。


🎯 結論:選對特徵 = 提升準確度 + 減少計算成本 🚀


留言
avatar-img
艾韓思 AIHANS|AI 應用工程筆記
36會員
674內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
2025/05/24
類別變數處理!一次掌握 One-Hot Encoding 與 Label Encoding 的核心概念、優缺點與 Python 實作,避免維度爆炸、消除錯誤排序,讓模型讀懂「紅藍綠」,精準預測大升級。
Thumbnail
2025/05/24
類別變數處理!一次掌握 One-Hot Encoding 與 Label Encoding 的核心概念、優缺點與 Python 實作,避免維度爆炸、消除錯誤排序,讓模型讀懂「紅藍綠」,精準預測大升級。
Thumbnail
2025/05/24
當你的數據中「年齡」是兩位數、「收入」卻是五位數,AI 很可能會「誤判誰比較重要」!這一單元將帶你掌握兩大關鍵技巧:標準化與正規化,讓特徵回到同一個比較基準,提升模型的學習穩定性與準確性。無論是 SVM、KNN,還是神經網路,資料縮放都是你不可忽略的關鍵步驟。📏⚖️
Thumbnail
2025/05/24
當你的數據中「年齡」是兩位數、「收入」卻是五位數,AI 很可能會「誤判誰比較重要」!這一單元將帶你掌握兩大關鍵技巧:標準化與正規化,讓特徵回到同一個比較基準,提升模型的學習穩定性與準確性。無論是 SVM、KNN,還是神經網路,資料縮放都是你不可忽略的關鍵步驟。📏⚖️
Thumbnail
2025/05/24
缺失值不補好,模型準確度直接腰斬!本篇手把手示範 dropna、fillna、interpolate 三大招,教你何時刪、何時填、何時插值,還附 Python 範例與選擇指南。學會後,讓你的資料零漏洞、AI 決策更可靠,實戰專案立刻升級!
Thumbnail
2025/05/24
缺失值不補好,模型準確度直接腰斬!本篇手把手示範 dropna、fillna、interpolate 三大招,教你何時刪、何時填、何時插值,還附 Python 範例與選擇指南。學會後,讓你的資料零漏洞、AI 決策更可靠,實戰專案立刻升級!
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
✨閱讀後你將學會: 培養成長心態: 認識在AI時代如何透過「成長心態」面對新知識和技術。 策略化學習能力: 提供學習策略指南以評估自身學習目標與方法。 效率提升方法: 鼓勵透過學習AI工具與參與學習社群以提升學習成效。 重新定義高效學習 在人工智慧(AI)日益影響工作與學習方式的今天,
Thumbnail
✨閱讀後你將學會: 培養成長心態: 認識在AI時代如何透過「成長心態」面對新知識和技術。 策略化學習能力: 提供學習策略指南以評估自身學習目標與方法。 效率提升方法: 鼓勵透過學習AI工具與參與學習社群以提升學習成效。 重新定義高效學習 在人工智慧(AI)日益影響工作與學習方式的今天,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News