15/100 特徵選擇技術 🎯 選對特徵,讓 AI 模型表現大幅提升!

更新於 發佈於 閱讀時間約 8 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》


15/100 第二週:資料處理與特徵工程


15. 特徵選擇技術 🎯 選對特徵,讓 AI 模型表現大幅提升!


特徵選擇技術 🎯


在機器學習中,特徵選擇(Feature Selection) 是提升模型效能的關鍵步驟之一。選擇對的特徵可以:


✅ 減少過擬合(Overfitting)

✅ 提升運算效率(降低計算成本)

✅ 提高模型準確度


特徵選擇的方法可以分為三大類:


1️⃣ 過濾法(Filter Methods)

2️⃣ 包裝法(Wrapper Methods)

3️⃣ 嵌入法(Embedded Methods)

________________________________________


1️⃣ 過濾法(Filter Methods)🔍


這類方法獨立於模型,透過統計方法篩選出對目標變數有較大影響的特徵。


🎯 常見方法


(1). 相關係數(Correlation) : 選擇與目標變數高度相關的特徵(如 Pearson、Spearman 相關係數)


(2). 卡方檢定(Chi-Square Test): 適用於分類問題,評估變數與目標變數的獨立性


(3). 互信息(Mutual Information): 測量變數與目標變數之間的信息增益


(4). 變異數閾值(Variance Threshold) : 移除變異數過低的特徵(例如都是同一個值)


✅ 使用方式(Python)


python


import pandas as pd

from sklearn.feature_selection import VarianceThreshold, SelectKBest, chi2


# 假設有一個特徵數據集 X 和目標變數 y

X = pd.DataFrame({

'Feature1': [1, 2, 3, 4, 5],

'Feature2': [1, 1, 1, 1, 1], # 低變異數

'Feature3': [2, 4, 6, 8, 10]

})

y = [0, 1, 0, 1, 0]


# 移除變異數低的特徵

selector = VarianceThreshold(threshold=0.1)

X_selected = selector.fit_transform(X)


# 使用卡方檢定

X_new = SelectKBest(chi2, k=2).fit_transform(X, y)


📌 適用情境


大量特徵時,可快速刪除不相關的特徵,減少計算量。

適合前期探索,搭配其他方法進一步優化。

________________________________________


2️⃣ 包裝法(Wrapper Methods)🎁


這類方法直接與機器學習模型互動,透過不同組合的特徵進行評估,選擇最好的組合。


🎯 常見方法


(1). 遞歸特徵消除(RFE, Recursive Feature Elimination): 透過反覆訓練模型,刪除影響較小的特徵


(2). Forward Selection : 從空集合開始,每次加入對模型表現影響最大的特徵


(3). Backward Elimination : 一開始包含所有特徵,然後逐步刪除影響最小的特徵


✅ 使用方式(Python)


python


from sklearn.feature_selection import RFE

from sklearn.linear_model import LogisticRegression


# 使用邏輯回歸作為基礎模型

model = LogisticRegression()

rfe = RFE(model, n_features_to_select=2) # 選擇 2 個特徵

X_selected = rfe.fit_transform(X, y)


# 看看哪些特徵被選中了

print(rfe.support_) # 會輸出 [True, False, True]

📌 適用情境

適合數據量較小的情況,但計算成本較高。

適合用於希望找出影響模型預測結果最顯著的特徵。

________________________________________


3️⃣ 嵌入法(Embedded Methods)⚡


這類方法直接在訓練模型時進行特徵選擇,例如 決策樹、Lasso 正則化等 方法。


🎯 常見方法


(1). L1 正則化(Lasso Regression) : 透過 L1 正則化(Lasso)將不重要的特徵權重壓縮為 0


(2). 決策樹特徵重要性(Feature Importance) : 透過決策樹模型(如 XGBoost、Random Forest)評估特徵重要性


(3). 基於 SHAP 值的解釋(SHAP Values) : 解釋模型中不同特徵對預測結果的影響程度


✅ 使用方式(Python)


python


from sklearn.ensemble import RandomForestClassifier

import numpy as np


# 訓練隨機森林模型

model = RandomForestClassifier()

model.fit(X, y)


# 取得特徵重要性

feature_importance = model.feature_importances_

print(feature_importance) # 會輸出 [0.4, 0.1, 0.5]


📌 適用情境


Lasso 適用於高維度數據,可自動選擇最重要的特徵。

決策樹特徵重要性 適合處理數值和類別型特徵。

SHAP 值 適合需要高度解釋性的應用,例如金融風險評估。

________________________________________


🛠 如何選擇適合的特徵選擇方法?


在特徵選擇的過程中,根據需求與數據特性可以選擇不同的方法。若目的是快速篩選特徵,常用的過濾法(如相關係數、卡方檢定)能夠在初步特徵工程階段,快速排除與目標變數無關的特徵,提升後續建模效率。


當需要更進一步考慮模型表現時,可以採用包裝法(如遞迴特徵消除 RFE、前向選擇 Forward Selection),這類方法透過不斷測試不同特徵組合來提升模型效果,特別適用於小型數據集。


若面對的是高維度數據,或需要進行特徵重要性分析時,嵌入法(如 Lasso 正則化、決策樹算法或 SHAP 解釋器)則能自動從建模過程中挑選出關鍵特徵,兼顧效率與準確性。


選擇合適的方法能有效提升模型表現並減少過擬合風險。


📌 進階建議


結合多種方法:先用過濾法篩選,再用包裝法或嵌入法微調。

視需求選擇:如果特徵過多(>1000),建議使用嵌入法或過濾法。

避免過度選擇:刪除太多特徵可能會影響模型的表現,適當進行交叉驗證(Cross Validation)。


🎯 結論:選對特徵 = 提升準確度 + 減少計算成本 🚀


留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
2會員
105內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/05/24
類別變數處理!一次掌握 One-Hot Encoding 與 Label Encoding 的核心概念、優缺點與 Python 實作,避免維度爆炸、消除錯誤排序,讓模型讀懂「紅藍綠」,精準預測大升級。
Thumbnail
2025/05/24
類別變數處理!一次掌握 One-Hot Encoding 與 Label Encoding 的核心概念、優缺點與 Python 實作,避免維度爆炸、消除錯誤排序,讓模型讀懂「紅藍綠」,精準預測大升級。
Thumbnail
2025/05/24
當你的數據中「年齡」是兩位數、「收入」卻是五位數,AI 很可能會「誤判誰比較重要」!這一單元將帶你掌握兩大關鍵技巧:標準化與正規化,讓特徵回到同一個比較基準,提升模型的學習穩定性與準確性。無論是 SVM、KNN,還是神經網路,資料縮放都是你不可忽略的關鍵步驟。📏⚖️
Thumbnail
2025/05/24
當你的數據中「年齡」是兩位數、「收入」卻是五位數,AI 很可能會「誤判誰比較重要」!這一單元將帶你掌握兩大關鍵技巧:標準化與正規化,讓特徵回到同一個比較基準,提升模型的學習穩定性與準確性。無論是 SVM、KNN,還是神經網路,資料縮放都是你不可忽略的關鍵步驟。📏⚖️
Thumbnail
2025/05/24
缺失值不補好,模型準確度直接腰斬!本篇手把手示範 dropna、fillna、interpolate 三大招,教你何時刪、何時填、何時插值,還附 Python 範例與選擇指南。學會後,讓你的資料零漏洞、AI 決策更可靠,實戰專案立刻升級!
Thumbnail
2025/05/24
缺失值不補好,模型準確度直接腰斬!本篇手把手示範 dropna、fillna、interpolate 三大招,教你何時刪、何時填、何時插值,還附 Python 範例與選擇指南。學會後,讓你的資料零漏洞、AI 決策更可靠,實戰專案立刻升級!
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
✨閱讀後你將學會: 培養成長心態: 認識在AI時代如何透過「成長心態」面對新知識和技術。 策略化學習能力: 提供學習策略指南以評估自身學習目標與方法。 效率提升方法: 鼓勵透過學習AI工具與參與學習社群以提升學習成效。 重新定義高效學習 在人工智慧(AI)日益影響工作與學習方式的今天,
Thumbnail
✨閱讀後你將學會: 培養成長心態: 認識在AI時代如何透過「成長心態」面對新知識和技術。 策略化學習能力: 提供學習策略指南以評估自身學習目標與方法。 效率提升方法: 鼓勵透過學習AI工具與參與學習社群以提升學習成效。 重新定義高效學習 在人工智慧(AI)日益影響工作與學習方式的今天,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News