13.資料處理與特徵工程— 讓數據回歸一致尺度,模型不再左右為難! ⚖️

更新於 發佈於 閱讀時間約 5 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》

13/100 第二週:資料處理與特徵工程

13.資料處理與特徵工程讓數據回歸一致尺度,模型不再左右為難! ⚖️

標準化與正規化 📏

數據維持統一尺度,讓模型學習更穩定!

📏


數據的量級不同,會讓機器學習模型「誤以為」某些特徵特別重要!為了避免模型學得歪七扭八,我們需要將特徵「縮放」到一個統一的尺度。


這就是今天的主題:**標準化(Standardization)與正規化(Normalization)!**🚀


讓我們把資料調整得更漂亮、模型學得更順手!



📌 1 為什麼要標準化與正規化?

若數據的尺度差異太大,會導致以下問題:

✅ 距離型演算法(如 KNN、K-Means、SVM)被高數值欄位主導


✅ 梯度下降收斂變慢或震盪


✅ 不同單位(如收入 vs. 年齡)難以比較,影響特徵重要性評估



📌 2 標準化(Standardization)

👉 適用於大多數模型,尤其是基於 高斯分布(常態分布) 的模型。

🔹 定義:


將特徵轉換為平均為 0、標準差為 1 的分布


公式:


z=x−μσz = \frac{x - \mu}{\sigma}z=σx−μ​

🔹 Python 實作:

python

複製編輯

from sklearn.preprocessing import StandardScaler

import pandas as pd

 

# 模擬數據

data = pd.DataFrame({

    '年齡': [25, 35, 45, 32, 28],

    '收入': [50000, 80000, 120000, 75000, 60000]

})

 

# 標準化

scaler = StandardScaler()

data_std = scaler.fit_transform(data)

print("標準化後數據:\n", pd.DataFrame(data_std, columns=data.columns))

🔹 優缺點

方法

優點

缺點

標準化

對常態分布資料效果佳

不適用於非高斯分布資料

支援負值,適合線性模型等

對極端異常值仍敏感


📌 3 正規化(Normalization)

👉 適用於需要將數據縮放至某個固定範圍(如 0 到 1)的情境。

🔹 定義:


將資料縮放至 0,10, 10,1 之間


公式:


xnorm=x−xmin⁡xmax⁡−xmin⁡x_{\text{norm}} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}xnorm​=xmax​−xmin​x−xmin​​

🔹 Python 實作:

python

複製編輯

from sklearn.preprocessing import MinMaxScaler

 

scaler = MinMaxScaler()

data_norm = scaler.fit_transform(data)

print("正規化後數據:\n", pd.DataFrame(data_norm, columns=data.columns))

🔹 優缺點

方法

優點

缺點

正規化

對於距離計算演算法效果極佳

對極端值非常敏感,會扭曲結果

所有值都落在明確範圍內

非常依賴資料中最大最小值


📌 4 如何選擇?

情境

推薦方法

資料呈常態分布

標準化

資料非常態、需距離比較

正規化

對神經網路(如深度學習)

正規化或批次標準化 (BatchNorm)

存在極端離群值

需先進行離群值處理,再選方法


📌 5 測驗:你會選擇適當的縮放方式嗎?

📝 單選題

1️⃣ 對於需要計算距離的 KNN 模型,且資料不是常態分布,你應該怎麼處理?

A. 不做處理


B. 使用標準化


C. 使用正規化


D. 使用 PCA


答案:C


📌 解析:KNN 計算歐式距離時,建議使用正規化以避免高數值特徵主導結果。



🎯 恭喜!你已經掌握了資料縮放的關鍵技巧,AI 模型會因你更聰明!




 

留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
0會員
87內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/05/24
缺失值不補好,模型準確度直接腰斬!本篇手把手示範 dropna、fillna、interpolate 三大招,教你何時刪、何時填、何時插值,還附 Python 範例與選擇指南。學會後,讓你的資料零漏洞、AI 決策更可靠,實戰專案立刻升級!
Thumbnail
2025/05/24
缺失值不補好,模型準確度直接腰斬!本篇手把手示範 dropna、fillna、interpolate 三大招,教你何時刪、何時填、何時插值,還附 Python 範例與選擇指南。學會後,讓你的資料零漏洞、AI 決策更可靠,實戰專案立刻升級!
Thumbnail
2025/05/24
髒數據是 AI 最大敵人!本單元教你用 Pandas 快速搞定缺失值、異常值、格式錯誤與重複資料,循序示範 dropna、fillna、IQR、astype 等技巧,確保資料純淨,模型準確度瞬間飆升。學完立即用乾淨數據武裝你的機器學習專案,讓 AI 更聰明、更可靠!
Thumbnail
2025/05/24
髒數據是 AI 最大敵人!本單元教你用 Pandas 快速搞定缺失值、異常值、格式錯誤與重複資料,循序示範 dropna、fillna、IQR、astype 等技巧,確保資料純淨,模型準確度瞬間飆升。學完立即用乾淨數據武裝你的機器學習專案,讓 AI 更聰明、更可靠!
Thumbnail
2025/05/24
想快速踏入機器學習?Anaconda+Jupyter Notebook 一次搞定!本單元教你建立虛擬環境、安裝 NumPy/Pandas 至 TensorFlow/PyTorch,並附版本檢測程式碼。十分鐘完成環境配置,立即啟動你的 AI 開發之旅!
Thumbnail
2025/05/24
想快速踏入機器學習?Anaconda+Jupyter Notebook 一次搞定!本單元教你建立虛擬環境、安裝 NumPy/Pandas 至 TensorFlow/PyTorch,並附版本檢測程式碼。十分鐘完成環境配置,立即啟動你的 AI 開發之旅!
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及接下來更多的AI運用場景,每一項都將對人類社會產生重大的影響:包括抽象的人心、文化、審美、親密關係,以及實質的就業、經濟、生活、生涯規劃等。 本文我會以大量使用、測試AI的經驗,輔以田野調查的經驗,詳細說明AI時代最應該培養的四項能力。
Thumbnail
已經成真的AI生成文字、圖片、音樂、影片,以及接下來更多的AI運用場景,每一項都將對人類社會產生重大的影響:包括抽象的人心、文化、審美、親密關係,以及實質的就業、經濟、生活、生涯規劃等。 本文我會以大量使用、測試AI的經驗,輔以田野調查的經驗,詳細說明AI時代最應該培養的四項能力。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News