13.資料處理與特徵工程— 讓數據回歸一致尺度，模型不再左右為難！ ⚖️

Hansen W

發佈於AI科技機器學習修煉坊

更新於 2025/05/24發佈於 2025/05/24閱讀時間約 5 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部：《機器學習 —— AI 智慧的啟航》

13/100 第二週：資料處理與特徵工程

13.資料處理與特徵工程— 讓數據回歸一致尺度，模型不再左右為難！ ⚖️

標準化與正規化 📏

數據維持統一尺度，讓模型學習更穩定！

📏

數據的量級不同，會讓機器學習模型「誤以為」某些特徵特別重要！為了避免模型學得歪七扭八，我們需要將特徵「縮放」到一個統一的尺度。

這就是今天的主題：**標準化（Standardization）與正規化（Normalization）！**🚀

讓我們把資料調整得更漂亮、模型學得更順手！

📌 1 為什麼要標準化與正規化？

若數據的尺度差異太大，會導致以下問題：

✅ 距離型演算法（如 KNN、K-Means、SVM）被高數值欄位主導

✅ 梯度下降收斂變慢或震盪

✅ 不同單位（如收入 vs. 年齡）難以比較，影響特徵重要性評估

📌 2 標準化（Standardization）

👉 適用於大多數模型，尤其是基於 高斯分布（常態分布） 的模型。

🔹 定義：

將特徵轉換為平均為 0、標準差為 1 的分布

公式：

z=x−μσz = \frac{x - \mu}{\sigma}z=σx−μ

🔹 Python 實作：

python

複製編輯

from sklearn.preprocessing import StandardScaler

import pandas as pd

# 模擬數據

data = pd.DataFrame({

'年齡': [25, 35, 45, 32, 28],

'收入': [50000, 80000, 120000, 75000, 60000]

})

# 標準化

scaler = StandardScaler()

data_std = scaler.fit_transform(data)

print("標準化後數據：\n", pd.DataFrame(data_std, columns=data.columns))

🔹 優缺點

方法

優點

缺點

標準化

對常態分布資料效果佳

不適用於非高斯分布資料

支援負值，適合線性模型等

對極端異常值仍敏感

📌 3 正規化（Normalization）

👉 適用於需要將數據縮放至某個固定範圍（如 0 到 1）的情境。

🔹 定義：

將資料縮放至 0,10, 10,1 之間

公式：

xnorm=x−xmin⁡xmax⁡−xmin⁡x_{\text{norm}} = \frac{x - x_{\min}}{x_{\max} - x_{\min}}xnorm=xmax−xminx−xmin

🔹 Python 實作：

python

複製編輯

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

data_norm = scaler.fit_transform(data)

print("正規化後數據：\n", pd.DataFrame(data_norm, columns=data.columns))

🔹 優缺點

方法

優點

缺點

正規化

對於距離計算演算法效果極佳

對極端值非常敏感，會扭曲結果

所有值都落在明確範圍內

非常依賴資料中最大最小值

📌 4 如何選擇？

情境

推薦方法

資料呈常態分布

標準化

資料非常態、需距離比較

正規化

對神經網路（如深度學習）

正規化或批次標準化 (BatchNorm)

存在極端離群值

需先進行離群值處理，再選方法

📌 5 測驗：你會選擇適當的縮放方式嗎？

📝 單選題

1️⃣ 對於需要計算距離的 KNN 模型，且資料不是常態分布，你應該怎麼處理？

A. 不做處理

B. 使用標準化

C. 使用正規化

D. 使用 PCA

✅ 答案：C

📌 解析：KNN 計算歐式距離時，建議使用正規化以避免高數值特徵主導結果。

🎯 恭喜！你已經掌握了資料縮放的關鍵技巧，AI 模型會因你更聰明！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

0會員

87內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/05/24

12/100 缺失值處理（刪除、填補、插值） 🕳 用最適合的方法補缺值，避免 AI 做錯決策！

缺失值不補好，模型準確度直接腰斬！本篇手把手示範 dropna、fillna、interpolate 三大招，教你何時刪、何時填、何時插值，還附 Python 範例與選擇指南。學會後，讓你的資料零漏洞、AI 決策更可靠，實戰專案立刻升級！

2025/05/24

12/100 缺失值處理（刪除、填補、插值） 🕳 用最適合的方法補缺值，避免 AI 做錯決策！

2025/05/24

11/100 資料清理與前處理 🧹 去除錯誤與不完整數據，讓 AI 更加「聰明」！

髒數據是 AI 最大敵人！本單元教你用 Pandas 快速搞定缺失值、異常值、格式錯誤與重複資料，循序示範 dropna、fillna、IQR、astype 等技巧，確保資料純淨，模型準確度瞬間飆升。學完立即用乾淨數據武裝你的機器學習專案，讓 AI 更聰明、更可靠！

2025/05/24

11/100 資料清理與前處理 🧹 去除錯誤與不完整數據，讓 AI 更加「聰明」！

2025/05/24

10/00 第一週：機器學習概論小結與測驗-Python 機器學習環境建置 🏗 Anaconda、Jupyter

想快速踏入機器學習？Anaconda＋Jupyter Notebook 一次搞定！本單元教你建立虛擬環境、安裝 NumPy／Pandas 至 TensorFlow／PyTorch，並附版本檢測程式碼。十分鐘完成環境配置，立即啟動你的 AI 開發之旅！

2025/05/24

10/00 第一週：機器學習概論小結與測驗-Python 機器學習環境建置 🏗 Anaconda、Jupyter

看更多

你可能也想看

方格子 vocus 官方沙龍

開箱你的美好生活：一起來寫開箱賺獎金！#品牌合作

「欸！這是在哪裡買的？求連結 🥺」誰叫你太有品味，一發就讓大家跟著剁手手？讓你回購再回購的生活好物，是時候該介紹出場了吧！「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩

#蝦皮分潤計畫#開箱#蝦皮

2025/05/12

方格子 vocus 官方沙龍

開箱你的美好生活：一起來寫開箱賺獎金！#品牌合作

#蝦皮分潤計畫#開箱#蝦皮

2025/05/12

Emma 的意識界。

你今天蝦皮了嗎? 『 10 樓 2 選物店』開箱🎉

介紹朋友新開的蝦皮選物店『10樓2選物店』，並分享方格子與蝦皮合作的分潤計畫，註冊流程簡單，0成本、無綁約，推薦給想增加收入的讀者。

#平台#商品#蝦皮

2025/05/16

Emma 的意識界。

你今天蝦皮了嗎? 『 10 樓 2 選物店』開箱🎉

介紹朋友新開的蝦皮選物店『10樓2選物店』，並分享方格子與蝦皮合作的分潤計畫，註冊流程簡單，0成本、無綁約，推薦給想增加收入的讀者。

#平台#商品#蝦皮

2025/05/16

穿越的古文課的沙龍

【端午特輯】細思極恐!屈原和端午節其實沒有關係？

當你邊吃粽子邊看龍舟競賽直播的時候，可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢？本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章，你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!

#屈原#粽子#龍舟

2025/05/27

穿越的古文課的沙龍

【端午特輯】細思極恐!屈原和端午節其實沒有關係？

#屈原#粽子#龍舟

2025/05/27

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

Hi 我是 VK~ 很常會看到 Scale AI 的消息，粗淺知道他們是在做資料標記（Data Labeling，或稱數據標記）。近來也有討論說資料會先用完，還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼，他們如何解決資料標記的問題，以及在這領域中還有哪些玩家。這期來聊聊 S

#SCALE

2024/08/12

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

#SCALE

2024/08/12

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19