11/100 資料清理與前處理 🧹 去除錯誤與不完整數據，讓 AI 更加「聰明」！

Signal Architect｜艾韓思

發佈於AI 時代系列｜AI 智慧科技修煉坊等個房間

2025/12/29 更新2025/05/24 發佈閱讀 9 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部：《機器學習 —— AI 智慧的啟航》

11/100 第二週：資料處理與特徵工程

11. 資料清理與前處理 🧹 去除錯誤與不完整數據，讓 AI 更加「聰明」！

1️⃣ 資料清理與前處理 🧹

去除錯誤與不完整數據，讓 AI 更加「聰明」！ 🚀

資料處理是機器學習的核心步驟之一，因為高品質數據決定 AI 的準確度。如果數據有缺失值、異常值、重複數據或不一致的格式，即使是最強大的模型也可能產生錯誤結果！

今天，我們將介紹數據清理 (Data Cleaning) 與前處理 (Preprocessing)，確保你的 AI 模型擁有最乾淨的數據來學習！ 💡

________________________________________

📌 1.1 為什麼數據清理很重要？

❌ 髒數據的影響

如果數據沒有經過清理，可能會產生以下問題：

• 模型無法學習正確的模式

• 演算法過擬合或無法收斂

• 錯誤的預測結果

• 影響模型的可解釋性與決策準確度

例如，假設我們在訓練房價預測模型時，數據如下：

房屋面積 (㎡) 房價 (萬元)

120 500

90 350

-100 600

NaN 400

80 "三百五十"

這樣的數據如果不先清理，AI 可能會學到錯誤的規則，導致預測不準確！ 😱

________________________________________

📌 1.2 資料清理的主要步驟

我們將使用 Pandas 來處理數據，這是一個 Python 中最常用的數據分析庫。

🔹 1️⃣ 處理缺失值 (Missing Values)

缺失值是指數據中某些欄位沒有填寫，常見的處理方法有：

✅ 刪除缺失值 (dropna())

✅ 填補缺失值 (fillna()) - 以均值、中位數或眾數填補

📌 Python 實作

import pandas as pd

import numpy as np

# 創建數據

data = {'房屋面積': [120, 90, np.nan, 80, -100],

'房價': [500, 350, 400, "三百五十", 600]}

df = pd.DataFrame(data)

print("原始數據：")

print(df)

# 方法 1：刪除含有 NaN 的列

df_cleaned = df.dropna()

print("\n刪除缺失值後的數據：")

print(df_cleaned)

# 方法 2：填補 NaN（以平均值填補）

df["房屋面積"].fillna(df["房屋面積"].mean(), inplace=True)

print("\n填補缺失值後的數據：")

print(df)

________________________________________

🔹 2️⃣ 處理異常值 (Outliers)

異常值是數據中與其他數據差異極大的值，例如：

• 房屋面積出現負數 (-100)

• 工資數據顯示為 1000 萬 (明顯超出範圍)

📌 處理方法 ✅ 使用四分位數 (IQR) 或標準差法移除異常值

✅ Winsorization (剪裁法)，將異常值限制在合理範圍內

📌 Python 實作

# 透過 IQR 方法移除異常值

Q1 = df["房屋面積"].quantile(0.25)

Q3 = df["房屋面積"].quantile(0.75)

IQR = Q3 - Q1

# 設定異常值範圍 (通常 IQR*1.5 之外的值被視為異常)

lower_bound = Q1 - 1.5 * IQR

upper_bound = Q3 + 1.5 * IQR

# 移除異常值

df_filtered = df[(df["房屋面積"] >= lower_bound) & (df["房屋面積"] <= upper_bound)]

print("\n移除異常值後的數據：")

print(df_filtered)

________________________________________

🔹 3️⃣ 處理數據類型不一致 (Data Format Issues)

某些數據可能格式錯誤，例如：

• 數字存成字串 ("三百五十" 應轉為 350)

• 日期格式錯誤 ("2024/01/01" 變成 "01-01-2024")

📌 處理方法 ✅ 轉換數據格式 (astype())

✅ 使用 pd.to_datetime() 處理日期數據

📌 Python 實作

# 轉換 "三百五十" 為數字

df["房價"] = df["房價"].replace("三百五十", 350)

df["房價"] = df["房價"].astype(float)

print("\n修正數據格式後：")

print(df)

________________________________________

🔹 4️⃣ 處理重複數據 (Duplicate Data)

如果數據庫中有重複的數據 (例如相同 ID 的客戶資料出現多次)，可能會影響 AI 訓練。

📌 處理方法

✅ 使用 drop_duplicates() 移除重複數據

📌 Python 實作

df = pd.DataFrame({"ID": [1, 2, 2, 3, 4], "房價": [500, 350, 350, 400, 600]})

print("\n原始數據：")

print(df)

# 移除重複值

df_no_duplicates = df.drop_duplicates()

print("\n移除重複數據後：")

print(df_no_duplicates)

________________________________________

📌 1.3 總結：AI 數據清理步驟

當我們進行 AI 數據清理時，通常會依循幾個主要步驟：首先，針對缺失值部分，可以選擇刪除（使用 dropna()）或適當填補（如均值、中位數填補，使用 fillna()）；其次，處理異常值時，可採用 IQR 四分位距方法、標準差法，或 Winsorization（縮尾法）來減少極端值對模型的影響；再來，若數據格式錯誤，可以透過 astype() 函數轉換數據類型，確保數據一致性；最後，為避免重複數據干擾分析結果，使用 drop_duplicates() 去除重複項目。透過這樣系統性的清理流程，可以有效提升數據質量，為後續模型訓練打下良好基礎。

💡 數據乾淨了，AI 學得才準確！

________________________________________

📌 1.4 測驗：你掌握數據清理了嗎？

📝 單選題

1️⃣ 如果數據中存在 NaN，最好的做法是？

A. 直接刪除所有 NaN

B. 用 0 來填補

C. 根據數據特性，使用均值或眾數填補

D. 忽略 NaN，讓 AI 自行處理

✅ 答案：C

📌 解析：直接刪除可能會丟失太多信息，而用均值或眾數填補可以保持數據完整性。

________________________________________

2️⃣ 如何處理極端異常值？

A. 直接刪除

B. 使用 IQR 方法或 Winsorization

C. 忽略異常值

D. 讓 AI 自己解決

✅ 答案：B

📌 解析：IQR 方法 (四分位距) 或 Winsorization 可以讓數據更穩定，不會因為極端值影響模型。

________________________________________

🎯 你已完成數據清理入門！

🎉 恭喜！現在你已經掌握了數據清理的基本概念與技巧！ 🎉

💡 下一步：學習特徵工程，讓 AI 更加「敏銳」！ 🚀

艾韓思 AIHANS｜AI 應用工程筆記AI 時代系列｜AI 智慧科技修煉坊AI系列一-機器學習艾韓思 AIHANS｜AI 應用工程筆記🤖 機器學習《資料會思考嗎？｜讓機器學會判斷的第一現場》

留言

艾韓思 AIHANS｜AI 應用工程筆記

45會員

680內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

艾韓思 AIHANS｜AI 應用工程筆記的其他內容

2025/05/24

10/00 第一週：機器學習概論小結與測驗-Python 機器學習環境建置 🏗 Anaconda、Jupyter

想快速踏入機器學習？Anaconda＋Jupyter Notebook 一次搞定！本單元教你建立虛擬環境、安裝 NumPy／Pandas 至 TensorFlow／PyTorch，並附版本檢測程式碼。十分鐘完成環境配置，立即啟動你的 AI 開發之旅！

2025/05/24

10/00 第一週：機器學習概論小結與測驗-Python 機器學習環境建置 🏗 Anaconda、Jupyter

2025/05/24

9/100 機器學習中的數學基礎 📚 線性代數 + 機率論 + 微積分 = AI 的三大數學支柱！

想真正駕馭AI，就得先打好數學根基！本篇濃縮線性代數、機率統計、微積分三大支柱，帶你看懂向量矩陣、貝氏推理到梯度下降的心跳節奏。讀完你將明白模型運算、決策與最佳化如何彼此呼應，迅速破解常見數學痛點，為深度學習升級鋪路！

2025/05/24

9/100 機器學習中的數學基礎 📚 線性代數 + 機率論 + 微積分 = AI 的三大數學支柱！

2025/05/24

8/100 特徵工程概述 🎭 好特徵 = AI 的「眼睛」，影響機器學習的準確度！

想讓AI模型更精準？關鍵就在特徵工程！從數值標準化、One-Hot到BERT向量，本篇教你把原始資料轉換成AI能讀懂的「黃金特徵」，大幅提升效能、降低過擬合。閱讀後，你將學會如何用好眼睛看數據，奪回專案主導權！

2025/05/24

8/100 特徵工程概述 🎭 好特徵 = AI 的「眼睛」，影響機器學習的準確度！

看更多

你可能也想看

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜上篇】首波新成員登場！5 題靈魂拷問，直擊「個人主題專家」的創作後台🔥

vocus 最具指標性的創作者社群──「野格團」， 2026 年春季，這支充滿專業、熱情的團隊再次擴編，迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇，他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜上篇】首波新成員登場！5 題靈魂拷問，直擊「個人主題專家」的創作後台🔥

#創作#創作者推薦#靈感

2026/03/25

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

腦幽思潮

商機：優化演算法並開始交辦給人工智慧：關於飲食。

反省就是重寫自己的演算法吧？假設我就是人工智慧，或心智的可以被看作爲人工智慧的編輯器，那我的程式碼是什麼樣的？從懵懂無知到一無所知，從自以為是到自我消逝，心智只是執行它的內容，我也需要不斷優化。最好的優化就是簡化。最能創造財富的演算法就是關於如何除錯與減少任何風險。

#人工智慧#演算法#料理

2024/07/27

腦幽思潮

商機：優化演算法並開始交辦給人工智慧：關於飲食。

#人工智慧#演算法#料理

2024/07/27

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19