在「人工智慧基礎概論」的脈絡下,我們討論了數據蒐集(Data Collection)的重要性,它是獲取燃料的第一步。但接下來,我們要面對一個更現實、更關鍵的挑戰:數據清洗(Data Cleaning)。
請記住:「Garbage In, Garbage Out」。再強大的機器學習模型,一旦餵給它有缺陷、有雜訊的數據,產出的結果也必然是垃圾!數據清洗的目的,就是將我們從各管道蒐集來的「粗礦」,提煉成「黃金」!
根據iPAS學習指引的說明,「數據清洗」是「資料處理與分析概念」中,緊跟在數據蒐集之後的重要環節。它旨在解決數據中的各種不完美,確保數據的品質、完整性與可靠性。💎 AI煉金術師:數據清洗的四大核心挑戰與處理指南!
🗑️ 數據清洗:由原理到應用
1. 什麼是數據清洗?(底層邏輯拆解)
數據清洗是提升數據品質的關鍵步驟,目的是解決數據中的遺缺值、重複值、錯誤值與不一致性問題。
白話比喻:把關食材品質 想像你從市場買回了一大堆食材準備做AI大餐(模型訓練)。數據清洗就像是你在正式烹飪前,仔細檢查每一份食材(數據記錄)。你需要:
- 處理腐爛的部位(遺缺值): 有些食材不完整,需要補齊或捨棄。
- 丟棄重複購買的食材(重複值): 避免浪費資源和計算錯誤。
- 糾正貼錯的標籤(錯誤值): 確保食材名稱和屬性(如年齡、價格)是合理的。
- 篩選出異常昂貴或廉價的食材(離群值): 判斷它們是有價值的稀有品還是標價錯誤。
通過這個過程,才能確保輸入到模型的數據是完整且可靠的。
簡單來說,它就是... AI模型在學習前,必須進行的「數據排毒」和「品質檢查」步驟!
2. 數據清洗的四大核心內容與策略
數據清洗主要針對四種常見的數據缺陷進行處理:

記憶連結: 這四個缺陷的處理難度是遞增的:遺缺值和重複值通常可以透過標準流程解決;錯誤值需要業務邏輯判斷;離群值則最複雜,需要根據業務目標判斷它是「錯誤」還是「有價值的異常」。
白話講,它的作用就像是... 一個四道關卡的安檢程序,確保每一筆數據都能乾淨、精準地進入模型訓練環節!
💼 情境案例應用:金融欺詐檢測模型的數據清洗
你作為AI應用規劃師,正在開發一個用於信用卡交易的欺詐檢測模型(這屬於監督式學習的分類任務)。你拿到了一批歷史交易數據,發現數據品質參差不齊:
- 數據工程師 (抱歉地說): 「主管,我們發現交易紀錄數據庫超級混亂!有些客戶的年齡欄位是空白的,有些交易居然重複記錄了好幾次,還有幾筆交易金額顯示是負數!」
- AI規劃師 (你,果斷地指示): 「很好,這些都是我們訓練高準確度模型的大敵。現在啟動數據清洗流程,我們必須依序解決這四大問題:」
- 處理遺缺值 (Missing Value): 「針對客戶年齡欄位的空白(遺缺值),如果填補不會影響樣本代表性,我們採用中位數填補法。因為客戶年齡分布常常有偏態,中位數比平均數更不容易受極端值影響,能更好地反映中心趨勢。」
- 處理重複值 (Duplicate Value): 「立刻檢查交易的唯一識別碼。所有重複的交易記錄,只保留一份正確的記錄,其餘全部刪除。防止模型將單次交易誤判為多次行為。」
- 處理錯誤值 (Error Value): 「立即修正交易金額為負數的記錄。負數金額明顯超出合理範圍,屬於錯誤值。需要追溯來源並修正為正確的數值,若無法修正則需剔除。」
- 處理離群值 (Outlier Value): 「我們發現有幾筆單筆數億元的交易,這些極端的數值就是離群值。這可能是真實的機構大額交易,也可能是錯誤的紀錄。在欺詐檢測中,這些異常值往往反映了異常情況,我們要先將它們標記出來,並根據業務規則判斷它們是否為欺詐模式,而不是直接刪除,因為它們對我們的模型有研究價值。」
通過這樣系統性的清洗,才能保證輸入到分類模型中的數據是可靠、乾淨的,進而提升欺詐檢測的準確性。
















