【數據清洗】一鍵清除遺缺值、重複值!AI應用規劃師的數據淨化指南!

更新 發佈閱讀 5 分鐘

在「人工智慧基礎概論」的脈絡下,我們討論了數據蒐集(Data Collection)的重要性,它是獲取燃料的第一步。但接下來,我們要面對一個更現實、更關鍵的挑戰:數據清洗(Data Cleaning)

請記住:「Garbage In, Garbage Out」。再強大的機器學習模型,一旦餵給它有缺陷、有雜訊的數據,產出的結果也必然是垃圾!數據清洗的目的,就是將我們從各管道蒐集來的「粗礦」,提煉成「黃金」!

根據iPAS學習指引的說明,「數據清洗」是「資料處理與分析概念」中,緊跟在數據蒐集之後的重要環節。它旨在解決數據中的各種不完美,確保數據的品質、完整性與可靠性


💎 AI煉金術師:數據清洗的四大核心挑戰與處理指南!

🗑️ 數據清洗:由原理到應用

1. 什麼是數據清洗?(底層邏輯拆解)

數據清洗是提升數據品質的關鍵步驟,目的是解決數據中的遺缺值、重複值、錯誤值與不一致性問題。

白話比喻:把關食材品質 想像你從市場買回了一大堆食材準備做AI大餐(模型訓練)。數據清洗就像是你在正式烹飪前,仔細檢查每一份食材(數據記錄)。你需要:

  1. 處理腐爛的部位(遺缺值): 有些食材不完整,需要補齊或捨棄。
  2. 丟棄重複購買的食材(重複值): 避免浪費資源和計算錯誤。
  3. 糾正貼錯的標籤(錯誤值): 確保食材名稱和屬性(如年齡、價格)是合理的。
  4. 篩選出異常昂貴或廉價的食材(離群值): 判斷它們是有價值的稀有品還是標價錯誤。

通過這個過程,才能確保輸入到模型的數據是完整且可靠的。

簡單來說,它就是... AI模型在學習前,必須進行的「數據排毒」和「品質檢查」步驟!

2. 數據清洗的四大核心內容與策略

數據清洗主要針對四種常見的數據缺陷進行處理:

raw-image

記憶連結: 這四個缺陷的處理難度是遞增的:遺缺值和重複值通常可以透過標準流程解決;錯誤值需要業務邏輯判斷;離群值則最複雜,需要根據業務目標判斷它是「錯誤」還是「有價值的異常」。

白話講,它的作用就像是... 一個四道關卡的安檢程序,確保每一筆數據都能乾淨、精準地進入模型訓練環節!


💼 情境案例應用:金融欺詐檢測模型的數據清洗

你作為AI應用規劃師,正在開發一個用於信用卡交易的欺詐檢測模型(這屬於監督式學習的分類任務)。你拿到了一批歷史交易數據,發現數據品質參差不齊:

  • 數據工程師 (抱歉地說): 「主管,我們發現交易紀錄數據庫超級混亂!有些客戶的年齡欄位是空白的,有些交易居然重複記錄了好幾次,還有幾筆交易金額顯示是負數!」
  • AI規劃師 (你,果斷地指示): 「很好,這些都是我們訓練高準確度模型的大敵。現在啟動數據清洗流程,我們必須依序解決這四大問題:」
  1. 處理遺缺值 (Missing Value): 「針對客戶年齡欄位的空白(遺缺值),如果填補不會影響樣本代表性,我們採用中位數填補法。因為客戶年齡分布常常有偏態,中位數比平均數更不容易受極端值影響,能更好地反映中心趨勢。」
  2. 處理重複值 (Duplicate Value): 「立刻檢查交易的唯一識別碼。所有重複的交易記錄,只保留一份正確的記錄,其餘全部刪除。防止模型將單次交易誤判為多次行為。」
  3. 處理錯誤值 (Error Value): 「立即修正交易金額為負數的記錄。負數金額明顯超出合理範圍,屬於錯誤值。需要追溯來源並修正為正確的數值,若無法修正則需剔除。」
  4. 處理離群值 (Outlier Value): 「我們發現有幾筆單筆數億元的交易,這些極端的數值就是離群值。這可能是真實的機構大額交易,也可能是錯誤的紀錄。在欺詐檢測中,這些異常值往往反映了異常情況,我們要先將它們標記出來,並根據業務規則判斷它們是否為欺詐模式,而不是直接刪除,因為它們對我們的模型有研究價值。」

通過這樣系統性的清洗,才能保證輸入到分類模型中的數據是可靠、乾淨的,進而提升欺詐檢測的準確性。

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
13會員
57內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
iPAS AI 自學路的其他內容
2025/10/27
今天我們要來深入學習在機器學習建模前,如何對數據進行「整形手術」的幾個關鍵技術:標籤編碼、目標編碼,以及分箱! 這些技術都屬於特徵轉換的範疇,目的是將原始數據(特別是文字或連續數值)轉換成模型能理解、能計算的格式,從而提高模型的學習效率與預測性能。
2025/10/27
今天我們要來深入學習在機器學習建模前,如何對數據進行「整形手術」的幾個關鍵技術:標籤編碼、目標編碼,以及分箱! 這些技術都屬於特徵轉換的範疇,目的是將原始數據(特別是文字或連續數值)轉換成模型能理解、能計算的格式,從而提高模型的學習效率與預測性能。
2025/10/20
R-square(決定係數,R2)是用在迴歸任務中,衡量模型解釋目標變數變異(波動)程度的一個指標。 它在衡量什麼? 想像你在預測房價。房價總是在波動,有些貴、有些便宜。R2就是在回答這個問題:「我的模型到底解釋了房價總波動中的多少比例?」。 總體波動(TSS, Total Sum of Sq
2025/10/20
R-square(決定係數,R2)是用在迴歸任務中,衡量模型解釋目標變數變異(波動)程度的一個指標。 它在衡量什麼? 想像你在預測房價。房價總是在波動,有些貴、有些便宜。R2就是在回答這個問題:「我的模型到底解釋了房價總波動中的多少比例?」。 總體波動(TSS, Total Sum of Sq
看更多
你可能也想看
Thumbnail
嗨~我是夢夢 ♡ 每年到這個時候,我都會默默開始列購物清單 畢竟「蝦皮雙11」真的太好買啦 🛒✨ 這次就想跟大家分享幾樣我自己平常有在用、也準備趁雙11補貨的好物, 順便聊聊我最近開始玩的「蝦皮分潤計畫」,怎麼讓分享變成小小被動收入 💰
Thumbnail
嗨~我是夢夢 ♡ 每年到這個時候,我都會默默開始列購物清單 畢竟「蝦皮雙11」真的太好買啦 🛒✨ 這次就想跟大家分享幾樣我自己平常有在用、也準備趁雙11補貨的好物, 順便聊聊我最近開始玩的「蝦皮分潤計畫」,怎麼讓分享變成小小被動收入 💰
Thumbnail
分享如何透過蝦皮解決毛孩(多芬)因換季和食物引發的皮膚過敏問題,從選用單一蛋白質的火雞肉主食,到利用寵物防舔衣舒緩傷口,並結合蝦皮雙11購物節的優惠資訊與蝦皮分潤計畫的實用教學。
Thumbnail
分享如何透過蝦皮解決毛孩(多芬)因換季和食物引發的皮膚過敏問題,從選用單一蛋白質的火雞肉主食,到利用寵物防舔衣舒緩傷口,並結合蝦皮雙11購物節的優惠資訊與蝦皮分潤計畫的實用教學。
Thumbnail
這次,我重新走進考場後,心情很複雜 第三屆的錄取率降到45.09%,我感受到題目在變難。所以這次,我特地報名重考,想親身體會學員們面對的挑戰。 但考完第四屆,當我走出考場的那一刻,很多疑問和不安在心中翻攪。我不禁想問: 這還是當初那個「初級」應用規劃師嗎?
Thumbnail
這次,我重新走進考場後,心情很複雜 第三屆的錄取率降到45.09%,我感受到題目在變難。所以這次,我特地報名重考,想親身體會學員們面對的挑戰。 但考完第四屆,當我走出考場的那一刻,很多疑問和不安在心中翻攪。我不禁想問: 這還是當初那個「初級」應用規劃師嗎?
Thumbnail
我開始把 AI 從「助理」轉為「顧問」的關鍵點,是我開始意識到,對於我不熟悉的領域,我不應該去指導 AI 怎麼教我,而是讓 AI 自己去想最好的教學方式。所以,我就直接對 AI 說:「你說說看啊,你覺得怎樣教一個小白學習比較好?目的是要讓我通過初級考試 。」
Thumbnail
我開始把 AI 從「助理」轉為「顧問」的關鍵點,是我開始意識到,對於我不熟悉的領域,我不應該去指導 AI 怎麼教我,而是讓 AI 自己去想最好的教學方式。所以,我就直接對 AI 說:「你說說看啊,你覺得怎樣教一個小白學習比較好?目的是要讓我通過初級考試 。」
Thumbnail
我其實是個很抗拒考試的人,以前學生時代最討厭硬背,但我很喜歡嘗試各種數位工具。這次我靈機一動,既然要考「AI 應用規劃」,那我為何不應用 AI 來規劃我的整個備考過程呢?以下就是我,如何用 AI 學習新領域、完整備考流程、實戰心法,以及提示詞(Prompt)的操作細節,原汁原味全部公開。
Thumbnail
我其實是個很抗拒考試的人,以前學生時代最討厭硬背,但我很喜歡嘗試各種數位工具。這次我靈機一動,既然要考「AI 應用規劃」,那我為何不應用 AI 來規劃我的整個備考過程呢?以下就是我,如何用 AI 學習新領域、完整備考流程、實戰心法,以及提示詞(Prompt)的操作細節,原汁原味全部公開。
Thumbnail
嗨 我是CCChen 已參加經濟部iPAS AI應用規劃師-初級評鑑考試 預計2025年舉辦4場考試,已執行2場考試, 我都有參加也都合格. 也已報名8/16第三場初級考試 目的是持續收集考試題目與題型趨勢  順便為11月份第二場AI中級考試暖身與複習基礎知識  相關考試成績如下
Thumbnail
嗨 我是CCChen 已參加經濟部iPAS AI應用規劃師-初級評鑑考試 預計2025年舉辦4場考試,已執行2場考試, 我都有參加也都合格. 也已報名8/16第三場初級考試 目的是持續收集考試題目與題型趨勢  順便為11月份第二場AI中級考試暖身與複習基礎知識  相關考試成績如下
Thumbnail
這篇文章分享準備經濟部iPAS AI應用規劃師證照的經驗。文中介紹了官網的培訓資源,包括學習指引、政府相關培訓資源和數位學習課程,推薦初學者從『製造業AI升級引擎』的實體或線上課程開始學習。實體課程由產業競爭力發展中心提供。線上課程完成測驗後可獲得完訓證書。文章也包含10道AI應用規劃師考題
Thumbnail
這篇文章分享準備經濟部iPAS AI應用規劃師證照的經驗。文中介紹了官網的培訓資源,包括學習指引、政府相關培訓資源和數位學習課程,推薦初學者從『製造業AI升級引擎』的實體或線上課程開始學習。實體課程由產業競爭力發展中心提供。線上課程完成測驗後可獲得完訓證書。文章也包含10道AI應用規劃師考題
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
經濟部iPAS「AI應用規劃師」證照考試分為初級和中級,本文說明兩者差異、考試內容、評分標準、時程、樣題以及準備資源。初級考試鎖定文組、非資工專業人士,中級則為資工專業人士及AI開發實務者。考試皆採電腦單選題,70分及格。考試難度高於樣題,需關注最新法規及AI工具。官網提供樣題、參考書籍及培訓資源。
Thumbnail
經濟部iPAS「AI應用規劃師」證照考試分為初級和中級,本文說明兩者差異、考試內容、評分標準、時程、樣題以及準備資源。初級考試鎖定文組、非資工專業人士,中級則為資工專業人士及AI開發實務者。考試皆採電腦單選題,70分及格。考試難度高於樣題,需關注最新法規及AI工具。官網提供樣題、參考書籍及培訓資源。
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
嗨 我是CCChen: iPAS AI應用規劃師 初級 第一場 03/22 已舉辦收次測驗 04/09 已開放成績查詢 04/10 已公告官方統計之考試結果 簡單來分析一下, 供第二場考生參考:
Thumbnail
嗨 我是CCChen: iPAS AI應用規劃師 初級 第一場 03/22 已舉辦收次測驗 04/09 已開放成績查詢 04/10 已公告官方統計之考試結果 簡單來分析一下, 供第二場考生參考:
Thumbnail
初級其實不算很難,多花時間建構自己的AI底層邏輯,題目怎麼變都不怕,刷題的目的在於確認自己懂了哪些,哪些不熟,哪些還沒弄懂,很多人用刷題來學習,我覺得效果不會太好,現在很多用AI出題,沒有特別調整的話,題目答案都很直觀,對學習的幫助不大,我考過微軟的AI-900,AWS的AI認證,資策會的生成式AI
Thumbnail
初級其實不算很難,多花時間建構自己的AI底層邏輯,題目怎麼變都不怕,刷題的目的在於確認自己懂了哪些,哪些不熟,哪些還沒弄懂,很多人用刷題來學習,我覺得效果不會太好,現在很多用AI出題,沒有特別調整的話,題目答案都很直觀,對學習的幫助不大,我考過微軟的AI-900,AWS的AI認證,資策會的生成式AI
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News