【資料分析】python資料處理-缺失值處理基礎操作語法彙整

更新於 2024/08/19發佈於 2024/07/31閱讀時間約 13 分鐘

資料前處理（Data Preprocessing）指的是收集完資料之後到真正進入模型之前的過程。若我們想要提升數據分析的準確度，資料前處理將會扮演非常重要的角色。

這個章節將著重於缺失值處理的部分，處理缺失值是至關重要的一步。缺失值可能會嚴重影響數據集的完整性和分析結果的準確性。如果缺失值處理不當，可能會導致錯誤的結論和模型性能的下降。通過識別和處理缺失值，我們可以確保數據集的質量，提高模型的可靠性和預測能力。

資料跟特徵決定模型的上限，模型跟算法只是逼近這個上限。

# 可使用目錄功能快速確認要閱覽的主題

Pandas 缺失值處理基礎方法

缺失值( Missing Value )，是指在資料集中缺少一些值或是該值無法表示或測量的情況。常見的 Missing Value 表示方式包括 NaN 和 None。

import pandas as pd
import numpy as np

### 創健一個範例資料集 ###
data = pd.DataFrame({
    'col1': [5, 12, 8, np.nan],
    'col2': [16, 9, np.nan, 4],
    'col3': [11, 3, 7, 20]
})

檢查缺失值

# 檢查缺失值，返回 True 表示為 Missing Value
data.isnull()

# 檢查非缺失值，返回 True 表示為非 Missing Value
data.notnull()

# 計算前10欄中每欄的缺失值數並列出
missing_values_count = nfl_data.isnull().sum()
missing_values_count[0:10]

# 計算缺失值佔整體資料的比例
total_cells = np.product(data.shape)   # product 將計算元組中所有元素的乘積
total_missing = missing_values_count.sum()
percent_missing = (total_missing/total_cells) * 100
print(percent_missing)

刪除缺失值

# 刪除所有含有缺失值的觀測值（列）
data.dropna()

# 刪除所有含有缺失值的觀測值（欄）
data.dropna(axis=1)

# 刪除含有缺失值大於一定數量的觀測值（列）
data.dropna(thresh=2) # 因為第二筆資料的 np.nan 數量大於 thresh=2，則會被刪除

# 删除包含缺失值的整欄
data.dropna(axis=1, inplace=True)

※ 直「行」，也稱「欄」、「column」，axis = 1

※ 橫「列」，也稱「row」，axis = 0

※ 大陸與台灣的「行」跟「列」的講法相反，總之直的是「column」，橫的是「row」

基礎填充缺失值

# 將所有缺失值填充為 0
data.fillna(0)

# 將所有缺失值填充為 0，並且取代原始 dataframe 的資料
data.fillna(0, inplace=True)

# 將所有缺失值填充為平均值
data.fillna(data.mean(), inplace=True)

# 將所有缺失值填充為中位數
data.fillna(data.median(), inplace=True)

# 將所有缺失值填充為眾數（data.mode() 回傳結果是一個 df，要用 iloc 取得 series）
data.fillna(data.mode().iloc[0], inplace=True) 

# 針對 col1 ，以 col1 裡面的眾數填補缺失值
data['col1'].fillna(data.mode()['col1'][0], inplace=True)

進階填充缺失值

鐵達尼號存活預測資料集為例

import pandas as pd 
import numpy as np 
df = pd.read_csv('https://raw.githubusercontent.com/dsindy/kaggle-titanic/master/data/train.csv')

# Age缺失值以性別區分，分別用該性別平均值填充 
df['Age'].fillna(value=df.groupby('Sex')['Age'].transform('mean'),inplace=True)

插值法處理缺失值

插值法( Interpolation )是一種常見的填充 Missing Value 的方法，可以使用 Pandas 的 interpolate 方法實現。

import pandas as pd
import numpy as np

### 創健一個範例資料集 ###
data = pd.DataFrame({
'col1': [5, 12, 8, np.nan],
'col2': [16, 9, np.nan, 4],
'col3': [11, 3, 7, 20]
})

# 使用插值法填充缺失值
data.interpolate()

在不指定method的情況下，默認方法為線性插值法。

線性插值法適合於數據點之間趨勢變化較為平緩的情況。

線性插值法基本概念

假設你有兩個已知數據點 (x₀, y₀) 與 (x₁, y₁)，你想估算某個 x 對應的 y 值，這個 x 位於x₀ 和 x₁ 之間。

線性插值公式

y 是我們要估算的值
x 是插值點
(x₀, y₀) 與 (x₁, y₁) 是已知數據點

線性插值應用範例

假設你有以下數據：

╔═══════╦═══════╗
║ Index ║ Value ║ 
╠═══════╬═══════╣
║   0   ║   5   ║ 
║   1   ║   12  ║ 
║   2   ║   8   ║
║   3   ║   NaN ║
║   4   ║   20  ║
╚═══════╩═══════╝

你想用線性插值法來填充第 3 行（index 3）缺失的值。

步驟

確定相鄰的已知點：
- x0=2, y0=8
- x1=4, y1=20
計算插值：
- x=3（要填充的缺失值的位置）
- 使用線性插值公式計算 y：

進行上述計算，得出y=14，

因此，第 3 行（index 3）的缺失值將被填充為 14。

╔═══════╦═══════╗
║ Index ║ Value ║
╠═══════╬═══════╣
║   0   ║   5   ║
║   1   ║   12  ║
║   2   ║   8   ║
║   3   ║   14  ║
║   4   ║   20  ║
╚═══════╩═══════╝

線性插值法的優點和缺點

優點：

簡單易理解
計算效率高
適用於數據點之間變化趨勢較為平緩的情況

缺點：

當數據點之間變化不平滑或變化劇烈時，插值結果可能不準確
只能在已知數據點之間進行插值，無法外推數據

其它插值方法介紹與使用

待補

機器學習算法處理缺失值

機器學習算法可以用於填充 Missing Value，例如 K-Nearest Neighbor（KNN）算法。KNN 算法可以根據與缺失值最接近的 k 個樣本的值來填充缺失值。

import pandas as pd
from sklearn.impute import KNNImputer

data = pd.DataFrame({
    'col1': [5, 12, 8, np.nan],
    'col2': [16, 9, np.nan, 4],
    'col3': [11, 3, 7, 20]
})

# 使用 KNN 算法填充缺失值
imputer = KNNImputer(n_neighbors=2)
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

KNN 算法基本概念

KNN 算法的基本原理是基於相似性假設，即相似樣本具有相似的特徵或標籤。因此，KNN 算法在處理缺失值時，會利用數據集中與缺失值樣本最相似的 K 個樣本來進行填補。

KNN 算法會給定一個數據點，找到與其最接近的 K 個數據點，並使用這些鄰近數據點的信息來進行分類或回歸，實際應用在缺失值填補時，具體步驟如下：

標準化數據：由於不同特徵的取值範圍可能不同，標準化數據可以確保距離計算的合理性。
計算距離：對於包含缺失值的樣本，計算其與其他樣本的距離。只考慮非缺失值特徵。
選擇 K 個最近鄰居：根據計算出的距離，選擇 K 個與缺失樣本最接近的鄰居。
填補缺失值：對於數值型特徵，使用 K 個鄰居的平均值或中位數填補缺失值；對於類別型特徵，使用 K 個鄰居中最常見的類別填補缺失值。

基礎 KNN 應用範例

整體流程：

對於每一個缺失值樣本，找到最接近的 2 個樣本（即距離最近的鄰居）。
使用這些鄰居的值來填補缺失值，這樣使得填補後的數據保留了原數據的局部相似性。
將填補後的數據轉換為 pandas DataFrame 格式，並保留原數據框的列名。

import pandas as pd
from sklearn.impute import KNNImputer

data = pd.DataFrame({
'col1': [5, 12, 8, np.nan],
'col2': [16, 9, np.nan, 4],
'col3': [11, 3, 7, 20]
})

# 使用 KNN 算法填充缺失值
imputer = KNNImputer(n_neighbors=2)
data_imputed = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)

- KNNImputer是 scikit-learn 中用於缺失值插補的類。
- n_neighbors=2 指定了 KNN 算法中使用的鄰居數量為 2。也就是說，對於每個缺失值，KNN 算法會找到與之最相似的 2 個鄰居，並使用這些鄰居的值來填補缺失值。
- imputer.fit_transform(data)：這個方法對數據 data 進行填充。
- fit_transform 是 scikit-learn 中的常用方法，它會先擬合（fit）模型然後轉換（transform）數據。對於 KNNImputer，這意味著它會計算所有非缺失值之間的距離，然後對每個缺失值進行填補。
- pd.DataFrame(imputer.fit_transform(data),columns=data.columns)：將填充後的數據轉換為 pandas 的 DataFrame 格式，並保留原數據框的列名。
- imputer.fit_transform(data) 返回的是一個 NumPy 的數組，我們將其轉換為 DataFrame 並設置列名為 data.columns 以保持與原數據框一致的結構。

以上述方法填充缺失值將得到以下結果:

KNN 算法的優點和缺點

優點

考慮了數據的局部相似性：
- KNN 算法利用相似的樣本來填補缺失值，因此能夠保留數據的局部模式和結構，這比簡單地使用平均值或中位數更能反映實際情況。
適用於多種數據類型：
- KNN 可以應用於連續數據和分類數據，適應性較強。
不需要對數據進行嚴格假設：
- KNN 算法是一種非參數方法，不需要對數據的分佈進行假設，這使得它在處理各種類型的數據時更加靈活。
有效利用數據中的信息：
- KNN 算法能充分利用數據中現有的樣本信息進行填補，從而可能提高模型的預測準確性。

缺點

計算量大：
- 對於大型數據集，KNN 的計算開銷會非常大，因為需要計算每個樣本與其他樣本之間的距離。這會導致填補缺失值的過程非常耗時。
受數據稀疏性的影響：
- 如果數據中缺失值較多，找到足夠的鄰居來填補缺失值會變得困難，這會影響填補的效果。
對異常值敏感：
- KNN 算法會受到異常值（outliers）的影響，因為異常值會影響鄰居的選擇，從而導致填補結果不準確。
需要選擇適當的 k 值：
- k 值（即鄰居數量）的選擇對填補結果有較大影響。如果 k 值過小，填補結果可能過於依賴單個鄰居；如果 k 值過大，填補結果可能過於平滑，無法反映數據的真實結構。
資料標準化的需求：
- 在使用 KNN 算法之前，通常需要對數據進行標準化（Normalization），以確保不同特徵之間的距離具有可比性。這增加了數據預處理的複雜性。

其它機器學習算法填補缺失值方法介紹與使用

留言

留言分享你的想法！

JayRay 的沙龍

11會員

23內容數

JayRay 的沙龍的其他內容

2025/01/21

【資料分析】深度學習 DNN、CNN、RNN 概述

本文章提供深度學習(Deep Learning)、深度神經網絡(DNN)、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的簡介，並包含它們的定義、應用場景、基本結構、工作原理、優缺點和Python範例。

2025/01/21

【資料分析】深度學習 DNN、CNN、RNN 概述

2025/01/05

【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

本篇文章提供描述性統計的完整指南，涵蓋集中趨勢、離散趨勢和數據分佈等重要概念，並附上豐富的實務應用案例與 Python 資料視覺化參考連結，協助讀者快速瞭解數據分析的基礎知識。

2025/01/05

【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

2024/12/25

【資料分析】簡單高效的機器學習模型 Naive Bayes

Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法，適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立，這在現實中不常成立，但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。

2024/12/25

【資料分析】簡單高效的機器學習模型 Naive Bayes

看更多

你可能也想看

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

沙龍一直是創作與交流的重要空間，這次 vocus 全面改版了沙龍介面，就是為了讓好內容被好好看見！你可以自由編排你的沙龍首頁版位，新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。改版完成後可以在社群媒體分享新版面，並標記 @vocus.official⁠ ♥️ ⁠

#vocus#方格子#方格子沙龍

2025/06/12

方格子 vocus 官方沙龍

沙龍介面新登場！自訂你的創作空間，讓好內容被看見

#vocus#方格子#方格子沙龍

2025/06/12

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

貓想享

職訓體驗（課程篇）

既然決定參加職訓，就要能夠「對症下藥」，找最接近我想做的領域來上，因此當初直接以「數據分析」、「資料科學」等關鍵字搜尋，最後選擇了結合現今正行的AI相關課程。本篇將以課程為主題，分享職訓的感想。

2023/11/05

2023/11/05

班傑明．迪斯雷利：「世界上有三種謊言：謊言、該死的謊言，和統計數字。」由於我們未知的東西可能至關重大，踏錯一步很可能導致理解不當或預測錯誤，對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮，但必須抱持謹慎。唯一的解決之道就是瞭解風險，時時警覺。

2023/08/28

2023/08/28

虽然是最后一节课了，但是本节课的任务却是一点也不轻松。相比较而言，如果你以后从事的是数据治理和分析工作，那么本节课的内容可能会是你在今后工作中用到的最多的内容。我们需要学习行列索引的操作，数据的处理，数据的合并，多层索引，时间序列，数据的分组聚合（重点）。最后，我们会有一个案例的展示。

2023/08/22

2023/08/22

【🔒 Python實戰營 - Data Science 必修班】成為初級資料工程師之路

嗨！各位學員大家好，歡迎來到「🔒 Python實戰營 - Data Science 必修班」，為什麼會設計成必修班呢？我們都知道AI的趨勢已經勢在必行，前往AI的道路上最基礎的就是資料處理、資料科學，AI模型訓練的過程中最忌諱的就是垃圾進、垃圾出，這不僅在AI模型適用，包括我們傳統的軟體開發

#資料工程#資料科學#python

2023/08/11

阿Han的沙龍

【🔒 Python實戰營 - Data Science 必修班】成為初級資料工程師之路

#資料工程#資料科學#python

2023/08/11

阿Han的沙龍

【Google Colab Python系列】資料處理神器 Pandas 起手式

我們都知道AI的模型訓練環節中，最基礎也是最重要的一環就是「資料」了，而「資料」要怎麼處理成訓練的養分也是一門重要的工程，正好在Python的世界裡具有這麼一套神兵利器，名為「Pandas」，它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具，就讓我們好好的來認識一番吧！乍聽

#python#程式語言#軟體開發

2023/08/02

阿Han的沙龍

【Google Colab Python系列】資料處理神器 Pandas 起手式

#python#程式語言#軟體開發

2023/08/02

李政旺的沙龍

預測模型的表現怎麼評估？模型評估嚴謹程度的4個等級

模型上線前的評估的嚴謹與否，攸關上線後模型的表現。你知道模型評估需要注意哪些細節？在評估過程的嚴謹性又可以如何分級呢？一起來看看吧！

#資料分析#演算法#過度配適

2023/07/23

李政旺的沙龍

預測模型的表現怎麼評估？模型評估嚴謹程度的4個等級

模型上線前的評估的嚴謹與否，攸關上線後模型的表現。你知道模型評估需要注意哪些細節？在評估過程的嚴謹性又可以如何分級呢？一起來看看吧！

#資料分析#演算法#過度配適

2023/07/23

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

本文章想分享給你，我在閱讀有效合成數據的文章後，產生的理解與思考。首先，本文章有三個有趣的實驗問題：資料前處理(Data-Preprocession)對合成數據效度的影響。是否需要對合成的機器學習模型調參(Tuning)。效度測量是否能預測合成數據訓練的機器學習模型的準確度。

#合成數據#機器學習#傾向分數

2022/07/30

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

#合成數據#機器學習#傾向分數

2022/07/30

朔雪寒的沙龍

中文分詞語料庫與數據清洗

這篇文章能帶你的收穫將超乎你的想像，除了可以避免你或你所在的公司浪費無數時間、金錢在一些沒有意義的事情上面虛耗（譬如調參數、重新訓練，採用錯誤的機器學習方法或架構），也可以讓你或你的公司在獲得相關知識之後，能更正確的理解當前的環境與制定出更好的市場戰略。LSTM技術的致命缺陷也在此顯現出來！

2022/03/21

2022/03/21

兼回答觀眾來信問題經過上一次的文章之後，棒棒的觀眾們依然有問題丟過來有些觀眾的問題都滿認真的，也不好像其他節目一樣在節目上講講就沒了，所以依然用文章的方式帶給大家一點東西。我們先來看看觀眾疑問： 1. 是不是機器人預測的結果，都是依照revenue? 特徵是什麼? 特徵提取又是什麼？

2022/01/07

史塔克實驗室的沙龍

機器學習裡面的特徵是什麼？

2022/01/07

吐納商業評論的沙龍

「垃圾進，垃圾出」在人工智慧時代的新涵義／葉光釗

「垃圾進，垃圾出」這句話，搞IT的人應該沒有人沒聽過，也都瞭解是甚麼意思；但這句話如果拿到現在最熱門的「資料分析」或「AI應用」的場景中，說法卻必須做一點調整，怎麼說呢？

#葉光釗#Microsoft#AI

2019/11/11

吐納商業評論的沙龍

「垃圾進，垃圾出」在人工智慧時代的新涵義／葉光釗

#葉光釗#Microsoft#AI

2019/11/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News