Pandas 解鎖 - merge / indicator

更新 發佈閱讀 2 分鐘
raw-image

在實務分析中,我們常常會把兩份資料合併。但你有沒有遇過這種情況——資料合併完了,但你忘了哪一筆原本是從左邊來的?還是右邊才有?甚至兩邊都有?

這時就可以用 indicator=True 幫你標記每一欄的「出身」。



資料範例:左邊是員工資料、右邊是津貼資料
import pandas as pd

# 左邊:員工基本資料
df_employee = pd.DataFrame({
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Department': ['HR', 'IT', 'Finance', 'Marketing']
})

# 右邊:有拿到補助的人
df_allowance = pd.DataFrame({
'Name': ['Alice', 'Charlie', 'Eve'],
'Allowance': [1000, 800, 500]
})
📌 注意:Eve 是外部合作的顧問,有拿到補助,但不在原始員工名單裡。


合併:想知道誰在哪裡出現?
merged_df = pd.merge(
df_employee,
df_allowance,
on='Name',
how='outer',
indicator=True
)

print(merged_df)




_merge 欄位幫你讀懂資料從哪裡來:

  • both:表示這筆資料兩邊都有(例如 Alice、Charlie)
  • left_only:表示這筆資料只有在左邊有(例如 Bob、David)
  • right_only:只在右邊(例如 Eve)
  • 如果你在清資料,這個 _merge 就像是個「指南針」告訴你是否遺漏了對應資料。
  • 可以配合 .query() 快速篩選某個來源,例如只看左邊獨有:
merged_df.query('_merge == "left_only"')


謝謝您花時間將此篇文章讀完,若覺得對您有幫助可以幫忙按個讚、分享來或是珍藏喔!也歡迎Follow我的ThreadsFB,持續追蹤生產力工具、商業分析、商業英文的實用範例,提升自己的職場力喔!



留言
avatar-img
留言分享你的想法!
avatar-img
DigNo Ape 數遊原人
59會員
138內容數
我們秉持著從原人進化的精神,不斷追求智慧的累積和工具的運用來提升生產力。我們相信,每一個成員都擁有無限的潛力,透過學習和實踐,不斷成長和進步。
你可能也想看
Thumbnail
身為一個喜歡閱讀的人,讀書、借書、買書、送書、推書(推廣閱讀)我都做過。 大家常用的社群平台,雞蛋哥幾乎都試過在上面分享讀書心得,做過幾次錄說書影片,也曾上過廣播節目分享書籍,近期也開始嘗試錄製說書音檔,希望能讓更多的人,對閱讀開始產生興趣。 我也追蹤一些推廣閱讀的網紅、閱讀帳(會在社群固定
Thumbnail
身為一個喜歡閱讀的人,讀書、借書、買書、送書、推書(推廣閱讀)我都做過。 大家常用的社群平台,雞蛋哥幾乎都試過在上面分享讀書心得,做過幾次錄說書影片,也曾上過廣播節目分享書籍,近期也開始嘗試錄製說書音檔,希望能讓更多的人,對閱讀開始產生興趣。 我也追蹤一些推廣閱讀的網紅、閱讀帳(會在社群固定
Thumbnail
蝦皮分潤計畫的註冊流程超簡單、超方便! 想成為推廣達人,一起把興趣變成收入嗎? 【蝦皮 12.12 狂歡生日慶】 📌 全站$99起免運 📌 刷卡回饋12%起 📌 滿千現折$200 📌 品牌熱銷6折起
Thumbnail
蝦皮分潤計畫的註冊流程超簡單、超方便! 想成為推廣達人,一起把興趣變成收入嗎? 【蝦皮 12.12 狂歡生日慶】 📌 全站$99起免運 📌 刷卡回饋12%起 📌 滿千現折$200 📌 品牌熱銷6折起
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹瞭如何使用 Python pandas 進行資料分析,包括如何使用 corr() 函數針對數字類型的欄位進行分析,以及如何刪除不需要的欄位和取得想要的小數位數。
Thumbnail
本文介紹瞭如何使用 Python pandas 進行資料分析,包括如何使用 corr() 函數針對數字類型的欄位進行分析,以及如何刪除不需要的欄位和取得想要的小數位數。
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,融合不同的資料欄位。 以product作為index,融合quarter_1,quarter_2,quarter_3,quarter_4 這四個欄位,並且重新命名為quarter,並且將數值欄位名稱重
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,融合不同的資料欄位。 以product作為index,融合quarter_1,quarter_2,quarter_3,quarter_4 這四個欄位,並且重新命名為quarter,並且將數值欄位名稱重
Thumbnail
題目敘述 題目會給定兩個pandas DataFrame作為輸入,要求我們將兩張資料表,依照原有的順序串接在一起。 題目的原文敘述 測試範例 Example 1: Input: df1 +------------+---------+-----+ | student_id | name
Thumbnail
題目敘述 題目會給定兩個pandas DataFrame作為輸入,要求我們將兩張資料表,依照原有的順序串接在一起。 題目的原文敘述 測試範例 Example 1: Input: df1 +------------+---------+-----+ | student_id | name
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News