【Google Colab Python系列】資料處理神器 Pandas Grouping & Reshapi

2023/09/09 更新2023/08/05 發佈閱讀 6 分鐘

過往我們有介紹了「【Google Colab Python系列】資料處理神器 Pandas 起手式」，相信對於pandas的基本操作具有一定的基礎知識了，主要著重在基本的操作，讓我們快速篩選與分析資料，但真實的世界是有可能具有很多類型的資料集分別儲存，而不同的資料集又具有一些相似度，需要進行更進階的分割與合併，讓零散的「資料」變成黃金。

🗺️ Python Pandas 學習路徑

分組(Grouping)

分組的用意在於將一大筆原始資料根據相似群組進行分類，進而統計，最終產生該群組的一組樣本數據資料，嗯...，相信看到這裡心裡難免會說「能不能說點人話？」，的確，就字面解釋確實不太容易理解，那我們就以一個較貼近生活化的例子來輔助說明看看吧！

假設我們是咖啡廳的老闆，我們有一份銷售表格，記錄著每一位員工每天的銷售額，其中包含員工姓名、銷售日期、銷售金額..

圖片來源...

import pandas as pd

data = {
    '姓名': ['小明', '小華', '小明', '小華', '小明', '小華'],
    '日期': ['2023-08-01', '2023-08-01', '2023-08-02', '2023-08-02', '2023-08-03', '2023-08-03'],
    '銷售金額': [100, 150, 120, 80, 200, 90]
}

df = pd.DataFrame(data)
print(df)

圖片來源...

那麼有了這個銷售數據後，身為老闆的我們總會希望統計一下哪位員工的銷售金額比較多，績效比較好，做為評估的依據，此時我們可以這麼做，以「姓名」當作群組的分類標的，進而針對銷售金額進行加總，就可以得出這批資料中，哪位員工銷售的最多...

total = df.groupby('姓名')['銷售金額'].sum()
print(total)

圖片來源...

當然我們群組分類的欄位也可以不只一個，假設我們要統計每個人每天的銷售額多少時就可以這麼做...

total = df.groupby(['姓名', '日期'])['銷售金額'].sum()
print(total)

圖片來源...

重朔(Reshaping)

這功能主要就像是資料的變形怪一樣，它允許我們重新組織或轉換資料的形狀。

stacking、unstacking、pivot、pivot_table都是Reshaping能夠轉換的格式與方法，就讓我們繼續看下去吧！

假設我們有一份樣本資料...

import pandas as pd

data = {
    '日期': ['2023-08-01', '2023-08-01', '2023-08-02', '2023-08-02'],
    '城市': ['台北', '高雄', '台北', '高雄'],
    '最高溫度': [32, 34, 33, 35],
    '最低溫度': [26, 28, 27, 29]
}

df = pd.DataFrame(data)
print(df)

圖片來源...

以pivot來實現

將城市作為欄位，日期作為索引，並將最高溫度和最低溫度分別填入對應的欄位中。

這樣的數據格式主要表示每個日期各地區的最高溫度與最低溫度。

reshaped_df = df.pivot(index='日期', columns='城市', values=['最高溫度', '最低溫度'])
print(reshaped_df)

圖片來源...

我們可以用stack

讓欄位的值堆疊到日期之處，這樣的數據讓我們較方便從上往下觀察。

圖片來源...

stacked_df = reshaped_df.stack()
print(stacked_df)

圖片來源...

當然也可以unstack

unstacked_df = stacked_df.unstack()
print(unstacked_df)

圖片來源...

今天的範例都在這裡「📦 pandas/pandas_merge.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab Python系列】Colab平台與Python如何擦出火花？」。

結語

原來數據可以這麼玩，分組、重組不同格式都輕而易舉，靈活彈性的展示數據讓我們訓練AI的過程中更容易抓到方向。

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入？

歡迎加入一起練習寫作，賺取知識

阿Han的沙龍阿Han的軟體技術棧 💡python

留言

留言分享你的想法！

阿Han的沙龍

142會員

308內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

🤔 簡單且靜態就足夠了？相信我們在開發Python應用程式的過程中，常常會借用Enum來定義我們可能的選項，就像顏色紅、綠、黃會有這樣的結構： class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

當我們的系統發展到一定程度時，難免會面臨到正式上線的問題，要如何讓維運更加簡易呢？尤其隨著複雜的客製化配置的出現時，我們應該如何有效的管理，甚至驗證配置是否如預期資料型態、格式…，而正好 pydantic 可以滿足這樣的需求，就讓我們來看看怎麼使用吧！需安裝的套件 pip i

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

要如何使用unicorn啟動多個FastAPI服務，歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

看更多

你可能也想看

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

雙11於許多人而言，不只是單純的折扣狂歡，更是行事曆裡預定的，對美好生活的憧憬。錢錢沒有不見，它變成了快樂，跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子！這次格編突擊辦公室，也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕，「加入購物車」的瞬間，藏著哪些靈感，或是對美好生活的想像？

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

方格子 vocus 官方沙龍

線上街訪直擊！雙 11 購物車大公開！

#vocusforBusiness#雙11#蝦皮分潤計畫

2025/10/28

JayRay 的沙龍

【資料分析】Pandas 基礎操作語法彙整

pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上，並為操縱數值表格和時間序列，提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件，由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原

#數據分析#資料分析#python

2024/07/31

JayRay 的沙龍

【資料分析】Pandas 基礎操作語法彙整

#數據分析#資料分析#python

2024/07/31

果農的沙龍

如何用Python製作相關表

本文介紹瞭如何使用 Python pandas 進行資料分析，包括如何使用 corr() 函數針對數字類型的欄位進行分析，以及如何刪除不需要的欄位和取得想要的小數位數。

2024/03/31

2024/03/31

Pandas 資料處理: 如何處理數據型態自動推斷的問題？

本文探討了在使用 pandas 處理資料時應注意的幾個關鍵點，以及如何減少因資料型態問題而產生的錯誤，確保資料的原始意義得以保留。主要包括Pandas 資料處理深入解析，尋找CSV之外的數據儲存方案，以及優化資料處理策略。

#數據#python#pandas

2024/03/06

Karen的沙龍

Pandas 資料處理: 如何處理數據型態自動推斷的問題？

#數據#python#pandas

2024/03/06

小松鼠的演算法樂園

Reshape Data: Melt 融合不同的資料欄位_Intro to Pandas

題目敘述題目會給定一個pandas DataFrame作為輸入，要求我們以原有的資料表為基礎，融合不同的資料欄位。以product作為index，融合quarter_1,quarter_2,quarter_3,quarter_4 這四個欄位，並且重新命名為quarter，並且將數值欄位名稱重

#pandas#datafame#melt

2024/01/09

小松鼠的演算法樂園

Reshape Data: Melt 融合不同的資料欄位_Intro to Pandas

#pandas#datafame#melt

2024/01/09

小松鼠的演算法樂園

Reshape Data: Concatenate 串接兩張資料表_Intro to Pandas

題目敘述題目會給定兩個pandas DataFrame作為輸入，要求我們將兩張資料表，依照原有的順序串接在一起。題目的原文敘述測試範例 Example 1: Input: df1 +------------+---------+-----+ | student_id | name

#pandas#dataframe#concat

2024/01/09

小松鼠的演算法樂園

Reshape Data: Concatenate 串接兩張資料表_Intro to Pandas

#pandas#dataframe#concat

2024/01/09

小松鼠的演算法樂園

Drop Duplicate Rows 刪除重複的data row_Intro to Pandas

題目敘述題目會給定一個pandas DataFrame作為輸入，要求我們以原有的資料表email欄位為比較基準，刪除重複的列 data rows，只保留最早第一次出現的。題目的原文敘述 Example 1: Input: +-------------+---------+--------

#pandas#leetcode#dropduplicates

2024/01/09

小松鼠的演算法樂園

Drop Duplicate Rows 刪除重複的data row_Intro to Pandas

#pandas#leetcode#dropduplicates

2024/01/09

果農的沙龍

如何用Python計算某欄平均數?

如何計算某欄的平均數？如何計算多個欄位的平均數？如果想計算不同分組的平均數？如何用Python計算某欄平均數利用agg計算平均數利用groupby建立分組，再用agg計算平均數

2023/12/20

2023/12/20

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News