【Google Colab Python系列】 資料處理神器 Pandas Grouping & Reshapi

閱讀時間約 6 分鐘

過往我們有介紹了「【Google Colab Python系列】 資料處理神器 Pandas 起手式」, 相信對於pandas的基本操作具有一定的基礎知識了, 主要著重在基本的操作, 讓我們快速篩選與分析資料, 但真實的世界是有可能具有很多類型的資料集分別儲存, 而不同的資料集又具有一些相似度, 需要進行更進階的分割與合併,讓零散的「資料」變成黃金。


🗺️ Python Pandas 學習路徑


分組(Grouping)

分組的用意在於將一大筆原始資料根據相似群組進行分類,進而統計, 最終產生該群組的一組樣本數據資料,嗯...,相信看到這裡心裡難免會說「能不能說點人話?」, 的確,就字面解釋確實不太容易理解,那我們就以一個較貼近生活化的例子來輔助說明看看吧!

假設我們是咖啡廳的老闆,我們有一份銷售表格,記錄著每一位員工每天的銷售額,其中包含員工姓名、銷售日期、銷售金額..

raw-image

圖片來源...

import pandas as pd

data = {
'姓名': ['小明', '小華', '小明', '小華', '小明', '小華'],
'日期': ['2023-08-01', '2023-08-01', '2023-08-02', '2023-08-02', '2023-08-03', '2023-08-03'],
'銷售金額': [100, 150, 120, 80, 200, 90]
}

df = pd.DataFrame(data)
print(df)
raw-image

圖片來源...

那麼有了這個銷售數據後,身為老闆的我們總會希望統計一下哪位員工的銷售金額比較多,績效比較好,做為評估的依據, 此時我們可以這麼做, 以「姓名」當作群組的分類標的,進而針對銷售金額進行加總, 就可以得出這批資料中,哪位員工銷售的最多...


total = df.groupby('姓名')['銷售金額'].sum()
print(total)
raw-image

圖片來源...

當然我們群組分類的欄位也可以不只一個, 假設我們要統計每個人每天的銷售額多少時就可以這麼做...


total = df.groupby(['姓名', '日期'])['銷售金額'].sum()
print(total)


raw-image

圖片來源...

重朔(Reshaping)

這功能主要就像是資料的變形怪一樣,它允許我們重新組織或轉換資料的形狀。

stacking、unstacking、pivot、pivot_table都是Reshaping能夠轉換的格式與方法, 就讓我們繼續看下去吧!

假設我們有一份樣本資料...


import pandas as pd

data = {
'日期': ['2023-08-01', '2023-08-01', '2023-08-02', '2023-08-02'],
'城市': ['台北', '高雄', '台北', '高雄'],
'最高溫度': [32, 34, 33, 35],
'最低溫度': [26, 28, 27, 29]
}

df = pd.DataFrame(data)
print(df)
raw-image

圖片來源...

以pivot來實現

將城市作為欄位,日期作為索引,並將最高溫度和最低溫度分別填入對應的欄位中。

這樣的數據格式主要表示每個日期各地區的最高溫度與最低溫度。


reshaped_df = df.pivot(index='日期', columns='城市', values=['最高溫度', '最低溫度'])
print(reshaped_df)
raw-image

圖片來源...


我們可以用stack

讓欄位的值堆疊到日期之處,這樣的數據讓我們較方便從上往下觀察。


raw-image

圖片來源...

stacked_df = reshaped_df.stack()
print(stacked_df)


raw-image

圖片來源...

當然也可以unstack


unstacked_df = stacked_df.unstack()
print(unstacked_df)


raw-image

圖片來源...

今天的範例都在這裡「📦 pandas/pandas_merge.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab Python系列】Colab平台與Python如何擦出火花?」。

結語

原來數據可以這麼玩,分組、重組不同格式都輕而易舉,靈活彈性的展示數據讓我們訓練AI的過程中更容易抓到方向。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入?

歡迎加入一起練習寫作,賺取知識


avatar-img
116會員
257內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
上一篇我們有介紹了「【Google Colab Python系列】 資料處理神器 Pandas 起手式」, 相信對於pandas的基本操作具有一定的基礎知識了, 主要著重在基本的操作, 讓我們快速篩選與分析資料, 但真實的世界是有可能具有很多類型的資料集分別儲存, 而不同的資料集又具有一些相似度
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
圖片來源 相信視覺化報表對於資料科學來說是非常重要的一環, 透過圖表來呈現資料的樣態, 過程中分析模型訓練時, 觀察訓練的收斂趨勢是否如我們預期, 視覺化加速我們的判斷時間, 節省找問題的成本。 數據就如同鐵證一般, 當我們常常苦於為什麼訓練出來的A模型這麼差勁,但B模型卻非常好, 這中間發生了
在進入主題之前建議先行閱讀「【程式語言 - Go】來認識Google開發的程式語言…」,初步認識一下Go語言是什麼? 容不容易學習? 才能夠更快的體會此篇章的目的。 當我們在進行軟體開發時,常常會需要有背後的資料庫系統來儲存我們的資料,而資料庫系統也會隨著時代的演進,進行大幅度的更新,那在這樣
Golang(Go)是由Google開發的一種開源的、靜態型別的編程語言,目的在提供一個簡單、高效、安全以及易於擴展的程式語言,特別適用於並發和平行處理,Go語言設計上著重於開發者的生產力,並提供了現代化的語法和豐富的標準庫。 強調簡單易讀,讓我們回歸原始以最簡易的方式來撰寫程式,併發的特性讓日趨
常常我們在財經節目聽到一堆技術指標都可以成功獲利,但真的如此嗎? 這麼簡單的技術指標操作就能獲利,早就人人變成有錢人了! 相信數據會說話,身為軟體工程師就最喜歡用數字來解讀一切了,因此這個篇章將會手把手教你如何使用Python語言來回測你的股票及交易策略。 剛接觸股市時最常聽到的就是KD、RSI、
上一篇我們有介紹了「【Google Colab Python系列】 資料處理神器 Pandas 起手式」, 相信對於pandas的基本操作具有一定的基礎知識了, 主要著重在基本的操作, 讓我們快速篩選與分析資料, 但真實的世界是有可能具有很多類型的資料集分別儲存, 而不同的資料集又具有一些相似度
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
圖片來源 相信視覺化報表對於資料科學來說是非常重要的一環, 透過圖表來呈現資料的樣態, 過程中分析模型訓練時, 觀察訓練的收斂趨勢是否如我們預期, 視覺化加速我們的判斷時間, 節省找問題的成本。 數據就如同鐵證一般, 當我們常常苦於為什麼訓練出來的A模型這麼差勁,但B模型卻非常好, 這中間發生了
在進入主題之前建議先行閱讀「【程式語言 - Go】來認識Google開發的程式語言…」,初步認識一下Go語言是什麼? 容不容易學習? 才能夠更快的體會此篇章的目的。 當我們在進行軟體開發時,常常會需要有背後的資料庫系統來儲存我們的資料,而資料庫系統也會隨著時代的演進,進行大幅度的更新,那在這樣
Golang(Go)是由Google開發的一種開源的、靜態型別的編程語言,目的在提供一個簡單、高效、安全以及易於擴展的程式語言,特別適用於並發和平行處理,Go語言設計上著重於開發者的生產力,並提供了現代化的語法和豐富的標準庫。 強調簡單易讀,讓我們回歸原始以最簡易的方式來撰寫程式,併發的特性讓日趨
常常我們在財經節目聽到一堆技術指標都可以成功獲利,但真的如此嗎? 這麼簡單的技術指標操作就能獲利,早就人人變成有錢人了! 相信數據會說話,身為軟體工程師就最喜歡用數字來解讀一切了,因此這個篇章將會手把手教你如何使用Python語言來回測你的股票及交易策略。 剛接觸股市時最常聽到的就是KD、RSI、
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
睽違一個月,Google Bard 迎來最新更新,此次一次更新許多重要功能,包含支援繁體中文、整合 Google Lens 服務提供使用者上傳圖片、語音朗讀以及其他功能增強等。
Thumbnail
Google 於前日(5月23日)公布最新的聊天機器人 Bard 更新:Bard 現在可以與 Google 搜尋引擎互動,依據使用者需求呈現圖片,以圖片形式提供有用的回應。換句話說,使用者可以直接向 Bard 搜尋圖片。每次提供圖片時,Bard 都會附上圖片來源。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
作者:MTMG SEO 權重評分指標增加『經驗』 相信很多seo專家都熟悉了E-A-T的概念,這是一個用於評估搜尋引擎是否提供有用和相關數據的系統。但一般人真的會覺得到他們在Google搜尋出來的結果真的是值得信賴的嗎? 如果你是一個非常注重提升自然流量的企業品牌,那你一定要了解接下來文章中介紹的G
Thumbnail
商學院社會新鮮人的谷歌面試分享 閱讀這篇文章來深入了解Google Account Manager的面試流程跟技巧!
Thumbnail
圖1,圖片引用自pexels 2021/07月第三篇付費訂閱文 大綱 1.製作始於自己的投資組合表需要哪些東西? 2.如何抓取上市、上櫃公司股價資訊,有哪些項目可以用? 這系列是付費訂閱文,後面還會有的內容有,有興趣的朋友可以參考,是以完全對google sheet 新手從0開始的基礎教學,每篇教
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答
Thumbnail
最近發現很多艾寶都在計劃年後轉職,常常會私訊詢問我「履歷要怎麼寫?」、「為什麼我的履歷投出去都石沈大海?」其實,在寫履歷時,我們不能只想著「我想說什麼」,而是要想辦法了解人資的需求。最近我剛好在讀一些相關的資料,其中一個Google人資的經驗分享我覺得很有價值,跟大家來分享。
Thumbnail
許多人都一直在使用FB當主要的流量池投放廣告,卻忘了善用Google Map 也是一個很有用的資訊,尤其是開設實體店 本篇就以Google Map 為主,將從如何建立商家資訊的方法,至廣告投放的操作,一次說明~ 一、Google Map 商家資訊 建立商家資訊的方法有兩種 一種是直接進行商家資訊的
Thumbnail
Google 園區城裡城外都各有一群長期以車為家的車床族。城裡的人是為了存錢追求更高的夢想,城外的人只是為了追求過一天算一天的生存。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
睽違一個月,Google Bard 迎來最新更新,此次一次更新許多重要功能,包含支援繁體中文、整合 Google Lens 服務提供使用者上傳圖片、語音朗讀以及其他功能增強等。
Thumbnail
Google 於前日(5月23日)公布最新的聊天機器人 Bard 更新:Bard 現在可以與 Google 搜尋引擎互動,依據使用者需求呈現圖片,以圖片形式提供有用的回應。換句話說,使用者可以直接向 Bard 搜尋圖片。每次提供圖片時,Bard 都會附上圖片來源。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
作者:MTMG SEO 權重評分指標增加『經驗』 相信很多seo專家都熟悉了E-A-T的概念,這是一個用於評估搜尋引擎是否提供有用和相關數據的系統。但一般人真的會覺得到他們在Google搜尋出來的結果真的是值得信賴的嗎? 如果你是一個非常注重提升自然流量的企業品牌,那你一定要了解接下來文章中介紹的G
Thumbnail
商學院社會新鮮人的谷歌面試分享 閱讀這篇文章來深入了解Google Account Manager的面試流程跟技巧!
Thumbnail
圖1,圖片引用自pexels 2021/07月第三篇付費訂閱文 大綱 1.製作始於自己的投資組合表需要哪些東西? 2.如何抓取上市、上櫃公司股價資訊,有哪些項目可以用? 這系列是付費訂閱文,後面還會有的內容有,有興趣的朋友可以參考,是以完全對google sheet 新手從0開始的基礎教學,每篇教
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答
Thumbnail
最近發現很多艾寶都在計劃年後轉職,常常會私訊詢問我「履歷要怎麼寫?」、「為什麼我的履歷投出去都石沈大海?」其實,在寫履歷時,我們不能只想著「我想說什麼」,而是要想辦法了解人資的需求。最近我剛好在讀一些相關的資料,其中一個Google人資的經驗分享我覺得很有價值,跟大家來分享。
Thumbnail
許多人都一直在使用FB當主要的流量池投放廣告,卻忘了善用Google Map 也是一個很有用的資訊,尤其是開設實體店 本篇就以Google Map 為主,將從如何建立商家資訊的方法,至廣告投放的操作,一次說明~ 一、Google Map 商家資訊 建立商家資訊的方法有兩種 一種是直接進行商家資訊的
Thumbnail
Google 園區城裡城外都各有一群長期以車為家的車床族。城裡的人是為了存錢追求更高的夢想,城外的人只是為了追求過一天算一天的生存。