Walmart 財報視覺化分析 - 02 轉成 Pandas DataFrame

Bicky

發佈於電腦科學新手村

2025/03/05 更新2025/03/05 發佈閱讀 14 分鐘

前情提要：

視覺化 Walmart 財報- 01 (安裝環境、檔案基本介紹）

本筆記要開始進入拆解程式碼跟邏輯的階段，為了方便講解，我用 Colab 作筆記（其實是有點懶得安裝套件)。我的學習方式中英文網頁搜尋 + 搭配ChatGPT 問「為什麼」，目的是我可以「白話文解釋程式碼」

課前補充: 資料分析的 Pandas DataFrame

📌 為什麼要轉成 Pandas DataFrame？

篩選數據更快（像 SQL 一樣操作），不用像 Excel按 Filter
計算更直覺（+ - * / 直接用），不用像 Excel 拖拉公式
畫圖視覺化簡單（配合 Matplotlib / Plotly），比 Excel 更多繪圖選擇
方便存成不同格式（CSV, Excel, JSON）
可與 SQL、AI、機器學習整合

我猜因為財報的數據量大所以 duckdb.ipynb 和 Pandas SQL sent.ipynb 也用 Pandas 來處理財報數據！

DataFreame 是2維的資料結構，更一步的介紹請看：

官方網站介紹

準備資料

1.下載財報Excel 檔(原作者已整理)，共有 20 sheet

FY25Q4_Link = 'https://app.quotemedia.com/data/downloadFiling?...' #Excel 檔的網址，點擊可下載
import urllib
dls = FY25Q4_Link
urllib.request.urlretrieve(dls, "data.xlsx") #從網址下載 Excel 檔案，並儲存為 data.xlsx。

要先 import urllib 函式庫，這個函式庫用來發送 HTTP 請求，像是urllib.request → 發送 HTTP 請求（下載網頁或檔案）再.urlretrieve 表示下載檔案。補充，urllin.request.urlopen 是打開網頁

2. 使用 OpenPyXL 讀取 Excel 檔案

from openpyxl import load_workbook
wb = load_workbook(filename='data.xlsx', read_only=True)

為甚麼要用 OpenPyXL ？不用 Pandas？這兩種方式最大的差別是

OpenPyXL 像人工操作 Excel 可以做到

✅ 讀取、修改 Excel（如寫入新數據）

✅ 讀 Excel 的部分區域（特定儲存格），設定讀取範圍

✅ 讀 Excel 的格式（顏色、合併儲存格、公式）

但 pandas.read.excel() 只能「讀取整張表」，剛好這個表格每個 sheet 只有特定範圍，所以用 OpenPyXL 比較快。

✅ 只想讀 Excel，轉成 Pandas DataFrame 分析 → pandas.read_excel("data.xlsx")

✅ 不需要修改 Excel，單純做數據分析 → pandas 會更方便

開始解析資料

3. 解析「營運總部地址」財報頁面

ws = wb['address of principal execu-4'] #讀分頁worksheet=ws

data_rows = [] # 建立一個空的列大表，之後再轉dataFrame 後續
for row in ws['A4':'H45']:
    data_cols = [] #把資料存到新的colomn
    for cell in row: # 遍歷該行的每個儲存格（cell）
        data_cols.append(cell.value) #把儲存格的值加到column list裡
    data_rows.append(data_cols)# 再把每個column list 放到data_row 大表

df_earnings = pd.DataFrame(data_rows)#轉dataframe

選擇 Excel 工作表 address of principal execu-4（財報的 "Principal Executive Office" 分頁）。

抓取 A4 到 H45 的資料（通常是表格數據）。

小問題，為什麼不要直接寫？還要先把資料存成一行一行，再存入大表呢？雖然少一行程式碼，但是不容易理解，而且當要整理資料（例如去掉０，這樣程式碼就不好維護）

data_rows.append([cell.value for cell in row]) # 直接存入 data_rows

為了解先解析cell.value到row裡面，加入 print 來觀察。

嘗試每個指令print 出，感覺一下

轉換為 Pandas DataFrame (df_earnings) 方便分析。

4. 解析「業務細分」財報頁面（跟上面一樣）

ws_breakdown = wb['segment information']

data_rows = []
for row in ws_breakdown['A4':'H45']:
    data_cols = []
    for cell in row:
        data_cols.append(cell.value)
    data_rows.append(data_cols)

df_breakdown = pd.DataFrame(data_rows)

🔹 這裡的作用：

讀取 "segment information"（業務細分）頁面的 A4 到 H45 資料。
存入 Pandas DataFrame (df_breakdown)。
df 是Pandas 中「DataFrame」的縮寫，表示一個 表格狀的數據結構，類似於：

📌 5. 提取關鍵財務數據

✅ (1) 營收 (`Total Revenue`)

lookupn = 6  # 第 6 欄的數值 
df_Total_Revenue = df_earnings.loc[df_earnings.iloc[:, 0] == 'Total revenues'].iloc[:, lookupn].item()/1000

找出 "Total revenues" 的數據，並取出 第 6 欄 的數值（單位：十億美金）。第0是索引值，對應 Excel 第 H欄
先從裡面拆解：

df_earnings.iloc[:, 0] .iloc 是 pandas 裡的篩選功能取出[row,column]先以第 0 Column 。: 是全部列
df_earnings.loc[df_earnings.iloc[:, 0] == 'Total revenues'] → 只保留這一row數據 (往前)看
.iloc[:, lookupn].item()/1000　最後看後面，因為前面有設定lookupn是第6 column 再.item() 把 Series 轉換成數字除以 1000，之後用百萬美元（million USD），這行程式碼的目的是把它轉換成 十億美元（billion USD）

概念是這樣擷取

✅ (2) 各業務收入

df_Revenue_b1 = df_earnings.loc[df_earnings.iloc[:, 0] == 'Membership and other income'].iloc[:, lookupn].item()/1000
df_Revenue_b2 = df_breakdown.loc[df_breakdown.iloc[:, 0] == 'Net sales'].iloc[0, lookupn_mix]/1000
df_Revenue_b3 = df_breakdown.loc[df_breakdown.iloc[:, 0] == 'Net sales'].iloc[1, lookupn_mix]/1000
df_Revenue_b4 = df_breakdown.loc[df_breakdown.iloc[:, 0] == 'Net sales'].iloc[2, lookupn_mix]/1000
df_Revenue_b5 = 0
df_Revenue_b6 = 0

df_Revenue_b1：會員收入 (Membership and other income)
df_Revenue_b2：第一個業務部門 (Net sales，可能是 Walmart U.S.)
df_Revenue_b3：第二個業務部門 (Net sales，可能是 Walmart International)
df_Revenue_b4：第三個業務部門 (Net sales，可能是 Sam's Club)

✅ (3) 營業成本 (`Cost of Sales`)

df_Total_COGS = df_earnings.loc[df_earnings.iloc[:, 0] == 'Cost of sales'].iloc[:, lookupn].item()/1000
df_GP = df_Total_Revenue - df_Total_COGS

用跟前面同樣的邏輯，把各項費用篩選出來。
df_Total_COGS：成本 (Cost of sales)
df_GP：毛利 (Gross Profit) = 總營收 - 成本

✅ (4) 營業費用 (`Operating Expenses`)

df_RD = 0
df_SGA = df_earnings.loc[df_earnings.iloc[:, 0].str.contains('selling, general and administrative', case=False, regex=True) & True].iloc[:, lookupn].item()/1000
df_Total_Operating_Expenses = df_RD + df_SGA

df_SGA：銷售、管理、行政費用 (Selling, General & Administrative Expenses)
df_Total_Operating_Expenses：總營業費用 = 研發 (R&D) + SGA

✅ (5) 營業利潤 (`Operating Profit`)

df_OP = df_GP - df_Total_Operating_Expenses

營業利潤 (Operating Profit) = 毛利 (df_GP) - 營業費用 (df_Total_Operating_Expenses)

✅ (6) 稅前利潤 (`Pretax Profit`)

df_Pretax_Profit = df_earnings.loc[df_earnings.iloc[:, 0].str.contains('Income before income taxes', case=False, regex=True) & True].iloc[:, lookupn].item()/1000
df_NOEI = df_OP - df_Pretax_Profit

df_Pretax_Profit：稅前淨利 (Income before income taxes)
df_NOEI：非營業收入 (Non-Operating Income)，推測是 df_OP - df_Pretax_Profit

✅ (7) 稅後利潤 (`Net Profit`)

df_Tax_Expense = df_earnings.loc[df_earnings.iloc[:, 0].str.contains('Provision for income taxes', case=False, regex=True) & True].iloc[:, lookupn].item()/1000
df_AfterTax_Revenue = 0
df_Net_Profit = df_Pretax_Profit - df_Tax_Expense + df_AfterTax_Revenue

df_Tax_Expense：所得稅 (Provision for income taxes)
.str.contains 找出包含「Provision for income taxes」的row。case=False 大小寫不拘，regex=True是允許表達式(允許空格、模糊查詢)，前面 case=False 大小寫不拘使用 regex=True 讓 case=False 可以使用。

✅ 忽略大小寫（case=False） ✅ 允許正則表達式匹配（regex=True）

df_Net_Profit：淨利 (Net Profit) = 稅前利潤 - 所得稅

✅ (8) 每股盈餘 (`EPS`)

df_EPS_Basic = df_earnings.loc[df_earnings.iloc[:, 0] == 'Basic'].iloc[:, lookupn].head(1).item()
df_EPS_Diluted = df_earnings.loc[df_earnings.iloc[:, 0] == 'Diluted'].iloc[:, lookupn].head(1).item()

df_EPS_Basic：基本每股盈餘 (Basic EPS)
df_EPS_Diluted：稀釋後每股盈餘 (Diluted EPS)

總結

✅ 這段程式碼的功能：

原作者爬蟲把 Walmart 財報存下來(data.xlsx)
解析財報中營收、成本、利潤、稅務等關鍵數據
將結果存成 Pandas DataFrame，方便後續分析

✅ 最後產生的變數：

df_Total_Revenue（總營收）
df_GP（毛利）
df_OP（營業利潤）
df_Net_Profit（淨利）
df_EPS_Basic（基本每股盈餘）

在我們把這些變數找到後，變成Pandas 格式，整理財務數據，並準備資料來畫 Sankey Diagram，下一篇會再繼續拆解。

留言

越南放大鏡 X 下班資工系

63會員

110內容數

雙重身份：越南放大鏡 X 下班資工系政大東南亞語言學系是我接觸越南語的起點，畢業後找越南外派工作的生活跟資訊時，發現幾乎都是清單式的分享，很難身歷其境。所以我希望「越南放大鏡」可以帶讀者看到更多細節和深入的觀察。 - 下班資工系則是自學資工系的課程內容，記錄實際操作的過程，學習理論的過程。希望可以跟讀者一起成長。

越南放大鏡 X 下班資工系的其他內容

2025/04/24

JS 系列 0_JavaScript 新手入門教學：從基礎語法到 React 應用

本系列文章將循序漸進地介紹 JavaScript 的核心概念，從基礎語法到進階應用，例如非同步程式設計和 React 基礎。內容淺顯易懂，並使用生活化的比喻幫助讀者理解，搭配程式碼範例，適合 JavaScript 初學者學習。

2025/04/24

JS 系列 0_JavaScript 新手入門教學：從基礎語法到 React 應用

2025/04/21

網路學習筆記 -02 行動通訊網路演進：從1G到5G，以及ITU與3GPP的角色

本文介紹行動通訊網路的演進歷史，從1G到5G，並說明ITU與3GPP在制定通訊規格上的重要角色，以及5G的三大關鍵應用場景：URLLC、eMBB和mMTC。

2025/04/21

網路學習筆記 -02 行動通訊網路演進：從1G到5G，以及ITU與3GPP的角色

本文介紹行動通訊網路的演進歷史，從1G到5G，並說明ITU與3GPP在制定通訊規格上的重要角色，以及5G的三大關鍵應用場景：URLLC、eMBB和mMTC。

2025/04/11

網路通訊筆記 01：從OSI模型到WebSocket即時通訊

這篇文章說明網路的七層模型、IP 位址、通訊埠、TCP/UDP 協定、HTTP 協定、HTTP 狀態碼以及 WebSocket，並解釋它們之間的關係與互動方式。文中包含許多圖表和範例，幫助讀者理解這些網路概念。

2025/04/11

網路通訊筆記 01：從OSI模型到WebSocket即時通訊

看更多

你可能也想看

果農的沙龍

如何用Python製作相關表

本文介紹瞭如何使用 Python pandas 進行資料分析，包括如何使用 corr() 函數針對數字類型的欄位進行分析，以及如何刪除不需要的欄位和取得想要的小數位數。

2024/03/31

2024/03/31

2024/05/27

2024/05/27

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

2026/04/23

如何用Python繪製區域圖

2024/06/03

如何用Python繪製區域圖

2024/06/03

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

JayRay 的沙龍

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28