📝 第二篇：【數據篇】跨越國界：處理全球六國金融數據的技術實戰

發佈於在雲端平台上執行的程式

2025/12/21 更新2025/12/21 發佈閱讀 3 分鐘

投資理財內容聲明

一、全球數據對接的挑戰：不只是 API 而已

在開發這套監控系統時，最耗時的往往不是寫分析邏輯，而是如何穩定地獲取不同市場的數據。每個國家的證券代碼格式、上市清單獲取方式，甚至是字體編碼都大不相同。

在週末的 48 小時內，我針對各國特性選擇了最適合的「數據引擎」：

台股 (TW)：直接對接證交所 API。
美股 (US)：從 Nasdaq 官網抓取清單，並處理普通股與 ETF 的篩選邏輯。
港股 (HK)：從港交所 (HKEX) 下載 XLS 檔案並即時解析。
陸股 (CN)：使用 akshare 獲取滬深 A 股清單。
日股 (JP)：透過 tokyo-stock-exchange 套件對接日股代碼。
韓股 (KR)：利用 pykrx 抓取 KOSPI 與 KOSDAQ 數據。

二、防禦性爬蟲 (Defensive Scraping)：與 API 限流的鬥爭

大規模抓取數據（特別是全球數萬檔股票）時，最常遇到的就是被 Yahoo Finance 限流（Rate Limited）。為了讓系統能「持久運作」，我實作了以下三層防禦：

隨機延遲 (Randomized Jitter) 為了不讓請求看起來像「機器人」，我在每次下載前加入了隨機等待時間（例如 0.5 到 1.2 秒）。這種不規律的間隔能有效規避伺服器的頻率偵測。
清單門檻檢查 (Threshold Guards) 這是最重要的「防護機制」。如果 API 突然失效導致回傳清單為 0，系統會自動判定為異常，拒絕更新舊有的快取清單。例如：日股若少於 3000 檔，系統會報警並嘗試重試，防止 Manifest 檔案被清空。
檔案級續跑機制 (Manifest Tracking) 利用 csv 紀錄每個代碼的下載狀態。如果 GitHub Actions 執行中斷，下次啟動時會自動識別哪些檔案已存在且大小正確，直接跳過已完成的部分。

三、數據標準化：建立通用的 K 線格式

各國原始數據欄位名稱千奇百怪（有的是日文、有的是中文），為了讓後續的 3x3 矩陣分析引擎能通用，我在下載層就完成了「格式標準化」：

日期格式：統一移除時區資訊，轉換為標準 YYYY-MM-DD。
欄位對齊：統一轉為小寫，僅保留核心六欄（Date, Open, High, Low, Close, Volume）。
編碼處理：統一使用 utf-8-sig 存檔，確保日韓文字在不同系統下開啟都不會產生亂碼。

四、結語：穩健的基礎才有精準的分析

數據工程（Data Engineering）往往是量化分析中最不顯眼、卻最重要的一環。這週末的實戰讓我體會到，一個強韌的數據管線，不在於它跑得有多快，而在於它在網路不穩、伺服器報錯時，依然能保護好數據的完整性。

raw-image

含 AI 應用內容

《炒股不看周月年K漲幅機率就是耍流氓》在雲端平台上執行的程式

留言

留言分享你的想法！

《炒股不看周月年K漲幅機率就是耍流氓》

5會員

246內容數

普通上班族，用 AI 與 Python 將炒股量化。我的數據宣言是：《炒股不做量化，都是在耍流氓》。

《炒股不看周月年K漲幅機率就是耍流氓》的其他內容

2025/12/21

週末 48 小時挑戰：利用 GitHub Actions 打造 0 成本全球股市監控系統

一、為什麼我要做這件事？在股市投資中，「市場寬度」與「動能分布」是判斷多空趨勢的關鍵指標。然而，要同時掃描全球六大市場（美、台、港、中、日、韓）數萬檔標的，往往需要昂貴的伺服器與龐大的運算時間。這個週末，我給自己設定了一個課題：能不能在「零伺服器成本」的前提下，建構出一套工業級的自動化監控管

2025/12/21

週末 48 小時挑戰：利用 GitHub Actions 打造 0 成本全球股市監控系統

一、為什麼我要做這件事？在股市投資中，「市場寬度」與「動能分布」是判斷多空趨勢的關鍵指標。然而，要同時掃描全球六大市場（美、台、港、中、日、韓）數萬檔標的，往往需要昂貴的伺服器與龐大的運算時間。這個週末，我給自己設定了一個課題：能不能在「零伺服器成本」的前提下，建構出一套工業級的自動化監控管

2025/12/20

🚀 如何在 GitHub Actions 上執行此自動化監控系統？

本專案設計為利用 GitHub Actions 實現完全自動化的股票數據爬取、分析與郵件報表發送。以下是設定步驟與執行邏輯的詳細說明。什麼是 GitHub Actions？ GitHub Actions 是一個持續整合/持續部署 (CI/CD) 工具，它可以讓你自動化軟體開發工作流程。在本

2025/12/20

🚀 如何在 GitHub Actions 上執行此自動化監控系統？

本專案設計為利用 GitHub Actions 實現完全自動化的股票數據爬取、分析與郵件報表發送。以下是設定步驟與執行邏輯的詳細說明。什麼是 GitHub Actions？ GitHub Actions 是一個持續整合/持續部署 (CI/CD) 工具，它可以讓你自動化軟體開發工作流程。在本

2025/12/20

🚀 【量化數據工程】用 Python 打造台股「市場寬度」監控系統：全自動化分析 2,600 檔標的分佈

前言在金融市場中，單一標的的漲跌往往帶有隨機性，但「全市場的報酬分佈」則能揭示最真實的市場情緒。為了效率化掌握台股全貌，我利用 Python 與 GitHub Actions 打造了一套全自動化的數據分析管線。它不負責挑選明牌，而是透過統計矩陣，每天準時將 2,600 檔標的的動能分佈送達我的收

2025/12/20

🚀 【量化數據工程】用 Python 打造台股「市場寬度」監控系統：全自動化分析 2,600 檔標的分佈

前言在金融市場中，單一標的的漲跌往往帶有隨機性，但「全市場的報酬分佈」則能揭示最真實的市場情緒。為了效率化掌握台股全貌，我利用 Python 與 GitHub Actions 打造了一套全自動化的數據分析管線。它不負責挑選明牌，而是透過統計矩陣，每天準時將 2,600 檔標的的動能分佈送達我的收