方格子 vocus

財經數據論文(01)：中國盤中逐筆成交資料之可預測性

2024/07/03 更新2024/07/03 發佈閱讀 6 分鐘

🌟簡介

什麼是盤中逐筆成交資料呢?盤中逐筆成交資料是指在證券交易過程中，每一筆交易的詳細記錄，像是以台灣證交所所提供的盤中逐筆交易資料除了基礎的交易的股票代碼、交易時間、交易價格、交易量等信息。甚至提供像是交易種類代號(普通、鉅額、零股)、投資人屬性( 投信基金、外資、自然人、其他一般法人)。

🐌那盤中資料有什麼樣的魅力?

像是我們在網路上看到的股價資訊為一天的資料，但若是我們用盤中資料來看以台積電為例那是幾十萬次的資料彙整而成的，若是以天看我們可能看到的是：哦～股價漲了，但若是以盤中資料來看可以看到非常精采的衝上衝下，震盪是非常大的！這也使得像是在量化交易中會需要這類型的資料去做使用。

不過根據效率市場假說，所有有價值的信息都應即時反映在股價中，但市場操縱的存在可能阻礙這一過程。因此，透過分析歷史價格來獲取超額利潤並不可行。但即使在資本充足的市場如美國，市場效率也未能完全實現，例如：美國市場在普通時期和特殊時期都被證實是弱效率的。進而表明現實中的股市在某種程度上是可以預測的。

🌟研究方法

在此研究中研究人員使用了馬可夫鏈模型（Markov Chain Model）&擴散核模型（Diffusion Kernel Model）來去進行預測。接下來我們來針對這兩種模型以及他們怎麼針對數據來去做處理來介紹吧。

🐌馬可夫鏈模型（Markov Chain Model）

馬可夫性質：未來的狀態只依賴於當前狀態，而不依賴於之前的狀態。這種特性被稱為「馬可夫性質」。

馬可夫鏈模型在經濟學、博弈論、傳播理論、遺傳學和金融學，甚至在語言學這樣看似與數字無關的領域都有廣泛的應用。

馬可夫鏈主要元素：

1.狀態空間：系統可能處於的所有狀態的集合。

2.轉移概率：系統從一個狀態轉移到另一個狀態的概率。這些概率可以用一個矩陣（稱為轉移矩陣）來表示。

3.初始狀態分布：系統在開始時各個狀態的概率。

舉個簡單的例子，像是若是要將馬可夫鏈運用於股票預測中：

1.狀態空間：上漲（U）、下跌（D）、不變（S）。狀態空間為 {U, D, S}。

2.轉移概率：我們需要收集股票的歷史價格數據。我們可以根據過去數據，計算出轉移概率矩陣。Ex.一個矩陣表示當前狀態(漲&跌)與未來狀態(漲&跌)

接著假設今天股票價格上漲，我們可以使用上述轉移矩陣來預測明天的價格狀態。使用隨機抽樣或概率計算方法來確定明天的狀態。根據模型的預測，投資者可以決定是買入、賣出還是持有股票。例如，如果模型預測明天股票將繼續上漲，投資者可能會選擇買入或持有。

🐌擴散核模型（Diffusion Kernel Model）

核(Kernel)的性質：透過定義在統計流形上的核，利用黎曼度量（如Fisher信息度量）來衡量數據點之間的相似性。這種方法將數據點嵌入到具有特定幾何結構的空間中，並使用熱方程來模擬數據點之間的’擴散’或資訊流。

而此模型與神經網路(neural network)挺相似的，模型的計算使用到了梯度下降的操作，因此不需要大量的訓練資料。

DK模型的預測性能隨著階數的提高而增加，但計算複雜性和成本也隨之增加。在這項工作中，為了確保3秒間隔數據預測結果的及時性，論文中採用了二階DK模型。

🐌數據&處理方法

資料：上海股市&深圳股市

資料期間：2021.1月以及2022.7月

資料集：2021.1月

介紹：總共包含4147只股票，每隻股票的數據都是以三秒鐘的時間粒度收集的。在這些股票中，有1800只來自上海股市，其餘來自深圳股市。數據集A包括18個交易日，每條記錄包括56個特徵，如股票代碼、時間、開盤價、收盤價和最新價等。

來源為每三秒鐘擷取一次股票目前的價格、最高價、最低價、交易量、交易金額及其他市場特徵。兩個股市的日常連續競價時段包括上午兩小時和下午兩小時，這使得擷取數量約為3800個。每天有超過2GB的全市場股票數據。

資料集：2022.7月

介紹：挑選了2324只股票，這些股票在深圳股市的代碼與數據集A相同，並為每只股票構建時間序列。由於數據收集平台的差異，驗證數據集的收集頻率不如主數據集頻繁，大約每10秒間隔。這個數據集有21個交易日，包括27個特徵，包括時間、成交額、成交量等。在這個數據集中，選擇成交額作為預測目標。

資料來源：kaggle

預測目標：最新價以及成交額（時間顆粒度為秒）

🔨資料預處理

以量化間隔量化股價，使股價在一定範圍內變為一個狀態。意即取兩個量化值的差。而研究最初設定了兩個量化間隔，分別為0.01 CNY和0.05 CNY。

（1）過濾掉序列長度過短且狀態空間小於10的股票：

因為這些股票存在缺失數據或已經退市，沒有實際的預測意義。其中序列長度是由量化間隔算出。

從上圖可以看出當股票被較大間隔量化時，它們的狀態空間較小。儘管X軸範圍從0到1000，實際上，在0.01 CNY的量化間隔中，也有209只股票的狀態超過1000，而在數據集A中的0.05間隔中有58只股票。

在建模時，研究團隊將第一天設為訓練集，其餘天數為測試集。在用訓練集訓練模型後，在測試階段每次預測後更新模型，因此改變訓練集和測試集之間的比例對預測結果沒有影響。

🐌研究成果＆發現

（1）中國股票的高可預測性：

使用Limpel-Ziv數據壓縮方法計算每隻股票的實際熵，在數據集A中，約74%的股票（𝑇 = 0.01）和87%的股票（𝑇 = 0.05）的實際熵小於2，分別表明基於現有的歷史價格序列，大多數股票的未來三秒價格可以在少於22個狀態中找到。這一個觀察顯示交易價格的不確定性很低，因此股票價格可能容易預測。

（2）股票特徵的影響：

論文中觀察到平均股價和價格波動性與預測準確率之間存在負相關。這表明波動性更大和價格更高的股票更難以準確預測。

（3）模型表現：

馬可夫鏈模型（MC）：傳統的馬可夫鏈模型依賴於狀態的轉移概率，這可能不足以捕捉股價時間序列中的非線性和複雜動態。此外，如果模型只考慮有限的歷史數據（如一階或二階馬可夫鏈），則可能無法充分利用更長範圍內的數據相關性。

擴散核模型（DK）：雖然DK模型試圖通過將運動軌跡映射到連續空間的擴散過程來捕捉數據點之間的關聯性，但其預測精度仍受到所選擴散核和量化間隔的限制。更大的量化間隔可能會導致信息的損失，影響模型捕捉股價微妙變化的能力。

參考資料

論文：https://arxiv.org/pdf/2307.02099

留言

仁和的論文整理

5會員

11內容數

Hello 我是黃仁和就讀於國立台北科技大學資財系目前剛升上大四我的專長為資料科學領域目前專攻於影像並且於台灣大哥大擔任影像AI實習生

仁和的論文整理的其他內容

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

本文介紹了MureObjectStitch，一種基於ObjectStitch的影像合成模型。該模型運用了多參考微調策略，能夠在不同前景物件的影像中學習其不同姿態和視角，從而生成更真實的合成結果。法。

2024/12/16

AI影像論文(08)：MureObjectStitch影像合成模型-論文筆記整理

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

本文介紹了IMPRINT模型的架構與實作，該模型由Adobe研究團隊於2024年發表，採用Two Stage學習框架，並探討了在物體特徵保留和圖像合成之間的平衡。本文展示了IMPRINT在圖像合成領域的潛在應用價值，儘管模型尚未開源，但其架構與方法對未來研究具有指導意義。

2024/08/20

AI影像論文(07)：IMPRINT影像合成模型-論文筆記整理

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

在過去的捐贈模式中，對於資金流向的透明度一直是人們擔憂的問題。CHANGE平臺作為一個基於區塊鏈的公益捐贈工具，提供了有效且透明的捐贈過程。並且以Lokai品牌為例，展示瞭如何透過CHANGE平臺提升會員保留率，並加強企業與顧客之間的聯繫。

2024/08/13

利用Solana區塊鏈技術實現透明慈善：透過 Change 平台改變捐贈模式

#股票的其他內容

你可能也想看

I人如我也能輕鬆聊｜交友軟體 Ping! 的全新體驗

PING! 交友軟體體驗心得分享，內文詳述app操作介面，以及軟體特色與功能，並提供app下載連結，推薦給有交友需求的朋友更多選擇。

#單身#交友軟體#交友軟體推薦

2025/12/30

單身獨居女子的日常

I人如我也能輕鬆聊｜交友軟體 Ping! 的全新體驗

PING! 交友軟體體驗心得分享，內文詳述app操作介面，以及軟體特色與功能，並提供app下載連結，推薦給有交友需求的朋友更多選擇。

#單身#交友軟體#交友軟體推薦

2025/12/30

黛•Adele的生活隨筆

真人認證交友軟體 Ping!｜讓聊天回到互動本身的安心交友體驗

身為自由工作者，我分享使用 Ping! 交友軟體的實際體驗，從真人認證、生活標籤到聊天節奏，談談我如何在不增加壓力的情況下，透過交友軟體認識價值觀合拍的人，建立高品質的交友關係。

#Ping#Ping交友軟體#大人系交友軟體

2026/01/07

黛•Adele的生活隨筆

真人認證交友軟體 Ping!｜讓聊天回到互動本身的安心交友體驗

#Ping#Ping交友軟體#大人系交友軟體

2026/01/07

小芝女看天下

【Ping! 交友心得】生活圈固定，也能安心認識新朋友？真實使用體驗分享

你也和我一樣，生活圈固定、想認識新朋友又害怕遇到怪人嗎？身為研生與大I人，這篇文章分享了我實際使用 Ping! 交友軟體的經驗。Ping! 主打真人認證、慢速交友與高品質聊天體驗，讓交友回到安心、不焦慮的狀態。

#Ping交友軟體#Ping#Ping評價

2026/01/14

小芝女看天下

【Ping! 交友心得】生活圈固定，也能安心認識新朋友？真實使用體驗分享

#Ping交友軟體#Ping#Ping評價

2026/01/14

鹿刻Luke

最真實的交友軟體Ping!，2026脫單必備，別再跟AI談感情

交友軟體Ping!透過嚴格的真人認證機制，替使用者把關「照騙」與假帳號的風險，Ping!也強調照片與個性並重，透過個人頁面設計，讓用戶在瀏覽照片的同時，也能深入瞭解對方的興趣、價值觀，不僅是一個交友軟體，更是引導使用者找到真實自我、開啟高品質情感關係的催化劑。

#感情#Android#電影

2026/02/25

鹿刻Luke

最真實的交友軟體Ping!，2026脫單必備，別再跟AI談感情

#感情#Android#電影

2026/02/25

AI技術分析研究室

【3分鐘學技術分析】解讀成交量秘笈：讓你的投資如虎添翼！

本文深入解析成交量與均線的結合應用，包括量價配合原則、均線突破與成交量的關係、成交量萎縮的意義、均線糾結時的成交量變化、高低點的成交量表現，以及均線支撐與成交量的關係。透過這些技巧，投資者可以更全面地掌握市場脈動，提高投資決策的準確性。

#股市技術分析#成交量#成交量教學

2024/08/09

AI技術分析研究室

【3分鐘學技術分析】解讀成交量秘笈：讓你的投資如虎添翼！

#股市技術分析#成交量#成交量教學

2024/08/09

仁和的論文整理

財經數據論文(01)：中國盤中逐筆成交資料之可預測性

本研究使用了盤中逐筆成交資料（Tick-by-tick Data）來進行股票價格的預測，並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明，大多數股票的未來三秒價格可以在少於22個狀態中找到，顯示了交易價格的低不確定性。此外，研究還發現波動性更大和價格更高的股票更難以準確預測。

#數據#模型#股票

2024/07/03

仁和的論文整理

財經數據論文(01)：中國盤中逐筆成交資料之可預測性

#數據#模型#股票

2024/07/03

Hank，資產累積之路的沙龍

《隨筆》用多空趨勢線串聯股市金脈

用多空趨勢線串聯股市金脈簡單來說內建一套投資邏輯，這套系統基於經濟學中的「適應性預期理論」發展而來，主要依賴過去的觀察和經驗來進行投資。這本書橫跨了產業面、基本面、技術面與籌碼面，我覺得下面的重點，你可以思考一下對你的投資有沒有幫助。

#理財閱讀#用多空趨勢線串聯股市金脈#閱讀書評

2024/06/07

Hank，資產累積之路的沙龍

《隨筆》用多空趨勢線串聯股市金脈

#理財閱讀#用多空趨勢線串聯股市金脈#閱讀書評

2024/06/07

Baozilla, Let's go!

選股策略的方方面面(3) - 技術面選股

本文章介紹了股市中常用的技術指標，如相對強弱指標（RSI）、隨機指標（KD)、移動平均線（MA）、動力指標（MTM)、指數平滑異同移動平均線（MACD)、寶塔線。透過這些指標，讓投資者能夠更好地瞭解股票的買賣力道、價格趨勢以及逆勢操作的時機。

2024/05/03

2024/05/03

【一天一千字，進化每一次】台股有明燈，景氣燈號，你有聽說過嗎？

作者 Only 系列文章，【一天一千字，進化每一次】很多股票投資人，都想要預測，什麼時候股票會漲，什麼時候股票會跌，但是最廣為人的K線等技術指標，最容易失靈的原因，他是透過歷史數據而形成的走勢圖，就好像看這後照鏡開車，所以使用景氣燈號，是一個更好的方法。

#景氣#景氣燈號#台股

2024/05/02

黃泊淳 Only 的沙龍

【一天一千字，進化每一次】台股有明燈，景氣燈號，你有聽說過嗎？

#景氣#景氣燈號#台股

2024/05/02

每日發車

沒事讀點書-巨人思維(作者巨人傑)-第2部向市場交易學習- 24.04.12

*思考技術分析背後的邏輯與原因，比一直學新的技術指標重要。 --實際嘗試後，就會知道技術線圖並非萬能。 *原本以為非常容易執行的交易策略，在真正進場的時候，反而變得難以執行。例如模擬交易策略: 股價站上均線就買，跌破均線就賣。真的進場時，股價卻是一下站上均線、一下又跌破均線，結果一直反手

2024/04/15

每日發車

沒事讀點書-巨人思維(作者巨人傑)-第2部向市場交易學習- 24.04.12

2024/04/15

紀律投資的沙龍

【XQ台指期當沖】交易模式

學習K線圖的好處是能夠在這項技能當中研判各國股市、匯率或個股的趨勢脈動，因K棒的形成是真金白銀打出來的型態，就是最真實的市場的反映，若將K棒及成交量結合，就能掌握大部分市場的走向，未來您可以做波段或是當沖交易都適用，就不需要再聽任何消息能夠自己做判斷。

#XQ自動化交易#XQ全球贏家#XQ台指期當沖

2024/03/06

紀律投資的沙龍

【XQ台指期當沖】交易模式

#XQ自動化交易#XQ全球贏家#XQ台指期當沖

2024/03/06

知識當沖日記的沙龍

當沖：趨勢,籌碼,均線分析

以下為個人研究心得分享，主要是判斷趨勢用於日內交易(當沖為準)，僅供參考，不構成投資建議，當沖有風險一定要注意，該停損停利勿凹單勿貪！周五盤前公開分享大盤看法，壓力支撐點位和趨勢，馬前砲可自行回測。周一到周四沒意外的話盤前會在付費專欄更新。偶爾會有個股分享(權重股為主)。操作理念

2024/01/25

2024/01/25

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News