財經數據論文(01):中國盤中逐筆成交資料之可預測性

閱讀時間約 6 分鐘
raw-image

🌟簡介

raw-image

什麼是盤中逐筆成交資料呢?盤中逐筆成交資料是指在證券交易過程中,每一筆交易的詳細記錄,像是以台灣證交所所提供的盤中逐筆交易資料除了基礎的交易的股票代碼、交易時間、交易價格、交易量等信息。甚至提供像是交易種類代號(普通、鉅額、零股)、投資人屬性( 投信基金、外資、自然人、其他一般法人)。

🐌那盤中資料有什麼樣的魅力?

像是我們在網路上看到的股價資訊為一天的資料,但若是我們用盤中資料來看以台積電為例那是幾十萬次的資料彙整而成的,若是以天看我們可能看到的是:哦~股價漲了,但若是以盤中資料來看可以看到非常精采的衝上衝下,震盪是非常大的!這也使得像是在量化交易中會需要這類型的資料去做使用。

不過根據效率市場假說,所有有價值的信息都應即時反映在股價中,但市場操縱的存在可能阻礙這一過程。因此,透過分析歷史價格來獲取超額利潤並不可行。但即使在資本充足的市場如美國,市場效率也未能完全實現,例如:美國市場在普通時期和特殊時期都被證實是弱效率的。進而表明現實中的股市在某種程度上是可以預測的。

🌟研究方法

raw-image

在此研究中研究人員使用了馬可夫鏈模型(Markov Chain Model)&擴散核模型(Diffusion Kernel Model)來去進行預測。接下來我們來針對這兩種模型以及他們怎麼針對數據來去做處理來介紹吧。

🐌馬可夫鏈模型(Markov Chain Model)

馬可夫性質:未來的狀態只依賴於當前狀態,而不依賴於之前的狀態。這種特性被稱為「馬可夫性質」。

馬可夫鏈模型在經濟學、博弈論、傳播理論、遺傳學和金融學,甚至在語言學這樣看似與數字無關的領域都有廣泛的應用。

馬可夫鏈主要元素:


1.狀態空間:系統可能處於的所有狀態的集合。


2.轉移概率:系統從一個狀態轉移到另一個狀態的概率。這些概率可以用一個矩陣(稱為轉移矩陣)來表示。


3.初始狀態分布:系統在開始時各個狀態的概率。


舉個簡單的例子,像是若是要將馬可夫鏈運用於股票預測中:


1.狀態空間:上漲(U)、下跌(D)、不變(S)。狀態空間為 {U, D, S}。


2.轉移概率:我們需要收集股票的歷史價格數據。我們可以根據過去數據,計算出轉移概率矩陣。Ex.一個矩陣表示當前狀態(漲&跌)與未來狀態(漲&跌)


接著假設今天股票價格上漲,我們可以使用上述轉移矩陣來預測明天的價格狀態。使用隨機抽樣或概率計算方法來確定明天的狀態。根據模型的預測,投資者可以決定是買入、賣出還是持有股票。例如,如果模型預測明天股票將繼續上漲,投資者可能會選擇買入或持有。

🐌擴散核模型(Diffusion Kernel Model)

核(Kernel)的性質:透過定義在統計流形上的核,利用黎曼度量(如Fisher信息度量)來衡量數據點之間的相似性。這種方法將數據點嵌入到具有特定幾何結構的空間中,並使用熱方程來模擬數據點之間的’擴散’或資訊流。


而此模型與神經網路(neural network)挺相似的,模型的計算使用到了梯度下降的操作,因此不需要大量的訓練資料。


raw-image

DK模型的預測性能隨著階數的提高而增加,但計算複雜性和成本也隨之增加。在這項工作中,為了確保3秒間隔數據預測結果的及時性,論文中採用了二階DK模型。

🐌數據&處理方法

資料:上海股市&深圳股市


資料期間:2021.1月以及2022.7月


資料集:2021.1月


介紹總共包含4147只股票,每隻股票的數據都是以三秒鐘的時間粒度收集的。在這些股票中,有1800只來自上海股市,其餘來自深圳股市。數據集A包括18個交易日,每條記錄包括56個特徵,如股票代碼、時間、開盤價、收盤價和最新價等。


來源為每三秒鐘擷取一次股票目前的價格、最高價、最低價、交易量、交易金額及其他市場特徵。兩個股市的日常連續競價時段包括上午兩小時和下午兩小時,這使得擷取數量約為3800個。每天有超過2GB的全市場股票數據。
資料集:2022.7月


介紹挑選了2324只股票,這些股票在深圳股市的代碼與數據集A相同,並為每只股票構建時間序列。由於數據收集平台的差異,驗證數據集的收集頻率不如主數據集頻繁,大約每10秒間隔。這個數據集有21個交易日,包括27個特徵,包括時間、成交額、成交量等。在這個數據集中,選擇成交額作為預測目標。


資料來源:kaggle

預測目標:最新價以及成交額(時間顆粒度為秒)

🔨資料預處理

以量化間隔量化股價,使股價在一定範圍內變為一個狀態。意即取兩個量化值的差。而研究最初設定了兩個量化間隔,分別為0.01 CNY和0.05 CNY。

(1)過濾掉序列長度過短且狀態空間小於10的股票:


因為這些股票存在缺失數據或已經退市,沒有實際的預測意義。其中序列長度是由量化間隔算出。


raw-image
從上圖可以看出當股票被較大間隔量化時,它們的狀態空間較小。儘管X軸範圍從0到1000,實際上,在0.01 CNY的量化間隔中,也有209只股票的狀態超過1000,而在數據集A中的0.05間隔中有58只股票。

在建模時,研究團隊將第一天設為訓練集,其餘天數為測試集。在用訓練集訓練模型後,在測試階段每次預測後更新模型,因此改變訓練集和測試集之間的比例對預測結果沒有影響。

🐌研究成果&發現

(1)中國股票的高可預測性:

raw-image

使用Limpel-Ziv數據壓縮方法計算每隻股票的實際熵在數據集A中,約74%的股票(𝑇 = 0.01)和87%的股票(𝑇 = 0.05)的實際熵小於2,分別表明基於現有的歷史價格序列,大多數股票的未來三秒價格可以在少於22個狀態中找到。這一個觀察顯示交易價格的不確定性很低,因此股票價格可能容易預測。

(2)股票特徵的影響:


論文中觀察到平均股價和價格波動性與預測準確率之間存在負相關。這表明波動性更大和價格更高的股票更難以準確預測。


(3)模型表現:

raw-image

馬可夫鏈模型(MC):傳統的馬可夫鏈模型依賴於狀態的轉移概率,這可能不足以捕捉股價時間序列中的非線性和複雜動態。此外,如果模型只考慮有限的歷史數據(如一階或二階馬可夫鏈),則可能無法充分利用更長範圍內的數據相關性。

擴散核模型(DK):雖然DK模型試圖通過將運動軌跡映射到連續空間的擴散過程來捕捉數據點之間的關聯性,但其預測精度仍受到所選擴散核和量化間隔的限制。更大的量化間隔可能會導致信息的損失,影響模型捕捉股價微妙變化的能力。

raw-image

參考資料

論文:https://arxiv.org/pdf/2307.02099

avatar-img
3會員
11內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
仁和的論文整理 的其他內容
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
本篇參與的主題活動
股票價格的波動性與交易量的變化,一直是投資者和研究者關注的核心議題。閱讀兩篇論文後的重點摘要與操作心得。 這兩篇論文分別探討了股票價格突破 52 週高低點時的交易量模式與價格走勢,並深入分析了高價與低價的預測性,這些研究不僅揭示了短期市場動能的特徵,也提供了長期價格均值回歸的實證證據。
加入免費👉Discord群組/TG Channel接收市場要聞、產業動態和更新通知。
終於開始看施昇輝老師的書了,之前主要是看他在節目上發言,這次算是靜下來真的第一次看他的書。這算是他特別為了小資族打造的書,所以針對的收入跟各種也走向小資,力求簡單無腦投資,捨棄一些不需要的動作。下面就來看看書中我覺得很不錯的概念吧。
市值型ETF包括美股和臺股,美股因手續費推薦長抱,而臺股則適合進出。不斷買進又賣出可能錯過配發股息和獲利時機,增加成本。定期定額投資則能享受複利效應,建議躺平投資以獲得最大效益。結論永遠留在市場享受複利,若需要現金流可配置到市值型ETF或債券型ETF,不要必須賣股換現金。
在高股息ETF的投資中,重要的是要找到適合的買入時間和賣出時間。一般來說,計算股價和股利的比值可以判斷是否適合買入,而在賣出時,可以以總股利收益作為參考。股票投資的關鍵在於持續的買入和加碼,以及在合適的時間出場,以最大化收益。
股票價格的波動性與交易量的變化,一直是投資者和研究者關注的核心議題。閱讀兩篇論文後的重點摘要與操作心得。 這兩篇論文分別探討了股票價格突破 52 週高低點時的交易量模式與價格走勢,並深入分析了高價與低價的預測性,這些研究不僅揭示了短期市場動能的特徵,也提供了長期價格均值回歸的實證證據。
加入免費👉Discord群組/TG Channel接收市場要聞、產業動態和更新通知。
終於開始看施昇輝老師的書了,之前主要是看他在節目上發言,這次算是靜下來真的第一次看他的書。這算是他特別為了小資族打造的書,所以針對的收入跟各種也走向小資,力求簡單無腦投資,捨棄一些不需要的動作。下面就來看看書中我覺得很不錯的概念吧。
市值型ETF包括美股和臺股,美股因手續費推薦長抱,而臺股則適合進出。不斷買進又賣出可能錯過配發股息和獲利時機,增加成本。定期定額投資則能享受複利效應,建議躺平投資以獲得最大效益。結論永遠留在市場享受複利,若需要現金流可配置到市值型ETF或債券型ETF,不要必須賣股換現金。
在高股息ETF的投資中,重要的是要找到適合的買入時間和賣出時間。一般來說,計算股價和股利的比值可以判斷是否適合買入,而在賣出時,可以以總股利收益作為參考。股票投資的關鍵在於持續的買入和加碼,以及在合適的時間出場,以最大化收益。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
#加權指數 今天回測位置已經接近20周了,現在都是不懂滿足還想賭運氣投資人開始恐慌交易的週期 就像美股都是集中跌那斯達克過去漲多的科技股,但羅素2000卻沒有同步,那就不會是市場全面轉折,而是資金開始轉移其他商品 台股也是一樣集中下跌快速的都是早就漲超過1季以上的個股或題材 就連台積電跟
Thumbnail
如同先前所提,未來將持續於每周透過籌碼流向進行分析,期盼能讓投資人透過科學數據了解個股籌碼穩定度,達到趨吉避凶之目的。
Thumbnail
在股市中,觀察溢價率的收斂過程以及可轉債的量,透過大戶競拍和其他因素來判斷市場走勢,尚未到達滿足點,建議繼續觀察。
Thumbnail
用多空趨勢線串聯股市金脈簡單來說內建一套投資邏輯,這套系統基於經濟學中的「適應性預期理論」發展而來,主要依賴過去的觀察和經驗來進行投資。這本書橫跨了產業面、基本面、技術面與籌碼面,我覺得下面的重點,你可以思考一下對你的投資有沒有幫助。
Thumbnail
2327 波段買 2368 波段買 3006 波段買 3141 波段買 8936 波段買 結論:運用客觀數據去了解大戶布局之股票, 提高對股票勝率,提前卡位去了解該檔股票背後的故事, 雖然可能不懂他在漲什麼,但是我們知道有人知道為什麼漲就好, 分點懂就好,畢竟敢買數千萬或E的人,一定
Thumbnail
台股籌碼的盤勢觀察中,主要以現貨、期貨和選擇權等不同的籌碼面向進行每日的分析,以掌握市場的變化。同時,透過指數貢獻度的觀察,清楚地了解盤勢的控盤走向。此外也將技術面和主力籌碼面結合,以篩選出市場中的重點股,這有助於更全面地理解市場動態。
Thumbnail
以下為個人研究心得分享,主要是判斷趨勢用於日內交易(當沖為準),僅供參考,不構成投資建議,當沖有風險一定要注意,該停損停利勿凹單勿貪! 周五盤前公開分享大盤看法,壓力支撐點位和趨勢,馬前砲可自行回測。 周一到周四沒意外的話盤前會在付費專欄更新。 偶爾會有個股分享(權重股為主)。 操作理念
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
#加權指數 今天回測位置已經接近20周了,現在都是不懂滿足還想賭運氣投資人開始恐慌交易的週期 就像美股都是集中跌那斯達克過去漲多的科技股,但羅素2000卻沒有同步,那就不會是市場全面轉折,而是資金開始轉移其他商品 台股也是一樣集中下跌快速的都是早就漲超過1季以上的個股或題材 就連台積電跟
Thumbnail
如同先前所提,未來將持續於每周透過籌碼流向進行分析,期盼能讓投資人透過科學數據了解個股籌碼穩定度,達到趨吉避凶之目的。
Thumbnail
在股市中,觀察溢價率的收斂過程以及可轉債的量,透過大戶競拍和其他因素來判斷市場走勢,尚未到達滿足點,建議繼續觀察。
Thumbnail
用多空趨勢線串聯股市金脈簡單來說內建一套投資邏輯,這套系統基於經濟學中的「適應性預期理論」發展而來,主要依賴過去的觀察和經驗來進行投資。這本書橫跨了產業面、基本面、技術面與籌碼面,我覺得下面的重點,你可以思考一下對你的投資有沒有幫助。
Thumbnail
2327 波段買 2368 波段買 3006 波段買 3141 波段買 8936 波段買 結論:運用客觀數據去了解大戶布局之股票, 提高對股票勝率,提前卡位去了解該檔股票背後的故事, 雖然可能不懂他在漲什麼,但是我們知道有人知道為什麼漲就好, 分點懂就好,畢竟敢買數千萬或E的人,一定
Thumbnail
台股籌碼的盤勢觀察中,主要以現貨、期貨和選擇權等不同的籌碼面向進行每日的分析,以掌握市場的變化。同時,透過指數貢獻度的觀察,清楚地了解盤勢的控盤走向。此外也將技術面和主力籌碼面結合,以篩選出市場中的重點股,這有助於更全面地理解市場動態。
Thumbnail
以下為個人研究心得分享,主要是判斷趨勢用於日內交易(當沖為準),僅供參考,不構成投資建議,當沖有風險一定要注意,該停損停利勿凹單勿貪! 周五盤前公開分享大盤看法,壓力支撐點位和趨勢,馬前砲可自行回測。 周一到周四沒意外的話盤前會在付費專欄更新。 偶爾會有個股分享(權重股為主)。 操作理念