財經數據論文(01):中國盤中逐筆成交資料之可預測性

閱讀時間約 6 分鐘
raw-image

🌟簡介

raw-image

什麼是盤中逐筆成交資料呢?盤中逐筆成交資料是指在證券交易過程中,每一筆交易的詳細記錄,像是以台灣證交所所提供的盤中逐筆交易資料除了基礎的交易的股票代碼、交易時間、交易價格、交易量等信息。甚至提供像是交易種類代號(普通、鉅額、零股)、投資人屬性( 投信基金、外資、自然人、其他一般法人)。

🐌那盤中資料有什麼樣的魅力?

像是我們在網路上看到的股價資訊為一天的資料,但若是我們用盤中資料來看以台積電為例那是幾十萬次的資料彙整而成的,若是以天看我們可能看到的是:哦~股價漲了,但若是以盤中資料來看可以看到非常精采的衝上衝下,震盪是非常大的!這也使得像是在量化交易中會需要這類型的資料去做使用。

不過根據效率市場假說,所有有價值的信息都應即時反映在股價中,但市場操縱的存在可能阻礙這一過程。因此,透過分析歷史價格來獲取超額利潤並不可行。但即使在資本充足的市場如美國,市場效率也未能完全實現,例如:美國市場在普通時期和特殊時期都被證實是弱效率的。進而表明現實中的股市在某種程度上是可以預測的。

🌟研究方法

raw-image

在此研究中研究人員使用了馬可夫鏈模型(Markov Chain Model)&擴散核模型(Diffusion Kernel Model)來去進行預測。接下來我們來針對這兩種模型以及他們怎麼針對數據來去做處理來介紹吧。

🐌馬可夫鏈模型(Markov Chain Model)

馬可夫性質:未來的狀態只依賴於當前狀態,而不依賴於之前的狀態。這種特性被稱為「馬可夫性質」。

馬可夫鏈模型在經濟學、博弈論、傳播理論、遺傳學和金融學,甚至在語言學這樣看似與數字無關的領域都有廣泛的應用。

馬可夫鏈主要元素:


1.狀態空間:系統可能處於的所有狀態的集合。


2.轉移概率:系統從一個狀態轉移到另一個狀態的概率。這些概率可以用一個矩陣(稱為轉移矩陣)來表示。


3.初始狀態分布:系統在開始時各個狀態的概率。


舉個簡單的例子,像是若是要將馬可夫鏈運用於股票預測中:


1.狀態空間:上漲(U)、下跌(D)、不變(S)。狀態空間為 {U, D, S}。


2.轉移概率:我們需要收集股票的歷史價格數據。我們可以根據過去數據,計算出轉移概率矩陣。Ex.一個矩陣表示當前狀態(漲&跌)與未來狀態(漲&跌)


接著假設今天股票價格上漲,我們可以使用上述轉移矩陣來預測明天的價格狀態。使用隨機抽樣或概率計算方法來確定明天的狀態。根據模型的預測,投資者可以決定是買入、賣出還是持有股票。例如,如果模型預測明天股票將繼續上漲,投資者可能會選擇買入或持有。

🐌擴散核模型(Diffusion Kernel Model)

核(Kernel)的性質:透過定義在統計流形上的核,利用黎曼度量(如Fisher信息度量)來衡量數據點之間的相似性。這種方法將數據點嵌入到具有特定幾何結構的空間中,並使用熱方程來模擬數據點之間的’擴散’或資訊流。


而此模型與神經網路(neural network)挺相似的,模型的計算使用到了梯度下降的操作,因此不需要大量的訓練資料。


raw-image

DK模型的預測性能隨著階數的提高而增加,但計算複雜性和成本也隨之增加。在這項工作中,為了確保3秒間隔數據預測結果的及時性,論文中採用了二階DK模型。

🐌數據&處理方法

資料:上海股市&深圳股市


資料期間:2021.1月以及2022.7月


資料集:2021.1月


介紹總共包含4147只股票,每隻股票的數據都是以三秒鐘的時間粒度收集的。在這些股票中,有1800只來自上海股市,其餘來自深圳股市。數據集A包括18個交易日,每條記錄包括56個特徵,如股票代碼、時間、開盤價、收盤價和最新價等。


來源為每三秒鐘擷取一次股票目前的價格、最高價、最低價、交易量、交易金額及其他市場特徵。兩個股市的日常連續競價時段包括上午兩小時和下午兩小時,這使得擷取數量約為3800個。每天有超過2GB的全市場股票數據。
資料集:2022.7月


介紹挑選了2324只股票,這些股票在深圳股市的代碼與數據集A相同,並為每只股票構建時間序列。由於數據收集平台的差異,驗證數據集的收集頻率不如主數據集頻繁,大約每10秒間隔。這個數據集有21個交易日,包括27個特徵,包括時間、成交額、成交量等。在這個數據集中,選擇成交額作為預測目標。


資料來源:kaggle

預測目標:最新價以及成交額(時間顆粒度為秒)

🔨資料預處理

以量化間隔量化股價,使股價在一定範圍內變為一個狀態。意即取兩個量化值的差。而研究最初設定了兩個量化間隔,分別為0.01 CNY和0.05 CNY。

(1)過濾掉序列長度過短且狀態空間小於10的股票:


因為這些股票存在缺失數據或已經退市,沒有實際的預測意義。其中序列長度是由量化間隔算出。


raw-image
從上圖可以看出當股票被較大間隔量化時,它們的狀態空間較小。儘管X軸範圍從0到1000,實際上,在0.01 CNY的量化間隔中,也有209只股票的狀態超過1000,而在數據集A中的0.05間隔中有58只股票。

在建模時,研究團隊將第一天設為訓練集,其餘天數為測試集。在用訓練集訓練模型後,在測試階段每次預測後更新模型,因此改變訓練集和測試集之間的比例對預測結果沒有影響。

🐌研究成果&發現

(1)中國股票的高可預測性:

raw-image

使用Limpel-Ziv數據壓縮方法計算每隻股票的實際熵在數據集A中,約74%的股票(𝑇 = 0.01)和87%的股票(𝑇 = 0.05)的實際熵小於2,分別表明基於現有的歷史價格序列,大多數股票的未來三秒價格可以在少於22個狀態中找到。這一個觀察顯示交易價格的不確定性很低,因此股票價格可能容易預測。

(2)股票特徵的影響:


論文中觀察到平均股價和價格波動性與預測準確率之間存在負相關。這表明波動性更大和價格更高的股票更難以準確預測。


(3)模型表現:

raw-image

馬可夫鏈模型(MC):傳統的馬可夫鏈模型依賴於狀態的轉移概率,這可能不足以捕捉股價時間序列中的非線性和複雜動態。此外,如果模型只考慮有限的歷史數據(如一階或二階馬可夫鏈),則可能無法充分利用更長範圍內的數據相關性。

擴散核模型(DK):雖然DK模型試圖通過將運動軌跡映射到連續空間的擴散過程來捕捉數據點之間的關聯性,但其預測精度仍受到所選擴散核和量化間隔的限制。更大的量化間隔可能會導致信息的損失,影響模型捕捉股價微妙變化的能力。

raw-image

參考資料

論文:https://arxiv.org/pdf/2307.02099

3會員
10內容數
Hello 我是黃仁和 就讀於國立台北科技大學 資財系 目前剛升上大四 我的專長為資料科學領域目前專攻於影像 並且於台灣大哥大擔任影像AI實習生
留言0
查看全部
發表第一個留言支持創作者!
仁和的論文整理 的其他內容
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
U-Net演算法架構解析,首次介紹了U-Net的設計,架構,以及在Stable-diffusion中的應用。詳盡分析了U-Net的收縮路徑、擴展路徑、最終層,以及形變不變性的應用。同時提供了相關論文以及PyTorch實作的參考資料。
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
本文介紹了影像合成任務及其歷史解決方案,包括物品置入、影像混合、圖像協調、陰影生成等多個子任務。文章列舉了傳統方法和深度學習方法,並介紹了一體化模型的流行趨勢。深入詳細的解析論文中提供的各種解決方案和方法。論文資料來源包括多篇相關研究論文與鏈接。
本篇參與的主題策展
國統 9/11 召開法說會,之後股價連 3 漲表現不錯,只要基本面不變我持股續抱。法說會影音並沒有最重要的 QA,剛好幾位熱心網友提供券商投信的資料給我,再加上網路資訊整理成本文。目前時序 9 月處於豐水期 5~10 月的尾聲,根據公司法說會表示 ......
「西瓜偎大平」這句話真正的含意是:西瓜這種水果,有一種特質,就是「扶強不扶弱」,身體好的人愈吃愈補,身體虛的人則愈吃愈虛,這才是「偎大平」的真正涵義。
終於開始看施昇輝老師的書了,之前主要是看他在節目上發言,這次算是靜下來真的第一次看他的書。這算是他特別為了小資族打造的書,所以針對的收入跟各種也走向小資,力求簡單無腦投資,捨棄一些不需要的動作。下面就來看看書中我覺得很不錯的概念吧。
市值型ETF包括美股和臺股,美股因手續費推薦長抱,而臺股則適合進出。不斷買進又賣出可能錯過配發股息和獲利時機,增加成本。定期定額投資則能享受複利效應,建議躺平投資以獲得最大效益。結論永遠留在市場享受複利,若需要現金流可配置到市值型ETF或債券型ETF,不要必須賣股換現金。
在高股息ETF的投資中,重要的是要找到適合的買入時間和賣出時間。一般來說,計算股價和股利的比值可以判斷是否適合買入,而在賣出時,可以以總股利收益作為參考。股票投資的關鍵在於持續的買入和加碼,以及在合適的時間出場,以最大化收益。
國統 9/11 召開法說會,之後股價連 3 漲表現不錯,只要基本面不變我持股續抱。法說會影音並沒有最重要的 QA,剛好幾位熱心網友提供券商投信的資料給我,再加上網路資訊整理成本文。目前時序 9 月處於豐水期 5~10 月的尾聲,根據公司法說會表示 ......
「西瓜偎大平」這句話真正的含意是:西瓜這種水果,有一種特質,就是「扶強不扶弱」,身體好的人愈吃愈補,身體虛的人則愈吃愈虛,這才是「偎大平」的真正涵義。
終於開始看施昇輝老師的書了,之前主要是看他在節目上發言,這次算是靜下來真的第一次看他的書。這算是他特別為了小資族打造的書,所以針對的收入跟各種也走向小資,力求簡單無腦投資,捨棄一些不需要的動作。下面就來看看書中我覺得很不錯的概念吧。
市值型ETF包括美股和臺股,美股因手續費推薦長抱,而臺股則適合進出。不斷買進又賣出可能錯過配發股息和獲利時機,增加成本。定期定額投資則能享受複利效應,建議躺平投資以獲得最大效益。結論永遠留在市場享受複利,若需要現金流可配置到市值型ETF或債券型ETF,不要必須賣股換現金。
在高股息ETF的投資中,重要的是要找到適合的買入時間和賣出時間。一般來說,計算股價和股利的比值可以判斷是否適合買入,而在賣出時,可以以總股利收益作為參考。股票投資的關鍵在於持續的買入和加碼,以及在合適的時間出場,以最大化收益。
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
本週看點 12/18(一) 無 12/19(二) 經濟數據 : 日本央行利率決議、美國新屋開工 財報 : ACN、FDX 12/20(三) 經濟數據 : 美國諮商會消費者信心指數 財報 : MU
Thumbnail
本週看點 12/11(一) 財報 : CASY、ORCL 12/12(二) 經濟數據 : 美國10年期國債競拍-最高收益率、CPI& Core CPI 12/13(三) 經濟數據 : 美國PPI 財報 : ADBE
Thumbnail
本週看點 12/04(一) 經濟 : 美國工廠訂單月率 12/05(二) 經濟 : 澳洲利率決議、美國JOLTs職位空缺、美國ISM非製造業PMI 財報 : 看不見未來的蔚來、豪宅建商賺爛的TOL、自我求售的S
Thumbnail
本週看點 11/27(一) 經濟數據 : 美國達拉斯聯儲商業活動指數 11/28(二) 經濟數據 : 美國諮商會消費者信心指數、里奇蒙德聯儲製造業指數 財報 : 資安新秀CRWD、被CSCO宣布收購的SPLK、INTU
Thumbnail
本週看點 11/21(二) 財報 : 萬眾矚目、The Chosen One的NVDA跟其他小夥伴LOW、DKS、JWN和HPQ 經濟數據 : 澳洲公布貨幣政策會議紀要 11/22(三) 財報 : 農用機械霸主DE、也不知道是真是假的EH
Thumbnail
本週看點 11/13(一) 財報 : 以色列的半導體公司TSEM 11/14(二) 數據 : CPI、Core CPI 財報 : 蝦皮母公司冬海集團SE、美國特力屋HD 11/15(三) 數據 : 美國零售銷售、PPI、紐約FED製造業指數、商業庫存
Thumbnail
本週看點 11/06(一) OpenAI舉辦首屆開發者大會"OpenAI DevDay" 財報 : 今年也是很強的福泰製藥VRTX、會不會變成絆倒體的NXPI 11/07(二) 澳洲公布利率決議
Thumbnail
上傳圖片,分析資料 最近,ChatGPT_4.0版提供了一個蠻不錯的圖片分析功能,我利用這一個功能開始協助解析一些財經方面的數據,目前測試一些簡單的圖片,大都能正確地解析。 如果是比較複雜的內容,也會發生錯誤,因此必須對於產出內容進行檢視。 舉一個崇友(股票代號:4506)的營收為例,我先貼了
Thumbnail
儘管財報超出預期,博通股價仍下滑,但戴爾因人工智慧 (AI) 榮景而股價狂升超 21%。特斯拉暴跌超 5%,那斯達克綜合指數收跌 0.02%。道瓊指數收紅超 115 點,標準普爾 500 指數上漲 0.18%,費城半導體指數微升近 0.32%。
Thumbnail
最近世界有些不安定,因此想要借鏡歷史上有那些經濟數據的異常會在爆發國與國的戰爭前發生,希望能藉此協助大家能夠趨吉避凶,如有雷同純屬歷史上的巧合,這邊主要做一個客觀性理解。
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
本週看點 12/18(一) 無 12/19(二) 經濟數據 : 日本央行利率決議、美國新屋開工 財報 : ACN、FDX 12/20(三) 經濟數據 : 美國諮商會消費者信心指數 財報 : MU
Thumbnail
本週看點 12/11(一) 財報 : CASY、ORCL 12/12(二) 經濟數據 : 美國10年期國債競拍-最高收益率、CPI& Core CPI 12/13(三) 經濟數據 : 美國PPI 財報 : ADBE
Thumbnail
本週看點 12/04(一) 經濟 : 美國工廠訂單月率 12/05(二) 經濟 : 澳洲利率決議、美國JOLTs職位空缺、美國ISM非製造業PMI 財報 : 看不見未來的蔚來、豪宅建商賺爛的TOL、自我求售的S
Thumbnail
本週看點 11/27(一) 經濟數據 : 美國達拉斯聯儲商業活動指數 11/28(二) 經濟數據 : 美國諮商會消費者信心指數、里奇蒙德聯儲製造業指數 財報 : 資安新秀CRWD、被CSCO宣布收購的SPLK、INTU
Thumbnail
本週看點 11/21(二) 財報 : 萬眾矚目、The Chosen One的NVDA跟其他小夥伴LOW、DKS、JWN和HPQ 經濟數據 : 澳洲公布貨幣政策會議紀要 11/22(三) 財報 : 農用機械霸主DE、也不知道是真是假的EH
Thumbnail
本週看點 11/13(一) 財報 : 以色列的半導體公司TSEM 11/14(二) 數據 : CPI、Core CPI 財報 : 蝦皮母公司冬海集團SE、美國特力屋HD 11/15(三) 數據 : 美國零售銷售、PPI、紐約FED製造業指數、商業庫存
Thumbnail
本週看點 11/06(一) OpenAI舉辦首屆開發者大會"OpenAI DevDay" 財報 : 今年也是很強的福泰製藥VRTX、會不會變成絆倒體的NXPI 11/07(二) 澳洲公布利率決議
Thumbnail
上傳圖片,分析資料 最近,ChatGPT_4.0版提供了一個蠻不錯的圖片分析功能,我利用這一個功能開始協助解析一些財經方面的數據,目前測試一些簡單的圖片,大都能正確地解析。 如果是比較複雜的內容,也會發生錯誤,因此必須對於產出內容進行檢視。 舉一個崇友(股票代號:4506)的營收為例,我先貼了
Thumbnail
儘管財報超出預期,博通股價仍下滑,但戴爾因人工智慧 (AI) 榮景而股價狂升超 21%。特斯拉暴跌超 5%,那斯達克綜合指數收跌 0.02%。道瓊指數收紅超 115 點,標準普爾 500 指數上漲 0.18%,費城半導體指數微升近 0.32%。
Thumbnail
最近世界有些不安定,因此想要借鏡歷史上有那些經濟數據的異常會在爆發國與國的戰爭前發生,希望能藉此協助大家能夠趨吉避凶,如有雷同純屬歷史上的巧合,這邊主要做一個客觀性理解。