股價走勢的科學思維

2024/10/10 更新2021/10/11 發佈閱讀 7 分鐘

除了如上篇那樣的學術分析之外，我們還有其他方式可以用來探討股價走勢，本篇從以下兩點作出發，並帶點資料科學的思維方式來做探討：

技術指標的運用。
外在因素的作用(包含市場消息、公司基本面等)。

價量數據的特徵轉換：技術指標

現在不論是手機或電腦的看盤軟體多半包含了為數不少的技術指標，從耳熟能詳的均線、KD、MACD、RSI、ROC、布林通道，到較為冷門的鱷魚線、TRIX、查金氏波動指標(Chaikin Volatility)等，令人眼花撩亂。然而這些指標到底能給我們多大的幫助？能以多高的準確度幫助我們辨別日後行情？

每個指標能從久遠的歷史中流傳至今必然有其理由，例如曾經在某個時期達到良好的績效過，但之後因為某些因素(理論不健全，或是運用者眾而失效等)而不再風光。這些失去光環的指標或許至今偶爾會有用，但多半出自於巧合或是主力的刻意安排，因此現代的技術派人士會採用更進階複雜的作為：

同時使用多種技術指標，並妥善設定好濾網，這麼做的好處是增加交易策略的隱蔽性，也同時可以對抗市場過多的雜訊。
修改技術指標的參數，通常的目標為領先市場反應；搭配使用的濾網非常重要，因為領先的訊號觸發對雜訊敏感，也因此常會出現假訊號。
自創技術指標，近幾年流行使用機器學習的手法，建立複雜到自己也搞不懂的人造神經網路模型(黑盒子般的存在)、修改人造神經網路模型的架構，或是採用監督式學習以外的架構(例如增強式學習，代表作為圍棋AI AlphaGo)。

上述這三種策略目前其實研究者都相當多了，也因此取得成效有限。由於運算資源容易取得加上程式語言的普及(Github, Stackoverflow, CSDN等網站是各位程式開發者不陌生的資訊分享平台)，即便技術指標種類再多，參數變化再怎麼多元，也都可能被暴力法(Brute Force)、隨機搜尋(Randomized Search)，或是遺傳演算法(Genetic Algorithm)找出幾種績效最好的組合，然後在運用上可以因應不同標的選擇其中一種，或是以集成方法(Ensemble)增加策略的泛用性等。

從資料科學的角度回顧技術指標的發展，其實就只是人為地將{O, H, L, C, V} (開盤價、最高價、最低價、收盤價、成交量)這個t乘以5的矩陣(t是資料長度，即歷史價量資料涵蓋的時間長度)做不同的運算處理，而運算方式包含加減乘除、取區間最大最小值、取絕對值等。運算的目的是為了濾除雜訊、凸顯資訊量、將資訊正規化(Normalization)(例如KD指標即將指標範圍限制在0至100)等，這個就和資料科學中的特徵轉換(Feature Transform)有異曲同工之妙，只是技術指標採用的是人為手段，而資料科學方面傾向採用自動處理。

由於{O, H, L, C, V}這個tx5矩陣資訊量是有限的，因此即便是無限種類的技術指標也不可能創造出更多的資訊出來，這也是為什麼我們會把技術指標做分類，因為類似的指標會有類似的走勢，它們也很可能在差不多的時間點產生交易訊號。如果市場中技術交易者多了，那麼儘管他們都用不同的策略，主力還是有可能故意觸發大量的買進或賣出訊號來達到以下目的：

創造出特定指標有效的假象來吸引市場參與者去追隨，強化指標的有效性。實際上卻是多數的指標都被觸發了。
當指標有效性被市場接受後，刻意觸發買進或賣出訊號後再反向操作，趁市場流動性充裕時進行高檔出貨或是低檔吃貨以符合自身利益。
當指標有效性被市場接受後，也可以刻意切換另一套模式讓指標失效，當市場失去依據時就容易被套牢或產生恐慌賣壓。

即便僅憑K線作交易(例如有名的酒田戰法或裸K交易策略)，仍然可能遇到以上情形；而AI策略交易若訓練資料不夠充分(時間長度不足、標的數量太少或不夠分散、輸入資料欄位不夠多等)或是模型泛化能力不夠好，也會遇到類似的問題。

要透過技術面獲利，個人的看法是：

在出現泛化能力強的方法之前，忍受不同時期使用不同的交易策略進出。傳統的技術指標無法一招打天下，AI交易模型要辦到也並不容易。
掌握更多不為人知的資訊，或是更有經驗。AI交易模型的目的即在從大量的訓練資料中掌握有效且不為人知的資訊呈現方式，大量的訓練過程即類比人們的交易經驗累積。
交易方法須隱蔽不為周知。方法過於出名或簡單早晚會招致失敗，而AI交易模型就是為了製造複雜與隱蔽性(黑盒子)。然而成功的模型究竟有多少實在難說，畢竟它們絕大多數不會在檯面上為我們所知。
自己成為主力，拉攏市場籌碼站在自己這邊來強化所使用的交易方法！這不是一般人散戶能辦到的，但這是現實。

模型導向與資料導向的後市判斷

模型導向(Model-driven)與資料導向(Data-driven)是兩種從事科學研究的方法，前者我們非常熟悉，就是給定自變數X與應變數Y然後找到一個函數F以數學形式來描述它們之間的關係，後者則是透過海量的資料，以統計分析或機器學習等方法來找出資料的特徵與特徵之間的關聯性。

模型導向的方法非常高度仰賴假設與因果關係的推導，因此所得到的關係Y = F(X)通常會有很強的預測能力，但缺點在於應用受限，也就是現實必須符合假設。在股票市場中，很難見到具有顯著因果關係的例子，也因此少有模型導向的應用。

資料導向的方法需要注重的是資料的質與量，品質包含的是準確性，以及資料的分布等。資料導向不需要假設也不需要太過嚴謹的推導，能探討的因子數量視資料所涵蓋範圍而定，需要的就只是如何從看似雜亂無章中的海量資料中找出關聯性甚至洞見。在股票市場中，這樣的應用或許就相當多，簡單的例子如產業題材在媒體上的曝光程度趨勢變化(外在因素)與類股走勢的關聯性等。雖然應用範圍較廣是資料導向的優勢，但由於其無法確保因果關係的存在，因此並無法給出良好的預測能力，僅能在較小的區間作外插預測。

如果今天我們想知道不同的總經數據怎麼影響大盤走勢，資料導向的分析可以派上用場。我們一樣可以分析家裡貓咪的淺眠時數、熟睡時數、飲水量等對大盤走勢的關係，但這顯然就過於離譜(或迷信)了，這就是資料科學所需要避免的事情。

總結

以資料科學的觀點視之，技術指標為價量資料的特徵轉換。因此，儘管可能減少雜訊而加強訊號強度，但蘊含的資訊量並無法超出原始的價量資料。
在市場上賺錢的方法總是那套：不為人知的資訊與方法，這也是AI交易模型熱門的原因，不只是噱頭，其亦能達到這個目的。其他重點包含跟對籌碼，以及適時更換交易策略而不要輕易挑戰一招打天下。
如要考慮外力對股價走勢的影響可採用資料導向的手法，然而須避免不合理的關聯性產生。