這篇文章的標題有「預測」二字,但看完之後請大家思考一下,這種基於「統計學」、「機器學習」的預測方法,是否跟你心中的「預測」相差甚遠呢?
這篇文章會簡介一下用線性回歸預測股票價格的概念。
線性回歸
何謂回歸(Regression)? 回歸是一種統計學上分析數據的方法,其目的在於找出一個最能夠代表觀測資料關係的函數,它所得出的結論是連續的。例如:想找出年齡對應薪資的關係或者隨著時間推進的股票價格。 在只有兩個變數的平面上,也就是二維空間,找出一條能夠代表資料的線,我們稱之為簡單線性回歸(Simple Linear Regression)。 三維以上的空間中,利用線性回歸找出一能夠代表資料的超平面(Hyperplane),我們稱之為多元線性回歸 (Multiple Linear Regression)。
線性回歸是一種用於模擬因變量(y)和自變量(x)之間關係的方法。通過簡單的線性回歸,只有一個自變量x。可能有許多獨立變量屬於多元線性回歸的範疇。
在這種情況下,我們只有一個自變量即日期。對於第一個日期上升到日期向量長度的整數,該日期將由1開始的整數表示,該日期可以根據時間序列數據而變化。當然,我們的因變量將是股票的價格。為了理解線性回歸,您必須了解您可能在學校早期學到的相當基本的等式。
y = a + bx
- Y =預測值或因變量
- b =線的斜率
- x =係數或自變量
像是下圖的範例,可以想像成10號到26號每天的價格圖,紅點是每一天的價格落點(12號是190元、14號是210元….)而綠色的線則是我們根據資料有的12的紅點來擬合出一條最接近的方程式。
從本質上講,上面那個簡單的方程式就可以構成我們對數據的擬合。在運算(Ordinary Least Squares)過後即找到最佳擬合線,最小化平方誤差和(SSE)與股票價格(y)的實際值以及我們在數據集中所有點的預測股票價格。
迴歸分析主要目的是用來解釋資料過去的現象及由自變數來預測依變數未 來可能產生之數值。而簡單線性迴歸分析則是用一直線來解釋一個自變數與一 個依變數的關係。
不知道大家看完之後,對基本的「預測」是否有一點點認識,如果有任何問題也歡迎留言討論。
我們自己的Podcast也開張了
每週更新,希望帶給大家機器學習的相關內容
我們也會在每個月11號 帶給大家這個月的機器學習分析結果
歡迎大家來聽聽 並和我們也分享資訊
FB: https://reurl.cc/WL19r9
Podcasts:
Apple: https://reurl.cc/D63Dz6
SoundOn: https://reurl.cc/n0OXad
Spotify :https://reurl.cc/XkV3dR