先說個笑話,研究所時某位教授開了門<因果推論>的量化課程,沒想到如此硬派的課程,卻吸引了為數眾多的學生參與,,這些同學的本意竟是想來學算命格、看命盤的,想當然爾,這樣的人潮在第二堂課後便不復見了。
說到透過線性回歸(數據分析)的方式預測未來,首先要做的事情,當然是決定我們要預測什麼事件的未來。畢竟,一個好的算命師傅不能在每次回答信眾問題時,總嚷嚷著「你會發大財」、「夢想會成真」等相對空泛的概念,因此這部分課程也強調了通過個人的專業素養以及對該領域的理解,試圖去問出一個有邏輯的問題 :
X(定義域,輸入資料)----F(函數,某種機制)----Y(值域,結果資料)
只要我們有足夠的原理去證明X資料經由F機制之後得出來的結果Y,是符合邏輯的,我們便可以利用過去的經驗,配合數據分析或機器學習後,得出一個可預測日後類似狀況結果的機制,如果用白話點的例子來看:
雖然兩者最終的結果可能都會是零分一致(畢竟是大雄啊...),但後者的問法,透過明顯承先啟後的相關數據進行預測,相對而言是較有邏輯的。當然,這是建立在個人知識背景下的問法,如果把同樣問題拿去問PTT實業坊上的 ffaarr 大大 a.k.a. 哆啦王,他或許便可以拿出一套因應哆啦a夢借出考試道具給大雄的次數,來預測大雄數學成績的模型假設,興許這才是真正能幫助我們「預測未來」的數據吧。
大多數數據科學家只花費20%的時間用於實際數據分析,80%的時間用於查找,清理和重組大量數據。(Armand Ruiz,2017)
這聽起來是件挺悲觀且阿砸(ak-tsak,台語,指心煩意亂)的事情,萬幸的是,這方面還可以透過python裡面的”pandas”套件來幫助我們,更多相關的內容可以參考《
用熊貓做基本數據分析》的課程內容,重點在於,我們如何整理出一個適合分析的資料集,像是以下結果:
大雄前五次的數學成績(x)跟該次的數學成績(y)的資料集
x1=(0,15,15,0,30), y1=20
x2=(0,0,0,100,30), y2=0
x3=(0,15,15,0,0), y3=100
.
.
一旦整理出適合學習的資料態樣後,我們便可以試圖從中找到一個適合的f(x)^(函數)以預測出y(正解)。
在找出屬於這份資料的那條線後,最後一點,便是「評估是否符合需求」,也就是再次驗證我們所得到的結果是不是「有準」,是否真的有預測未來的效果,這也可以透過對資料進行分組(訓練資料、測試資料)來達到目的。
以上介紹了有關〈預測未來:用線性回歸做預測〉概念性部分的內容,若是搭配後半段資料分析實作的部分,相信人人都可以當算命師吧!你會對回歸分析、資料分析乃至機器學習,有更進一步的認識。
筆記就寫到這,感謝您的閱讀,希望在這個時代,我們都能透過文字/閱讀,學著好好理解彼此。
RockNiu