如果資料科學是一片大海,海域裡會有什麼呢?航海圖裡綠色箭頭指向我們熟悉的名詞:Machine Learning (機器學習)、Deep Learning (深度學習)、Reinforcement Learning (強化學習) ,還有旁邊各種 NN (Neural Network, 神經網路)。這些是我們系列文前兩篇介紹過的AI名詞。
👉 解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業
👉 解密 AI 與資料科學 (二) : AI 的類型與實戰場景
而這篇文章主攻航海圖上半部四大名詞 (紅色框框處):Probability & Statistics (機率與統計)、Econometrics (計量經濟)、Operation Research (作業研究) 和Financial Quantitative Analysis (量化金融分析)。
Probability & Statistics 是本文主幹,其餘三個算bonus,先有個印象就好。正文我會介紹機率統計,深切說明其精神與應用;其餘三大領域我也會介紹到,並用他們作為統計應用實例。
不少人覺得統計就是數學,但實際上不是。數學是明確的,而統計卻在講不確定性。以前研究所念資料科學時,來自工科或電腦科學的同學對統計感到驚奇。我看到他們時而深思,有時聽到他們說「這個有點難」。起初我感到意外,後來才知道他們根本沒碰這種在描述「不確定性」的東西。也對,如果他們工程建設有不確定性,世界大概會崩壞吧。
更多人對統計學的印象停留在敘述統計 (descriptive statistics,航海圖最上方小字) ,如新聞常見的圓餅圖、直方圖或折線圖。又或是描述綜合現象的指標:台灣薪資中位數34000元台幣、學測頂標60級分等。
這都是統計,但統計不只如此,他是AI / 機器學習背後的英雄,舉凡資料分析、演算法設計、實驗操作與詮釋,都涉及統計。舉例來說,經典統計的線性迴歸模型和貝葉斯統計,在機器學習中也是常用算法;機器學習裡,有些模型也依賴統計分布 (如常態分佈) 作為懲罰項權重在更新時,所依賴的分布。近年蓬勃發展的強化學習 (代表作AlphaGo),統計學也被用來支撐隨機環境、狀態轉移和連續隨機行為的數理基礎。至於演算法設計,更不乏會帶入機率進行抽樣近似或搜索範圍擴展的操作。
簡單說,統計學是現在很多先進技術的基礎了。所以應該不難理解,為何開頭那張航海圖,統計學是被擺在航線起點 (starts here) 的位置。
而儘管現在很多人未必精熟統計,甚至不乏只套用現成模組便自稱是科學家或工程師之人。我可以負責任地說,不了解統計,在資料行業的職涯天花板會低很多。如果要理解數據操作、讀懂研究,避不開統計!
統計學的精神是goodness of fit,用來解釋過去,對過去的模式有一個適切的描述。這也引出了兩大特色,一個叫做「假設檢定」 (Hypothesis testing),一個叫做「統計分布」 (Statistical distribution)。檢定用來判斷事情的發生是否屬於巧合,抑或是真有機率上的可靠性。統計分布則描繪事情的變化樣態,可以讓我們綜觀理解事務,也能反覆模擬跟預測。
我會用開頭說的財務量化分析與計量經濟案例,來說明檢定的價值。
關於檢定,我都會先想到醫學經典研究:比較有使用與沒使用藥品的兩組人馬,是不是有顯著的差異。當然,有些樣本差異可以一眼看出,然而實驗不能只憑肉眼,它必須在機率上也有所區別 (白話:事發不是巧合)。因為肉眼所見可能是巧合,更何況不是所有差異都是肉眼可見!
所以統計學提供嚴格的工具和標準來檢驗。大家可能聽過的「假設檢定」和P value (搭配機率分布),就是在支持這一系列的分析。複雜點的檢定不只用在雙/多樣本,也可檢定模型 (如迴歸模型) 係數,看出一模型中變數們,對預測目標是否有非巧合性的存在。
樣本檢定可以讓我們在混亂的資訊中,找出彼此相互關聯的變數,像是我檢定過某家公司發表招標文件時,是否會提升某類產品的價格。這告訴我們是否要密切追蹤某些公司的行為。
我也檢定過能源使用跟物料價格之間的關係,到底是雞生蛋還是蛋生雞──也就是能源消耗的多寡,是取決於物料價格,還是能源消耗決定了物料的價格 (很拗口)。
財務金融量化分析更是統計檢定的愛用者。實務上會用統計檢定確認交易的訊號可行性,近來小有嘗試。如檢定某一市場訊號是否真的與價格漲跌有關,抑或只是巧合;也可以檢定兩個金融商品價格之間,是否長期有相互影響──這又稱統計套利。藉由兩商品長期往同方向收斂數理特性,判斷當前價格是否被高估或低估,進而形成交易策略。
不過就經驗來說,這種分析進到應用與決策層面,要留意未來數據分布/變化,與分析時所用的歷史資料有無相近。
計量經濟學 (Econometrics) ───包含總體經濟學 (Macroeconomics) ──也大量援引統計技術,特別是時間序列。這方面其實就是把經濟跟財務關切的議題,套入統計技術做實證。有人研究過珠三角經濟帶,指出1997年香港回歸後,廣東省經濟成為香港的領先指標,回歸前則反之。這是在說回歸中國後,香港經濟地位在珠三角經濟圈中就趨於落後了,甚至引發未來香港喪失影響力的疑慮。這正是政治力量影響經濟的展現。
類似地,也有研究透過統計檢定,指出1998年3月以後台灣央行傾向匯率干預,偏好阻止升值而不阻貶。說實話就是央行偏好台幣的低匯率,以保持台灣出口競爭力。而1998年,正是十三星總裁彭淮南初上任的那年,其政策思想不言可喻。也順道說這篇論文實驗設計做得很好,想了解相關時間序列技術和研究方法可以詳加參考。
總之,不同的主題有不同檢定方式,但說到底,檢定是為可靠「解釋」。
統計學第二特色是「分布」,又稱統計分布。一切源於「不確定性」──可能這樣可能那樣,可能這個多,可能那個少。分布則描述這不確定感,呈現某一個變數可能發生的各種結果,以及其變化情形。例如智商的變化,150到160之間的人會是少數,更多人集中在智商110附近。這種自然而成的事件用常態分佈表現出來 (鐘型曲線)。又例如投擲硬幣只有兩種結果的遊戲,它也有分布可以描述,叫做二項分布。
每個分布都有他的數學型態,而這世上有非常多統計分布,描述千變萬化的事件。有些分布很經典也很常見,可以參考這篇文章。
然而,有些現實事件的分布則不容易準確定義,需要透過實際觀測與估計。以下要說明統計分布的應用實例跟價值。
一、統計推論 (Statistical inference):工廠實例
分布主要有兩種作用,第一種是推論。分享一下自己的case study:工廠設備與人力維護的範例。之前我跟團隊研究機台每「多用」一個小時,裡面燈泡會壞幾顆。因為廠商若知道機台用多久裡面燈泡就會壞掉、壞多少顆,那就可以超前部屬,提前預備維護。
為此,我們首先觀察「多運轉一小時會壞幾顆燈」的歷史分布,透過有限小資料去推測與檢測它長期累積大樣本後,可能會是什麼分布 / 變化規則 (想法:我們認為這個資料背後有一個更大的變化規則能夠代表它)。
推測出來後,我們按照此分布反覆抽樣N次,就推知機台多運轉N小時會多壞幾顆燈了。而這招背後的思路正是統計推論 (statistical inference),精準預測的前提是,未來所發生的可能性要符合我們「推估」出來的那個分布。礙於一些原因,這個案例我無法再透漏更多細節
二、抽樣與模擬
統計經常用於模擬 (simulation),這屬於開場提到的「作業研究」 (Operation Research) 的一環,也是我很喜歡的領域。模擬顧名思義,就是建立一個小世界,經由你根據變數之間的互動、流程與時間差,所建立出來的一個真實世界。目的是為了在不確定性中找到最優解。
想像一個物流歷程的模擬,上圖顯示貨品進到倉儲後,經歷一系列處理流程:25%機率到old中心,75%進new中心。Old中心裡貨品會排隊,準備裝貨和包貨;new中心就複雜一點,貨品有一定機率是冷凍、冷藏或常溫,不同情況要配置不同數量的工人以及工時。
在這個模擬當中,我結論是模擬出只要18工人,就可以處理最多的貨品,並使成本達到最小。這例子用到的統計分布非常簡單,例如[0.25, 0.75]兩種貨品可能流向,現實的分布經常不那麼單純。但至少能看出,模型中每個環節帶有一些不確定性,最後模擬出來的結果就有許多可能。
這個模擬世界,變數之間的關係、參數設定以及統計量,都要力求符合真實狀況,以讓我們使用算法解出最優結果。這經常用於解決環境中動線效率、成本最小/利潤極大化的問題。這些在醫院、工廠或是交通運輸都很常見。關於此例的細節與更多模擬範例,可看我在英國做的這篇小研究。
不知不覺就寫了這麼多,結論是 (1) 統計學跟AI有求同存異,但共榮共存的關係,(2) 同時也是我們進行量化分析、解釋、模擬還有預測的重要工具。我們除了介紹觀念,更透過計量經濟/總體經濟、財務金融還有作業研究的實例,看到統計學的應用場景與真實價值。
這篇文寫作目的,是希望拓展大家對統計的理解跟應用場景的想像。統計在AI中的應用,今天只有一段帶過。其實這部分不只重要,在我看來既skillful又很技術性的,之後有機會再有系統地介紹看看。