解密 AI 與資料科學 (三) : 統計學──AI 背後沉默的英雄

2024/08/31 更新2024/08/31 發佈閱讀 10 分鐘

如果資料科學是一片大海，海域裡會有什麼呢？航海圖裡綠色箭頭指向我們熟悉的名詞：Machine Learning (機器學習)、Deep Learning (深度學習)、Reinforcement Learning (強化學習) ，還有旁邊各種 NN (Neural Network, 神經網路)。這些是我們系列文前兩篇介紹過的AI名詞。

👉 解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

👉 解密 AI 與資料科學 (二) : AI 的類型與實戰場景

而這篇文章主攻航海圖上半部四大名詞 (紅色框框處)：Probability & Statistics (機率與統計)、Econometrics (計量經濟)、Operation Research (作業研究) 和Financial Quantitative Analysis (量化金融分析)。

Probability & Statistics 是本文主幹，其餘三個算bonus，先有個印象就好。正文我會介紹機率統計，深切說明其精神與應用；其餘三大領域我也會介紹到，並用他們作為統計應用實例。

｜統計學不是數學

不少人覺得統計就是數學，但實際上不是。數學是明確的，而統計卻在講不確定性。以前研究所念資料科學時，來自工科或電腦科學的同學對統計感到驚奇。我看到他們時而深思，有時聽到他們說「這個有點難」。起初我感到意外，後來才知道他們根本沒碰這種在描述「不確定性」的東西。也對，如果他們工程建設有不確定性，世界大概會崩壞吧。

更多人對統計學的印象停留在敘述統計 (descriptive statistics，航海圖最上方小字) ，如新聞常見的圓餅圖、直方圖或折線圖。又或是描述綜合現象的指標：台灣薪資中位數34000元台幣、學測頂標60級分等。

範例：以視覺化圖表描述MLB左投/右投手球速的統計量資料來源：張尤金的野球塾

這都是統計，但統計不只如此，他是AI / 機器學習背後的英雄，舉凡資料分析、演算法設計、實驗操作與詮釋，都涉及統計。舉例來說，經典統計的線性迴歸模型和貝葉斯統計，在機器學習中也是常用算法；機器學習裡，有些模型也依賴統計分布 (如常態分佈) 作為懲罰項權重在更新時，所依賴的分布。近年蓬勃發展的強化學習 (代表作AlphaGo)，統計學也被用來支撐隨機環境、狀態轉移和連續隨機行為的數理基礎。至於演算法設計，更不乏會帶入機率進行抽樣近似或搜索範圍擴展的操作。

簡單說，統計學是現在很多先進技術的基礎了。所以應該不難理解，為何開頭那張航海圖，統計學是被擺在航線起點 (starts here) 的位置。

而儘管現在很多人未必精熟統計，甚至不乏只套用現成模組便自稱是科學家或工程師之人。我可以負責任地說，不了解統計，在資料行業的職涯天花板會低很多。如果要理解數據操作、讀懂研究，避不開統計！

｜統計檢定：巧合抑或真相？

統計學的精神是goodness of fit，用來解釋過去，對過去的模式有一個適切的描述。這也引出了兩大特色，一個叫做「假設檢定」 (Hypothesis testing)，一個叫做「統計分布」 (Statistical distribution)。檢定用來判斷事情的發生是否屬於巧合，抑或是真有機率上的可靠性。統計分布則描繪事情的變化樣態，可以讓我們綜觀理解事務，也能反覆模擬跟預測。

我會用開頭說的財務量化分析與計量經濟案例，來說明檢定的價值。

關於檢定，我都會先想到醫學經典研究：比較有使用與沒使用藥品的兩組人馬，是不是有顯著的差異。當然，有些樣本差異可以一眼看出，然而實驗不能只憑肉眼，它必須在機率上也有所區別 (白話：事發不是巧合)。因為肉眼所見可能是巧合，更何況不是所有差異都是肉眼可見！

所以統計學提供嚴格的工具和標準來檢驗。大家可能聽過的「假設檢定」和P value (搭配機率分布)，就是在支持這一系列的分析。複雜點的檢定不只用在雙/多樣本，也可檢定模型 (如迴歸模型) 係數，看出一模型中變數們，對預測目標是否有非巧合性的存在。

樣本檢定可以讓我們在混亂的資訊中，找出彼此相互關聯的變數，像是我檢定過某家公司發表招標文件時，是否會提升某類產品的價格。這告訴我們是否要密切追蹤某些公司的行為。

我也檢定過能源使用跟物料價格之間的關係，到底是雞生蛋還是蛋生雞──也就是能源消耗的多寡，是取決於物料價格，還是能源消耗決定了物料的價格 (很拗口)。

財務金融量化分析更是統計檢定的愛用者。實務上會用統計檢定確認交易的訊號可行性，近來小有嘗試。如檢定某一市場訊號是否真的與價格漲跌有關，抑或只是巧合；也可以檢定兩個金融商品價格之間，是否長期有相互影響──這又稱統計套利。藉由兩商品長期往同方向收斂數理特性，判斷當前價格是否被高估或低估，進而形成交易策略。

不過就經驗來說，這種分析進到應用與決策層面，要留意未來數據分布/變化，與分析時所用的歷史資料有無相近。

計量經濟學 (Econometrics) ───包含總體經濟學 (Macroeconomics) ──也大量援引統計技術，特別是時間序列。這方面其實就是把經濟跟財務關切的議題，套入統計技術做實證。有人研究過珠三角經濟帶，指出1997年香港回歸後，廣東省經濟成為香港的領先指標，回歸前則反之。這是在說回歸中國後，香港經濟地位在珠三角經濟圈中就趨於落後了，甚至引發未來香港喪失影響力的疑慮。這正是政治力量影響經濟的展現。

類似地，也有研究透過統計檢定，指出1998年3月以後台灣央行傾向匯率干預，偏好阻止升值而不阻貶。說實話就是央行偏好台幣的低匯率，以保持台灣出口競爭力。而1998年，正是十三星總裁彭淮南初上任的那年，其政策思想不言可喻。也順道說這篇論文實驗設計做得很好，想了解相關時間序列技術和研究方法可以詳加參考。

總之，不同的主題有不同檢定方式，但說到底，檢定是為可靠「解釋」。

｜分布：在變化中窺見未來

統計學第二特色是「分布」，又稱統計分布。一切源於「不確定性」──可能這樣可能那樣，可能這個多，可能那個少。分布則描述這不確定感，呈現某一個變數可能發生的各種結果，以及其變化情形。例如智商的變化，150到160之間的人會是少數，更多人集中在智商110附近。這種自然而成的事件用常態分佈表現出來 (鐘型曲線)。又例如投擲硬幣只有兩種結果的遊戲，它也有分布可以描述，叫做二項分布。

每個分布都有他的數學型態，而這世上有非常多統計分布，描述千變萬化的事件。有些分布很經典也很常見，可以參考這篇文章。

常見統計分布與數學描述資料來源: LinkedIn

然而，有些現實事件的分布則不容易準確定義，需要透過實際觀測與估計。以下要說明統計分布的應用實例跟價值。

一、統計推論 (Statistical inference)：工廠實例

分布主要有兩種作用，第一種是推論。分享一下自己的case study：工廠設備與人力維護的範例。之前我跟團隊研究機台每「多用」一個小時，裡面燈泡會壞幾顆。因為廠商若知道機台用多久裡面燈泡就會壞掉、壞多少顆，那就可以超前部屬，提前預備維護。

為此，我們首先觀察「多運轉一小時會壞幾顆燈」的歷史分布，透過有限小資料去推測與檢測它長期累積大樣本後，可能會是什麼分布 / 變化規則 (想法：我們認為這個資料背後有一個更大的變化規則能夠代表它)。

推測出來後，我們按照此分布反覆抽樣N次，就推知機台多運轉N小時會多壞幾顆燈了。而這招背後的思路正是統計推論 (statistical inference)，精準預測的前提是，未來所發生的可能性要符合我們「推估」出來的那個分布。礙於一些原因，這個案例我無法再透漏更多細節

二、抽樣與模擬

統計經常用於模擬 (simulation)，這屬於開場提到的「作業研究」 (Operation Research) 的一環，也是我很喜歡的領域。模擬顧名思義，就是建立一個小世界，經由你根據變數之間的互動、流程與時間差，所建立出來的一個真實世界。目的是為了在不確定性中找到最優解。

在英國讀書時期做的模擬報告 (模型：Discrete Event Model)

想像一個物流歷程的模擬，上圖顯示貨品進到倉儲後，經歷一系列處理流程：25%機率到old中心，75%進new中心。Old中心裡貨品會排隊，準備裝貨和包貨；new中心就複雜一點，貨品有一定機率是冷凍、冷藏或常溫，不同情況要配置不同數量的工人以及工時。

在這個模擬當中，我結論是模擬出只要18工人，就可以處理最多的貨品，並使成本達到最小。這例子用到的統計分布非常簡單，例如[0.25, 0.75]兩種貨品可能流向，現實的分布經常不那麼單純。但至少能看出，模型中每個環節帶有一些不確定性，最後模擬出來的結果就有許多可能。

這個模擬世界，變數之間的關係、參數設定以及統計量，都要力求符合真實狀況，以讓我們使用算法解出最優結果。這經常用於解決環境中動線效率、成本最小/利潤極大化的問題。這些在醫院、工廠或是交通運輸都很常見。關於此例的細節與更多模擬範例，可看我在英國做的這篇小研究。

｜小結

不知不覺就寫了這麼多，結論是 (1) 統計學跟AI有求同存異，但共榮共存的關係，(2) 同時也是我們進行量化分析、解釋、模擬還有預測的重要工具。我們除了介紹觀念，更透過計量經濟/總體經濟、財務金融還有作業研究的實例，看到統計學的應用場景與真實價值。

這篇文寫作目的，是希望拓展大家對統計的理解跟應用場景的想像。統計在AI中的應用，今天只有一段帶過。其實這部分不只重要，在我看來既skillful又很技術性的，之後有機會再有系統地介紹看看。

留言

留言分享你的想法！

Darren的沙龍

15會員

14內容數

大數據意味著什麼？數據科學背後有怎樣的mind set和技術？數據科學家又做些什麼？這些科技/技術，帶給我們什麼生活上和人文上的省思？這個專題會橫跨這些彼此相關的面向，避開生澀的專業詞彙，探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞

Darren的沙龍的其他內容

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向