解密 AI 與資料科學 (三) : 統計學──AI 背後沉默的英雄

閱讀時間約 10 分鐘


如果資料科學是一片大海,海域裡會有什麼呢?航海圖裡綠色箭頭指向我們熟悉的名詞:Machine Learning (機器學習)、Deep Learning (深度學習)、Reinforcement Learning (強化學習) ,還有旁邊各種 NN (Neural Network, 神經網路)。這些是我們系列文前兩篇介紹過的AI名詞。

👉 解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

👉 解密 AI 與資料科學 (二) : AI 的類型與實戰場景

 

而這篇文章主攻航海圖上半部四大名詞 (紅色框框處):Probability & Statistics (機率與統計)、Econometrics (計量經濟)、Operation Research (作業研究) 和Financial Quantitative Analysis (量化金融分析)。

 

Probability & Statistics 是本文主幹,其餘三個算bonus,先有個印象就好。正文我會介紹機率統計,深切說明其精神與應用;其餘三大領域我也會介紹到,並用他們作為統計應用實例。

 


|統計學不是數學

不少人覺得統計就是數學,但實際上不是。數學是明確的,而統計卻在講不確定性。以前研究所念資料科學時,來自工科或電腦科學的同學對統計感到驚奇。我看到他們時而深思,有時聽到他們說「這個有點難」。起初我感到意外,後來才知道他們根本沒碰這種在描述「不確定性」的東西。也對,如果他們工程建設有不確定性,世界大概會崩壞吧。

 

更多人對統計學的印象停留在敘述統計 (descriptive statistics,航海圖最上方小字) ,如新聞常見的圓餅圖、直方圖或折線圖。又或是描述綜合現象的指標:台灣薪資中位數34000元台幣、學測頂標60級分等。



這都是統計,但統計不只如此,他是AI / 機器學習背後的英雄,舉凡資料分析、演算法設計、實驗操作與詮釋,都涉及統計。舉例來說,經典統計的線性迴歸模型和貝葉斯統計,在機器學習中也是常用算法;機器學習裡,有些模型也依賴統計分布 (如常態分佈) 作為懲罰項權重在更新時,所依賴的分布。近年蓬勃發展的強化學習 (代表作AlphaGo),統計學也被用來支撐隨機環境、狀態轉移和連續隨機行為的數理基礎。至於演算法設計,更不乏會帶入機率進行抽樣近似或搜索範圍擴展的操作。

 

簡單說,統計學是現在很多先進技術的基礎了。所以應該不難理解,為何開頭那張航海圖,統計學是被擺在航線起點 (starts here) 的位置。

 

而儘管現在很多人未必精熟統計,甚至不乏只套用現成模組便自稱是科學家或工程師之人。我可以負責任地說,不了解統計,在資料行業的職涯天花板會低很多。如果要理解數據操作、讀懂研究,避不開統計!

 

|統計檢定:巧合抑或真相?

統計學的精神是goodness of fit,用來解釋過去,對過去的模式有一個適切的描述。這也引出了兩大特色,一個叫做「假設檢定」 (Hypothesis testing),一個叫做「統計分布」 (Statistical distribution)。檢定用來判斷事情的發生是否屬於巧合,抑或是真有機率上的可靠性。統計分布則描繪事情的變化樣態,可以讓我們綜觀理解事務,也能反覆模擬跟預測。

 

我會用開頭說的財務量化分析與計量經濟案例,來說明檢定的價值。

 

關於檢定,我都會先想到醫學經典研究:比較有使用與沒使用藥品的兩組人馬,是不是有顯著的差異。當然,有些樣本差異可以一眼看出,然而實驗不能只憑肉眼,它必須在機率上也有所區別 (白話:事發不是巧合)。因為肉眼所見可能是巧合,更何況不是所有差異都是肉眼可見!

 

所以統計學提供嚴格的工具和標準來檢驗。大家可能聽過的「假設檢定」和P value (搭配機率分布),就是在支持這一系列的分析。複雜點的檢定不只用在雙/多樣本,也可檢定模型 (如迴歸模型) 係數,看出一模型中變數們,對預測目標是否有非巧合性的存在。

 

樣本檢定可以讓我們在混亂的資訊中,找出彼此相互關聯的變數,像是我檢定過某家公司發表招標文件時,是否會提升某類產品的價格。這告訴我們是否要密切追蹤某些公司的行為。

 

我也檢定過能源使用跟物料價格之間的關係,到底是雞生蛋還是蛋生雞──也就是能源消耗的多寡,是取決於物料價格,還是能源消耗決定了物料的價格 (很拗口)。

 

財務金融量化分析更是統計檢定的愛用者。實務上會用統計檢定確認交易的訊號可行性,近來小有嘗試。如檢定某一市場訊號是否真的與價格漲跌有關,抑或只是巧合;也可以檢定兩個金融商品價格之間,是否長期有相互影響──這又稱統計套利。藉由兩商品長期往同方向收斂數理特性,判斷當前價格是否被高估或低估,進而形成交易策略。

 

不過就經驗來說,這種分析進到應用與決策層面,要留意未來數據分布/變化,與分析時所用的歷史資料有無相近。

 

計量經濟學 (Econometrics) ───包含總體經濟學 (Macroeconomics) ──也大量援引統計技術,特別是時間序列。這方面其實就是把經濟跟財務關切的議題,套入統計技術做實證。有人研究過珠三角經濟帶,指出1997年香港回歸後,廣東省經濟成為香港的領先指標,回歸前則反之。這是在說回歸中國後,香港經濟地位在珠三角經濟圈中就趨於落後了,甚至引發未來香港喪失影響力的疑慮。這正是政治力量影響經濟的展現。


類似地,也有研究透過統計檢定,指出1998年3月以後台灣央行傾向匯率干預,偏好阻止升值而不阻貶。說實話就是央行偏好台幣的低匯率,以保持台灣出口競爭力。而1998年,正是十三星總裁彭淮南初上任的那年,其政策思想不言可喻。也順道說這篇論文實驗設計做得很好,想了解相關時間序列技術和研究方法可以詳加參考。

 

總之,不同的主題有不同檢定方式,但說到底,檢定是為可靠「解釋」。

 

|分布:在變化中窺見未來

統計學第二特色是「分布」,又稱統計分布。一切源於「不確定性」──可能這樣可能那樣,可能這個多,可能那個少。分布則描述這不確定感,呈現某一個變數可能發生的各種結果,以及其變化情形。例如智商的變化,150到160之間的人會是少數,更多人集中在智商110附近。這種自然而成的事件用常態分佈表現出來 (鐘型曲線)。又例如投擲硬幣只有兩種結果的遊戲,它也有分布可以描述,叫做二項分布。

 

每個分布都有他的數學型態,而這世上有非常多統計分布,描述千變萬化的事件。有些分布很經典也很常見,可以參考這篇文章


 

然而,有些現實事件的分布則不容易準確定義,需要透過實際觀測與估計。以下要說明統計分布的應用實例跟價值。

 

    一、統計推論 (Statistical inference):工廠實例

分布主要有兩種作用,第一種是推論。分享一下自己的case study:工廠設備與人力維護的範例。之前我跟團隊研究機台每「多用」一個小時,裡面燈泡會壞幾顆。因為廠商若知道機台用多久裡面燈泡就會壞掉、壞多少顆,那就可以超前部屬,提前預備維護。

 

為此,我們首先觀察「多運轉一小時會壞幾顆燈」的歷史分布,透過有限小資料去推測與檢測它長期累積大樣本後,可能會是什麼分布 / 變化規則 (想法:我們認為這個資料背後有一個更大的變化規則能夠代表它)。

 

推測出來後,我們按照此分布反覆抽樣N次,就推知機台多運轉N小時會多壞幾顆燈了。而這招背後的思路正是統計推論 (statistical inference),精準預測的前提是,未來所發生的可能性要符合我們「推估」出來的那個分布。礙於一些原因,這個案例我無法再透漏更多細節

 

    二、抽樣與模擬

統計經常用於模擬 (simulation),這屬於開場提到的「作業研究」 (Operation Research) 的一環,也是我很喜歡的領域。模擬顧名思義,就是建立一個小世界,經由你根據變數之間的互動、流程與時間差,所建立出來的一個真實世界。目的是為了在不確定性中找到最優解。



想像一個物流歷程的模擬,上圖顯示貨品進到倉儲後,經歷一系列處理流程:25%機率到old中心,75%進new中心。Old中心裡貨品會排隊,準備裝貨和包貨;new中心就複雜一點,貨品有一定機率是冷凍、冷藏或常溫,不同情況要配置不同數量的工人以及工時。

 

在這個模擬當中,我結論是模擬出只要18工人,就可以處理最多的貨品,並使成本達到最小。這例子用到的統計分布非常簡單,例如[0.25, 0.75]兩種貨品可能流向,現實的分布經常不那麼單純。但至少能看出,模型中每個環節帶有一些不確定性,最後模擬出來的結果就有許多可能。

 

這個模擬世界,變數之間的關係、參數設定以及統計量,都要力求符合真實狀況,以讓我們使用算法解出最優結果。這經常用於解決環境中動線效率、成本最小/利潤極大化的問題。這些在醫院、工廠或是交通運輸都很常見。關於此例的細節與更多模擬範例,可看我在英國做的這篇小研究

 

|小結

不知不覺就寫了這麼多,結論是 (1) 統計學跟AI有求同存異,但共榮共存的關係,(2) 同時也是我們進行量化分析、解釋、模擬還有預測的重要工具。我們除了介紹觀念,更透過計量經濟/總體經濟、財務金融還有作業研究的實例,看到統計學的應用場景與真實價值。

 

這篇文寫作目的,是希望拓展大家對統計的理解跟應用場景的想像。統計在AI中的應用,今天只有一段帶過。其實這部分不只重要,在我看來既skillful又很技術性的,之後有機會再有系統地介紹看看。

13會員
13內容數
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
留言0
查看全部
發表第一個留言支持創作者!
Darren的沙龍 的其他內容
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
你可能也想看
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
AI狗语翻译器、谷歌发布语音AI:traini的团队下了大功夫,他们邀请了宠物行为学专家,一起翻译狗狗的各种表情、行为和叫声,建立了一套宠物语义系统。 可以确认AI狗语翻译器的开发团队确实下了大功夫,并且他们邀请了宠物行为学专家,一起翻译狗狗的各种表情、行为和叫声,建立了一套宠物语义系统。这一过程
在今年的COMPUTEX展前演講中,Nvidia的首席執行官黃仁勳宣布了一個令人震驚的消息:Nvidia將從2025年開始每年更新其AI芯片。這一舉動無疑預示著一場新的工業革命正式拉開了序幕。
Thumbnail
本文揭示當前工業領域的一場無聲革命:智慧製造。在引言中,我們探討了智慧製造如何開啟生產力新紀元,隨後深入分析大數據如何加速生產過程中的創新與效率,成為本次革命的核心動力。從學術研究到現實應用,本文探討了智慧製造領域的發展脈絡,以及學界與業界共同推進的不可逆轉動能。
Thumbnail
Chatlize.ai 是由一名生物資訊學者 Steven Xijin Ge 所做,透過簡易的介面可以讓使用者輕鬆透過指令(prompt)的方式就可以輕鬆處理數據。結果不僅會直接提供程式原始碼、並執行,若有視覺化需求,它也會幫你完整視覺化。
Thumbnail
親愛的讀者朋友們, 大家好!近年來,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是在科技、醫療、教育還是藝術領域,AI的應用無處不在。在這篇文章中,我們將帶您深入探索AI引領下的未來奇幻世界,揭示一個充滿可能性和挑戰的全新時代。 1. 創新的藝術革命:AI藝術家的誕生 從電影生成
Thumbnail
相信大家都知道AI這個話題現在到底是有多夯,前些日子的黃仁勳之亂相信大家還都記憶猶新。今天推薦一部影片主要是講述 AI、機器學習及深度學習的概念,內容簡明扼要並又帶點幽默元素,希望非理工背景的大家都可以初步了解 AI這個概念。
Thumbnail
在上篇文章中,我們已經提到了Notion作為一款功能強大的工作協作工具,以及它在幫助亞馬遜電商打造高效團隊和保持競爭優勢方面的重要作用。 在本文中,我們將繼續探討四個有效的技巧來幫助你的團隊打造高效工作模式,同時,我們也會向你展示Notion AI優化管理工作的強大效能,幫助你實現事半功倍的工作效率
Thumbnail
在這個科技日新月異的時代,人工智慧投資熱潮席捲全球,吸引了無數投資者的目光。然而,科博工作室馬博泰提醒大家,AI投資熱潮並不一定能帶來金錢收益,相較之下,賣鏟子十字鎬等傳統行業的收益更為穩定。那麼,投資者該如何看待AI投資熱潮呢?本文將從美國加州淘金熱的歷史出發,探討AI投資熱潮背後的真相。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
Thumbnail
廣告背後的惡意「潛伏者」,如點擊農場、惡意程式、仿真機器人所帶來的垃圾流量正在鯨吞蠶食行銷效益,為全球品牌與客戶帶來巨大威脅
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
AI狗语翻译器、谷歌发布语音AI:traini的团队下了大功夫,他们邀请了宠物行为学专家,一起翻译狗狗的各种表情、行为和叫声,建立了一套宠物语义系统。 可以确认AI狗语翻译器的开发团队确实下了大功夫,并且他们邀请了宠物行为学专家,一起翻译狗狗的各种表情、行为和叫声,建立了一套宠物语义系统。这一过程
在今年的COMPUTEX展前演講中,Nvidia的首席執行官黃仁勳宣布了一個令人震驚的消息:Nvidia將從2025年開始每年更新其AI芯片。這一舉動無疑預示著一場新的工業革命正式拉開了序幕。
Thumbnail
本文揭示當前工業領域的一場無聲革命:智慧製造。在引言中,我們探討了智慧製造如何開啟生產力新紀元,隨後深入分析大數據如何加速生產過程中的創新與效率,成為本次革命的核心動力。從學術研究到現實應用,本文探討了智慧製造領域的發展脈絡,以及學界與業界共同推進的不可逆轉動能。
Thumbnail
Chatlize.ai 是由一名生物資訊學者 Steven Xijin Ge 所做,透過簡易的介面可以讓使用者輕鬆透過指令(prompt)的方式就可以輕鬆處理數據。結果不僅會直接提供程式原始碼、並執行,若有視覺化需求,它也會幫你完整視覺化。
Thumbnail
親愛的讀者朋友們, 大家好!近年來,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是在科技、醫療、教育還是藝術領域,AI的應用無處不在。在這篇文章中,我們將帶您深入探索AI引領下的未來奇幻世界,揭示一個充滿可能性和挑戰的全新時代。 1. 創新的藝術革命:AI藝術家的誕生 從電影生成
Thumbnail
相信大家都知道AI這個話題現在到底是有多夯,前些日子的黃仁勳之亂相信大家還都記憶猶新。今天推薦一部影片主要是講述 AI、機器學習及深度學習的概念,內容簡明扼要並又帶點幽默元素,希望非理工背景的大家都可以初步了解 AI這個概念。
Thumbnail
在上篇文章中,我們已經提到了Notion作為一款功能強大的工作協作工具,以及它在幫助亞馬遜電商打造高效團隊和保持競爭優勢方面的重要作用。 在本文中,我們將繼續探討四個有效的技巧來幫助你的團隊打造高效工作模式,同時,我們也會向你展示Notion AI優化管理工作的強大效能,幫助你實現事半功倍的工作效率
Thumbnail
在這個科技日新月異的時代,人工智慧投資熱潮席捲全球,吸引了無數投資者的目光。然而,科博工作室馬博泰提醒大家,AI投資熱潮並不一定能帶來金錢收益,相較之下,賣鏟子十字鎬等傳統行業的收益更為穩定。那麼,投資者該如何看待AI投資熱潮呢?本文將從美國加州淘金熱的歷史出發,探討AI投資熱潮背後的真相。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
Thumbnail
廣告背後的惡意「潛伏者」,如點擊農場、惡意程式、仿真機器人所帶來的垃圾流量正在鯨吞蠶食行銷效益,為全球品牌與客戶帶來巨大威脅