Essentially, all models are wrong, but some are useful.
還記得之前上課上到這個章節時,教授引用了統計學家George E. P. Box的這段話當作引言。什麼!?都還沒開始,你就跟我說等等要教的東西都是錯的?是的。舉個例子,捷運的路線圖,你應該不會去爭論說文湖線上中山國中站到松山機場站的距離和松山機場站到大直站的距離沒有按照實際比例畫吧,為什麼?因為對於搭捷運的旅客而言,這段距離有沒有按照比例畫其實沒有那麼重要,大家真正在乎的是中山國中的下一站是什麼,所以在“台北捷運圖”這個模型裡,只要呈現出站與站之間的相對位置,他就做到他該做的事情了。另一方面,如果模型真的可以做到跟真實世界一模一樣,那他還叫做模型嗎?這個就讓大家自行思考。
事實上,大家看待課本上的模型也是如此,有些人很在意模型跟真實世界的相同程度,然而世界如此錯綜複雜,又豈是一兩個模型可以描繪的呢? 很多時候我們連自己人生的問題都沒辦法說清楚了,更何況把一大群人綁在一起討論時情況會複雜很多。雖然有些學者引用量子力學的概念,並將其改成個體的行為無法預測,整體的行為比較容易預測,但即使如此我們依然很難把情況刻畫得很完整,還是希望大家把注意力放在模型提供的觀點就好。
函數:函數的英文叫做function,就很像是一部機器,你丟一個input進去,他會吐一個output出來,比如今天我們想要台北到台中的距離,這時我們會使用距離函數他的功能如下,我們就把台北、台中這兩點的座標丟進這部機器,他把這兩點的距離吐出來給你。(當然這只是很基礎的介紹,不過對於接下來內容的理解,這樣就夠了,如果將來有機會再出一篇專門介紹函數的各個面向。)
獨立事件:另外補充一下,獨立事件之前沒有介紹到,這是指兩件事情發生的機率不會互相影響,舉個例子,今天中樂透和明天下雨與否,兩者互為獨立事件,明天下雨的機率不會因為我中樂透而改變,中樂透的機率也不會因為明天有沒有下雨而改變。
隨機變數:隨機變數本身就是一個函數,功能是把事件轉換成數字,舉例,我投一個骰子,可能的結果有骰子轉到1、轉到2…,而隨機變數就是將其轉成123456,為什麼要將其轉成數字呢? 因為這樣才能借用數學工具。
定義域:機率函數的定義域是隨機變數的值域。
値域:隨機變數所對應的事件發生的機率,既然是機率,他就會介在0-1之間,而且總和必須為1。
在介紹機率函數之前,必須強調我們要仔細品味每個模型的背景故事,因為只有這樣,在生活中遇到類似場景時才得以運用。
Bernoulli trails:只有進行一次的實驗,而這個實驗只有兩種可能。舉個例子,投擲硬幣,投擲結果只有正面或反面兩種可能,中間的或然率是0 (會出現中間的只有少林足球)。
這樣的模型可以用在哪個地方呢? 比方說,抽獎,將1帶入,就可以得到中獎機率是p,將0帶入,就可以得到沒中獎的機率是1-p。當然,這只是個很簡單的例子,但我們可以把他繼續往下延伸。
Binomial:進行n獨立成敗,紀錄實驗成功了多少次。
舉個例子,投擲硬幣10次,出現5次正面的機率,算法就會是
像這樣擴展出來的模型,就能有較多的應用。比方說,如果我們想抽遊戲裡某個寶物的轉蛋,根據遊戲公司公布的中獎機率,我們可以知道每次的中獎機率,而每次轉的結果之間又是互相獨立的(在沒有考慮保底的情況下),因此我們就能算出10次全部都沒抽中的機率,依此類推我們也能算出20次、30次,那也就可以知道到底是遊戲公司公布的機率怪怪的,或是我自己臉黑。
Uniform:事件的每種可能結果機率都一樣 (如果你對前幾篇文章的內容還有印象,這是古典機率的算法)。
舉個例子,前面投擲硬幣正反兩面各為0.5, 或是投擲骰子, 骰子有6面, 每一面出現的機率各為六分之一。
Geometric:重複執行獨立成敗實驗,直到成功為止所需要的次數。
回到剛剛轉蛋的例子,如果我就是堅持要轉到某個角色,這個模型就可以幫助我們算出我轉到第100次才轉出來的機率,那就可以回推我硬要把他轉出來大概要準備多少錢。
Negative Binomial:重複執行獨立成敗實驗,直到成功r次所需要的次數。
接續剛剛轉蛋的例子,假如我不是只有一定要抽到,我還有幾個分身也一定要,或是我要轉出某個道具來合成裝備,這時候就可以利用這個模型。
現在來進行一下硬要找碴的環節。舉個例子,其實如果實驗次數夠多,我們會發現硬幣正反兩面出現的機率不是各半,另外,Binomial的要求還包含了每次實驗間彼此要互相獨立,而這其實是一個很嚴格的假設,以在街上發傳單為例,理論上來說每個人接受與否應該不會受其他人影響,所以他應該是獨立的,但換個角度想,在你發了一整天的傳單後面露疲態,這時你走向下一個人發出傳單,成功的機率就會下降很多,因此他就不是互相獨立的。
在這篇文章中我們首先提到了關於模型的看法,之後介紹了幾個常用的機率模型,然後示範了一下硬要去抓模型的細節會發生什麼事,雖然模型多少會有一些誤差,但只要模型可以表達出他想表達的觀點,然後算出來的結果不要差的太離譜,就可以為我們提供相當的幫助了。
最後,也請大家想想,哪個機率模型最常在你的日常生活中運轉呢?