機率密度函數

更新於 發佈於 閱讀時間約 6 分鐘

今天來聊點較無聊, 不用說你也都會, 但不說也不會注意到的細節。這樣的內容較生硬, 在生活中也較少用到, 但在考試時不小心寫錯絕對會被撇掉, 在跟數學家溝通時不小心誤用, 對方絕對會跳針, 跳針, 再跳針。

擲骰子 vs 量身高

前面的文章中, 我們有提過定義域的概念, 在機率的世界裡, 機率函數的定義域就是所有可能發生的情況, 透過隨機變數轉成的數字, 全部綁在一起叫做定義域。比方說, 我們投擲一個硬幣, 結果可能會出現正面或反面, 透過隨機變數分別將其轉成0或1, 因此投擲硬幣的機率函數定義域就是0和1, 根據機率的基本性質, 這兩個點的機率加起來必須要等於1。同理擲骰子時, 可能出現的點數為1~6, 因此擲骰子的機率函數定義域就是123456,這六個點的機率加起來必須要等於1。這樣的定義方式雖然很直觀, 卻並非毫無破綻, 舉個例子: 身高。現實生活中應該沒有人會問你說: 今天我到台北車站隨機抽一個人, 他的身高是172公分的機率是多少吧! 而是會說: 今天我到台北車站隨機抽一個人, 他的身高介於170-175公分之間的機率是多少?

差在哪裡?

為什麼呢? 因為在問身高時, 我們其實並不會太在意對方身高的精確值到底是多少, 而是差不多就好, 畢竟我們也不會無聊到真的帶一台量身高的儀器, 上街幫路人做健康檢查。如果從較嚴謹的角度來看, 雖然理由並非如此, 但這麼做依然是對的, 還有這麼做也是不得已的。試想, 假設今天你找到一個路人, 他身高是172公分的機率是0.05, 那他身高是172.1的機率呢? 172.33呢? 172.3535呢? 只要我一直往小數點後追問, 機率就要一直下修, 直到全部都是0 (雖然我們平常報身高頂多報到小數點後一位, 但那不代表我的身高就是這樣, 會這樣報除了儀器本身的測量極限外, 也因為再多加幾位小數點, 報的更精準一點意義也不大)。

眼尖的觀眾可以看出其中的差別, 因為身高是連續的, 擲銅板或骰子是的情況是離散的, 並不是因為身高有171, 172, 173… 比較多種, 所以我可以不斷地往下去切得更細, 才會造成每個身高的機率值都是0。那如果想說的嚴謹一點, 我們會怎麼說呢? 機率密度, 這個密度就取材於物理課本中密度的概念。我們都知道質量等於密度乘上體積, 但當我們把一塊木頭切得很小很小, 讓他體積變成0的時候, 他的質量就變成0了, 但他的密度還在, 所以我們可以改從密度的角度來了解他 (註:當這塊木頭的質量不是平均散布在每個地方的時候, 我們切出來的每一小片密度並不會相同)。

除了密度之外, 我們還能怎麼說呢? 如果每次跟別人交流, 我都要講這麼一長串很累耶, 而且機率的觀念對我來說比較直觀, 機率密度相較之下比較不直覺。有的, 答案就是不要切的那麼細, 只要讓木頭保留一點點體積, 他就有質量了, 機率的部分也是如此, 只要我們不要只聊一個數字, 而是從區間來談這件事, 他就會變回機率了。但其實就算大家不知道這些東西, 一般也會使用正確的用詞, 比方說: 這個是常態分配, 我們從平均值往外加減兩個標準差, 百分之九十五的人都會落在這個區間。除了身高外, 體重, 時間等, 只要你可以無限細分尺度的東西, 都是同一個道理。

 

在這裡會有兩個需要較多數學基礎才能理解的問題, 第一, 每個點機率都是0那一堆0加在一起怎麼就有機率了呢? 第二, 如果每個點的機率都是0, 那我從0到1之間隨便選一個數, 我總會選到一個吧, 但他被選到的機率是0欸, 這又是怎麼一回是呢? 這就留給大家如果有興趣的話自行研究啦!

Binomial 分配的極致

在上篇文章中, 我們有提過Binomial機率模型, 這個模型的故事是我投擲一個硬幣5次, 出現正面的次數有幾次。那如果我多投一點, 投個10次, 100次, 1000次, 或是再更多呢? 這時候我們會發現每個數字出現的機率開始越來越低, 與此同時, 二項分配也會漸漸趨於常態分佈, 只要n足夠大, 他就會趨近於期望值是np, 變異數是np(1-p)的常態分配。

但這時候會有一個問題, 二項分配中的期望值為np (投擲次數乘上機率), 而p是固定的, 當n放大到無限時, np就會放大到無限, 此時, 若我們將這個n是無限大的二項分布, 拿常態分配套上去時, 就會遇到一個問題, 期望值不知道要放多少, 標準差也不知道要放多少, 那這時候我們該怎麼辦呢? 答案就是: 標準化, 我們將他減掉期望值, 除以標準差後, 就可以將他轉成標準常態 (這是根據中央極限定理, 而非常態近似, 操作的細節也需要一點數學基礎, 但這相對容易一點, 之後的文章裡應該會提到)。

舉例

Exponential: 在路邊等計程車的過程中, 假設平均每半小時經過一輛, 而你所需要等待的時間為X (分鐘), 此時X的機率密度函數為:

raw-image

其實大致上的架構跟之前離散時是一樣的, 只是必須將機率改成機率密度。

(連續型機率密度函數最經典的例子是常態分配, 但由於有太多東西可以談, 因此想另外開一個篇章)

這時如果我們想要知道關於機率的訊息, 就會將問題改為我需要等待超過15分鐘的機率是多少, 就會發現想把這個函數從0加到15需要做積分

raw-image

如果你不會積分或是懶得算的話, 建議使用wolframe alpha (在不要求計算過程的情況下, 這個軟體在網路上是免費資源, 為什麼提到計算過程呢? 這算是黑魔法的一部份, 請恕我不公開, 各位讀者自行領略, 或是如果未來我們有機會有私底下的接觸, 再偷偷告訴你)。

小結

今天的內容相較之下比較無趣, 我們介紹了機率密度函數與機率函數的差別 (也有些教材會將機率函數稱為機率質量函數, 對應文中密度與質量的說法), 希望大家之後不幸遇到會在這個點上跳針的人時, 就多體諒他們一些吧, 畢竟這些人從小就是被這樣訓練的。此外, 我們提供了一個簡單的範例, 也埋下了許多坑, 不過今天就先這樣吧, 我們下篇文章見。

avatar-img
2會員
8內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
MC 統計的沙龍 的其他內容
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
最近天氣特別炎熱, 如果今天你想出門搭訕, 你知道在西門北車信義還是中山哪個地點比較容易有收穫嗎? 你會怎麼做得知這個資訊呢?
在徐志摩《西湖記》中, 描述了事物因為數量夠大, 所呈現的排列、規律、節奏之美。然而, 數大可不是只有美, 還能有許多妙用!
在上一篇中提到當我們面臨選擇時, 可以從期望值的角度, 思考自己的決策, 但這時候會碰到一個問題, 就是你的決策會趨向保守, 雖然能約束你不要做壞事, 但也可能害你錯失許多機會。該如何改善這樣的困境呢? 讓我們繼續看下去。
什麼是機率? 什麼是期望值? 這些跟我們的人生又有什麼關係呢?
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
最近天氣特別炎熱, 如果今天你想出門搭訕, 你知道在西門北車信義還是中山哪個地點比較容易有收穫嗎? 你會怎麼做得知這個資訊呢?
在徐志摩《西湖記》中, 描述了事物因為數量夠大, 所呈現的排列、規律、節奏之美。然而, 數大可不是只有美, 還能有許多妙用!
在上一篇中提到當我們面臨選擇時, 可以從期望值的角度, 思考自己的決策, 但這時候會碰到一個問題, 就是你的決策會趨向保守, 雖然能約束你不要做壞事, 但也可能害你錯失許多機會。該如何改善這樣的困境呢? 讓我們繼續看下去。
什麼是機率? 什麼是期望值? 這些跟我們的人生又有什麼關係呢?
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
4-1 機率的基本概念 「投擲一枚硬幣,若正面朝上,則可得到五千元奬金。」 「投擲一骰子,若猜中所擲出的點數,猜中了,即可得到奬金六萬元。」 「自1-42個數字,選出6組號碼,全部猜中,即可得到頭彩!」 若參加以上任一種遊戲,只要花費五十塊錢,那參加哪種遊戲,可以得到的報酬比較高呢? 投擲
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
在模擬自然界中的事物時導入隨機性,可以讓結果看起來比較自然,但如果導入的隨機性都是uniform distribution,那未免也太呆板了。這時候,我們需要nonuniform distribution亂數,來讓模擬出來的結果,更像真的一樣。
Thumbnail
「籤變少了,抽到獎的機率提高,所以要加價。」游否希對玩家說明的加價理由乍看之下似乎合理,但只要利用一個非常簡單,數學白痴如我都可以理解的機率概念,就可以戳破這個話術……
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
當你說出樂觀與保守的估計值後,一定有人會問落在這個範圍的機率為何?這時你可以根據過去統計資料來推算發生機率,沒有資料就用你自己的方法來推算發生的機率。 比如說:「 預估範為 200~500 萬,機率 90%,因為...,除此之外超出 500 萬機率是 8 %,低於 200 萬是 2 %。 」
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
4-1 機率的基本概念 「投擲一枚硬幣,若正面朝上,則可得到五千元奬金。」 「投擲一骰子,若猜中所擲出的點數,猜中了,即可得到奬金六萬元。」 「自1-42個數字,選出6組號碼,全部猜中,即可得到頭彩!」 若參加以上任一種遊戲,只要花費五十塊錢,那參加哪種遊戲,可以得到的報酬比較高呢? 投擲
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
在模擬自然界中的事物時導入隨機性,可以讓結果看起來比較自然,但如果導入的隨機性都是uniform distribution,那未免也太呆板了。這時候,我們需要nonuniform distribution亂數,來讓模擬出來的結果,更像真的一樣。
Thumbnail
「籤變少了,抽到獎的機率提高,所以要加價。」游否希對玩家說明的加價理由乍看之下似乎合理,但只要利用一個非常簡單,數學白痴如我都可以理解的機率概念,就可以戳破這個話術……
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
當你說出樂觀與保守的估計值後,一定有人會問落在這個範圍的機率為何?這時你可以根據過去統計資料來推算發生機率,沒有資料就用你自己的方法來推算發生的機率。 比如說:「 預估範為 200~500 萬,機率 90%,因為...,除此之外超出 500 萬機率是 8 %,低於 200 萬是 2 %。 」
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」