機率密度函數

更新於 發佈於 閱讀時間約 6 分鐘

今天來聊點較無聊, 不用說你也都會, 但不說也不會注意到的細節。這樣的內容較生硬, 在生活中也較少用到, 但在考試時不小心寫錯絕對會被撇掉, 在跟數學家溝通時不小心誤用, 對方絕對會跳針, 跳針, 再跳針。

擲骰子 vs 量身高

前面的文章中, 我們有提過定義域的概念, 在機率的世界裡, 機率函數的定義域就是所有可能發生的情況, 透過隨機變數轉成的數字, 全部綁在一起叫做定義域。比方說, 我們投擲一個硬幣, 結果可能會出現正面或反面, 透過隨機變數分別將其轉成0或1, 因此投擲硬幣的機率函數定義域就是0和1, 根據機率的基本性質, 這兩個點的機率加起來必須要等於1。同理擲骰子時, 可能出現的點數為1~6, 因此擲骰子的機率函數定義域就是123456,這六個點的機率加起來必須要等於1。這樣的定義方式雖然很直觀, 卻並非毫無破綻, 舉個例子: 身高。現實生活中應該沒有人會問你說: 今天我到台北車站隨機抽一個人, 他的身高是172公分的機率是多少吧! 而是會說: 今天我到台北車站隨機抽一個人, 他的身高介於170-175公分之間的機率是多少?

差在哪裡?

為什麼呢? 因為在問身高時, 我們其實並不會太在意對方身高的精確值到底是多少, 而是差不多就好, 畢竟我們也不會無聊到真的帶一台量身高的儀器, 上街幫路人做健康檢查。如果從較嚴謹的角度來看, 雖然理由並非如此, 但這麼做依然是對的, 還有這麼做也是不得已的。試想, 假設今天你找到一個路人, 他身高是172公分的機率是0.05, 那他身高是172.1的機率呢? 172.33呢? 172.3535呢? 只要我一直往小數點後追問, 機率就要一直下修, 直到全部都是0 (雖然我們平常報身高頂多報到小數點後一位, 但那不代表我的身高就是這樣, 會這樣報除了儀器本身的測量極限外, 也因為再多加幾位小數點, 報的更精準一點意義也不大)。

眼尖的觀眾可以看出其中的差別, 因為身高是連續的, 擲銅板或骰子是的情況是離散的, 並不是因為身高有171, 172, 173… 比較多種, 所以我可以不斷地往下去切得更細, 才會造成每個身高的機率值都是0。那如果想說的嚴謹一點, 我們會怎麼說呢? 機率密度, 這個密度就取材於物理課本中密度的概念。我們都知道質量等於密度乘上體積, 但當我們把一塊木頭切得很小很小, 讓他體積變成0的時候, 他的質量就變成0了, 但他的密度還在, 所以我們可以改從密度的角度來了解他 (註:當這塊木頭的質量不是平均散布在每個地方的時候, 我們切出來的每一小片密度並不會相同)。

除了密度之外, 我們還能怎麼說呢? 如果每次跟別人交流, 我都要講這麼一長串很累耶, 而且機率的觀念對我來說比較直觀, 機率密度相較之下比較不直覺。有的, 答案就是不要切的那麼細, 只要讓木頭保留一點點體積, 他就有質量了, 機率的部分也是如此, 只要我們不要只聊一個數字, 而是從區間來談這件事, 他就會變回機率了。但其實就算大家不知道這些東西, 一般也會使用正確的用詞, 比方說: 這個是常態分配, 我們從平均值往外加減兩個標準差, 百分之九十五的人都會落在這個區間。除了身高外, 體重, 時間等, 只要你可以無限細分尺度的東西, 都是同一個道理。

 

在這裡會有兩個需要較多數學基礎才能理解的問題, 第一, 每個點機率都是0那一堆0加在一起怎麼就有機率了呢? 第二, 如果每個點的機率都是0, 那我從0到1之間隨便選一個數, 我總會選到一個吧, 但他被選到的機率是0欸, 這又是怎麼一回是呢? 這就留給大家如果有興趣的話自行研究啦!

Binomial 分配的極致

在上篇文章中, 我們有提過Binomial機率模型, 這個模型的故事是我投擲一個硬幣5次, 出現正面的次數有幾次。那如果我多投一點, 投個10次, 100次, 1000次, 或是再更多呢? 這時候我們會發現每個數字出現的機率開始越來越低, 與此同時, 二項分配也會漸漸趨於常態分佈, 只要n足夠大, 他就會趨近於期望值是np, 變異數是np(1-p)的常態分配。

但這時候會有一個問題, 二項分配中的期望值為np (投擲次數乘上機率), 而p是固定的, 當n放大到無限時, np就會放大到無限, 此時, 若我們將這個n是無限大的二項分布, 拿常態分配套上去時, 就會遇到一個問題, 期望值不知道要放多少, 標準差也不知道要放多少, 那這時候我們該怎麼辦呢? 答案就是: 標準化, 我們將他減掉期望值, 除以標準差後, 就可以將他轉成標準常態 (這是根據中央極限定理, 而非常態近似, 操作的細節也需要一點數學基礎, 但這相對容易一點, 之後的文章裡應該會提到)。

舉例

Exponential: 在路邊等計程車的過程中, 假設平均每半小時經過一輛, 而你所需要等待的時間為X (分鐘), 此時X的機率密度函數為:

raw-image

其實大致上的架構跟之前離散時是一樣的, 只是必須將機率改成機率密度。

(連續型機率密度函數最經典的例子是常態分配, 但由於有太多東西可以談, 因此想另外開一個篇章)

這時如果我們想要知道關於機率的訊息, 就會將問題改為我需要等待超過15分鐘的機率是多少, 就會發現想把這個函數從0加到15需要做積分

raw-image

如果你不會積分或是懶得算的話, 建議使用wolframe alpha (在不要求計算過程的情況下, 這個軟體在網路上是免費資源, 為什麼提到計算過程呢? 這算是黑魔法的一部份, 請恕我不公開, 各位讀者自行領略, 或是如果未來我們有機會有私底下的接觸, 再偷偷告訴你)。

小結

今天的內容相較之下比較無趣, 我們介紹了機率密度函數與機率函數的差別 (也有些教材會將機率函數稱為機率質量函數, 對應文中密度與質量的說法), 希望大家之後不幸遇到會在這個點上跳針的人時, 就多體諒他們一些吧, 畢竟這些人從小就是被這樣訓練的。此外, 我們提供了一個簡單的範例, 也埋下了許多坑, 不過今天就先這樣吧, 我們下篇文章見。

留言
avatar-img
留言分享你的想法!
avatar-img
MC 統計的沙龍
2會員
8內容數
MC 統計的沙龍的其他內容
2023/08/06
在前面的文章裡, 我們談了很多機率的概念, 今天我們來聊聊統計學裡最基礎的研究方法: 迴歸分析。
Thumbnail
2023/08/06
在前面的文章裡, 我們談了很多機率的概念, 今天我們來聊聊統計學裡最基礎的研究方法: 迴歸分析。
Thumbnail
2023/07/23
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
Thumbnail
2023/07/23
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
Thumbnail
2023/07/16
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
Thumbnail
2023/07/16
上一篇文章中, 我們向大家介紹了點估計, 提出了許多點估計會有的問題, 也給出了一些其他的替代方案, 今天我們將會從資料分散程度的角度切入, 跟大家分享另外一種做法。
Thumbnail
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
Thumbnail
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
Thumbnail
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
Thumbnail
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
Thumbnail
今天來聊點較無聊, 不用說你也都會, 但不說也不會注意到的細節。這樣的內容較生硬, 在生活中也較少用到, 但在考試時不小心寫錯絕對會被撇掉, 在跟數學家溝通時不小心誤用, 對方絕對會跳針, 跳針, 再跳針。
Thumbnail
今天來聊點較無聊, 不用說你也都會, 但不說也不會注意到的細節。這樣的內容較生硬, 在生活中也較少用到, 但在考試時不小心寫錯絕對會被撇掉, 在跟數學家溝通時不小心誤用, 對方絕對會跳針, 跳針, 再跳針。
Thumbnail
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
Thumbnail
Essentially, all models are wrong, but some are useful. 既然模型都是錯的,那我們還學這些要幹嘛呢?
Thumbnail
最後的統計機率,以及立體圖形,這大概是國中感到最輕鬆的章節。話是這麼說,因為學生到此通常都煮熟了,要死要活都定案,才感到沒差。筆者在這裡,只會針對一些常見的錯誤釐清,其他就不多說,國三這邊真的只是蜻蜓點水。圖形那邊則稍微提一下,立體概念照理說都有,還沒有的硬補也不行,不如回去先看小學高年級課程。
Thumbnail
最後的統計機率,以及立體圖形,這大概是國中感到最輕鬆的章節。話是這麼說,因為學生到此通常都煮熟了,要死要活都定案,才感到沒差。筆者在這裡,只會針對一些常見的錯誤釐清,其他就不多說,國三這邊真的只是蜻蜓點水。圖形那邊則稍微提一下,立體概念照理說都有,還沒有的硬補也不行,不如回去先看小學高年級課程。
Thumbnail
筆者只能說,沒有一致性的辦法,若以本篇著重在中段學生的狀況,過去的習慣,對成績最有效的辦法,是刷題目。但不是盲刷,是依照程度不同,自己要製作學習單,一次就針對一個小節,給個十題八題就好,讓中等程度的學生快速抓到這個題型的概念,跟大致切入的角度。
Thumbnail
筆者只能說,沒有一致性的辦法,若以本篇著重在中段學生的狀況,過去的習慣,對成績最有效的辦法,是刷題目。但不是盲刷,是依照程度不同,自己要製作學習單,一次就針對一個小節,給個十題八題就好,讓中等程度的學生快速抓到這個題型的概念,跟大致切入的角度。
Thumbnail
我們常常對習以為常的名詞,忽略了背後簡單的數學概念,其實只要在生活中每一處,都把這些小地方補足,學生會很快抓到這些抽象的數學意義。
Thumbnail
我們常常對習以為常的名詞,忽略了背後簡單的數學概念,其實只要在生活中每一處,都把這些小地方補足,學生會很快抓到這些抽象的數學意義。
Thumbnail
  至今為止,本文都使用代數的方式來討論微分,並以生活、科學中的瞬間變化率,如:速度等,對微分的定義做出詮釋。這一系列主題文章「函數微分的幾何意義」將分多集探討,用幾何角度來了解函數微分。本文章第一集將先引入代數和幾何的觀念;在概略介紹函數的圖形定義。
Thumbnail
  至今為止,本文都使用代數的方式來討論微分,並以生活、科學中的瞬間變化率,如:速度等,對微分的定義做出詮釋。這一系列主題文章「函數微分的幾何意義」將分多集探討,用幾何角度來了解函數微分。本文章第一集將先引入代數和幾何的觀念;在概略介紹函數的圖形定義。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News