統計急救箱─常態分布與假設檢定(上)

閱讀時間約 6 分鐘

  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。


結合抽樣分布與常態分布的機率特性

  先來想想「抽樣分布會成為常態」與「常態分布中的機率可以被計算出來」這兩件事情如何結合在一起,以及結合起來會發生什麼事?

  按照前面的慣例,我們還是先準備一個黑色大塑膠袋,裡面塞進去五顆0分球和五顆1分球。

  我們從袋子裡面隨機抽取n顆球出來(n小於10)並且計算得到的平均數,在重複做這件事情很多很多次之後,我們必然會得到一個常態的分布。這個分布稱為「抽樣分布 (sampling distribution)」。

根據中央極限定理,抽樣最終會得到常態分布

根據中央極限定理,抽樣最終會得到常態分布


  而又由於常態分布的特性,只要知道母體的平均數和標準差,就可以知道常態分布上任一點的發生機率。也就是說,在知道母體平均數和標準差的情況下,我們就可以推估這次抽樣得到的樣本平均數有多可能會發生。只不過實務上,我們更常會說的是推估「某個範圍之內」的平均數發生的機率有多高。

  例如對於母體平均數是0.5、標準差也是0.5的抽樣分布來說(也就是我們上面黑色塑膠袋裡的球),我隨便從裡面進行一次抽樣,在實際抽出來之前就可以知道有34.1%的機率會得到0~0.5之間的平均數。

知道母體平均和標準差,就可以計算某個範圍內抽樣平均數的發生機率

知道母體平均和標準差,就可以計算某個範圍內抽樣平均數的發生機率


  所以說,只要知道母體平均數和標準差,在抽樣之前我們其實就能輕鬆猜測這次的抽樣平均數會有多少機率落在某個範圍之內了。而這就是假設檢定的基礎。


從樣本推論母體的困難

  前面講這些抽樣分布和機率的時候,都有一個預設前提是我們知道大塑膠袋裡的球長成什麼樣。但這其實並不太符合實際情況...在現實生活中,更多時候我們根本不知道袋子裡的球有幾顆、每一種顏色的球有幾個。如果抽獎前你去問主辦單位,他們也很可能不會告訴你(通常他們只會跟你講最大獎有什麼來吸引你當分母...啊不是,我是說去抽獎)。

現實生活中,我們通常不知道母體是什麼樣子

現實生活中,我們通常不知道母體是什麼樣子


  如果我們很直觀的要問一個推論的問題,就會是:經過抽樣得到的樣本平均是M,那母體平均是多少?例如上圖,我從袋子裡抽出四顆球,得到平均數是1,那袋子裡面所有的球平均數(母體平均)是多少?

如果直觀的要推 論,會問出這樣的問題

如果直觀的要推 論,會問出這樣的問題


  這個問題是很難回答的,因為答案是不管母體長成怎樣,只要袋子裡面的1分球超過四顆,我們都有機會得到這種結果。就算說袋子裡面總共有100顆球,只有四顆球是1分,都不能說我們得到這個樣本的機率等於0對吧?也就是說,只靠這些資訊要推估母體的平均數,根本可以說有無限種可能性,完全沒辦法估計。

  那我們該怎麼辦呢?難道真的沒有辦法知道袋子裡的球是什麼樣子了嗎?


不知道母體平均數,我們就先假設一個

  奇怪,前面講抽樣分布的時候,好像推出個常態分布就覺得萬事OK,每一種可能性的機率都能算出來的樣子。但真實的數據我們卻沒辦法做到,是為什麼?

  答案是:因為我們從來就不知道母體的平均數和標準差是多少

  要像文章最開始講的那樣去推估每次抽樣有多少機率會落在哪個範圍之間,我們就必須要知道母體平均數和母體標準差。然而在現實中我們根本就不知道這兩個東西。畢竟我們就是想推估母體平均數是多少嘛...要是知道了幹嘛還需要推估啊。

  不過聰明的統計學家們就想到一個辦法:不知道平均數沒關係,我們「假設」出一個平均數就好了嘛!

  這個時候,要推論母體平均數的問題就有了另一種問法:「假設」母體平均數為mu,那麼得到現在這個抽樣結果的機率是多高?

不知道母體平均?就先假設一個吧!

不知道母體平均?就先假設一個吧!


  由於知道了一個假設的母體平均數,這時候我們就可以畫出從這個母體中進行抽樣所得到的抽樣分布曲線了(如果你好奇沒有標準差怎麼畫抽樣分布,在這裡我們也先假設我們知道,但標準差的問題我們要到 統計急救箱─抽樣分布與標準誤 才會解決)。而一旦我們知道這個抽樣分布曲線,就可以大概知道這次抽樣中所得到的結果,發生機率有多高啦~

  例如在下圖,我們就是假設母體平均數為0.5,畫出了藍色的抽樣分布曲線。這條曲線的最高點(也就是中心點)就會放在母體平均數的位置,而曲線的寬度(抽樣分布的標準差)則由母體標準差和樣本數來決定

假設母體平均數為某個數,就能依此畫出抽樣分布曲線

假設母體平均數為某個數,就能依此畫出抽樣分布曲線


  那麼這個時候就如同文章一開始提到的那樣,我們可以從常態分布曲線來推估每個點的發生機率大概是多少了。而每一次的抽樣結果(抽樣後算出的平均數)都會是一個點,就是下圖中標記出的「觀察結果1」、「觀察結果2」這兩個位置。

  那麼我們要怎麼解讀這張圖呢?

  還記得用常態分布來推論機率,在實務上是推論「一個範圍」嗎?在下圖當中,就有兩個紅色的雙箭頭標示出了68%和95%的範圍。其意義是:「以現在的常態分布曲線為前提,在x軸當中進行任意一次抽樣,有68%的機率得到正負1個標準差之間的結果。」

  有時候,統計課本會用另一種方式描述:「以母體平均為mu,母體標準差為sigma的常態分布而言,在平均數加減兩個sigma的這段區間中包含了95%的資料。」其實是一樣的意思。

從常態分布曲線推估樣本發生的機率

從常態分布曲線推估樣本發生的機率


  現在來看觀察結果1的箭頭,我們要怎麼推估它的發生機率?方法是看它落在哪個區間之外、哪個區間之內。當觀察值(抽樣結果)落在某個區間之「外」的時候,它的發生機率是「小於」剩下的機率;當觀察值落在某個區間之「內」的時候,它的發生機率是「高於」剩下的機率。

  所以觀察結果1落在68%的區間之外,也就代表它發生的機率小於剩下的32%。然而,它又落在95%的區間之內,代表它發生的機會比剩下的5%機率更高。

在68%範圍外,發生機率小於剩下的32%

在68%範圍外,發生機率小於剩下的32%

在95%範圍內,表示發生機率大於剩下的5%

在95%範圍內,表示發生機率大於剩下的5%

因此,我們可以推估:「以母體平均數為mu,母體標準差為sigma畫出來的抽樣分布常態曲線,觀察結果1發生的機率介於5%到32%之間。」

  這樣的過程可以告訴我們一個很重要的資訊,就是:「以假設的母體平均數和標準差畫出來的抽樣分布而言,我們有多高的機會得到我們這次的抽樣結果?」

  在下一篇就會解釋要怎麼運用這個重要資訊來推論母體的平均數,也就是進行所謂的假設檢定囉!



  方格子的專題被整合在沙龍裡面了,還不太會設定沙龍這個東西呢...不過專題本身還存在就好了。



致謝

本文所用圖片當中的素材來自於https://www.flaticon.com,由juicy_fish創作。

46會員
30內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
  推論統計應該是讓很多人苦惱過的主題,這篇文的目標就是回答「到底推論統計是什麼?」這個問題。
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
統計檢定異常值的方法頗多,本文介紹的是小樣本極端值的Dixon檢定,本方法使用的限制為(a). 樣本數至少三個、(b). 樣本採自常態分配,檢定方法程序如下 : 將n個樣本由大而小依序排列,排列後為X(1)、X(2)、...、X(n),檢定統計量為
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
假設你有一串時間數列資料,資料時間長度可以是Tick、分鐘K,也可以是日K的等級,請問有甚麼方法可以評估是否為盤整盤 ?
Thumbnail
課本   統計最大的特色就在於每一個章節所學習到的知識點異常連貫,講白話就是,你從第一章學到的東西將會一路陪著你用到最後,而且中途的每一個章節還會持續不斷的將新的知識點疊加上去,因此只有其中一個章節掉了鏈子,統計學要學好是不可能的事!
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
統計檢定異常值的方法頗多,本文介紹的是小樣本極端值的Dixon檢定,本方法使用的限制為(a). 樣本數至少三個、(b). 樣本採自常態分配,檢定方法程序如下 : 將n個樣本由大而小依序排列,排列後為X(1)、X(2)、...、X(n),檢定統計量為
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
假設你有一串時間數列資料,資料時間長度可以是Tick、分鐘K,也可以是日K的等級,請問有甚麼方法可以評估是否為盤整盤 ?
Thumbnail
課本   統計最大的特色就在於每一個章節所學習到的知識點異常連貫,講白話就是,你從第一章學到的東西將會一路陪著你用到最後,而且中途的每一個章節還會持續不斷的將新的知識點疊加上去,因此只有其中一個章節掉了鏈子,統計學要學好是不可能的事!