統計急救箱─獨立樣本t檢定

更新 發佈閱讀 8 分鐘

  在介紹t檢定的原理以及上一篇討論如何應用t分數檢驗相關係數時,預設的群體都是一群。也就是說,只會有一個平均數,而我們要做的事情是檢驗那個平均數是否等於某個特定數值(這也是類似z檢定在做的事情)。

  不過在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。

  這篇文章就是要解釋t檢定應用在兩群數值上的原理。基於現在統計軟體已經相當方便,就不會提到技術上的細節了。


使用情境範例

  小R在一間電商公司的行銷團隊擔任客戶營運專員,某日團隊主管找大家開會。

主管:「小R,業務部最近談到一個新的商品要上架,品牌目標客群是20~39歲的輕熟齡族群,要我們這邊簡單出幾個可能的行銷方案給他們去提案。你幫我調一下會員數據,看一下這個年齡區間的月平均消費金額是多少,還有不同年齡層的消費力有沒有差。」

  於是小R把前一個月的數據從資料庫當中撈了出來,稍微計算以後發現20~29歲的月平均消費是4300元,而30~39歲的月平均消費是5000元,主管看了看以後問他:

「看起來30~39歲的月平均消費金額比20~29歲多一些,所以他們的消費力是比較高的對吧?」

  小R該怎麼回答這個問題呢?


兩群樣本─兩個母群

  乍聽之下會覺得這個問題有點奇怪,30~39歲的人月平均消費比20~29歲的人多700,那當然他們消費力是比較高的。但在統計的角度來說恐怕不見得是如此。

  由於並不是所有會員都會在上個月進行消費,換句話說也可以認為小R取得的數據是從總體會員(母群)當中進行抽樣的結果。因此最後主管的問題,問的其實是「在全體會員中,30~39歲的人均消費力是否大於20~29歲的人?」

  這顯然是個推論統計的問題。

  既然這篇以t檢定為標題,那當然就表示這是t檢定的守備範圍之內了。只不過為什麼t檢定可以拿來處理這問題呢?

  

  在統計急救箱─單樣本t檢定當中有提到t檢定的基礎邏輯,是「假設平均數為某個數,那我們現在觀察到的平均數出現的機率是多少?」如果出現的機率小於5%,我們就會認為有可能一開始假設的平均數並不正確,此時稱為機率達到顯著值,所以拒絕了一開始所假設的平均數。

  那在兩個群體的狀況裡,其實也可以使用類似的邏輯,不過我們要稍微做點變化。我們把t檢定的基礎邏輯拆解一下會得到下方兩個步驟:

  1. 先假設平均數為某個值
  2. 然後計算現在觀察到的值(也就是我們實際看到的數據)出現的可能性是多大?

以圖解來說就如下圖一樣

不知道這張圖出現幾次了,也許已經看得很煩XD

不知道這張圖出現幾次了,也許已經看得很煩XD


  那像現在我們要算兩群人的平均數有沒有差異的話要怎麼辦呢?既然有兩群樣本,那他們各自就會形成自己的抽樣分布。這個時候,虛無假設 (H0) 會是兩群母體的平均數相等,對立假設 (H1) 則是不相等。如果不記得虛無假設和對立假設是什麼的話,可以回頭參考統計急救箱─常態分布與假設檢定(下)喔。

兩群樣本會形成各自的抽樣分布

兩群樣本會形成各自的抽樣分布

這樣有兩個分布曲線耶,要怎麼計算顯著性呢?其實只比單一樣本t test多出一個步驟而已:

  1. 先把兩群分數的數值相減,成為一個差異分數 (就叫它D score吧!)
  2. 假設D score的平均值為0
  3. 然後計算現在觀察到的值(也就是我們實際看到的數據)出現的可能性有多大?


  原理滿單純的。既然虛無假設是兩個母體平均數相等,那其實也就是說──兩群母體的平均數相減會等於0。如果我們把這個相減的平均數視為某一種分數(可以叫它差異分數D score),這個D score的抽樣分布也會是個常態。現在問題就變成了:D score的母體平均數是否為0?哇哈哈,這不就變成單一樣本t test的問題了嗎~

  那麼原本單一樣本t test的圖形就會改成下面這樣:

差異分數的t test分布曲線,可以視為是單一樣本t test的一種

差異分數的t test分布曲線,可以視為是單一樣本t test的一種

  

  以上就是兩群獨立樣本t test的原理了,其實也不難對吧?至於計算的部分,就交給統計軟體吧。t test是很單純的統計方法,只要google一下無論是Excel、SPSS、R、JASP的教學應該都有,照做就行了。


效果量 (Cohen's d)

  雖然在檢定上可以把獨立樣本t test化約為單一樣本t test,不過獨立樣本t test還是多了一個重要的數值需要寫在報告裡,就是所謂的效果量 (effect size)

  效果量是什麼呢?簡單來說,效果量就是指這兩個群體的平均數大概是差了多少。以上面的範例來說,假如t test結果是年齡 (20~29歲 vs. 30~39歲) 不同,月平均消費額也不同,那麼效果量就是指「由年齡所造成的消費金額差異效果有多大?」如果這樣說有點抽象的話,下面的圖也許可以幫助我們了解效果量的概念。不過實際上的效果量的計算並不是直接拿平均數相減就好了喔!

效果量的「概念」是平均數的差異有多大

效果量的「概念」是平均數的差異有多大


  之所以會需要計算效果量,是因為t test只能告訴我們「兩群數值的母體平均數是否相等」。假如顯著的不同,t test也沒辦法告訴我們這個不相等到底是差了多少?所以這時候就會仰賴效果量來告訴我們差了多少囉~[*1]

  獨立樣本t test的效果量通常來說使用的是一種叫做Cohen's d的分數。由於常用的統計軟體如SPSS不一定會幫使用者計算這個分數 (最近比較新版的SPSS可以了,但舊版的SPSS還是不會算),所以最好的方法就是去找google大神啦!方法超簡單,只要在google搜尋裡面輸入關鍵字:cohen's d calculator,搜尋出來的結果隨便點一個進去都可以算。有些計算機還會很佛心地告訴你原理是什麼,甚至寫出Cohen's d的計算公式。只要知道公式,其實用紙筆都算得出來 [*2]。

  只不過算出來是一回事,Cohen's d要怎麼解讀呢?這裡給大家一個參考 (Kirk, 2014):

  • d在0.2以下是很弱的效果
  • d超過0.2到0.5是中等偏弱的效果
  • d超過0.5到0.8是中等偏強的效果
  • d超過0.8是很強的效果


以上就是獨立樣本t test的原理以及該計算的內容囉。



終於回來更新這裡了。最近比較少碰傳統統計,看到這些東西總有種奇妙的隔閡感......

其實獨立樣本t test的內容還沒完,不過內容已經有點長了。下回再補充獨立樣本t test的使用時機、前提假設以及相依樣本設計。

不知道有沒有機會在2024年結束t test的段落呢......



備註

[*1]: 很多初學者會有一個直覺以為p值的大小可以視為是效果量,但這是錯誤的喔!p = 0.001和p = 0.02都是顯著,可是千萬不要在報告中寫「因為p = 0.001所以非常顯著,表示效果很強。」這種句子。p值就只是機率,是一種根據當前觀察的資料所推估出來的數值,p值很小其實並不見得什麼特別的意義,就只是達到顯著水準而已,不要過度的解讀。

[*2]: 如果有買了《傻瓜也會跑統計》這本書的學生們,請記得這本書貼心的作者已經在裡面的電子附件放入Cohen's d計算器了,不需要再花力氣自己去搜尋啦~


參考資料:

Kirk, R. E. (2014). Experimental design: Procedures for the behavioral science (4th ed.). Sage.

留言
avatar-img
統計急救箱的沙龍
76會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/10/20
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
2024/10/20
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
2024/08/18
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
2024/08/18
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
市場經驗拉長之後,很多投資人都會遇到同一個問題:不是方向看錯,而是部位太集中個股,常常跟大趨勢脫節。 早年的台股環境,中小股非常吃香,反而權值股不動,但QE量化寬鬆後,特別是疫情之後,後疫情時代,鈔票大量在股市走動,這些大資金只能往權值股走,因此早年小P的策略偏向中小型個股,但近年AI興起,高技術
Thumbnail
市場經驗拉長之後,很多投資人都會遇到同一個問題:不是方向看錯,而是部位太集中個股,常常跟大趨勢脫節。 早年的台股環境,中小股非常吃香,反而權值股不動,但QE量化寬鬆後,特別是疫情之後,後疫情時代,鈔票大量在股市走動,這些大資金只能往權值股走,因此早年小P的策略偏向中小型個股,但近年AI興起,高技術
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
最近天氣特別炎熱, 如果今天你想出門搭訕, 你知道在西門北車信義還是中山哪個地點比較容易有收穫嗎? 你會怎麼做得知這個資訊呢?
Thumbnail
最近天氣特別炎熱, 如果今天你想出門搭訕, 你知道在西門北車信義還是中山哪個地點比較容易有收穫嗎? 你會怎麼做得知這個資訊呢?
Thumbnail
當樣本有所關聯時,就不能使用獨立樣本t檢定,而是需要使用相依樣本t檢定,本文檢定介紹使用時機,並教導如何使用SPSS進行相依樣本t檢定
Thumbnail
當樣本有所關聯時,就不能使用獨立樣本t檢定,而是需要使用相依樣本t檢定,本文檢定介紹使用時機,並教導如何使用SPSS進行相依樣本t檢定
Thumbnail
這是很多統計學初學者會有的疑惑。大部分的統計數據呈現,像是人口調查、民調等等,都會利用抽樣來推估真實值,並在抽樣的結果附近加上一段信賴區間,可以簡單理解為誤差範圍(如果涉及統計推論則會呈現 p 值)。那個範圍會有他對應的信心水準,但很多人將其理解為「真實值落在這個範圍內的機率」,然而這其實是錯誤的。
Thumbnail
這是很多統計學初學者會有的疑惑。大部分的統計數據呈現,像是人口調查、民調等等,都會利用抽樣來推估真實值,並在抽樣的結果附近加上一段信賴區間,可以簡單理解為誤差範圍(如果涉及統計推論則會呈現 p 值)。那個範圍會有他對應的信心水準,但很多人將其理解為「真實值落在這個範圍內的機率」,然而這其實是錯誤的。
Thumbnail
t檢定用於比較兩個平均數之間的差異。本文章會詳細介紹如何使用SPSS進行獨立樣本t檢定,並介紹如何詮釋統計報表。
Thumbnail
t檢定用於比較兩個平均數之間的差異。本文章會詳細介紹如何使用SPSS進行獨立樣本t檢定,並介紹如何詮釋統計報表。
Thumbnail
大家平常想到統計都感覺非常複雜難懂,也覺得好像只有研究才會用到,其實統計分析也能用在日常生活中,今天就用很簡單的統計,找自己的理想情人!
Thumbnail
大家平常想到統計都感覺非常複雜難懂,也覺得好像只有研究才會用到,其實統計分析也能用在日常生活中,今天就用很簡單的統計,找自己的理想情人!
Thumbnail
#67《聰明思考》(下):我們怎麼樣得出「客觀」結論?說到客觀資訊可定脫離不了實驗與實驗結果的解讀,而判斷這些事情正是數學中統計上在做的事!欸欸!等等!別看到數學就想關掉啊!要理解這些不需要用到艱澀的數學概念,我們只要理解它們可以用在怎麼樣的情境裡、如何避免偏誤解讀,就可以利用統計的想法來幫助我們!
Thumbnail
#67《聰明思考》(下):我們怎麼樣得出「客觀」結論?說到客觀資訊可定脫離不了實驗與實驗結果的解讀,而判斷這些事情正是數學中統計上在做的事!欸欸!等等!別看到數學就想關掉啊!要理解這些不需要用到艱澀的數學概念,我們只要理解它們可以用在怎麼樣的情境裡、如何避免偏誤解讀,就可以利用統計的想法來幫助我們!
Thumbnail
  上次談到幾項閱讀完《真確》後的心得,包括少子化與經濟無關、學生沒有比當年的我們爛、媒體識讀能力來自不斷學習、核能存廢問題、covid19疫苗在台施打死亡率問題、covid19不該叫武漢肺炎、責任政治的濫用、民粹議題等諸多台灣的社會現況(詳見讀《真確》—台灣社會議題的再思考(上)一文)。   這次
Thumbnail
  上次談到幾項閱讀完《真確》後的心得,包括少子化與經濟無關、學生沒有比當年的我們爛、媒體識讀能力來自不斷學習、核能存廢問題、covid19疫苗在台施打死亡率問題、covid19不該叫武漢肺炎、責任政治的濫用、民粹議題等諸多台灣的社會現況(詳見讀《真確》—台灣社會議題的再思考(上)一文)。   這次
Thumbnail
如果實驗設計或執行不良,要解釋實驗結果就可能出現很多可能。單純增加受試者數目,在數學上說得通,但可能對了解實際作用機值幫著不大。
Thumbnail
如果實驗設計或執行不良,要解釋實驗結果就可能出現很多可能。單純增加受試者數目,在數學上說得通,但可能對了解實際作用機值幫著不大。
Thumbnail
newsletter 02/23 on the chi-square test 請大家多多支持和鼓勵訂閱我的電子報:每一天的生活 Daily Michelle Good Evening! 大家晚上好!星期二,昨天第一天開學算是體力耗盡,用力過度,回到家都已經晚上九點十點了;不過因為和一位過年期間沒
Thumbnail
newsletter 02/23 on the chi-square test 請大家多多支持和鼓勵訂閱我的電子報:每一天的生活 Daily Michelle Good Evening! 大家晚上好!星期二,昨天第一天開學算是體力耗盡,用力過度,回到家都已經晚上九點十點了;不過因為和一位過年期間沒
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News