統計急救箱─獨立樣本t檢定

更新於 發佈於 閱讀時間約 8 分鐘

  在介紹t檢定的原理以及上一篇討論如何應用t分數檢驗相關係數時,預設的群體都是一群。也就是說,只會有一個平均數,而我們要做的事情是檢驗那個平均數是否等於某個特定數值(這也是類似z檢定在做的事情)。

  不過在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。

  這篇文章就是要解釋t檢定應用在兩群數值上的原理。基於現在統計軟體已經相當方便,就不會提到技術上的細節了。


使用情境範例

  小R在一間電商公司的行銷團隊擔任客戶營運專員,某日團隊主管找大家開會。

主管:「小R,業務部最近談到一個新的商品要上架,品牌目標客群是20~39歲的輕熟齡族群,要我們這邊簡單出幾個可能的行銷方案給他們去提案。你幫我調一下會員數據,看一下這個年齡區間的月平均消費金額是多少,還有不同年齡層的消費力有沒有差。」

  於是小R把前一個月的數據從資料庫當中撈了出來,稍微計算以後發現20~29歲的月平均消費是4300元,而30~39歲的月平均消費是5000元,主管看了看以後問他:

「看起來30~39歲的月平均消費金額比20~29歲多一些,所以他們的消費力是比較高的對吧?」

  小R該怎麼回答這個問題呢?


兩群樣本─兩個母群

  乍聽之下會覺得這個問題有點奇怪,30~39歲的人月平均消費比20~29歲的人多700,那當然他們消費力是比較高的。但在統計的角度來說恐怕不見得是如此。

  由於並不是所有會員都會在上個月進行消費,換句話說也可以認為小R取得的數據是從總體會員(母群)當中進行抽樣的結果。因此最後主管的問題,問的其實是「在全體會員中,30~39歲的人均消費力是否大於20~29歲的人?」

  這顯然是個推論統計的問題。

  既然這篇以t檢定為標題,那當然就表示這是t檢定的守備範圍之內了。只不過為什麼t檢定可以拿來處理這問題呢?

  

  在統計急救箱─單樣本t檢定當中有提到t檢定的基礎邏輯,是「假設平均數為某個數,那我們現在觀察到的平均數出現的機率是多少?」如果出現的機率小於5%,我們就會認為有可能一開始假設的平均數並不正確,此時稱為機率達到顯著值,所以拒絕了一開始所假設的平均數。

  那在兩個群體的狀況裡,其實也可以使用類似的邏輯,不過我們要稍微做點變化。我們把t檢定的基礎邏輯拆解一下會得到下方兩個步驟:

  1. 先假設平均數為某個值
  2. 然後計算現在觀察到的值(也就是我們實際看到的數據)出現的可能性是多大?

以圖解來說就如下圖一樣

不知道這張圖出現幾次了,也許已經看得很煩XD

不知道這張圖出現幾次了,也許已經看得很煩XD


  那像現在我們要算兩群人的平均數有沒有差異的話要怎麼辦呢?既然有兩群樣本,那他們各自就會形成自己的抽樣分布。這個時候,虛無假設 (H0) 會是兩群母體的平均數相等,對立假設 (H1) 則是不相等。如果不記得虛無假設和對立假設是什麼的話,可以回頭參考統計急救箱─常態分布與假設檢定(下)喔。

兩群樣本會形成各自的抽樣分布

兩群樣本會形成各自的抽樣分布

這樣有兩個分布曲線耶,要怎麼計算顯著性呢?其實只比單一樣本t test多出一個步驟而已:

  1. 先把兩群分數的數值相減,成為一個差異分數 (就叫它D score吧!)
  2. 假設D score的平均值為0
  3. 然後計算現在觀察到的值(也就是我們實際看到的數據)出現的可能性有多大?


  原理滿單純的。既然虛無假設是兩個母體平均數相等,那其實也就是說──兩群母體的平均數相減會等於0。如果我們把這個相減的平均數視為某一種分數(可以叫它差異分數D score),這個D score的抽樣分布也會是個常態。現在問題就變成了:D score的母體平均數是否為0?哇哈哈,這不就變成單一樣本t test的問題了嗎~

  那麼原本單一樣本t test的圖形就會改成下面這樣:

差異分數的t test分布曲線,可以視為是單一樣本t test的一種

差異分數的t test分布曲線,可以視為是單一樣本t test的一種

  

  以上就是兩群獨立樣本t test的原理了,其實也不難對吧?至於計算的部分,就交給統計軟體吧。t test是很單純的統計方法,只要google一下無論是Excel、SPSS、R、JASP的教學應該都有,照做就行了。


效果量 (Cohen's d)

  雖然在檢定上可以把獨立樣本t test化約為單一樣本t test,不過獨立樣本t test還是多了一個重要的數值需要寫在報告裡,就是所謂的效果量 (effect size)

  效果量是什麼呢?簡單來說,效果量就是指這兩個群體的平均數大概是差了多少。以上面的範例來說,假如t test結果是年齡 (20~29歲 vs. 30~39歲) 不同,月平均消費額也不同,那麼效果量就是指「由年齡所造成的消費金額差異效果有多大?」如果這樣說有點抽象的話,下面的圖也許可以幫助我們了解效果量的概念。不過實際上的效果量的計算並不是直接拿平均數相減就好了喔!

效果量的「概念」是平均數的差異有多大

效果量的「概念」是平均數的差異有多大


  之所以會需要計算效果量,是因為t test只能告訴我們「兩群數值的母體平均數是否相等」。假如顯著的不同,t test也沒辦法告訴我們這個不相等到底是差了多少?所以這時候就會仰賴效果量來告訴我們差了多少囉~[*1]

  獨立樣本t test的效果量通常來說使用的是一種叫做Cohen's d的分數。由於常用的統計軟體如SPSS不一定會幫使用者計算這個分數 (最近比較新版的SPSS可以了,但舊版的SPSS還是不會算),所以最好的方法就是去找google大神啦!方法超簡單,只要在google搜尋裡面輸入關鍵字:cohen's d calculator,搜尋出來的結果隨便點一個進去都可以算。有些計算機還會很佛心地告訴你原理是什麼,甚至寫出Cohen's d的計算公式。只要知道公式,其實用紙筆都算得出來 [*2]。

  只不過算出來是一回事,Cohen's d要怎麼解讀呢?這裡給大家一個參考 (Kirk, 2014):

  • d在0.2以下是很弱的效果
  • d超過0.2到0.5是中等偏弱的效果
  • d超過0.5到0.8是中等偏強的效果
  • d超過0.8是很強的效果


以上就是獨立樣本t test的原理以及該計算的內容囉。



終於回來更新這裡了。最近比較少碰傳統統計,看到這些東西總有種奇妙的隔閡感......

其實獨立樣本t test的內容還沒完,不過內容已經有點長了。下回再補充獨立樣本t test的使用時機、前提假設以及相依樣本設計。

不知道有沒有機會在2024年結束t test的段落呢......



備註

[*1]: 很多初學者會有一個直覺以為p值的大小可以視為是效果量,但這是錯誤的喔!p = 0.001和p = 0.02都是顯著,可是千萬不要在報告中寫「因為p = 0.001所以非常顯著,表示效果很強。」這種句子。p值就只是機率,是一種根據當前觀察的資料所推估出來的數值,p值很小其實並不見得什麼特別的意義,就只是達到顯著水準而已,不要過度的解讀。

[*2]: 如果有買了《傻瓜也會跑統計》這本書的學生們,請記得這本書貼心的作者已經在裡面的電子附件放入Cohen's d計算器了,不需要再花力氣自己去搜尋啦~


參考資料:

Kirk, R. E. (2014). Experimental design: Procedures for the behavioral science (4th ed.). Sage.

avatar-img
52會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
你可能也想看
Google News 追蹤
Thumbnail
最近國泰世華CUBE App推出的「美股定期定額」功能,讓使用者可以方便地進行跨境理財(但讀者仍需根據自身需求審慎考量),除了享有美股定期定額的新功能,也同時享有台股定期定額的功能,可以一站滿足我們理財的需求! 透過國泰世華CUBE App線上開台股證券戶+複委託戶,流程最快僅需要5分鐘。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在 2024 年 7 月底,GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具,是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂,再另外附上了一份 15 頁的說明文件。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
最近國泰世華CUBE App推出的「美股定期定額」功能,讓使用者可以方便地進行跨境理財(但讀者仍需根據自身需求審慎考量),除了享有美股定期定額的新功能,也同時享有台股定期定額的功能,可以一站滿足我們理財的需求! 透過國泰世華CUBE App線上開台股證券戶+複委託戶,流程最快僅需要5分鐘。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在 2024 年 7 月底,GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具,是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂,再另外附上了一份 15 頁的說明文件。
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」