上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
而既然有獨立的t test,是不是就表示會有不獨立的t test呢?沒錯,下一篇文章也會簡單介紹一下所謂的相依資料是什麼。
要了解使用獨立樣本t test的時機,需要先具備判斷變數類型的知識。不過這並不是什麼很難的東西,只要看過統計急救箱─變數與變數類型就能大概知道囉。
那麼在什麼狀況下我們應該使用獨立樣本t檢定呢?就是
當獨變項 (independent variable, IV) 為兩組的類別變數,且依變數 (deendent variable, DV) 為連續變數時,可以使用t test。
好吧,我知道這句話聽起來不像是人說的話,下面我用個白話點的版本說。
不過這裡要先補充一下,所謂的獨變數 (IV) 是指「被當作原因的變數」,也有人稱其為自變數、外生變數 [*1] 等。
有因,就會有果(就像咖啡因來自於咖啡果)。所謂的依變數(DV)就是指「被當作結果的變數」,也可以說是「受到獨變數影響而改變的變數」,也有人翻譯叫做應變數。
以上的說法是將t test放在因果關係的框架裡面思考,但其實統計學技術本身是不一定要預設因果關係的。所以可以用下面這個更白話點的方式來說明使用獨立樣本t test的時機:
當我們要了解兩群獨立數值的母體平均數是否相等的時候。
在上方分別用粗體、斜體跟底線標記出了關鍵的判斷條件。以下簡單舉幾個可以使用t test回答的研究問題:
諸如此類的問題,都是先描述了有兩群人(男生女生、付費免費會員、不同作者、不同學校等),然後詢問這些人在某個特定數值(容貌焦慮程度、年齡、詞頻、薪資等)上是否相等。
通常而言,社會科學領域的推論統計大部分都具有一些前提條件。這個前提條件的意思是,當資料不滿足某些條件時,使用這樣的分析技術可能得到不夠準確的結果 [*2]。獨立樣本t test也具有好幾個前提條件,以下分別列舉出來。
2024年要過完了,得逼自己有點產出XD。
[*1]: 就我個人的意見來說,我並不認為將獨變數和外生變數 (exogenous variable,或叫做外衍變數) 畫上等號是正確的。確實外生變數必然是獨變數,但有時候內生變數 (endogenous variable,或稱為內衍變數) 也可以當作獨變數。
[*2]: 通常來說所謂的「不精確的結果」,具體會體現在Type I error rate (第一類錯誤率) 和Type II error rate (第二類錯誤率) 上面。前者指的是「獨變數沒有效果但統計上誤以為有效」的機率,後者則是「獨變數有效果但統計上誤以為無效」的機率。這個寫下去是另一個大主題了,在這裡就先略過吧。
[*3]: 事實上獨立樣本t test到底要不要求母體服從常態,學者之間的看法並不完全一致。有些學者指出這可能是很複雜的情況,不僅僅是常態或不常態的問題,可能還要考慮偏態是偏向哪邊、樣本大小、是否符合變異數同質性等因素 (Havlicek & Peterson, 1974)。就結論來說,當然是母體符合常態的狀況下最沒問題。只不過在現實中,要得到一筆常態的資料真的是沒那麼容易見到的......
Havlicek, L. L., & Peterson, N. L. (1974). Robustness of the t test: A guide for researchers on effect of violations of assumptions. Psychological Reports, 34(3, Pt 2), 1095–1114. https://doi.org/10.2466/pr0.1974.34.3c.1095