統計急救箱─相關係數的顯著性

Way

發佈於社會科學初心者的統計急救箱

更新於 2024/10/20發佈於 2024/10/20閱讀時間約 8 分鐘

　　根據我模糊的印象（才沒有，其實我是好好記著的），在統計急救箱─皮爾森相關這篇文章裡面的結尾，我提到在t檢定的段落要回來講講相關係數的顯著性這件事。

　　既然現在講完t檢定的基礎了，正好是時候來談談單樣本t檢定的重要用途之一：檢定相關係數的顯著性。

快速的回想一下皮爾森相關係數

　　因為前面已經有一篇專門介紹皮爾森相關係數的文章了，這邊就用非常快速的方式來暖個身，回想一下什麼是皮爾森相關係數。

皮爾森相關係數是用來探究兩個 連續變數 之間有多大線性關聯性的統計技術

　　上述這個解釋有三個大重點：

皮爾森相關係數可以處理的變數數量是兩個，不多不少的兩個。
這兩個變數必須要是連續變數，原則上不可以是類別變數或次序變數。
皮爾森相關係數描述的是線性關聯性，無法描繪非線性的關聯。

　　一般來說，要了解兩群數值之間的關聯性，最簡單的方法就是把其中一個變數當作X軸，另一個變數當作Y軸，然後把這些點全都描在圖上。如果兩個變數之間的關聯性高到一個程度，用肉眼就能看出來了（我自己的經驗是大概至少要中等相關以上才能看出來）。

　　皮爾森相關係數就是用數值的方式比較精細的計算兩個變數之間的關聯性。下圖的相關係數高達0.94，是非常高的相關，所以圖上的小人幾乎是站在一條直線上面了。

用散布圖 (scatter plot) 的方式觀察相關性

相關係數的統計檢定

　　在統計急救箱─皮爾森相關裡面有解釋相關係數的計算方式了，不過其實這沒有特別重要，因為現在都會用統計軟體計算了。總而言之，計算完之後會跑出一個績差相關值，也就是r值出來。

　　在當時只有介紹r值的方向 (正相關與負相關) 以及相關強弱的判定，現在則要從推論統計的角度回頭看一下相關係數。

為什麼相關係數要做「檢定」？

　　從推論統計的角度來說，如果我們所得到的資料是母體當中的樣本，那我們真正想知道的並不是我抽樣出來的數值長得怎樣，我們想知道的是母體可能長成什麼樣。

　　也就是說，在樣本裡面計算出變數X和變數Y的相關值，並不一定會符合用母體計算出的XY相關值 (當然我們可能永遠也不知道用母體算出來的值是多少)。

　　這時候就有一個問題產生了：如果我從樣本當中算出XY變數之間有一個中等偏弱的相關，那有沒有可能其實在母體上，XY是沒有關聯性的？

　　上面這句話可以用另一種方式來表達：

假如我從樣本上計算出了相關值為r，那在母體上這個r不為0的機會有多高？

　　嗯？這個問題似乎就有點熟悉了......假如把上面的「相關」改成「平均」，這不就是前面所說的單樣本t檢定可以處理的事情了嗎？

　　沒錯，檢定相關係數使用的就是單樣本t檢定。而做這個檢定的目的，是為了確認在母體中兩個變數真的有關聯的機會有多高。

相關係數的顯著性解讀

　　學過t檢定後，相關係數的檢定就很好懂了。但這邊有兩個地方可能要在解釋時特別注意。

真的需要檢定相關係數嗎？

　　在做檢定之前，應該要確認自己是不是真的有需要做檢定。如同上面所說，檢定相關係數是「推論統計」的範圍。假如目前需要的只是對樣本特性做出描述，而不在意母體的狀態，那其實是不需要做檢定的，直接解釋相關方向與強弱就好。

　　假如需要進行檢定，那麼在檢定之後如果得到「相關係數並未顯著與0不同」的結果怎麼辦？這時候代表什麼意思呢？有些學者會主張這時候不應該對相關值的強弱與方向做出詮釋（邱皓政、林碧芳，2017），這是因為相關係數檢定沒有顯著表示「在母體上此兩變數的相關係數為0的機率並不低」(Field, 2017)，樣本得出的相關值相對比較沒有參考價值。不過我個人覺得要做詮釋還是可以，只是要記得這沒有顯著就是了。

樣本很大時，相關性很容易顯著

　　如果仔細觀察過相關係數的t值是怎麼算出來的，會發現樣本大小出現在分子的地方。這代表著一件事──當樣本數很大的時候，t值就會很大，相關係數非常容易顯著。

　　這裡要說的並不是在樣本數很大的時候，相關的顯著性檢定沒有意義 (我可是從來沒講過這種話)，而是當樣本數很大的時候，一個顯著的相關值要特別注意其強弱。我並沒有一個學理上的根據說樣本很大具體是多大，但我自己的實際經驗是一筆超過1000筆資料的數據就很容易跑出顯著的相關值了。曾經看過在樣本很大的狀況下，即使相關性不到0.1都還是達到了統計顯著性，但如此微弱的關聯性真的具有意義嗎？這就是個要好好思考的問題。

　　反過來說，假如在小樣本中發現了中度的關聯性，也有可能並沒有達到統計顯著。這並不見得表示這個相關值沒有意義，也可能是樣本數太小造成的。

　　九月跟十月簡直是地獄級的忙碌，完全沒有任何時間可以來這裡除草...

　　下一篇會接續提到獨立樣本的t檢定，是一種在實務上比單樣本t檢定更好用的技術。