統計急救箱─相關係數的顯著性

閱讀時間約 8 分鐘

  根據我模糊的印象(才沒有,其實我是好好記著的),在統計急救箱─皮爾森相關這篇文章裡面的結尾,我提到在t檢定的段落要回來講講相關係數的顯著性這件事。

  既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。


快速的回想一下皮爾森相關係數

  因為前面已經有一篇專門介紹皮爾森相關係數的文章了,這邊就用非常快速的方式來暖個身,回想一下什麼是皮爾森相關係數。

皮爾森相關係數是用來探究 兩個 連續變數 之間有多大線性關聯性的統計技術

  上述這個解釋有三個大重點:

  1. 皮爾森相關係數可以處理的變數數量是兩個,不多不少的兩個。
  2. 這兩個變數必須要是連續變數,原則上不可以是類別變數或次序變數。
  3. 皮爾森相關係數描述的是線性關聯性,無法描繪非線性的關聯。


  一般來說,要了解兩群數值之間的關聯性,最簡單的方法就是把其中一個變數當作X軸,另一個變數當作Y軸,然後把這些點全都描在圖上。如果兩個變數之間的關聯性高到一個程度,用肉眼就能看出來了(我自己的經驗是大概至少要中等相關以上才能看出來)。

  皮爾森相關係數就是用數值的方式比較精細的計算兩個變數之間的關聯性。下圖的相關係數高達0.94,是非常高的相關,所以圖上的小人幾乎是站在一條直線上面了。

用散布圖 (scatter plot) 的方式觀察相關性

用散布圖 (scatter plot) 的方式觀察相關性



相關係數的統計檢定

  在統計急救箱─皮爾森相關裡面有解釋相關係數的計算方式了,不過其實這沒有特別重要,因為現在都會用統計軟體計算了。總而言之,計算完之後會跑出一個績差相關值,也就是r值出來。

  在當時只有介紹r值的方向 (正相關與負相關) 以及相關強弱的判定,現在則要從推論統計的角度回頭看一下相關係數。


為什麼相關係數要做「檢定」?

  從推論統計的角度來說,如果我們所得到的資料是母體當中的樣本,那我們真正想知道的並不是我抽樣出來的數值長得怎樣,我們想知道的是母體可能長成什麼樣。

  也就是說,在樣本裡面計算出變數X和變數Y的相關值,並不一定會符合用母體計算出的XY相關值 (當然我們可能永遠也不知道用母體算出來的值是多少)。

  這時候就有一個問題產生了:如果我從樣本當中算出XY變數之間有一個中等偏弱的相關,那有沒有可能其實在母體上,XY是沒有關聯性的

  上面這句話可以用另一種方式來表達:

假如我從樣本上計算出了相關值為r,那在母體上這個r不為0的機會有多高?


  嗯?這個問題似乎就有點熟悉了......假如把上面的「相關」改成「平均」,這不就是前面所說的單樣本t檢定可以處理的事情了嗎?

  沒錯,檢定相關係數使用的就是單樣本t檢定。而做這個檢定的目的,是為了確認在母體中兩個變數真的有關聯的機會有多高。


相關係數的t檢定

  既然是t檢定,其實就跟前面介紹過的相差不遠了,只不過有一點點些微的差異。

  要提到單樣本t檢定,下面這張圖就又來了。當我們把抽樣分布裡的標準差換成標準誤公式 (想要詳細的過程請參考:統計急救箱─單樣本t檢定),就會得到一個t分數的分布,而這個分布的自由度是樣本數-1 (也就是N - 1)。透過這個分布,我們就能使用如同Z檢定的步驟,計算出「若母體平均數等於mu時,我們觀察到現在樣本的機率有多高?」這個問題的答案了。

  如果計算結果顯示,觀察到目前結果的機率低於5%,那我們就稱為「達到顯著」,並且合理的假設「母體平均數並不等於mu」。

單樣本t檢定的原理

單樣本t檢定的原理


  在做相關係數的檢定時,其實基本原理是一樣的。不過有兩個地方不太一樣:第一,相關係數並不像是單樣本t檢定一樣,使用樣本標準差和樣本數就可以算出標準誤 (standard error)。不過這基本上並不會造成什麼困擾,因為統計軟體現在都會直接幫我們做檢定了,完全不需要用手來算SE和t值 (不過我還是把公式寫在圖裡了)。

  第二個不一樣的地方,就是自由度了。在基本的單樣本t檢定中,自由度是樣本數 - 1,但在相關係數的t檢定中則是樣本數 - 2。會特別提到這點,是因為統計軟體不見得會告訴我們這個自由度是多少。雖然一般來說並不需要報告相關係數t檢定的值,但假如有天需要寫出來的話別忘記自由度怎麼算囉!

相關係數可以轉換為t分數 [*1]

相關係數可以轉換為t分數 [*1]

  那麼相關係數要怎麼樣才算是顯著呢?就如同t分布的判讀方式一樣,只要落在95%的信賴區間之外就算是顯著囉!上圖的t分布是一個自由度為60的分布 (可以自己算一下這樣要多少的樣本數呢?),95%的信賴區間剛好落在+2和-2的位置。意思是只要用相關係數計算出的t值大於2或者小於-2就代表顯著了──在母體中的相關值有可能並不是0。


相關係數的顯著性解讀

  學過t檢定後,相關係數的檢定就很好懂了。但這邊有兩個地方可能要在解釋時特別注意。

真的需要檢定相關係數嗎?

  在做檢定之前,應該要確認自己是不是真的有需要做檢定。如同上面所說,檢定相關係數是「推論統計」的範圍。假如目前需要的只是對樣本特性做出描述,而不在意母體的狀態,那其實是不需要做檢定的,直接解釋相關方向與強弱就好。

  假如需要進行檢定,那麼在檢定之後如果得到「相關係數並未顯著與0不同」的結果怎麼辦?這時候代表什麼意思呢?有些學者會主張這時候不應該對相關值的強弱與方向做出詮釋(邱皓政、林碧芳,2017),這是因為相關係數檢定沒有顯著表示「在母體上此兩變數的相關係數為0的機率並不低」(Field, 2017),樣本得出的相關值相對比較沒有參考價值。不過我個人覺得要做詮釋還是可以,只是要記得這沒有顯著就是了。


樣本很大時,相關性很容易顯著

  如果仔細觀察過相關係數的t值是怎麼算出來的,會發現樣本大小出現在分子的地方。這代表著一件事──當樣本數很大的時候,t值就會很大,相關係數非常容易顯著。

  這裡要說的並不是在樣本數很大的時候,相關的顯著性檢定沒有意義 (我可是從來沒講過這種話),而是當樣本數很大的時候,一個顯著的相關值要特別注意其強弱。我並沒有一個學理上的根據說樣本很大具體是多大,但我自己的實際經驗是一筆超過1000筆資料的數據就很容易跑出顯著的相關值了。曾經看過在樣本很大的狀況下,即使相關性不到0.1都還是達到了統計顯著性,但如此微弱的關聯性真的具有意義嗎?這就是個要好好思考的問題。

  反過來說,假如在小樣本中發現了中度的關聯性,也有可能並沒有達到統計顯著。這並不見得表示這個相關值沒有意義,也可能是樣本數太小造成的。




  九月跟十月簡直是地獄級的忙碌,完全沒有任何時間可以來這裡除草...

  下一篇會接續提到獨立樣本的t檢定,是一種在實務上比單樣本t檢定更好用的技術。




備註:

[*1] 在這張圖上,橘色的線段上方寫著母體相關係數,後面有個希臘文字。那個符號叫做rho,一般會拿來表示母體的相關值。而r則是表示樣本的相關值。


參考文獻:

邱皓政、林碧芳(2017):統計學:原理與應用(三版)。五南出版。

Field, A. (2017). Discovering statistics using IBM SPSS statistics (5th ed.). Sage.


avatar-img
52會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
數據分析是現代社會的核心技能,適用於各行各業。無論是在市場營銷、財務管理,還是產品開發中,數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率,使我們能夠迅速找到關鍵信息,進而做出明智的決策。本文將探討數據分析訓練方法,提供實用案例,幫助初學者快速掌握數據分析技術。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
手寫版,有寫錯或看不懂的地方,都可以在底下留言給我。 感謝!
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
數據分析是現代社會的核心技能,適用於各行各業。無論是在市場營銷、財務管理,還是產品開發中,數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率,使我們能夠迅速找到關鍵信息,進而做出明智的決策。本文將探討數據分析訓練方法,提供實用案例,幫助初學者快速掌握數據分析技術。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。