統計急救箱─相關係數的顯著性

更新於 發佈於 閱讀時間約 8 分鐘

  根據我模糊的印象(才沒有,其實我是好好記著的),在統計急救箱─皮爾森相關這篇文章裡面的結尾,我提到在t檢定的段落要回來講講相關係數的顯著性這件事。

  既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。


快速的回想一下皮爾森相關係數

  因為前面已經有一篇專門介紹皮爾森相關係數的文章了,這邊就用非常快速的方式來暖個身,回想一下什麼是皮爾森相關係數。

皮爾森相關係數是用來探究 兩個 連續變數 之間有多大線性關聯性的統計技術

  上述這個解釋有三個大重點:

  1. 皮爾森相關係數可以處理的變數數量是兩個,不多不少的兩個。
  2. 這兩個變數必須要是連續變數,原則上不可以是類別變數或次序變數。
  3. 皮爾森相關係數描述的是線性關聯性,無法描繪非線性的關聯。


  一般來說,要了解兩群數值之間的關聯性,最簡單的方法就是把其中一個變數當作X軸,另一個變數當作Y軸,然後把這些點全都描在圖上。如果兩個變數之間的關聯性高到一個程度,用肉眼就能看出來了(我自己的經驗是大概至少要中等相關以上才能看出來)。

  皮爾森相關係數就是用數值的方式比較精細的計算兩個變數之間的關聯性。下圖的相關係數高達0.94,是非常高的相關,所以圖上的小人幾乎是站在一條直線上面了。

用散布圖 (scatter plot) 的方式觀察相關性

用散布圖 (scatter plot) 的方式觀察相關性



相關係數的統計檢定

  在統計急救箱─皮爾森相關裡面有解釋相關係數的計算方式了,不過其實這沒有特別重要,因為現在都會用統計軟體計算了。總而言之,計算完之後會跑出一個績差相關值,也就是r值出來。

  在當時只有介紹r值的方向 (正相關與負相關) 以及相關強弱的判定,現在則要從推論統計的角度回頭看一下相關係數。


為什麼相關係數要做「檢定」?

  從推論統計的角度來說,如果我們所得到的資料是母體當中的樣本,那我們真正想知道的並不是我抽樣出來的數值長得怎樣,我們想知道的是母體可能長成什麼樣。

  也就是說,在樣本裡面計算出變數X和變數Y的相關值,並不一定會符合用母體計算出的XY相關值 (當然我們可能永遠也不知道用母體算出來的值是多少)。

  這時候就有一個問題產生了:如果我從樣本當中算出XY變數之間有一個中等偏弱的相關,那有沒有可能其實在母體上,XY是沒有關聯性的

  上面這句話可以用另一種方式來表達:

假如我從樣本上計算出了相關值為r,那在母體上這個r不為0的機會有多高?


  嗯?這個問題似乎就有點熟悉了......假如把上面的「相關」改成「平均」,這不就是前面所說的單樣本t檢定可以處理的事情了嗎?

  沒錯,檢定相關係數使用的就是單樣本t檢定。而做這個檢定的目的,是為了確認在母體中兩個變數真的有關聯的機會有多高。


相關係數的t檢定

  既然是t檢定,其實就跟前面介紹過的相差不遠了,只不過有一點點些微的差異。

  要提到單樣本t檢定,下面這張圖就又來了。當我們把抽樣分布裡的標準差換成標準誤公式 (想要詳細的過程請參考:統計急救箱─單樣本t檢定),就會得到一個t分數的分布,而這個分布的自由度是樣本數-1 (也就是N - 1)。透過這個分布,我們就能使用如同Z檢定的步驟,計算出「若母體平均數等於mu時,我們觀察到現在樣本的機率有多高?」這個問題的答案了。

  如果計算結果顯示,觀察到目前結果的機率低於5%,那我們就稱為「達到顯著」,並且合理的假設「母體平均數並不等於mu」。

單樣本t檢定的原理

單樣本t檢定的原理


  在做相關係數的檢定時,其實基本原理是一樣的。不過有兩個地方不太一樣:第一,相關係數並不像是單樣本t檢定一樣,使用樣本標準差和樣本數就可以算出標準誤 (standard error)。不過這基本上並不會造成什麼困擾,因為統計軟體現在都會直接幫我們做檢定了,完全不需要用手來算SE和t值 (不過我還是把公式寫在圖裡了)。

  第二個不一樣的地方,就是自由度了。在基本的單樣本t檢定中,自由度是樣本數 - 1,但在相關係數的t檢定中則是樣本數 - 2。會特別提到這點,是因為統計軟體不見得會告訴我們這個自由度是多少。雖然一般來說並不需要報告相關係數t檢定的值,但假如有天需要寫出來的話別忘記自由度怎麼算囉!

相關係數可以轉換為t分數 [*1]

相關係數可以轉換為t分數 [*1]

  那麼相關係數要怎麼樣才算是顯著呢?就如同t分布的判讀方式一樣,只要落在95%的信賴區間之外就算是顯著囉!上圖的t分布是一個自由度為60的分布 (可以自己算一下這樣要多少的樣本數呢?),95%的信賴區間剛好落在+2和-2的位置。意思是只要用相關係數計算出的t值大於2或者小於-2就代表顯著了──在母體中的相關值有可能並不是0。


相關係數的顯著性解讀

  學過t檢定後,相關係數的檢定就很好懂了。但這邊有兩個地方可能要在解釋時特別注意。

真的需要檢定相關係數嗎?

  在做檢定之前,應該要確認自己是不是真的有需要做檢定。如同上面所說,檢定相關係數是「推論統計」的範圍。假如目前需要的只是對樣本特性做出描述,而不在意母體的狀態,那其實是不需要做檢定的,直接解釋相關方向與強弱就好。

  假如需要進行檢定,那麼在檢定之後如果得到「相關係數並未顯著與0不同」的結果怎麼辦?這時候代表什麼意思呢?有些學者會主張這時候不應該對相關值的強弱與方向做出詮釋(邱皓政、林碧芳,2017),這是因為相關係數檢定沒有顯著表示「在母體上此兩變數的相關係數為0的機率並不低」(Field, 2017),樣本得出的相關值相對比較沒有參考價值。不過我個人覺得要做詮釋還是可以,只是要記得這沒有顯著就是了。


樣本很大時,相關性很容易顯著

  如果仔細觀察過相關係數的t值是怎麼算出來的,會發現樣本大小出現在分子的地方。這代表著一件事──當樣本數很大的時候,t值就會很大,相關係數非常容易顯著。

  這裡要說的並不是在樣本數很大的時候,相關的顯著性檢定沒有意義 (我可是從來沒講過這種話),而是當樣本數很大的時候,一個顯著的相關值要特別注意其強弱。我並沒有一個學理上的根據說樣本很大具體是多大,但我自己的實際經驗是一筆超過1000筆資料的數據就很容易跑出顯著的相關值了。曾經看過在樣本很大的狀況下,即使相關性不到0.1都還是達到了統計顯著性,但如此微弱的關聯性真的具有意義嗎?這就是個要好好思考的問題。

  反過來說,假如在小樣本中發現了中度的關聯性,也有可能並沒有達到統計顯著。這並不見得表示這個相關值沒有意義,也可能是樣本數太小造成的。




  九月跟十月簡直是地獄級的忙碌,完全沒有任何時間可以來這裡除草...

  下一篇會接續提到獨立樣本的t檢定,是一種在實務上比單樣本t檢定更好用的技術。




備註:

[*1] 在這張圖上,橘色的線段上方寫著母體相關係數,後面有個希臘文字。那個符號叫做rho,一般會拿來表示母體的相關值。而r則是表示樣本的相關值。


參考文獻:

邱皓政、林碧芳(2017):統計學:原理與應用(三版)。五南出版。

Field, A. (2017). Discovering statistics using IBM SPSS statistics (5th ed.). Sage.


留言
avatar-img
留言分享你的想法!
avatar-img
統計急救箱的沙龍
71會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/12/15
 在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。
Thumbnail
2024/12/15
 在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。
Thumbnail
2024/08/18
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
2024/08/18
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
本章節介紹"通過部分分數對有理函數進行積分",提供大量範例的逐步講解,以幫助讀者熟悉其概念與解題的方式。
Thumbnail
本章節介紹"通過部分分數對有理函數進行積分",提供大量範例的逐步講解,以幫助讀者熟悉其概念與解題的方式。
Thumbnail
本章節將介紹比較器(Comparator)這類用於判斷兩組二進位數值之間大小關係的組合邏輯電路。比較器在數位系統中廣泛應用於數位排序、選擇控制、資料驗證與決策電路中,是理解邏輯運算與條件判斷的重要模組。 透過本章學習,你將掌握數位邏輯中的條件判斷核心邏輯。
Thumbnail
本章節將介紹比較器(Comparator)這類用於判斷兩組二進位數值之間大小關係的組合邏輯電路。比較器在數位系統中廣泛應用於數位排序、選擇控制、資料驗證與決策電路中,是理解邏輯運算與條件判斷的重要模組。 透過本章學習,你將掌握數位邏輯中的條件判斷核心邏輯。
Thumbnail
本章節會從最基本的函數開始講起,相信很多人對於函數已經有很好的認識,本章透過簡潔有力的講解與圖片展示、公式整理,讓初學者能夠很好的掌握微積分的基礎;也讓已然熟悉的讀者快速複習重點與細節。
Thumbnail
本章節會從最基本的函數開始講起,相信很多人對於函數已經有很好的認識,本章透過簡潔有力的講解與圖片展示、公式整理,讓初學者能夠很好的掌握微積分的基礎;也讓已然熟悉的讀者快速複習重點與細節。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
變異數和共變數分析通常有一些統計的前提假設。如果在進行這些分析時,假設沒有達到滿足,結果將有所偏誤,更可能被審稿者或口委批評。本文首先介紹如何檢測這些假設,然後提出假設不過的解決方法,並附上相關文獻佐證。
Thumbnail
變異數和共變數分析通常有一些統計的前提假設。如果在進行這些分析時,假設沒有達到滿足,結果將有所偏誤,更可能被審稿者或口委批評。本文首先介紹如何檢測這些假設,然後提出假設不過的解決方法,並附上相關文獻佐證。
Thumbnail
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
Thumbnail
前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。 相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~
Thumbnail
在前面的文章裡, 我們談了很多機率的概念, 今天我們來聊聊統計學裡最基礎的研究方法: 迴歸分析。
Thumbnail
在前面的文章裡, 我們談了很多機率的概念, 今天我們來聊聊統計學裡最基礎的研究方法: 迴歸分析。
Thumbnail
最後的統計機率,以及立體圖形,這大概是國中感到最輕鬆的章節。話是這麼說,因為學生到此通常都煮熟了,要死要活都定案,才感到沒差。筆者在這裡,只會針對一些常見的錯誤釐清,其他就不多說,國三這邊真的只是蜻蜓點水。圖形那邊則稍微提一下,立體概念照理說都有,還沒有的硬補也不行,不如回去先看小學高年級課程。
Thumbnail
最後的統計機率,以及立體圖形,這大概是國中感到最輕鬆的章節。話是這麼說,因為學生到此通常都煮熟了,要死要活都定案,才感到沒差。筆者在這裡,只會針對一些常見的錯誤釐清,其他就不多說,國三這邊真的只是蜻蜓點水。圖形那邊則稍微提一下,立體概念照理說都有,還沒有的硬補也不行,不如回去先看小學高年級課程。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News