統計急救箱─皮爾森相關

閱讀時間約 8 分鐘

  前面兩篇會刻意提到共變數,除了因為共變數在多變量統計裡面非常重要之外,最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。

  相關係數的種類也相當的繁多,這裡介紹的皮爾森相關大概是最常看到的一種啦~為了方便起見,這篇文章後續在提到皮爾森相關係數時都會簡稱為「相關係數」。


皮爾森相關係數的計算方式

  在前一篇文章(統計急救箱──用共變數描述分數之間的關係(下))的最後,提到了共變數有一個不太方便的地方──那就是共變數會受到測量單位的影響,這讓我們沒辦法光憑共變數就知道兩群分數之間的關聯性到底有多高。

  那有什麼方法可以消除測量單位的影響嗎?沒錯,就如同之前在介紹標準分數時所提到的,將一個分數進行標準化處理就能夠把單位給消去囉!

  那標準化處理要怎麼做呢?就是將一個分數除以標準差。不過共變數裡面包含兩群數值,所以要除以兩群數值的標準差,於是我們就會得到下方的公式:

將共變數除以x和y的標準差就是標準化的共變數

將共變數除以x和y的標準差就是標準化的共變數

這個公式其實就是大名鼎鼎的皮爾森相關係數公式。也就是說,相關係數就是標準化的共變數

  不過一般來說,分母的SD比較習慣寫成S,所以更常看到下面這樣的公式:

皮爾森相關就是標準化的共變數

皮爾森相關就是標準化的共變數

公式左邊的r就是習慣用來表示相關性的符號了,r旁邊小小的x和y表示這是x跟y兩群分數的相關係數。


相關係數的特性與強弱

  由於做了標準化處理,相關係數就變得很方便了,它讓我們可以直接根據相關係數的大小來判斷關聯性的強弱。不過首先我們要先知道相關係數的一個有趣特性,那就是相關係數必定會介於-1到+1之間 [*1]。

  所以相關係數包含兩個部分,而這兩個部分各自告訴我們一些資訊:1. 正負號(表示關聯方向)。2. 數值(表示關聯強弱)。

  正的數值表示正向關聯,x越大y就越大;負的數值表示負向關聯,x越大y就越小(或者x越小y就越大),這部份很容易理解。比較需要解釋的是關聯性的強弱,到底怎樣的關聯性算是高、怎樣算是低?雖然大致上的判斷標準差不多,但不同學者的看法仍有差異,因此往往在描述關聯強弱時也會附上參考文獻表示自己是根據誰的判斷標準來解釋的。

  大多數的統計教科書上面都會列出判斷標準或者參考文獻,不過貼心如我特別找了兩個文獻給大家引用,一篇英文一篇中文的。對於相關強弱的判斷標準請見下圖,參考文獻列於文末。

判斷相關高低的標準

判斷相關高低的標準

可以看到左右兩者在強相關的判斷上面有些許差異。我自己在實務上的習慣是很粗略地將相關分為低、中、高三種,分別以0.4和0.6為界(低於0.4為弱相關、0.4~0.6之間為中等、高於0.6為強相關),這樣對我來說比較好記一些。如果我需要分得更仔細就會再去查書。

  需要注意判斷相關強弱時,不會考慮前面的正負號,只會根據數值的絕對值大小來判斷喔!


決定係數

  如果把相關係數做平方,會得到所謂的r2,念作r square,中文翻譯為決定係數。

  這個r2的意思,其實指的是x和y的變異數重疊的部分。我們用文氏圖來理解會比較清楚:

決定係數的意義

決定係數的意義

左邊藍色的圓代表x的變異數大小,右邊橘色的圓代表y的變異數大小,而中間重疊的部分就是決定係數囉。

  有些書本上面會寫說,決定係數代表x的變異可以被y所解釋的程度。之所以會這樣說,就是因為y的變異數和x有所重疊的緣故。不過什麼叫做「解釋變異」,最快應該也要等到變異數分析或者迴歸分析的時候才會說明。以現在而言,這句話的概念其實也可以等同於「x的變異數當中有多少是跟y有關的」來理解。


使用相關係數時的注意事項

  首先,我們要知道皮爾森相關係數的使用時機。基本上皮爾森相關係數適用於描述兩個連續變數之間的關聯性。如果x或者y其中之一不是連續變數(如果忘記變數的類型,可以回到統計急救箱─變數與變數類型 複習喔!),那皮爾森相關係數並不是描述他們關聯性的好選擇,應該考慮其他相關係數(例如肯德爾和諧係數、點二系列相關等等)。


  另外要注意在使用相關係數時有兩個容易掉入的陷阱。

第一個陷阱──皮爾森積差相關描述的是線性相關,所以係數很低僅能表示線性關聯性很低,未必表示兩群數值之間沒有關聯性。

  我們用兩張圖來瞭解這是怎麼一回事。首先假如我有以下四個資料點,並計算x和y之間的相關值,可以得到.94的結果,屬於相當高的相關。

圖中的x和y有相當高的關聯性

圖中的x和y有相當高的關聯性

這個時候如果我加入下圖中的紫色資料點,會發現相關係數瞬間降到.12,從高相關掉到低相關。可是仔細觀察這五個數值,其實它們之間有可能存在著曲線關係(如紅色線段所示)。在心理學中最有名的曲線相關,大概就是所謂的壓力─表現曲線了,有興趣的讀者可以去查詢一下。

線性相關值很低,但可能存在曲線相關

線性相關值很低,但可能存在曲線相關

因此在描述數值相關性的時候,皮爾森積差相關係數只能提供線性關聯性的資訊,還是會建議把散布圖畫出來稍微觀察一下資料點之間是否有某種規律存在。


第二個陷阱──相關不表示具有因果關係
相關不等於因果!

相關不等於因果!

  我相信有超過8成的統計書籍,在解釋相關性的時候會特意提到「相關不等於因果」這個觀念。既然大家都有提,那我也要講一下......不是,是因為這件事情真的太重要了。

  我先來舉個生活中常見到的例子。假如今天看到一個斗大的新聞標題寫著:「最新研究顯示,遊玩暴力遊戲的時數與暴力認知之間具有顯著的關聯性。」這時候大多數人會非常容易解讀成「研究發現遊玩暴力遊戲會導致暴力認知的增加」。

  仔細思考一下,玩暴力遊戲和暴力認知之間有關,就可以認為暴力遊戲會導致暴力認知嗎?其實是不行的,我可以用一個很簡單的方式反駁:也可能是暴力認知比較高的人比較喜歡玩暴力遊戲。除此之外,當然還有其他可能造成兩者有關聯的狀況。

  在一些實驗方法或者研究方法的書籍當中,會提到相關性只是判斷因果關係的前提之一 (巴比,2021;Christensen et al., 2015),所以我們不能光是從相關與否判斷因果關係。不過當我們說某兩件事情有因果關係的時候(例如下雨會導致地面有積水),這兩件事情就一定是有關聯的(下雨與地面有積水是有關的)。換句話說,關聯性是因果關係的必要條件,但不是充分條件

  人類是一種很直覺就會去尋找因果關係的生物,在閱讀關聯性的描述時很容易會把先講出來的變數視為因,後講出來的變數視為果。所以相關不等於有因果這個觀念,一定要銘記在心。



  我本來以為前面提過標準分數和共變數,相關可以寫得簡短一點,但在構思的過程中又發現有許多重要觀念必須說明,結果不斷的加東西進來...

  相關係數其實並不止於此,假如涉及到抽樣(推論統計),在判斷相關強弱之前必須要先判斷相關係數是否為0,不過這部分就先賣個關子,留到t檢定的段落再說明吧。

  到相關為止描述統計大概可以先告一段落,接下來會從觀念開始說明推論統計是什麼,之後再介紹推論統計所使用的統計技術。不過描述統計裡的觀念不能忘記,因為之後還是會一直用到它們。






註記

[*1]:這件事情是可以用數學來證明的,不過本文的目的是解除初學者對統計的恐懼,所以沒有打算詳細解釋。有興趣的讀者可以參考《機器學習的數學基礎》與《機器學習的統計基礎》,前者使用向量內積的方式證明;後者則提供柯西不等式和變異數轉換兩種證明方法。


參考文獻

厄爾‧巴比(2021):《社會科學研究方法》(林秀雲譯)。雙葉書廊。(原著出版年:2020)

邱皓政、林碧芳(2017):《統計學:原理與應用》(第三版)。五南出版。

Christensen,L. B., Johnson, R.B., & Turner, L. A. (2015). Research methods, design, and analysis (global edition, 12th ed.). Pearson.

Salkind, N. J., & Shaw, L. A. (2019). Statistics for people who (think they) hate statistics using R. Sage.

49會員
30內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下