統計急救箱─皮爾森相關

Way

發佈於社會科學初心者的統計急救箱

2024/09/23 更新2023/09/24 發佈閱讀 8 分鐘

　　前面兩篇會刻意提到共變數，除了因為共變數在多變量統計裡面非常重要之外，最主要的原因其實是為了解釋皮爾森相關係數而做鋪陳。

　　相關係數的種類也相當的繁多，這裡介紹的皮爾森相關大概是最常看到的一種啦～為了方便起見，這篇文章後續在提到皮爾森相關係數時都會簡稱為「相關係數」。

皮爾森相關係數的計算方式

　　在前一篇文章（統計急救箱──用共變數描述分數之間的關係（下））的最後，提到了共變數有一個不太方便的地方──那就是共變數會受到測量單位的影響，這讓我們沒辦法光憑共變數就知道兩群分數之間的關聯性到底有多高。

　　那有什麼方法可以消除測量單位的影響嗎？沒錯，就如同之前在介紹標準分數時所提到的，將一個分數進行標準化處理就能夠把單位給消去囉！

　　那標準化處理要怎麼做呢？就是將一個分數除以標準差。不過共變數裡面包含兩群數值，所以要除以兩群數值的標準差，於是我們就會得到下方的公式：

將共變數除以x和y的標準差就是標準化的共變數

這個公式其實就是大名鼎鼎的皮爾森相關係數公式。也就是說，相關係數就是標準化的共變數。

　　不過一般來說，分母的SD比較習慣寫成S，所以更常看到下面這樣的公式：

皮爾森相關就是標準化的共變數

公式左邊的r就是習慣用來表示相關性的符號了，r旁邊小小的x和y表示這是x跟y兩群分數的相關係數。

決定係數

　　如果把相關係數做平方，會得到所謂的r²，念作r square，中文翻譯為決定係數。

　　這個r²的意思，其實指的是x和y的變異數重疊的部分。我們用文氏圖來理解會比較清楚：

決定係數的意義

左邊藍色的圓代表x的變異數大小，右邊橘色的圓代表y的變異數大小，而中間重疊的部分就是決定係數囉。

　　有些書本上面會寫說，決定係數代表x的變異可以被y所解釋的程度。之所以會這樣說，就是因為y的變異數和x有所重疊的緣故。不過什麼叫做「解釋變異」，最快應該也要等到變異數分析或者迴歸分析的時候才會說明。以現在而言，這句話的概念其實也可以等同於「x的變異數當中有多少是跟y有關的」來理解。

使用相關係數時的注意事項

　　首先，我們要知道皮爾森相關係數的使用時機。基本上皮爾森相關係數適用於描述兩個連續變數之間的關聯性。如果x或者y其中之一不是連續變數（如果忘記變數的類型，可以回到統計急救箱─變數與變數類型複習喔！），那皮爾森相關係數並不是描述他們關聯性的好選擇，應該考慮其他相關係數（例如肯德爾和諧係數、點二系列相關等等）。

　　另外要注意在使用相關係數時有兩個容易掉入的陷阱。

第一個陷阱──皮爾森積差相關描述的是線性相關，所以係數很低僅能表示線性關聯性很低，未必表示兩群數值之間沒有關聯性。

　　我們用兩張圖來瞭解這是怎麼一回事。首先假如我有以下四個資料點，並計算x和y之間的相關值，可以得到.94的結果，屬於相當高的相關。

圖中的x和y有相當高的關聯性

這個時候如果我加入下圖中的紫色資料點，會發現相關係數瞬間降到.12，從高相關掉到低相關。可是仔細觀察這五個數值，其實它們之間有可能存在著曲線關係（如紅色線段所示）。在心理學中最有名的曲線相關，大概就是所謂的壓力─表現曲線了，有興趣的讀者可以去查詢一下。

線性相關值很低，但可能存在曲線相關

因此在描述數值相關性的時候，皮爾森積差相關係數只能提供線性關聯性的資訊，還是會建議把散布圖畫出來稍微觀察一下資料點之間是否有某種規律存在。

第二個陷阱──相關不表示具有因果關係

相關不等於因果！

　　我相信有超過8成的統計書籍，在解釋相關性的時候會特意提到「相關不等於因果」這個觀念。既然大家都有提，那我也要講一下......不是，是因為這件事情真的太重要了。

　　我先來舉個生活中常見到的例子。假如今天看到一個斗大的新聞標題寫著：「最新研究顯示，遊玩暴力遊戲的時數與暴力認知之間具有顯著的關聯性。」這時候大多數人會非常容易解讀成「研究發現遊玩暴力遊戲會導致暴力認知的增加」。

　　仔細思考一下，玩暴力遊戲和暴力認知之間有關，就可以認為暴力遊戲會導致暴力認知嗎？其實是不行的，我可以用一個很簡單的方式反駁：也可能是暴力認知比較高的人比較喜歡玩暴力遊戲。除此之外，當然還有其他可能造成兩者有關聯的狀況。

　　在一些實驗方法或者研究方法的書籍當中，會提到相關性只是判斷因果關係的前提之一 (巴比，2021；Christensen et al., 2015)，所以我們不能光是從相關與否判斷因果關係。不過當我們說某兩件事情有因果關係的時候（例如下雨會導致地面有積水），這兩件事情就一定是有關聯的（下雨與地面有積水是有關的）。換句話說，關聯性是因果關係的必要條件，但不是充分條件。

　　人類是一種很直覺就會去尋找因果關係的生物，在閱讀關聯性的描述時很容易會把先講出來的變數視為因，後講出來的變數視為果。所以相關不等於有因果這個觀念，一定要銘記在心。

　　我本來以為前面提過標準分數和共變數，相關可以寫得簡短一點，但在構思的過程中又發現有許多重要觀念必須說明，結果不斷的加東西進來...

　　相關係數其實並不止於此，假如涉及到抽樣（推論統計），在判斷相關強弱之前必須要先判斷相關係數是否為0，不過這部分就先賣個關子，留到t檢定的段落再說明吧。

　　到相關為止描述統計大概可以先告一段落，接下來會從觀念開始說明推論統計是什麼，之後再介紹推論統計所使用的統計技術。不過描述統計裡的觀念不能忘記，因為之後還是會一直用到它們。

註記

[*1]：這件事情是可以用數學來證明的，不過本文的目的是解除初學者對統計的恐懼，所以沒有打算詳細解釋。有興趣的讀者可以參考《機器學習的數學基礎》與《機器學習的統計基礎》，前者使用向量內積的方式證明；後者則提供柯西不等式和變異數轉換兩種證明方法。

參考文獻

厄爾‧巴比（2021）：《社會科學研究方法》（林秀雲譯）。雙葉書廊。(原著出版年：2020)

邱皓政、林碧芳（2017）：《統計學：原理與應用》（第三版）。五南出版。

Christensen,L. B., Johnson, R.B., & Turner, L. A. (2015). Research methods, design, and analysis (global edition, 12^th ed.). Pearson.

Salkind, N. J., & Shaw, L. A. (2019). Statistics for people who (think they) hate statistics using R. Sage.

統計急救箱的沙龍社會科學初心者的統計急救箱

留言

統計急救箱的沙龍

80會員

32內容數

大學念文組，碩士班的報告突然要用統計了怎麼辦？沒學過統計怎麼寫量化學位論文？跟著統計書操作都沒問題，但報表都不知道在講什麼，也不知道做的分析到底對不對？作者在應用統計的路上跌跌撞撞也差不多十年了，希望有些心得可以幫助到有這些困擾的你。

統計急救箱的沙龍的其他內容

2024/12/29

統計急救箱─使用獨立t test的時機與前提

　　上回講了獨立樣本t test的運作原理，不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test，以及在什麼條件下可以使用獨立樣本t test？

2024/12/29

統計急救箱─使用獨立t test的時機與前提

2024/12/15

統計急救箱─獨立樣本t檢定

　在實務上，t檢定最常被拿來使用的時機是檢驗兩個群體的（母體）平均數是不是相同。

2024/12/15

統計急救箱─獨立樣本t檢定

　在實務上，t檢定最常被拿來使用的時機是檢驗兩個群體的（母體）平均數是不是相同。

2024/10/20

統計急救箱─相關係數的顯著性

既然現在講完t檢定的基礎了，正好是時候來談談單樣本t檢定的重要用途之一：檢定相關係數的顯著性。

2024/10/20

統計急救箱─相關係數的顯著性

既然現在講完t檢定的基礎了，正好是時候來談談單樣本t檢定的重要用途之一：檢定相關係數的顯著性。

看更多

你可能也想看

統計急救箱的沙龍

統計急救箱──標準分數

在知道平均數與標準差之後，就可以進一步了解什麼是所謂的「標準分數」了。標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。以概念來說，跟百分等級（PR）有點類似的味道吧。標準分數在後續的統計當中也很常會出現的。

2023/08/28

2023/08/28

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

教育心理博士的筆記本

多群組測量衡等性介紹和Mplus操作

當我們要確定問卷量表在不同群體(例如:男生和女生)的適用和一致性時，我們就使用多群組測量衡等性檢驗在不同群體，因素和觀察變項之間的關聯是一致。則代表之後統計結果是可信的，反映出真實結果，並非只是量表誤差造成的。

2023/01/31

2023/01/31

　　雖然多數人應該都知道平均數是什麼，也會計算平均數，不過平均數是統計當中非常常使用的統計量，因此還是做一些基本的介紹吧。　　順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。

2023/07/23

2023/07/23

統計急救箱──用共變數描述分數之間的關係（下）

如果看過上一篇還不太確定共變數要怎麼計算，這篇會用圖像的方式來進行解釋，最後也會提及共變數的小缺點。

#統計#統計急救箱#社會科學

2023/09/17

統計急救箱的沙龍

統計急救箱──用共變數描述分數之間的關係（下）

如果看過上一篇還不太確定共變數要怎麼計算，這篇會用圖像的方式來進行解釋，最後也會提及共變數的小缺點。

#統計#統計急救箱#社會科學

2023/09/17

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28