皮爾森相關係數 (r) 是衡量線性相關性的最常用方法。它是一個介於 –1 和 1 之間的數值,用於衡量兩個變量之間關係的強度和方向。本文簡介公式解釋和SPSS教學。
公式解釋
假設我想衡量X和Y變項的關聯,我有20組(x1,y1), (x2, y2), (x3, y3)....(x20,y20)
那我可以用下面皮爾森相關係數(r)公式算出相關係數
X和Y之間的皮爾森相關係數定義為X和Y的共變異數除以它們標準差的乘積
∑(x-x̄ )(y- ȳ)=(x1-x̄ )(y1- ȳ)+(x2-x̄ )(y2- ȳ)...(x20-x̄ )(y20- ȳ)
上面是公式的分子為共變數,是相關係數的核心,描述兩個變項共同變化的趨勢。若正數代表 Xi 和 Yi 均落在他們各自的均值的同一側, 則(Xi − X)(Yi − Y) 的值為正。 也就是說,如果Xi 和 Yi 同時趨向於大於, 或同時趨向於小於他們各自的均值,則共變數為正。 如果 Xi 和 Yi 趨向於落在他們均值的相反一側,則共變數為負。
為了方便理解,我們使用圖示化解說,以正共變數為例子
如下面兩張圖。如果X1-X5和Y1-Y5跟他們平均數相減後都是正數,那自然共變數也就會是正數,也就是說,X在平均數之上的話,Y很可能也會在平均數之上。
∑(x-x̄ )2 = (X1-x的平均數)平方+(X2-x平均數)平方...+(X20-x平均數)平方
∑(y-ȳ )2 = (X1-x的平均數)平方+(y2-x平均數)平方...+(y20-x平均數)平方
分母就是除以X和Y各自的標準差,做出標準化的動作,減少不同單位問題。讓係數可以包持在-1~1之間。
這篇文章有做出很好的解釋,有興趣的同學可以深入閱讀