在資料分析的世界裡,「相關」這個詞看似簡單,背後卻藏著許多細節。當我們想探討兩個變數的關係時,如果忽略了其他潛在的干擾因素,很容易得出錯誤的結論。
這篇文章將深入探討兩個容易混淆的統計概念:「半淨相關」和「淨相關」,並解釋為何在閱讀學術文獻時,需要特別留意它們的用法。
1. 半淨相關 (Semipartial Correlation):找出變數的「獨特貢獻」
想像一下,你想研究「學習時數」和「考試成績」的關係,但你知道「智力」也會影響考試成績。半淨相關 (Semipartial Correlation) 就是用來回答一個非常具體的問題:「在控制了智力的影響後,學習時數能獨特地解釋考試成績多少變異?」
它的計算方式是:
- 首先,我們把「智力」對「考試成績」的影響移除,只留下那些無法被智力解釋的「考試成績殘差」。
- 然後,我們計算「學習時數」和這些「考試成績殘差」之間的相關性。
關鍵點在於: 半淨相關(又稱部分相關)只從依變數(考試成績)中移除其他變數(智力)的影響,而不會從自變數(學習時數)中移除。這使得半淨相關的平方 (r2) 成為一個強大的工具,能直接告訴我們,當一個新變數被加入迴歸模型後,它能單獨增加多少模型的解釋力(R2) 。
R 實作 :使用 ppcor
套件中的 spcor.test()
函式即可計算半淨相關。
library(ppcor)
# 假設 X1 為學習時數,Y 為考試成績,X2 為智力
spcor.test(X1, Y, X2)
2. 淨相關 (Net Correlation):與偏相關的混淆陷阱
在許多統計學教科書中,「淨相關」(Net Correlation) 這個詞並不常見,它更常在特定領域的報告中被使用。
許多文獻會將淨相關視為偏相關 (Partial Correlation) 的同義詞。偏相關衡量的是在同時控制或排除所有干擾變數的影響後,兩個變數之間殘留的線性關係。它回答的問題是:「在移除所有干擾變數的影響後,A 和 B 還有純粹的關係嗎?」
偏相關與「淨相關」在概念上非常相似,幾乎變成同義詞,都是在控制其他變數後的關聯性,因此在實務上經常被交替使用。
R 實作: 使用 ppcor
套件中的 pcor.test()
函式計算偏相關。
library(ppcor)
# 假設 X1 為學習時數,Y 為考試成績,X2 為智力
pcor.test(X1, Y, X2)
然而,值得注意的是,少數文獻或使用者會將淨相關等同於半淨相關。由於這種語意的模糊性,當你在閱讀文獻或分析報告時,如果看到「淨相關」這個詞,最安全的做法是根據上下文來判斷。
- 如果它被用來描述一個變數對迴歸模型獨特的解釋力,它可能指的是半淨相關。
- 如果它被用來描述兩個變數的「純粹關聯」,則很可能指的是偏相關。
結語:釐清概念,掌握工具
作為一位資料分析師,理解這些統計名詞的細微差異,能幫助我們更精準地評估每個因子。下次,當你遇到這些術語時,不妨多思考一下:這個關聯性是「純粹的」?還是「獨特的」?釐清這點,你就能更自信地解讀數據,並做出更有效的決策。