你是否曾經看過這樣的新聞:「冰淇淋銷量越高,溺水人數也越高!」然後開始胡思亂想,難道吃冰淇淋會導致溺水嗎?
當然不是!我們都能直覺地想到,是因為「天氣熱」這個共同因素,導致冰淇淋熱賣,同時也讓更多人跑去游泳,從而增加了溺水機率。
在數據分析的世界裡,我們時常會遇到這種「虛假相關」的陷阱。而幫助我們看穿這些陷阱、找到變數間「純粹關係」的強大工具,就是今天要介紹的主角——「偏相關」。
首先,我們熟悉的「一般相關」是什麼?
在認識偏相關之前,我們先快速回顧一下老朋吧:「一般相關」(通常指皮爾森相關係數)。
- 它是什麼? 它用來衡量兩個變數之間的線性關係強度與方向。
- 係數範圍: -1 到 +1。
- > 0:正相關(一個增加,另一個也增加)
- < 0:負相關(一個增加,另一個減少)
- = 0:無相關
- 它的最大特點: 它只專注於A和B這兩個變數,完全不理會其他變數的影響。
所以,在冰淇淋和溺水的例子中,如果只計算一般相關,會得到一個很高的正相關值,但這個數字背後隱藏了「天氣熱」這個真相,因此容易誤導我們的判斷。
那麼,「偏相關」又是什麼?
為了避免被誤導,我們需要更精密的手段。偏相關的定義是:
在排除或控制了第三個變數(或多個變數) 的影響之後,再計算兩個目標變數之間的相關程度。
你可以把它想像成一個「淨化」或「過濾」的過程:
- 我們先把「冰淇淋銷量」和「溺水人數」中,可以被「天氣溫度」解釋的部分都移除掉。
- 剩下的部分,可以理解為是「排除了溫度影響後」的純淨數據。
- 最後,我們再計算這兩份「純淨數據」之間的相關性。
如果這個時候,偏相關的係數依然很高,那我們可能就要認真考慮冰淇淋是否真的有什麼神秘力量了。但直覺告訴我們,結果很可能會接近於零,這就證實了最初的猜想:兩者無直接關係,只是共同受到溫度影響。
用數學來驗證我們的直覺
偏相關的計算公式如下(以控制一個變數 X 為例):

其中:
- ryz.x = 控制 X 後,Y 與 Z 的偏相關係數
- ryz = Y 與 Z 的簡單相關係數
- ryx = Y 與 X 的簡單相關係數
- rxz = X 與 Z 的簡單相關係數
讓我們用冰淇淋的例子來算算看!
- Y = 冰淇淋銷量, Z = 溺水人數, X = 氣溫
- 假設我們算出它們之間的兩兩相關為:
- ryz = 0.8 (冰淇淋 vs. 溺水,高度相關)
- ryx = 0.9 (冰淇淋 vs. 氣溫,高度相關)
- rxz = 0.85 (氣溫 vs. 溺水,高度相關)
將數字代入偏相關公式:

計算結果顯示,在控制了氣溫(X)的影響後,冰淇淋銷售量(Y)與溺水人數(Z)之間的偏相關係數僅為 0.1。
這證實了我們的猜想:扣除氣溫的干擾後,冰淇淋和溺水之間幾乎沒有直接關聯。原先的高相關(0.8)果然只是「氣溫」造成的假象!
偏相關 vs. 一般相關,一張表看懂差別

用一個比喻來理解:
- 一般相關就像是在一個嘈雜的派對裡,試圖聽清楚兩個人的對話,你會把所有人的聲音都混在一起聽。
- 偏相關則是給了你一個神奇的降噪耳機,可以過濾掉派對背景的喧嘩聲,讓你清晰地只聽到那兩個人的對話內容。那個「喧嘩聲」就是我們想要控制的變數(如:溫度)。
什麼時候該使用偏相關?
當你的分析符合以下情況時,就非常適合使用偏相關:
- 懷疑有「混淆變數」時:就像冰淇淋的例子,當你直覺或理論上認為有一個第三方因素同時在影響你觀察的兩個變數時。
- 想要探究「直接效果」時:在建立研究模型或理論時,你想知道一個變數對另一個變數的「直接影響」有多大,而不是透過其他變數產生的間接影響。
- 進行預備分析時:在執行複雜的多元迴歸分析之前,可以先使用偏相關來初步判斷,在控制了某些變數後,你關心的自變數和依變數是否還存在關聯。
實際應用場景:
- 教育研究: 想研究「課外輔導時間」對「學業成績」的影響,但必須先「控制」掉「學生本身學習動機」的影響。
- 醫學研究: 想探討「某種飲食習慣」和「心臟病發率」的關係,但需要先「控制」「年齡」和「性別」等因素。
- 行銷分析: 分析「廣告曝光次數」和「產品銷量」的關係時,需要「控制」「節慶假日」這個因素。
結論
數據會說話,但有時它會說謊,或者更精確地說,它會隱藏部分真相。一般相關讓我們看到了變數間表面的關聯性,而偏相關則賦予我們透視的能力,幫我們撥開迷霧,看見變數之間最直接、最純粹的關係。
下次當你看到兩個看似高度相關的數據時,先別急著下結論。試著問自己:「有沒有可能是一個看不見的第三者,同時在影響它們?」學會這個思考框架,你離數據分析的真相就更近了一步!