統計急救箱──用共變數描述分數之間的關係(上)

2023/09/10閱讀時間約 5 分鐘

  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。這篇與後面兩篇就會介紹最常用來看關聯性的統計技術──共變數 (covariance) 與皮爾森積差相關 (Pearson's correlation)。


「關聯性」的概念

  在日常生活中提到關聯性,更常會用一個東西受另一個所影響來描述。雖然相關的概念與受到影響並不相同(在介紹相關時會詳細解釋他們的差別),不過這裡為了方便舉例就先這樣說吧。

  知名音樂評論家焦元溥老師(也是歌手焦安溥的哥哥)曾經在《音樂大歷史:從巴比倫到披頭四》導讀當中,提到下面這段話:

寫得像張愛玲,或刻意避開張愛玲,其實是一體兩面,背後都是祖師奶奶巨大的身影。

如果用變項式的方式來描述,可以簡單地說就是寫作風格受到張愛玲的影響。重要的是,這段話揭示了關聯性的一個重要性質:關聯性是具有方向的。

  我們可以用一個(虛構的)故事來解釋關聯的方向性。

  某天下午,一位正在被統計荼毒的大學生坐在咖啡廳嘗試搞懂相關是什麼。隔壁桌坐著三位媽媽聊起自己家小孩子的相處。第一位媽媽說:「我們家妹妹很黏哥哥啊,每次哥哥要做什麼,她也要做什麼。」

同方向的關聯性:跟屁蟲

同方向的關聯性:跟屁蟲

第二位媽媽說:「唉呀,跟我們家兩個完全不一樣呢。我們家老二是看到老大做什麼,她就偏偏要選不一樣的。」

反方向的關聯性:唱反調

反方向的關聯性:唱反調

第三位媽媽說:「嗯~我們家的兩隻都很獨立呢,他們都自己做決定,好像不太會看別人做什麼。」

沒有關聯:做自己

沒有關聯:做自己

  第一位媽媽家中的小朋友,就是正向關聯的例子。其中一個數值往哪走,另一個數值就跟著走。而第二位媽媽的小孩,則是反向關聯的例子。其中一個數值往哪走,另一個數值就要反著走。第三位媽媽口中說的獨立,也就是沒有關聯的意思──不管其他數值怎麼走,另一個數值都不跟著移動。

  受統計荼毒的大學生聽完這串對話之後,什麼都沒想,繼續受到統計的荼毒,一定是因為沒有來看統計急救箱。


共變數與變異數

  這個關聯性的觀念聽起來似乎並不算困難,但問題是怎麼樣用數學的方式來表示數值之間有這樣的關聯性呢?

  首先,要看兩群數值之間的關係有一個前提條件,就是這兩群數值來自於同一個群體。例如身高和體重,是從同一個人身上得到這兩個數值,這樣才能計算這兩個數值之間的關係。在身高與體重的例子裡面,取得數值的單位是「個人」。當然,我們也可以改變這樣的單位,例如父親和孩子的身高,就不是從單一個人身上得到,而是從父子這個「組合」當中得到。總而言之,要計算關聯性的兩個數值必須要來自同一個單位(也就是說,兩群數值的來源必須要有配對關係),才能夠進行計算。

  第二,為了知道數值之間的變動方向,勢必需要一個參照點。而這個參照點也不能亂找,需要是這群數值圍繞在這個參照點變動的,有時候比參照點大、有時候比參照點小,這樣才好看出變動的方向。剛好,平均數就具有這樣的性質。

  當我們把兩群數值各自與平均數之間的差異相乘起來後加總,就會得到關聯性的基礎──積差和 (Sum of Cross-Product, SP of CP) [*1],數學公式是這樣的:

積差和的公式

積差和的公式

眼尖一點的話,會發現這個積差和的公式跟前面看過的總變異 (Sum of Square, SS) 有點像,只不過是把一群數值改成兩群數值而已(如下圖)。

把總變異的公式稍加修改,就是積差和囉!

把總變異的公式稍加修改,就是積差和囉!

如果總變異表示的是一群數值以平均數為原點的整體改變程度,那麼積差和就是兩群數值以各自的平均數為原點的整體共同改變程度囉!

  好吧,我知道「整體共同改變程度」聽起來不像人話。沒關係,可以拆分成不同的部分來看。

  先來看看「共同變化程度」,為什麼把兩個數值的離均差相乘就可以當作共同變化程度?這是因為當其中一個數值離平均越遠時,如果另一個數值也會離平均越遠(往什麼方向都可以),那他們相乘起來就會得到一個很大的數值(正負不論)。但如果一個數值不管離平均多遠,另一個數值都不變化,那就等於是把積差和當中的y部份給拿掉,反正它不會變嘛(從統計急救箱─算術平均數的介紹可以知道,這種狀況下積差和為0)。

  接著是「整體」,就是那個sigma符號。之所以強調整體,是因為積差和具有「方向性」。如果一個數值和另一個數值的走向都是同方向,那積差和全都會是正數 [*2],全部加起來的就會比較大(關聯性就會比較高)。但如果兩群數值的走向有時候相同(積差和為正)、有時候相反(積差和為負),那就表示他們之間的關係不是很穩定,整體而言會互相抵銷,使他們關聯性降低。

  而就如同總變異除以樣本數會得到變異數一樣,積差和除以樣本數就會得到共變數 (covariance) [*3]。因此,如果變異數是指單一群數值自己的改變程度,那共變數就是兩個數值一起改變的程度囉。

共變數(或者共變異數)的公式

共變數(或者共變異數)的公式


  以上就是用公式來理解共變數,但就像是變異數一樣,共變數也可以使用面積的方式來理解。不過這篇已經夠長了,就等到下一篇再說吧。



備註:

[*1]:Cross-product一詞其實是有點令人混淆的。在向量的計算中,cross-product指的是向量外積 (叉積),但此處的cross-product跟外積沒有關係 (可以參考這篇討論)。事實上如果以向量的角度來說,積差和更像是內積才對。

[*2]:如果全都是反方向,那積差和就會全都是負值,全部加起來則是越小,但絕對值仍然會是越大。

[*3]:實際上比較常見的是除以n-1,這是因為相關性幾乎都是推論統計,但這篇指的是描述統計上的相關,因此除以n。



本篇文章中的圖片來源:

  1. https://www.flaticon.com,icons created by juicy_fish - Flaticon
  2. https://loosedrawing.com


19會員
26內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!