由於共變數的解釋有點太長了,就分成上下兩篇。如果看過上一篇統計急救箱──用共變數描述分數之間的關係(上)還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
如同變異數可以用面積的方式來理解一樣(參考統計急救箱─樣本變異數與標準差),共變數也可以算是一種變異數,也可以用面積的方式來理解它。和變異數最大的不同是,變異數只有一種數值,但共變數則有兩種。例如下圖中,每一個相同顏色的人都有x和y兩個數值,平均數分別是5.2和4.8。
接著我們在兩群數值上計算每個人和平均值之間相差多少。和變異數不同的是,在平均數左邊的線段會用淺色表示,平均數右邊的線段則用深色表示。
把這些線段排列一下,整理成下面的樣子就可以清楚的看到每個人有兩個離均差了。
根據共變數的公式,要先把每個人的這兩個線段相乘起來。也就是說,用這兩個線段當邊長圍出一個矩形。
在上圖當中,刻意區分出了兩種不同的矩形。左半邊的矩形面積顏色較淺(人也放在矩形裡面),右半邊的矩形面積顏色較深(人則是放在上面)。這樣區分的依據其實就是上面提到線段的顏色,如果矩形的邊長都是淺色或者都是深色,就會是淺色的矩形;如果矩形的邊長是深淺交錯,就會是右邊深色的矩形。
就如同上面說的,深色的線段表示離均差是正數,而淺色的線段表示離均差是負數。因此深淺相同的線段相乘(離均差皆為正或者皆為負),會成為一個正值;而深淺不同的線段相乘(離均差一正一負)就會是一個負值。共變數的計算需要把這些矩形通通加起來,只不過不同顏色的矩形彼此是要相減的(因為正負值不同)。
也就是說,我們要把左邊灰色的矩形加起來變成一個大矩形,右邊深色的矩形加起來也變成一個大的深色矩形,然後兩者相減。
最後剩餘的面積,就是所謂的積差和 (Sum of Cross-Product, SP of CP) 囉!這也就是共變異數公式當中的分子部分。
再來只要把積差和平分給每一個人,每個人都會得到一個小小的矩形,這個矩形就是共變數啦~
有興趣的讀者可以回去之前的文章對照看看變異數和共變數的計算過程,就可以知道共變數和變異數的主要差別在於要考慮方向性的問題,不過整個計算過程其實和變異數是相同的。
共變數在多變量統計當中是非常重要的,不過在描述兩群數值關係的時候,共變異數存在一個不太方便的地方──共變數是具有單位的,也就共變數的大小會隨著單位不同而改變,因此我們沒有辦法光看共變數就知道兩群數值的關聯性有多強。
舉例而言,假如上面的x指的是年資,而上面的y指的是月收入(萬元),那麼共變數最後的單位就會是:年 x 萬元。
那麼如果今天換成計算身高(公分)和月收入之間的共變,最後的共變數單位就會是:公分 x 萬元。由於身高往往會比年資更大,因此身高和收入之間的共變數一定會比年資和收入更大。但是按照常理來說,年資和收入之間的關係應該比身高和收入來得更為強烈才對。
所以如果光是要描述關聯性,共變數可能不是一個很方便的東西。不過只要經過一點簡單的處理,共變數就可以擺脫單位的影響,成為一個很好拿來描述關聯性的指標,那就是皮爾森線性相關係數,也是下一篇文章的主題。