統計急救箱──用共變數描述分數之間的關係(上)

更新於 發佈於 閱讀時間約 5 分鐘

  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。這篇與後面兩篇就會介紹最常用來看關聯性的統計技術──共變數 (covariance) 與皮爾森積差相關 (Pearson's correlation)。


「關聯性」的概念

  在日常生活中提到關聯性,更常會用一個東西受另一個所影響來描述。雖然相關的概念與受到影響並不相同(在介紹相關時會詳細解釋他們的差別),不過這裡為了方便舉例就先這樣說吧。

  知名音樂評論家焦元溥老師(也是歌手焦安溥的哥哥)曾經在《音樂大歷史:從巴比倫到披頭四》導讀當中,提到下面這段話:

寫得像張愛玲,或刻意避開張愛玲,其實是一體兩面,背後都是祖師奶奶巨大的身影。

如果用變項式的方式來描述,可以簡單地說就是寫作風格受到張愛玲的影響。重要的是,這段話揭示了關聯性的一個重要性質:關聯性是具有方向的。

  我們可以用一個(虛構的)故事來解釋關聯的方向性。

  某天下午,一位正在被統計荼毒的大學生坐在咖啡廳嘗試搞懂相關是什麼。隔壁桌坐著三位媽媽聊起自己家小孩子的相處。第一位媽媽說:「我們家妹妹很黏哥哥啊,每次哥哥要做什麼,她也要做什麼。」

同方向的關聯性:跟屁蟲

同方向的關聯性:跟屁蟲

第二位媽媽說:「唉呀,跟我們家兩個完全不一樣呢。我們家老二是看到老大做什麼,她就偏偏要選不一樣的。」

反方向的關聯性:唱反調

反方向的關聯性:唱反調

第三位媽媽說:「嗯~我們家的兩隻都很獨立呢,他們都自己做決定,好像不太會看別人做什麼。」

沒有關聯:做自己

沒有關聯:做自己

  第一位媽媽家中的小朋友,就是正向關聯的例子。其中一個數值往哪走,另一個數值就跟著走。而第二位媽媽的小孩,則是反向關聯的例子。其中一個數值往哪走,另一個數值就要反著走。第三位媽媽口中說的獨立,也就是沒有關聯的意思──不管其他數值怎麼走,另一個數值都不跟著移動。

  受統計荼毒的大學生聽完這串對話之後,什麼都沒想,繼續受到統計的荼毒,一定是因為沒有來看統計急救箱。


共變數與變異數

  這個關聯性的觀念聽起來似乎並不算困難,但問題是怎麼樣用數學的方式來表示數值之間有這樣的關聯性呢?

  首先,要看兩群數值之間的關係有一個前提條件,就是這兩群數值來自於同一個群體。例如身高和體重,是從同一個人身上得到這兩個數值,這樣才能計算這兩個數值之間的關係。在身高與體重的例子裡面,取得數值的單位是「個人」。當然,我們也可以改變這樣的單位,例如父親和孩子的身高,就不是從單一個人身上得到,而是從父子這個「組合」當中得到。總而言之,要計算關聯性的兩個數值必須要來自同一個單位(也就是說,兩群數值的來源必須要有配對關係),才能夠進行計算。

  第二,為了知道數值之間的變動方向,勢必需要一個參照點。而這個參照點也不能亂找,需要是這群數值圍繞在這個參照點變動的,有時候比參照點大、有時候比參照點小,這樣才好看出變動的方向。剛好,平均數就具有這樣的性質。

  當我們把兩群數值各自與平均數之間的差異相乘起來後加總,就會得到關聯性的基礎──積差和 (Sum of Cross-Product, SP of CP) [*1],數學公式是這樣的:

積差和的公式

積差和的公式

眼尖一點的話,會發現這個積差和的公式跟前面看過的總變異 (Sum of Square, SS) 有點像,只不過是把一群數值改成兩群數值而已(如下圖)。

把總變異的公式稍加修改,就是積差和囉!

把總變異的公式稍加修改,就是積差和囉!

如果總變異表示的是一群數值以平均數為原點的整體改變程度,那麼積差和就是兩群數值以各自的平均數為原點的整體共同改變程度囉!

  好吧,我知道「整體共同改變程度」聽起來不像人話。沒關係,可以拆分成不同的部分來看。

  先來看看「共同變化程度」,為什麼把兩個數值的離均差相乘就可以當作共同變化程度?這是因為當其中一個數值離平均越遠時,如果另一個數值也會離平均越遠(往什麼方向都可以),那他們相乘起來就會得到一個很大的數值(正負不論)。但如果一個數值不管離平均多遠,另一個數值都不變化,那就等於是把積差和當中的y部份給拿掉,反正它不會變嘛(從統計急救箱─算術平均數的介紹可以知道,這種狀況下積差和為0)。

  接著是「整體」,就是那個sigma符號。之所以強調整體,是因為積差和具有「方向性」。如果一個數值和另一個數值的走向都是同方向,那積差和全都會是正數 [*2],全部加起來的就會比較大(關聯性就會比較高)。但如果兩群數值的走向有時候相同(積差和為正)、有時候相反(積差和為負),那就表示他們之間的關係不是很穩定,整體而言會互相抵銷,使他們關聯性降低。

  而就如同總變異除以樣本數會得到變異數一樣,積差和除以樣本數就會得到共變數 (covariance) [*3]。因此,如果變異數是指單一群數值自己的改變程度,那共變數就是兩個數值一起改變的程度囉。

共變數(或者共變異數)的公式

共變數(或者共變異數)的公式


  以上就是用公式來理解共變數,但就像是變異數一樣,共變數也可以使用面積的方式來理解。不過這篇已經夠長了,就等到下一篇再說吧。



備註:

[*1]:Cross-product一詞其實是有點令人混淆的。在向量的計算中,cross-product指的是向量外積 (叉積),但此處的cross-product跟外積沒有關係 (可以參考這篇討論)。事實上如果以向量的角度來說,積差和更像是內積才對。

[*2]:如果全都是反方向,那積差和就會全都是負值,全部加起來則是越小,但絕對值仍然會是越大。

[*3]:實際上比較常見的是除以n-1,這是因為相關性幾乎都是推論統計,但這篇指的是描述統計上的相關,因此除以n。



本篇文章中的圖片來源:

  1. https://www.flaticon.com,icons created by juicy_fish - Flaticon
  2. https://loosedrawing.com


avatar-img
53會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
你可能也想看
Google News 追蹤
Thumbnail
/ 大家現在出門買東西還會帶錢包嗎 鴨鴨發現自己好像快一個禮拜沒帶錢包出門 還是可以天天買滿買好回家(? 因此為了記錄手機消費跟各種紅利優惠 鴨鴨都會特別注意銀行的App好不好用! 像是介面設計就是會很在意的地方 很多銀行通常會為了要滿足不同客群 會推出很多App讓使用者下載 每次
你的父母會拿兄弟姊妹作比較嗎? 你會跟你的兄弟姊妹比較嗎? 你會將你的孩子們進行比較嗎? 我跟我姊,只差一歲,而且都是女生,家裡沒有其他孩子,所以父母給我們的資源幾乎一樣,但是從小時候就會開始成為大人茶餘飯後的話題,從誰比較乖、誰功課比較好 到現在結婚之後有各自的家庭了,也難免被提到誰嫁得比
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
探討師生關係與親子關係的異同,指出大人對孩子的期望與對待方式,以及孩子在這種關係中的角色。建議大人可以用生態觀察的角度看待孩子的成長,接受並欣賞每一個孩子獨特的樣貌。
Thumbnail
我們的一生中會有很多不同的人來來去去,如果中途有人離開了,那就是緣分到了 我認為「緣分」不是「玄學」,而是「科學」 因為「緣分其實是我們在每一個當下所做的選擇跟決定導致的最終結果」,用數學語言來說,就是「summation」(數學中毒🤣) 每一件事的發生都有原因,無論是人、事、物
看到不同的家長與孩子的互動 時常讓我想到我與兒子們的關係
Thumbnail
人際關係,一直是每個人從出生到長大就開始擁有的,比方跟父母的關係、祖孫關係、某部分的親戚關係,一直到上學有了師長、同儕關係,工作中的同事關係,談戀愛了就有了男女關係,論及婚嫁就開始面對夫妻關係、公婆媳關係,有了孩子就開始親子關係,慢慢的我們在這些關係中像是輪迴。 你有因為人際關係新增煩惱嗎?答案是
Thumbnail
所謂近親難度,是由於諸多原因使然。同為一家人,如果我們從父母身上得到的資源多於其他手足,長大後不管是工作還是生活條件也都優於其他兄弟姊妹,假使有一天,我們看到其中手足遭遇逆境,生活陷入困難而想要度他一程,他也許不會接受,反而會反唇相譏我們貓哭耗子假慈悲。他心中有恨,同為一家人卻不同待遇的恨。這是近親
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
在這個世界,有那麼多的人,而且個性、習慣、興趣都不太一樣。 為何會不一樣呢? 如果是在同一個家庭,有相同的父母,相同的生長環境,是不是培養出來的小孩,個性、習慣應該會很接近吧。 小孩子的學習從模仿開始,對於親近之人所灌輸的身教、言教,很容易就會照單全收。 同一個家庭的親人之間,確實在
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
/ 大家現在出門買東西還會帶錢包嗎 鴨鴨發現自己好像快一個禮拜沒帶錢包出門 還是可以天天買滿買好回家(? 因此為了記錄手機消費跟各種紅利優惠 鴨鴨都會特別注意銀行的App好不好用! 像是介面設計就是會很在意的地方 很多銀行通常會為了要滿足不同客群 會推出很多App讓使用者下載 每次
你的父母會拿兄弟姊妹作比較嗎? 你會跟你的兄弟姊妹比較嗎? 你會將你的孩子們進行比較嗎? 我跟我姊,只差一歲,而且都是女生,家裡沒有其他孩子,所以父母給我們的資源幾乎一樣,但是從小時候就會開始成為大人茶餘飯後的話題,從誰比較乖、誰功課比較好 到現在結婚之後有各自的家庭了,也難免被提到誰嫁得比
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
探討師生關係與親子關係的異同,指出大人對孩子的期望與對待方式,以及孩子在這種關係中的角色。建議大人可以用生態觀察的角度看待孩子的成長,接受並欣賞每一個孩子獨特的樣貌。
Thumbnail
我們的一生中會有很多不同的人來來去去,如果中途有人離開了,那就是緣分到了 我認為「緣分」不是「玄學」,而是「科學」 因為「緣分其實是我們在每一個當下所做的選擇跟決定導致的最終結果」,用數學語言來說,就是「summation」(數學中毒🤣) 每一件事的發生都有原因,無論是人、事、物
看到不同的家長與孩子的互動 時常讓我想到我與兒子們的關係
Thumbnail
人際關係,一直是每個人從出生到長大就開始擁有的,比方跟父母的關係、祖孫關係、某部分的親戚關係,一直到上學有了師長、同儕關係,工作中的同事關係,談戀愛了就有了男女關係,論及婚嫁就開始面對夫妻關係、公婆媳關係,有了孩子就開始親子關係,慢慢的我們在這些關係中像是輪迴。 你有因為人際關係新增煩惱嗎?答案是
Thumbnail
所謂近親難度,是由於諸多原因使然。同為一家人,如果我們從父母身上得到的資源多於其他手足,長大後不管是工作還是生活條件也都優於其他兄弟姊妹,假使有一天,我們看到其中手足遭遇逆境,生活陷入困難而想要度他一程,他也許不會接受,反而會反唇相譏我們貓哭耗子假慈悲。他心中有恨,同為一家人卻不同待遇的恨。這是近親
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
在這個世界,有那麼多的人,而且個性、習慣、興趣都不太一樣。 為何會不一樣呢? 如果是在同一個家庭,有相同的父母,相同的生長環境,是不是培養出來的小孩,個性、習慣應該會很接近吧。 小孩子的學習從模仿開始,對於親近之人所灌輸的身教、言教,很容易就會照單全收。 同一個家庭的親人之間,確實在
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」