統計急救箱──用共變數描述分數之間的關係(上)

更新於 發佈於 閱讀時間約 5 分鐘

  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。這篇與後面兩篇就會介紹最常用來看關聯性的統計技術──共變數 (covariance) 與皮爾森積差相關 (Pearson's correlation)。


「關聯性」的概念

  在日常生活中提到關聯性,更常會用一個東西受另一個所影響來描述。雖然相關的概念與受到影響並不相同(在介紹相關時會詳細解釋他們的差別),不過這裡為了方便舉例就先這樣說吧。

  知名音樂評論家焦元溥老師(也是歌手焦安溥的哥哥)曾經在《音樂大歷史:從巴比倫到披頭四》導讀當中,提到下面這段話:

寫得像張愛玲,或刻意避開張愛玲,其實是一體兩面,背後都是祖師奶奶巨大的身影。

如果用變項式的方式來描述,可以簡單地說就是寫作風格受到張愛玲的影響。重要的是,這段話揭示了關聯性的一個重要性質:關聯性是具有方向的。

  我們可以用一個(虛構的)故事來解釋關聯的方向性。

  某天下午,一位正在被統計荼毒的大學生坐在咖啡廳嘗試搞懂相關是什麼。隔壁桌坐著三位媽媽聊起自己家小孩子的相處。第一位媽媽說:「我們家妹妹很黏哥哥啊,每次哥哥要做什麼,她也要做什麼。」

同方向的關聯性:跟屁蟲

同方向的關聯性:跟屁蟲

第二位媽媽說:「唉呀,跟我們家兩個完全不一樣呢。我們家老二是看到老大做什麼,她就偏偏要選不一樣的。」

反方向的關聯性:唱反調

反方向的關聯性:唱反調

第三位媽媽說:「嗯~我們家的兩隻都很獨立呢,他們都自己做決定,好像不太會看別人做什麼。」

沒有關聯:做自己

沒有關聯:做自己

  第一位媽媽家中的小朋友,就是正向關聯的例子。其中一個數值往哪走,另一個數值就跟著走。而第二位媽媽的小孩,則是反向關聯的例子。其中一個數值往哪走,另一個數值就要反著走。第三位媽媽口中說的獨立,也就是沒有關聯的意思──不管其他數值怎麼走,另一個數值都不跟著移動。

  受統計荼毒的大學生聽完這串對話之後,什麼都沒想,繼續受到統計的荼毒,一定是因為沒有來看統計急救箱。


共變數與變異數

  這個關聯性的觀念聽起來似乎並不算困難,但問題是怎麼樣用數學的方式來表示數值之間有這樣的關聯性呢?

  首先,要看兩群數值之間的關係有一個前提條件,就是這兩群數值來自於同一個群體。例如身高和體重,是從同一個人身上得到這兩個數值,這樣才能計算這兩個數值之間的關係。在身高與體重的例子裡面,取得數值的單位是「個人」。當然,我們也可以改變這樣的單位,例如父親和孩子的身高,就不是從單一個人身上得到,而是從父子這個「組合」當中得到。總而言之,要計算關聯性的兩個數值必須要來自同一個單位(也就是說,兩群數值的來源必須要有配對關係),才能夠進行計算。

  第二,為了知道數值之間的變動方向,勢必需要一個參照點。而這個參照點也不能亂找,需要是這群數值圍繞在這個參照點變動的,有時候比參照點大、有時候比參照點小,這樣才好看出變動的方向。剛好,平均數就具有這樣的性質。

  當我們把兩群數值各自與平均數之間的差異相乘起來後加總,就會得到關聯性的基礎──積差和 (Sum of Cross-Product, SP of CP) [*1],數學公式是這樣的:

積差和的公式

積差和的公式

眼尖一點的話,會發現這個積差和的公式跟前面看過的總變異 (Sum of Square, SS) 有點像,只不過是把一群數值改成兩群數值而已(如下圖)。

把總變異的公式稍加修改,就是積差和囉!

把總變異的公式稍加修改,就是積差和囉!

如果總變異表示的是一群數值以平均數為原點的整體改變程度,那麼積差和就是兩群數值以各自的平均數為原點的整體共同改變程度囉!

  好吧,我知道「整體共同改變程度」聽起來不像人話。沒關係,可以拆分成不同的部分來看。

  先來看看「共同變化程度」,為什麼把兩個數值的離均差相乘就可以當作共同變化程度?這是因為當其中一個數值離平均越遠時,如果另一個數值也會離平均越遠(往什麼方向都可以),那他們相乘起來就會得到一個很大的數值(正負不論)。但如果一個數值不管離平均多遠,另一個數值都不變化,那就等於是把積差和當中的y部份給拿掉,反正它不會變嘛(從統計急救箱─算術平均數的介紹可以知道,這種狀況下積差和為0)。

  接著是「整體」,就是那個sigma符號。之所以強調整體,是因為積差和具有「方向性」。如果一個數值和另一個數值的走向都是同方向,那積差和全都會是正數 [*2],全部加起來的就會比較大(關聯性就會比較高)。但如果兩群數值的走向有時候相同(積差和為正)、有時候相反(積差和為負),那就表示他們之間的關係不是很穩定,整體而言會互相抵銷,使他們關聯性降低。

  而就如同總變異除以樣本數會得到變異數一樣,積差和除以樣本數就會得到共變數 (covariance) [*3]。因此,如果變異數是指單一群數值自己的改變程度,那共變數就是兩個數值一起改變的程度囉。

共變數(或者共變異數)的公式

共變數(或者共變異數)的公式


  以上就是用公式來理解共變數,但就像是變異數一樣,共變數也可以使用面積的方式來理解。不過這篇已經夠長了,就等到下一篇再說吧。



備註:

[*1]:Cross-product一詞其實是有點令人混淆的。在向量的計算中,cross-product指的是向量外積 (叉積),但此處的cross-product跟外積沒有關係 (可以參考這篇討論)。事實上如果以向量的角度來說,積差和更像是內積才對。

[*2]:如果全都是反方向,那積差和就會全都是負值,全部加起來則是越小,但絕對值仍然會是越大。

[*3]:實際上比較常見的是除以n-1,這是因為相關性幾乎都是推論統計,但這篇指的是描述統計上的相關,因此除以n。



本篇文章中的圖片來源:

  1. https://www.flaticon.com,icons created by juicy_fish - Flaticon
  2. https://loosedrawing.com


留言
avatar-img
留言分享你的想法!
Dr. Rover-avatar-img
2023/09/17
寫的真的6
Way-avatar-img
發文者
2023/09/20
Dr. Rover 是承蒙您不嫌棄 XD
Way-avatar-img
發文者
2023/09/17
統計急救箱──用共變數描述分數之間的關係(下)提及了這篇文章,趕快過去看看吧!
avatar-img
統計急救箱的沙龍
68會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/12/29
  上回講了獨立樣本t test的運作原理,不過實際的計算上我們還是叫統計軟體跑。對使用者來說更重要的事情反而是──什麼時候我們該使用獨立樣本t test,以及在什麼條件下可以使用獨立樣本t test?
Thumbnail
2024/12/15
 在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。
Thumbnail
2024/12/15
 在實務上,t檢定最常被拿來使用的時機是檢驗兩個群體的(母體)平均數是不是相同。
Thumbnail
2024/10/20
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
2024/10/20
既然現在講完t檢定的基礎了,正好是時候來談談單樣本t檢定的重要用途之一:檢定相關係數的顯著性。
Thumbnail
看更多
你可能也想看
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
高中數學主題練習—相關係數計算
Thumbnail
高中數學主題練習—相關係數計算
Thumbnail
高中數學主題練習—變異數與標準差計算
Thumbnail
高中數學主題練習—變異數與標準差計算
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
這本書的起源來自於疫情期間,作者以數學家的角度,在網路上發表文章,幫大眾解讀疫情的統計數字是什麼意思,我看完這本書以後不禁感嘆,如果我更早理解這些概念就好了。
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
 當開啟試算表(EXCEL等)的累加(SUM)及離散度,標準差(STDEV)的運算功能後,逐一統計的累進報票式選票統計表就可以退休了,而且全國一萬七千多所的數據不待一所所列出,就可以用較小選區(例如嘉義市198所,宜蘭縣431所等)的統計過程證明統計結果都是正確的,尤其是將計算式列出(隱藏前面的
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
依照中央極限定理,我們可以得知(獨立且隨機樣本的)抽樣分布最終會形成常態分佈,那麼這件事情到底為什麼很重要呢? 這篇文章就來介紹一些常態分布的基本特性,以及最重要的──常態分布怎麼幫助我們計算機率。
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
Thumbnail
今天來講:統計模擬研究的入門文章。(2023-08-23)
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News