統計急救箱──用共變數描述分數之間的關係(下)

更新於 發佈於 閱讀時間約 3 分鐘

  由於共變數的解釋有點太長了,就分成上下兩篇。如果看過上一篇統計急救箱──用共變數描述分數之間的關係(上)還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。


用面積來理解共變異數

  如同變異數可以用面積的方式來理解一樣(參考統計急救箱─樣本變異數與標準差),共變數也可以算是一種變異數,也可以用面積的方式來理解它。和變異數最大的不同是,變異數只有一種數值,但共變數則有兩種。例如下圖中,每一個相同顏色的人都有x和y兩個數值,平均數分別是5.2和4.8。

每個人都有x和y兩種數值

每個人都有x和y兩種數值

  接著我們在兩群數值上計算每個人和平均值之間相差多少。和變異數不同的是,在平均數左邊的線段會用淺色表示,平均數右邊的線段則用深色表示。

顏色深淺表示方向,長短表示離均差的大小

顏色深淺表示方向,長短表示離均差的大小

把這些線段排列一下,整理成下面的樣子就可以清楚的看到每個人有兩個離均差了。

每個人都會有兩個離均差

每個人都會有兩個離均差

  根據共變數的公式,要先把每個人的這兩個線段相乘起來。也就是說,用這兩個線段當邊長圍出一個矩形。

矩形分成左半邊與右半邊兩種

矩形分成左半邊與右半邊兩種

在上圖當中,刻意區分出了兩種不同的矩形。左半邊的矩形面積顏色較淺(人也放在矩形裡面),右半邊的矩形面積顏色較深(人則是放在上面)。這樣區分的依據其實就是上面提到線段的顏色,如果矩形的邊長都是淺色或者都是深色,就會是淺色的矩形;如果矩形的邊長是深淺交錯,就會是右邊深色的矩形。

  就如同上面說的,深色的線段表示離均差是正數,而淺色的線段表示離均差是負數。因此深淺相同的線段相乘(離均差皆為正或者皆為負),會成為一個正值;而深淺不同的線段相乘(離均差一正一負)就會是一個負值。共變數的計算需要把這些矩形通通加起來,只不過不同顏色的矩形彼此是要相減的(因為正負值不同)。

  也就是說,我們要把左邊灰色的矩形加起來變成一個大矩形,右邊深色的矩形加起來也變成一個大的深色矩形,然後兩者相減。

共變異數需要考慮方向性,所以兩種矩形的面積要相減

共變異數需要考慮方向性,所以兩種矩形的面積要相減

最後剩餘的面積,就是所謂的積差和 (Sum of Cross-Product, SP of CP) 囉!這也就是共變異數公式當中的分子部分。

積差和

積差和

  再來只要把積差和平分給每一個人,每個人都會得到一個小小的矩形,這個矩形就是共變數啦~

把積差和平分給每個人就成為共變數

把積差和平分給每個人就成為共變數

有興趣的讀者可以回去之前的文章對照看看變異數和共變數的計算過程,就可以知道共變數和變異數的主要差別在於要考慮方向性的問題,不過整個計算過程其實和變異數是相同的。


共變異數受到測量單位影響

  共變數在多變量統計當中是非常重要的,不過在描述兩群數值關係的時候,共變異數存在一個不太方便的地方──共變數是具有單位的,也就共變數的大小會隨著單位不同而改變,因此我們沒有辦法光看共變數就知道兩群數值的關聯性有多強

  舉例而言,假如上面的x指的是年資,而上面的y指的是月收入(萬元),那麼共變數最後的單位就會是:年 x 萬元。

當計算年資和月收入的共變數時,單位是年 x 萬元

當計算年資和月收入的共變數時,單位是年 x 萬元

那麼如果今天換成計算身高(公分)和月收入之間的共變,最後的共變數單位就會是:公分 x 萬元。由於身高往往會比年資更大,因此身高和收入之間的共變數一定會比年資和收入更大。但是按照常理來說,年資和收入之間的關係應該比身高和收入來得更為強烈才對。

  所以如果光是要描述關聯性,共變數可能不是一個很方便的東西。不過只要經過一點簡單的處理,共變數就可以擺脫單位的影響,成為一個很好拿來描述關聯性的指標,那就是皮爾森線性相關係數,也是下一篇文章的主題。


avatar-img
52會員
32內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
直觀理解 導數:考慮的是單一變數的函數,描述的是函數在某點的斜率或變化率。 偏導數:考慮的是多變數函數,描述的是函數在某個變數變化時的變化率,其他變數保持不變。  (針對各維度的調整 或者稱變化 你要調多少) 應用 導數:在物理學中應用廣泛,例如描述速度和加速度。 偏導數:在多變量分析、優
Thumbnail
【特殊圖表教學目錄傳送門 : EXCEL特殊圖表大合輯 | 持續更新中】 這集要分享增減雙層柱形圖,這個圖表除了可以比較兩組數據之外,還能在上方一併呈現這兩組數據實際的差值。 【🎗️範例展示】 下方黑色與灰色的直條圖:用來比較A到H類別2022年與2023年的資料 下方綠色紅色
Thumbnail
【特殊圖表教學目錄傳送門 : EXCEL特殊圖表大合輯 | 持續更新中】 EXCEL中橫條圖(又稱橫向條形圖)是一種常用的圖表類型,用於以視覺化的方式表示數據。它主要用來比較不同類別之間的數據量。每個類別都有一條水平的條形,以代表該類別的數據值。這種圖表通常適合比較不同類別之間的差異。
Thumbnail
這篇文章,會帶著大家複習以前學過的前綴和框架, 並且以區間和的概念與應用為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 前綴和 prefix sum框架 與 區間和計算的關係式 接下來,我們會用這個上面這種框架,貫穿一些同類型,有關聯的題目 (請讀者、或觀眾
在求學階段,你已經對代數的計算熟到不能再熟,所以變數(variable)對你來說應該不至於太陌生,先來看看以下這個例子:   
什麼叫均值回歸,要如何搭配股市操作,可以參考作者的方法。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
直觀理解 導數:考慮的是單一變數的函數,描述的是函數在某點的斜率或變化率。 偏導數:考慮的是多變數函數,描述的是函數在某個變數變化時的變化率,其他變數保持不變。  (針對各維度的調整 或者稱變化 你要調多少) 應用 導數:在物理學中應用廣泛,例如描述速度和加速度。 偏導數:在多變量分析、優
Thumbnail
【特殊圖表教學目錄傳送門 : EXCEL特殊圖表大合輯 | 持續更新中】 這集要分享增減雙層柱形圖,這個圖表除了可以比較兩組數據之外,還能在上方一併呈現這兩組數據實際的差值。 【🎗️範例展示】 下方黑色與灰色的直條圖:用來比較A到H類別2022年與2023年的資料 下方綠色紅色
Thumbnail
【特殊圖表教學目錄傳送門 : EXCEL特殊圖表大合輯 | 持續更新中】 EXCEL中橫條圖(又稱橫向條形圖)是一種常用的圖表類型,用於以視覺化的方式表示數據。它主要用來比較不同類別之間的數據量。每個類別都有一條水平的條形,以代表該類別的數據值。這種圖表通常適合比較不同類別之間的差異。
Thumbnail
這篇文章,會帶著大家複習以前學過的前綴和框架, 並且以區間和的概念與應用為核心, 貫穿一些相關聯的題目,透過框架複現來幫助讀者理解這個演算法框架。 前綴和 prefix sum框架 與 區間和計算的關係式 接下來,我們會用這個上面這種框架,貫穿一些同類型,有關聯的題目 (請讀者、或觀眾
在求學階段,你已經對代數的計算熟到不能再熟,所以變數(variable)對你來說應該不至於太陌生,先來看看以下這個例子:   
什麼叫均值回歸,要如何搭配股市操作,可以參考作者的方法。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」