統計急救箱──用共變數描述分數之間的關係(下)

閱讀時間約 3 分鐘

  由於共變數的解釋有點太長了,就分成上下兩篇。如果看過上一篇統計急救箱──用共變數描述分數之間的關係(上)還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。


用面積來理解共變異數

  如同變異數可以用面積的方式來理解一樣(參考統計急救箱─樣本變異數與標準差),共變數也可以算是一種變異數,也可以用面積的方式來理解它。和變異數最大的不同是,變異數只有一種數值,但共變數則有兩種。例如下圖中,每一個相同顏色的人都有x和y兩個數值,平均數分別是5.2和4.8。

每個人都有x和y兩種數值

每個人都有x和y兩種數值

  接著我們在兩群數值上計算每個人和平均值之間相差多少。和變異數不同的是,在平均數左邊的線段會用淺色表示,平均數右邊的線段則用深色表示。

顏色深淺表示方向,長短表示離均差的大小

顏色深淺表示方向,長短表示離均差的大小

把這些線段排列一下,整理成下面的樣子就可以清楚的看到每個人有兩個離均差了。

每個人都會有兩個離均差

每個人都會有兩個離均差

  根據共變數的公式,要先把每個人的這兩個線段相乘起來。也就是說,用這兩個線段當邊長圍出一個矩形。

矩形分成左半邊與右半邊兩種

矩形分成左半邊與右半邊兩種

在上圖當中,刻意區分出了兩種不同的矩形。左半邊的矩形面積顏色較淺(人也放在矩形裡面),右半邊的矩形面積顏色較深(人則是放在上面)。這樣區分的依據其實就是上面提到線段的顏色,如果矩形的邊長都是淺色或者都是深色,就會是淺色的矩形;如果矩形的邊長是深淺交錯,就會是右邊深色的矩形。

  就如同上面說的,深色的線段表示離均差是正數,而淺色的線段表示離均差是負數。因此深淺相同的線段相乘(離均差皆為正或者皆為負),會成為一個正值;而深淺不同的線段相乘(離均差一正一負)就會是一個負值。共變數的計算需要把這些矩形通通加起來,只不過不同顏色的矩形彼此是要相減的(因為正負值不同)。

  也就是說,我們要把左邊灰色的矩形加起來變成一個大矩形,右邊深色的矩形加起來也變成一個大的深色矩形,然後兩者相減。

共變異數需要考慮方向性,所以兩種矩形的面積要相減

共變異數需要考慮方向性,所以兩種矩形的面積要相減

最後剩餘的面積,就是所謂的積差和 (Sum of Cross-Product, SP of CP) 囉!這也就是共變異數公式當中的分子部分。

積差和

積差和

  再來只要把積差和平分給每一個人,每個人都會得到一個小小的矩形,這個矩形就是共變數啦~

把積差和平分給每個人就成為共變數

把積差和平分給每個人就成為共變數

有興趣的讀者可以回去之前的文章對照看看變異數和共變數的計算過程,就可以知道共變數和變異數的主要差別在於要考慮方向性的問題,不過整個計算過程其實和變異數是相同的。


共變異數受到測量單位影響

  共變數在多變量統計當中是非常重要的,不過在描述兩群數值關係的時候,共變異數存在一個不太方便的地方──共變數是具有單位的,也就共變數的大小會隨著單位不同而改變,因此我們沒有辦法光看共變數就知道兩群數值的關聯性有多強

  舉例而言,假如上面的x指的是年資,而上面的y指的是月收入(萬元),那麼共變數最後的單位就會是:年 x 萬元。

當計算年資和月收入的共變數時,單位是年 x 萬元

當計算年資和月收入的共變數時,單位是年 x 萬元

那麼如果今天換成計算身高(公分)和月收入之間的共變,最後的共變數單位就會是:公分 x 萬元。由於身高往往會比年資更大,因此身高和收入之間的共變數一定會比年資和收入更大。但是按照常理來說,年資和收入之間的關係應該比身高和收入來得更為強烈才對。

  所以如果光是要描述關聯性,共變數可能不是一個很方便的東西。不過只要經過一點簡單的處理,共變數就可以擺脫單位的影響,成為一個很好拿來描述關聯性的指標,那就是皮爾森線性相關係數,也是下一篇文章的主題。


38會員
29Content count
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。 這篇與下一篇當中,就會介紹最常用來看關聯性的統計技術──共變數與皮爾森積差相關。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
Thumbnail
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
Thumbnail
小樣本數量的範圍內,有效率的偵查出離群值(孤點、極端值、奇異點...)在突破型的交易策略中,扮演極重要腳色,本文列舉敘述統計中的分位數概念,然後運用定義的方式來判定極端值 相關IQR概念,請參考下圖
Thumbnail
統計檢定異常值的方法頗多,本文介紹的是小樣本極端值的Dixon檢定,本方法使用的限制為(a). 樣本數至少三個、(b). 樣本採自常態分配,檢定方法程序如下 : 將n個樣本由大而小依序排列,排列後為X(1)、X(2)、...、X(n),檢定統計量為
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
Thumbnail
  這幾天因為選舉民調的關係,統計學一下子受到了大眾的矚目。應該很多人都經由這個機會回想起了一些曾經學過的統計學名詞,例如抽樣、區間、抽樣誤差等等。   其實這些通通都是推論統計的觀念,網路上有相當多的統計專家已經撰文解釋到底這個民調風波在吵什麼,應該不需要我野人獻曝了。   不過如果真的想要了
Thumbnail
小樣本數量的範圍內,有效率的偵查出離群值(孤點、極端值、奇異點...)在突破型的交易策略中,扮演極重要腳色,本文列舉敘述統計中的分位數概念,然後運用定義的方式來判定極端值 相關IQR概念,請參考下圖
Thumbnail
統計檢定異常值的方法頗多,本文介紹的是小樣本極端值的Dixon檢定,本方法使用的限制為(a). 樣本數至少三個、(b). 樣本採自常態分配,檢定方法程序如下 : 將n個樣本由大而小依序排列,排列後為X(1)、X(2)、...、X(n),檢定統計量為
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述