統計急救箱──用共變數描述分數之間的關係(上)

閱讀時間約 5 分鐘

  平均數、標準差、標準分數等等,都是用在單一群分數上的統計。不過在現實中,大多數時候我們不只想看一群分數,更想要看很多群分數之間的關聯性。這篇與後面兩篇就會介紹最常用來看關聯性的統計技術──共變數 (covariance) 與皮爾森積差相關 (Pearson's correlation)。


「關聯性」的概念

  在日常生活中提到關聯性,更常會用一個東西受另一個所影響來描述。雖然相關的概念與受到影響並不相同(在介紹相關時會詳細解釋他們的差別),不過這裡為了方便舉例就先這樣說吧。

  知名音樂評論家焦元溥老師(也是歌手焦安溥的哥哥)曾經在《音樂大歷史:從巴比倫到披頭四》導讀當中,提到下面這段話:

寫得像張愛玲,或刻意避開張愛玲,其實是一體兩面,背後都是祖師奶奶巨大的身影。

如果用變項式的方式來描述,可以簡單地說就是寫作風格受到張愛玲的影響。重要的是,這段話揭示了關聯性的一個重要性質:關聯性是具有方向的。

  我們可以用一個(虛構的)故事來解釋關聯的方向性。

  某天下午,一位正在被統計荼毒的大學生坐在咖啡廳嘗試搞懂相關是什麼。隔壁桌坐著三位媽媽聊起自己家小孩子的相處。第一位媽媽說:「我們家妹妹很黏哥哥啊,每次哥哥要做什麼,她也要做什麼。」

同方向的關聯性:跟屁蟲

同方向的關聯性:跟屁蟲

第二位媽媽說:「唉呀,跟我們家兩個完全不一樣呢。我們家老二是看到老大做什麼,她就偏偏要選不一樣的。」

反方向的關聯性:唱反調

反方向的關聯性:唱反調

第三位媽媽說:「嗯~我們家的兩隻都很獨立呢,他們都自己做決定,好像不太會看別人做什麼。」

沒有關聯:做自己

沒有關聯:做自己

  第一位媽媽家中的小朋友,就是正向關聯的例子。其中一個數值往哪走,另一個數值就跟著走。而第二位媽媽的小孩,則是反向關聯的例子。其中一個數值往哪走,另一個數值就要反著走。第三位媽媽口中說的獨立,也就是沒有關聯的意思──不管其他數值怎麼走,另一個數值都不跟著移動。

  受統計荼毒的大學生聽完這串對話之後,什麼都沒想,繼續受到統計的荼毒,一定是因為沒有來看統計急救箱。


共變數與變異數

  這個關聯性的觀念聽起來似乎並不算困難,但問題是怎麼樣用數學的方式來表示數值之間有這樣的關聯性呢?

  首先,要看兩群數值之間的關係有一個前提條件,就是這兩群數值來自於同一個群體。例如身高和體重,是從同一個人身上得到這兩個數值,這樣才能計算這兩個數值之間的關係。在身高與體重的例子裡面,取得數值的單位是「個人」。當然,我們也可以改變這樣的單位,例如父親和孩子的身高,就不是從單一個人身上得到,而是從父子這個「組合」當中得到。總而言之,要計算關聯性的兩個數值必須要來自同一個單位(也就是說,兩群數值的來源必須要有配對關係),才能夠進行計算。

  第二,為了知道數值之間的變動方向,勢必需要一個參照點。而這個參照點也不能亂找,需要是這群數值圍繞在這個參照點變動的,有時候比參照點大、有時候比參照點小,這樣才好看出變動的方向。剛好,平均數就具有這樣的性質。

  當我們把兩群數值各自與平均數之間的差異相乘起來後加總,就會得到關聯性的基礎──積差和 (Sum of Cross-Product, SP of CP) [*1],數學公式是這樣的:

積差和的公式

積差和的公式

眼尖一點的話,會發現這個積差和的公式跟前面看過的總變異 (Sum of Square, SS) 有點像,只不過是把一群數值改成兩群數值而已(如下圖)。

把總變異的公式稍加修改,就是積差和囉!

把總變異的公式稍加修改,就是積差和囉!

如果總變異表示的是一群數值以平均數為原點的整體改變程度,那麼積差和就是兩群數值以各自的平均數為原點的整體共同改變程度囉!

  好吧,我知道「整體共同改變程度」聽起來不像人話。沒關係,可以拆分成不同的部分來看。

  先來看看「共同變化程度」,為什麼把兩個數值的離均差相乘就可以當作共同變化程度?這是因為當其中一個數值離平均越遠時,如果另一個數值也會離平均越遠(往什麼方向都可以),那他們相乘起來就會得到一個很大的數值(正負不論)。但如果一個數值不管離平均多遠,另一個數值都不變化,那就等於是把積差和當中的y部份給拿掉,反正它不會變嘛(從統計急救箱─算術平均數的介紹可以知道,這種狀況下積差和為0)。

  接著是「整體」,就是那個sigma符號。之所以強調整體,是因為積差和具有「方向性」。如果一個數值和另一個數值的走向都是同方向,那積差和全都會是正數 [*2],全部加起來的就會比較大(關聯性就會比較高)。但如果兩群數值的走向有時候相同(積差和為正)、有時候相反(積差和為負),那就表示他們之間的關係不是很穩定,整體而言會互相抵銷,使他們關聯性降低。

  而就如同總變異除以樣本數會得到變異數一樣,積差和除以樣本數就會得到共變數 (covariance) [*3]。因此,如果變異數是指單一群數值自己的改變程度,那共變數就是兩個數值一起改變的程度囉。

共變數(或者共變異數)的公式

共變數(或者共變異數)的公式


  以上就是用公式來理解共變數,但就像是變異數一樣,共變數也可以使用面積的方式來理解。不過這篇已經夠長了,就等到下一篇再說吧。



備註:

[*1]:Cross-product一詞其實是有點令人混淆的。在向量的計算中,cross-product指的是向量外積 (叉積),但此處的cross-product跟外積沒有關係 (可以參考這篇討論)。事實上如果以向量的角度來說,積差和更像是內積才對。

[*2]:如果全都是反方向,那積差和就會全都是負值,全部加起來則是越小,但絕對值仍然會是越大。

[*3]:實際上比較常見的是除以n-1,這是因為相關性幾乎都是推論統計,但這篇指的是描述統計上的相關,因此除以n。



本篇文章中的圖片來源:

  1. https://www.flaticon.com,icons created by juicy_fish - Flaticon
  2. https://loosedrawing.com


38會員
29Content count
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。 標準分數的重要用途是可以幫助我們比較不同單位、不同分散程度的數值。 以概念來說,跟百分等級(PR)有點類似的味道吧。 標準分數在後續的統計當中也很常會出現的。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
Thumbnail
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
Thumbnail
小樣本數量的範圍內,有效率的偵查出離群值(孤點、極端值、奇異點...)在突破型的交易策略中,扮演極重要腳色,本文列舉敘述統計中的分位數概念,然後運用定義的方式來判定極端值 相關IQR概念,請參考下圖
Thumbnail
統計檢定異常值的方法頗多,本文介紹的是小樣本極端值的Dixon檢定,本方法使用的限制為(a). 樣本數至少三個、(b). 樣本採自常態分配,檢定方法程序如下 : 將n個樣本由大而小依序排列,排列後為X(1)、X(2)、...、X(n),檢定統計量為
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
如果把前面把Z檢定和標準誤、標準差給搞懂,那麼t檢定的理解其實就滿簡單的了。 實務上來說,用Z檢定的機會其實比t檢定少。 這篇的目標就是介紹單樣本t檢定的原理,稍微有點長,比較需要耐心。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
在上一篇文章中區分了什麼是母體分布、樣本分布以及抽樣分布,另外也示範了抽樣分布的形成過程。在這一篇當中就要介紹抽樣分布與常態分佈之間到底是什麼樣的關係了。
Thumbnail
如果看過上一篇還不太確定共變數要怎麼計算,這篇會用圖像的方式來進行解釋,最後也會提及共變數的小缺點。
Thumbnail
小樣本數量的範圍內,有效率的偵查出離群值(孤點、極端值、奇異點...)在突破型的交易策略中,扮演極重要腳色,本文列舉敘述統計中的分位數概念,然後運用定義的方式來判定極端值 相關IQR概念,請參考下圖
Thumbnail
統計檢定異常值的方法頗多,本文介紹的是小樣本極端值的Dixon檢定,本方法使用的限制為(a). 樣本數至少三個、(b). 樣本採自常態分配,檢定方法程序如下 : 將n個樣本由大而小依序排列,排列後為X(1)、X(2)、...、X(n),檢定統計量為
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述