統計急救箱──樣本變異數與標準差(二)

閱讀時間約 5 分鐘

  在統計急救箱─樣本變異數與標準差的最後提到了變異數與標準差也可以用空間的方式來理解,只是要對向量有點基本的認識。

  其實寫完我就有點後悔,一方面是我也沒有很系統的學過線性代數,另一方面是用向量的方式理解似乎沒有比用面積來理解變異數更好。不過既然都提了,還是當作一個不同的理解方向寫出來好了。

向量的概念

  雖然高中有教過向量,這裡還是先簡單解釋一下向量是什麼。

  向量其實就是一個空間中的一個線段,但比線段多了一個屬性──方向。所以在空間中的向量會用帶有箭頭的線段來表示,這也意味著即使長度相同,方向不同都會被視為是不同的向量。

  舉個生活中的例子。假如今天中午同事拜託我去買飲料,她說出公司往東走100公尺會看到一家50嵐,結果我什麼也沒看到,打開google map一看才發現是反方向──要往西走100公尺。假如我提著飲料回座位之後,同事說:「哎呀沒差啦,都是100公尺嘛!」我以後一定不會再幫她買飲料了。

  這就是向量的意思,雖然都是100公尺(相同長度),但方向不一樣就是不同的向量。

圖一、圖中的人正從原點走向 (4, 3) 的位置,他的移動路徑是由兩條向量組成的

圖一、圖中的人正從原點走向 (4, 3) 的位置,他的移動路徑是由兩條向量組成的


座標中的直線距離

  如同圖一所表示的,在空間中沿著向量移動會抵達某個終點。但如果這時候問:「那麼這個人現在和他的出發點距離多遠呢?」此時問的是直線距離,而不是他實際移動的距離。如下圖的藍色問號。

圖二、空間中兩點的直線距離,可以用歐基里得距離來表示

圖二、空間中兩點的直線距離,可以用歐基里得距離來表示

  藍色線段的距離在平面座標上算起來也很簡單,小人現在在座標(3, 4)的位置,和原點(0, 0)之間的直線距離,可以發現和a1向量與a2向量形成一個直角三角形。根據三角形的畢氏定理,斜邊的長度就是另外兩邊的平方和開更號。所以是5。

  圖中的右側有寫上歐基里得距離的正式數學公式,就是把每個向量長度平方後相加,接著開更號就行了。換個說法就是,把目標點的座標(3, 4)裡的每個數字平方之後相加,然後開更號就行了(當然這是指和原點之間的距離才可以這樣算)。

  上面舉的是平面的例子,用直角三角形可以很簡單的算出來。不過歐基里得距離在更高維度的空間當中也是相同的計算方式,例如3D空間中:

圖三、三維空間中的歐基里得距離算法也是一樣,更高維空間也是

圖三、三維空間中的歐基里得距離算法也是一樣,更高維空間也是

基本上人類的視覺最多只能看到三維空間而已,但在數學理論中是可以有三維以上的空間的,這就畫不出來了。幸好這篇只是介紹怎麼用向量的觀點看標準差,所以接下來都是用三維空間來舉例就好了。


標準差其實是一種空間裡的直線距離

  仔細看看歐基里得距離的公式,會發現這東西好像有點眼熟......把每個數字的平方相加後開更號,是不是在算標準差的時候我們也做過一樣的事情?

圖四、歐基里得距離與標準差的公式

圖四、歐基里得距離與標準差的公式

雖然有點像,但又不完全一樣。不過如果我們做點手腳,其實就可以把標準差的公式寫成歐基里得距離。

分子的部分

  首先來處理分子的部分。

  標準差的分子是要把每個數值都減去平均值,也就是計算和平均之間的距離,並且把這個距離平方後全都加起來。

  可以想像如果把平均數當成座標軸的原點,而每一個x都是一個座標軸。在這裡我們先假設在計算3個數值的標準差,分別是x1、x2以及x3,那麼這就會形成一個三維座標空間。

圖五、原點是三個x的平均數,而三個軸分別是x1、x2以及x3

圖五、原點是三個x的平均數,而三個軸分別是x1、x2以及x3

把每一個x和平均數之間的差距畫成向量,那麼最後就等於從原點(平均數)走向某一個點。當這些向量最後的終點離原點的直線距離越遠,就可以斷定說這群x的分散程度是越高的。像是下圖這樣:

圖六、每一個x和平均數之間的差距都可以當成是一個向量(也同時是軸的方向)

圖六、每一個x和平均數之間的差距都可以當成是一個向量(也同時是軸的方向)

  像圖中所寫的那樣,如果把每個x和平均數之間的差距簡化寫成a,那麼標準差的公式會變成怎樣呢?

圖七、標準差公式可以改寫成這個樣子

圖七、標準差公式可以改寫成這個樣子

於是會發現標準差其實是兩個歐基里得距離的公式所組成的!

  分子的部分就是表示:把平均數當成原點,每一個x和平均的差距視為向量,沿著所有x產生的向量抵達終點後,該終點和原點之間的直線距離。

圖八、標準差公式的分子與分母都可以寫成歐基里得距離

圖八、標準差公式的分子與分母都可以寫成歐基里得距離


分母的部分

  在上圖當中,改寫標準差公式的時候順便連分母一起改寫了。

  雖然分母看起來也像是個歐基里得距離公式,但它又代表什麼意思呢?

  剛剛說分子的座標系,是以平均為原點,每一個x都視為一個軸所組成的。想像在同樣的一個座標系中,沿著每一軸移動1單位的距離(下圖中的橘色向量),最後抵達了一個終點(下圖中的黑點)。這個終點和原點的直線距離(下圖中的紫色虛線),就是分母代表的歐基里得距離。

圖九、紫色線段的長度就是標準差的分母代表的意思

圖九、紫色線段的長度就是標準差的分母代表的意思


標準差的空間意義

  所以我們可以看到,假如某甲從平均數出發,沿著每個x所形成的軸走一段距離,這個距離是每個x和平均數之間的差距,最後某甲會抵達一個終點。

  然後某乙也和某甲一樣沿著每一軸走一段距離,不過這次他在每一軸的移動距離都是1,最後某乙也抵達了一個終點。

  某甲與某乙接著去測量自己和原點的直線距離有多遠。他們兩人測出的直線距離分別具有下面兩個意義:

  • 某甲和原點的直線距離(下圖中的藍色虛線):當某甲離原點越遠,表示這些x之間的分散程度是越高的。
  • 某乙和原點的直線距離(下圖中的紫色虛線):沿著每一軸走1單位,也就是假定每個x和平均數都只差一單位,因此某乙和原點的直線距離可以視為是標準距離單位。

因此把某甲和原點的直線距離,除以某乙和原點之間的直線距離,就可以當作是一種分散性的指標,也就是標準差。

圖十、標準差可以視為是一種長度的比例

圖十、標準差可以視為是一種長度的比例

  換句話說,從這個角度來看標準差可以說是一種長度比例,也就是上圖藍色虛線是紫色的幾倍。



  雖然用這個角度來看待標準差的說法似乎比較少,但仔細想想這樣的角度其實相對忽略了對變異數的解釋,我個人認為可以當個有趣的想法看看就好,還是用面積的方式來理解比較恰當。

  



avatar-img
49會員
30內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
  在回答過關於統計的問題裡面,有許多問題真正的癥結點其實不在統計能力上。所以就先從一些前情提要的觀念開始寫吧~   先搞懂統計才能做研究?量化與質化研究是什麼?顯著就是一切嗎?數學要很好才能學統計?這篇文章裡面都有討論。
最開始的想法其實只是想寫點筆記。 碩士畢業之後,隨著大數據的風潮而開始認真學起了統計學,過程中逐漸也弄懂了不少以前一知半解的事情。時常有著「當時要是有人告訴我這些就好了啊~」的感嘆,很怕自己沒寫下來就忘了,所以想記錄起來。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
  在回答過關於統計的問題裡面,有許多問題真正的癥結點其實不在統計能力上。所以就先從一些前情提要的觀念開始寫吧~   先搞懂統計才能做研究?量化與質化研究是什麼?顯著就是一切嗎?數學要很好才能學統計?這篇文章裡面都有討論。
最開始的想法其實只是想寫點筆記。 碩士畢業之後,隨著大數據的風潮而開始認真學起了統計學,過程中逐漸也弄懂了不少以前一知半解的事情。時常有著「當時要是有人告訴我這些就好了啊~」的感嘆,很怕自己沒寫下來就忘了,所以想記錄起來。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
覺得閱讀事一件蠻孤單的事情,看劇、聽音樂甚至出遊都可以與他人共享,而閱讀先不說難以與他人同步進行,每個人有感觸的部分都需要經過內化,比較難像戲劇那般被普遍的討論。所以讀墨這種以創作活絡的閱讀社群來鼓勵大家閱,同時利用類似等級打怪與收集限量徽章的遊戲方式增加使用者的參與意願都讓我感受出他們經營的用心。
Thumbnail
對,我也很想問為什麼有(中)!?面對這個沒完沒了、越挖越深的坑,讓我很想掐死過去那個不即時整理閱讀筆記的自己。 不過不得不說,讀墨的另一個好處是比起降低書籍購買價格的「勸買」機制,他們更會舉辦各種活動來「勸讀」。每個月不同主題的閱讀馬拉松活動,讓我在去年接觸了許多不常閱讀的類型的書。
Thumbnail
工作後的最初幾年有點不習慣沒有「回家作業」填滿工餘時間,被分割的生活偶爾會不知道該做些什麼,除了前幾年準備建築師考試做題目、練手感,到最近2年佛系的等術科過關外,空餘的時間居然默默養成了閱讀習慣。
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
課本   統計最大的特色就在於每一個章節所學習到的知識點異常連貫,講白話就是,你從第一章學到的東西將會一路陪著你用到最後,而且中途的每一個章節還會持續不斷的將新的知識點疊加上去,因此只有其中一個章節掉了鏈子,統計學要學好是不可能的事!
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
覺得閱讀事一件蠻孤單的事情,看劇、聽音樂甚至出遊都可以與他人共享,而閱讀先不說難以與他人同步進行,每個人有感觸的部分都需要經過內化,比較難像戲劇那般被普遍的討論。所以讀墨這種以創作活絡的閱讀社群來鼓勵大家閱,同時利用類似等級打怪與收集限量徽章的遊戲方式增加使用者的參與意願都讓我感受出他們經營的用心。
Thumbnail
對,我也很想問為什麼有(中)!?面對這個沒完沒了、越挖越深的坑,讓我很想掐死過去那個不即時整理閱讀筆記的自己。 不過不得不說,讀墨的另一個好處是比起降低書籍購買價格的「勸買」機制,他們更會舉辦各種活動來「勸讀」。每個月不同主題的閱讀馬拉松活動,讓我在去年接觸了許多不常閱讀的類型的書。
Thumbnail
工作後的最初幾年有點不習慣沒有「回家作業」填滿工餘時間,被分割的生活偶爾會不知道該做些什麼,除了前幾年準備建築師考試做題目、練手感,到最近2年佛系的等術科過關外,空餘的時間居然默默養成了閱讀習慣。
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
課本   統計最大的特色就在於每一個章節所學習到的知識點異常連貫,講白話就是,你從第一章學到的東西將會一路陪著你用到最後,而且中途的每一個章節還會持續不斷的將新的知識點疊加上去,因此只有其中一個章節掉了鏈子,統計學要學好是不可能的事!