統計急救箱──標準分數

閱讀時間約 4 分鐘

  在知道平均數與標準差之後,就可以進一步了解什麼是所謂的「標準分數」了。

標準分數的公式

  標準分數是一種透過平均數與標準差的組合,將原始分數進行轉換的過程。它的公式是這樣的:

標準分數 (z分數) 的公式

標準分數 (z分數) 的公式

當我們有一群分數,只要將其中某個數值減去整體的平均數,接著再除以整體的標準差,就會得到該數值的標準分數。這個分數有個專門的名字,叫做Z分數。


標準分數與原始分數的關係

  在標準分數的轉換當中,總共做了兩件事情:1. 將分數減去平均數。2. 除以標準差。這兩件事情在數線上,分別對應到了兩個動作:1. 平移。2. 縮放。

Z分數對原始分數做了兩件事

Z分數對原始分數做了兩件事

   當我們把一群數字裡的每一個數值都加上或者減去某個特定值,這個動作就叫做平移。因為每一個數值都有加 / 減相同的數,因此每個數值之間的相對位置並不改變,改變的只有數值的大小。

  例如某次全校段考,數學科某道題目出不好,老師們最後決定此題送分,全校學生數學考試的分數都加3分。那我們即使不去計算全校學生的數學成績,也可以知道全校學生的數學成績平均數增加了3分。而且因為全校都加分,所以並不會造成名次(分數的相對位置)的變化。

  如果把數值依據大小分別排列成一條數線,所謂的平移就是指移動數線上面的刻度。例如下圖當中,當我們把每一個黑色小人的分數都減去5,也就等於是把數線的0點移動到原本5的位置。比較大的橘色人像代表的就是黑色小人的平均數,因此標準分數在數線上的意思就是把原點0移動到平均數的位置(又稱為平減centering)。

平減 / 中心化就是將原點移動到平均數的位置

平減 / 中心化就是將原點移動到平均數的位置

  所以我們知道了對全部分數做加減是移動刻度,但在標準分數的第2個步驟中還有除以某個數,它在數線上面的意義又是什麼呢?

  對全部分數做乘除,其實是將刻度進行縮放。假如將每個分數乘以2,原本是1的分數會變成2,2的分數會變成4,3的分數會變成6......每個分數都是原本的兩倍,但我們會發現這些分數的相對位置仍然沒有改變。這些數值的改變,也可以說是原本的刻度縮減了一半──原先如果是以1公分為單位,每個分數都乘以2就像是把刻度改為0.5公分一樣。於是每個分數的意義,就會從原本的「某長度是1公分的幾倍」變成「某長度是0.5公分的幾倍」。

  例如下圖,將平減後的每個數值都除以標準差,實際上可以視為將分數的尺度改成以標準差為單位。轉換後的分數值,實際上是「標準差的幾倍」的意思。

分數除以標準差,就是改以標準差為刻度

分數除以標準差,就是改以標準差為刻度


標準分數的意義與功用

  經過上面的解釋,標準分數的意義就很清楚了。當我們把某個分數轉換成為標準分數,它的意思就是以平均數為原點,以標準差為單位所計算出的新數值。用更白話的方式說就是:

每個分數距離平均數有多少個標準差的距離。

不過一個分數好端端的幹嘛去轉換成標準分數?

  這是因為在社會科學研究當中,我們會面臨很多單位彼此不同的變數。雖然我們不一定會直接拿它們做四則運算,不過光是對單位不同的數值做描述,就有可能令我們頭痛了。

  例如我有五個人的身高和月收入所得資料如下圖,橘色為平均數。

五個人的身高與月收入資料

五個人的身高與月收入資料

如果今天我不先計算出平均數(請把橘色的部分遮起來),會發現我們很難立刻看出這五個人的身高和收入排名,於是我們先把原點平移到平均數,也就是做平減,結果如下圖。

平減後的身高與月收入資料

平減後的身高與月收入資料

這時候我們可以比較容易看出每個人的排名了,但又有另一個問題:怎麼判斷和平均數差多少?例如A的身高比平均值矮11.4公分,這樣是矮很多嗎?那他收入比平均少6.4K,這樣是少很多還是少一點點?

  會出現這個問題,就是因為身高和收入不僅有不同的單位(一個是公分,一個是千元),同時兩群數值也有各自的分散程度(各有各的標準差)。在一群很分散(標準差很大)的數值當中,跟平均差很多是很正常的事情;但在一群很集中(標準差很小)的數值當中,跟平均差很多就顯然不太正常了。

  標準分數在分母除以分數的標準差,為的就是解決單位不同與分散性不同所造成的影響。我們來看看將上圖的資料除以標準差之後是什麼樣子:

標準化之後的身高與收入資料

標準化之後的身高與收入資料

這時候會發現圖中的數值已經不再標記單位了,這是因為標準分數是沒有單位的z分數的單位就是標準差。例如剛剛舉例的A,現在我們可以知道他的身高比平均還要矮1.27個標準差,而他的月收入則比平均少0.71個標準差。

  總結來說,標準分數的重要功能在於它可以讓我們比較不同單位的分數。像上面舉例的身高和月收入,不僅單位不同,分散程度也不一樣,但在標準化之後就能讓我們比較清楚的知道這五個人在群體當中的位置大概在哪裡。

  統計學裡面也時常會面臨到要進行跨單位比較的情況,所以未來我們還是會不斷碰到「標準化」這個名詞的。



  這個月實在太過忙碌,結果拖了3週多才寫了新的一篇,希望之後出稿時間可以更穩定一點。

  描述統計大概再過一到兩篇就會結束啦~(然後是令人害怕的推論統計)

46會員
30內容數
大學念文組,碩士班的報告突然要用統計了怎麼辦?沒學過統計怎麼寫量化學位論文?跟著統計書操作都沒問題,但報表都不知道在講什麼,也不知道做的分析到底對不對?作者在應用統計的路上跌跌撞撞也差不多十年了,希望有些心得可以幫助到有這些困擾的你。
留言0
查看全部
發表第一個留言支持創作者!
統計急救箱的沙龍 的其他內容
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
  在回答過關於統計的問題裡面,有許多問題真正的癥結點其實不在統計能力上。所以就先從一些前情提要的觀念開始寫吧~   先搞懂統計才能做研究?量化與質化研究是什麼?顯著就是一切嗎?數學要很好才能學統計?這篇文章裡面都有討論。
通常討論標準差都會用面積的方式來解釋,不過有天我想也許可以用空間來解釋。 但這樣解釋對於標準差和變異數的理解似乎並不完整,可以當個有趣的觀點看看就好。
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
  雖然多數人應該都知道平均數是什麼,也會計算平均數,不過平均數是統計當中非常常使用的統計量,因此還是做一些基本的介紹吧。   順便趁這機會解釋一下令人頭痛的數學公式用白話文說起來是什麼。
搞不懂變數的類型,統計就註定要跑失敗的。 至少要知道名義、次序與等距變數,未來選擇統計分析時才會有正確的結果。
  在跑統計前的二三事─量化研究常見迷思 當中提到了一些量化研究的常見迷思,這篇想要簡單提一下跟統計有關的方法學子領域。   為什麼要提這個呢?因為有時候看起來像是統計的問題,其實在統計學裡面不一定能找到答案。如果不知道這類型的問題屬於哪個領域,就會連怎麼找資料都做不到。
  在回答過關於統計的問題裡面,有許多問題真正的癥結點其實不在統計能力上。所以就先從一些前情提要的觀念開始寫吧~   先搞懂統計才能做研究?量化與質化研究是什麼?顯著就是一切嗎?數學要很好才能學統計?這篇文章裡面都有討論。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
假設你有一串時間數列資料,資料時間長度可以是Tick、分鐘K,也可以是日K的等級,請問有甚麼方法可以評估是否為盤整盤 ?
Thumbnail
課本   統計最大的特色就在於每一個章節所學習到的知識點異常連貫,講白話就是,你從第一章學到的東西將會一路陪著你用到最後,而且中途的每一個章節還會持續不斷的將新的知識點疊加上去,因此只有其中一個章節掉了鏈子,統計學要學好是不可能的事!
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
檢查樣本數據是否符合常態分配,價格數據若是符合常態分配,則視為正常行情,反之則視為有突破訊號。常態分配檢定有數種方法,本文介紹的是w/s檢定,檢定統計量僅需計算樣本全距(w),還有標準差(s),然後求其比值,接者透過查表比較其上、下臨界值,查表值請參考下圖
Thumbnail
借用優勢比這個概念,觀察價格數據資料的多空變化,資料數據請參考下表一
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇,透過觀察統計檢定量的公式,隨機性的檢定是透過前、後期的資料乘積與均數差異的平方,取其比值大小最為判斷,現在透過更為高階的動差概念,來討論價格資料是否屬於盤整型態,其中以動差的視角來看,均數屬於一階動差、變異數屬於二階動差、偏態屬於三階動差、峰態屬於四階動差,相關公式詳列如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
假設你有一串時間數列資料,資料時間長度可以是Tick、分鐘K,也可以是日K的等級,請問有甚麼方法可以評估是否為盤整盤 ?
Thumbnail
課本   統計最大的特色就在於每一個章節所學習到的知識點異常連貫,講白話就是,你從第一章學到的東西將會一路陪著你用到最後,而且中途的每一個章節還會持續不斷的將新的知識點疊加上去,因此只有其中一個章節掉了鏈子,統計學要學好是不可能的事!