數與人系列:常態的迷思

更新於 發佈於 閱讀時間約 4 分鐘
常態分布(又稱高斯分布)可說是大多統計人最熟悉的統計分布,但正如人們往往會在自認為最熟悉的領域犯錯而不自覺,這個統計人最倚賴的分布其實也是最容易造成誤解的統計概念之一。
不過,要打破常態分布所帶來的迷思,還是得像畢卡索所建議的,先像一個專家學習專業知識,再像一個藝術家想辦法破解之。
常態分配在現代統計學中為什麼重要?
這牽涉到統計人對「平均數」(mean)的興趣。
至於為什麼要計算平均數呢?
這牽涉到統計人想了解的「一般人」。也就是說,當統計人想知道在一個社會中一般人過得如何就會去計算相關的平均統計量(每人每月平均蘋果消耗量、每月平均安眠藥消耗量,每年平均收入),以了解他們的生活狀況。(相關文章:平均的落點。)
當然,囿於許多現實上的限制,研究者可能沒法進行真正的普查,所以只能用樣本平均數來推論母群平均數,這時候,就要借助樣本平均數的機率分配來幫助估算誤差。而這所謂平均數的機率分配剛好就是所謂的常態分配。
下面這張圖說明用來計算平均數誤差的中央極限定理的推導。 不論原來母群的分配型態是什麼,都可以算出一個平均數。如果樣本數是5(如果一次從母群得到5個觀察值,再求樣本平均值 ),那麼多抽幾次以後,就會得到一個樣本數為5 的樣本平均數的抽樣分配。同理,我們也可以一次從母群抽得 30 個觀察值,再求這些觀察值的平均數,然後求這些樣本平均數的觀察值,就可以得到一個樣本數為 30 的樣本平均數的抽樣分配。
平均數的中央極限定理
所謂的中央極限定理和大數法則就是說,如果樣本數越大,得到的抽樣分配就會越趨近常態分配。(相關文章:和常態分布有關的統計心法
這讓許多統計人在利用「樣本平均數」做 「母群平均數」的推估時,常常忘了,縱使他們可以利用中央極限定理預測出一個「母群的平均數」也不代表「原本觀察值的母群」會是一個「常態分配」。
比如說,我們想用抽樣調查的方式去評估如今台灣每年家戶收入的平均收入。但若是只算出一個家戶平均收入而沒有留意抽樣的分配特性,就可能會讓我們錯估台灣目前的經濟狀態。
因為,各種不同的收入型態分布都可以計算出平均值。貧富差距很大的社會也可以算出一個平均值,收入震盪起伏很大的行業也可以算出一個平均值。因此,若是只根據一個估算的平均值來判斷社會經濟運作的良好與否,不但沒有幫助解決社會經濟問題,甚至可能有誤導作用。
例如,我們可以在新冠疫情期間,藉由網路調查這段時間的家戶收入,而且剛好抽到很多因為疫情所以在家工作的樣本,由於這些樣本的工作及收入並未受到封城的影響,那麼就可能有人會利用這些樣本的資料,宣稱台灣的家戶生活並未因封城而有太大影響。
同理,我們如果過度執著去計算一個社會中,到底有多少人打了疫苗,或者打了幾劑,有時也可能沒有多大意義。因為,我們的疫苗分配並不是從全體國民中隨機抽樣施打的,而是讓有些族群優先施打的。因此,我們可以預測這些相關疫苗施打模式會呈現出一些特定的模式。以目前傳出的「特權疫苗」新聞來說,我們就可以猜測: 在台灣,「疫苗」已經成為大多數人的「安全感」來源了,那麼,我們也可以大膽預估,有一定比例打不到疫苗(或覺得自己接種的疫苗保護力不足)的人即使解封,應該也不敢群聚活動,自然就不會對權力者造成威脅了。
當然,用這種方式來「自然」「減少」某些地區的人民活動,是不是符合社會正義,那就要看權力者「自圓其說」的能力了。(下圖圖片來自風傳媒 2018年文章:蔡英文駁「拒馬總統。)
2018. 1.23
再回到「常態分布」。
所謂的「常態分布」有好幾個特色,是很值得注意的:第一,數值以平均數為中線,構成左右對稱之單峰、鐘型曲線分布。第二,數值之平均數、中位數和眾數為同一數值。
常態分布圖
這意味著,在一個常態分布中,平均數是一個很有代表性的數值。如果一個社會的家戶平均收入真是呈穩定的常態分布,那麼我們的確可以用「平均數」來描繪這個社會中的「一般人」的生活樣貌。
但,如果這個社會的家戶收入是有好幾個頂峰的,或是偏斜的 ⋯⋯那麼,「平均數」所呈現的,真的有助於了解社會上「一般人」的生活嗎?
不同 型態的數據分布
這個問題值得想從「數字」了解問題,而不是掩蓋問題的「數字人」們好好想想。
此篇文章會顯示動態置底廣告
為什麼會看到廣告
avatar-img
52會員
425內容數
曬書天,好奇地。 文圖連播,播出新識界。 紅柿子在這方小天地不只曬書,也曬心得。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
在商業社會中,商品的價格可以從成交的交易中取得,但是禮物的價值應該如何估算呢?為什麼「民意」會對政府施政失去「參考價值」呢?也許,該檢討的,其實是人民。
統計,和法律一樣,在國家治理上有其功能,但不是魔法,更非戰場上取勝的必然保證。但是,這並不是說,統計應該被阻擋在法律會偵查之外。只要善加利用,還是有助於釐清案情。以三一九槍擊案為例 ,統計人的假設和決斷思維其實就可以幫上一點忙,指出相關偵查單位的盲點。
如果將「改變點分析」的權利交給賢能者,可以即時發揮效果,早早對危機提出警告。這自然可以運用在疫情的監控上,達成「超前預警」的觀念。但觀察衛福部的記者會,不但沒有這種「超前預警」的觀念,反而是用「校正回歸」的方式來處理疫情,著實令人納悶為何如此。
統計既然是關於猜測的科學,那麼如何隨著時間發展,根據新事件或新資訊的發生來形成新的假說(或新的估計),自然就會成為數字人想要解決的問題。在網路資訊尚未發達之前,這可能要牽涉到重新收集一批新的資料再處理分析,可是在網路時代,資訊經常源源不斷,數據界分析這類資訊的重點就轉變成如何處理這些一直產生的新資訊
如果實驗設計或執行不良,要解釋實驗結果就可能出現很多可能。單純增加受試者數目,在數學上說得通,但可能對了解實際作用機值幫著不大。
費雪(Fisher)既然是從「劍橋下午茶事件」後,開始思索用統計來解決「主觀」與「客觀」的問題,「品茶問題」自然就開始在統計發展中扮演重要角色。從「品茶問題」開始,我們可以比較哪種可樂比較好喝,哪種止咳藥比較有效,還有 哪種疫苗比較有效嗎?
在商業社會中,商品的價格可以從成交的交易中取得,但是禮物的價值應該如何估算呢?為什麼「民意」會對政府施政失去「參考價值」呢?也許,該檢討的,其實是人民。
統計,和法律一樣,在國家治理上有其功能,但不是魔法,更非戰場上取勝的必然保證。但是,這並不是說,統計應該被阻擋在法律會偵查之外。只要善加利用,還是有助於釐清案情。以三一九槍擊案為例 ,統計人的假設和決斷思維其實就可以幫上一點忙,指出相關偵查單位的盲點。
如果將「改變點分析」的權利交給賢能者,可以即時發揮效果,早早對危機提出警告。這自然可以運用在疫情的監控上,達成「超前預警」的觀念。但觀察衛福部的記者會,不但沒有這種「超前預警」的觀念,反而是用「校正回歸」的方式來處理疫情,著實令人納悶為何如此。
統計既然是關於猜測的科學,那麼如何隨著時間發展,根據新事件或新資訊的發生來形成新的假說(或新的估計),自然就會成為數字人想要解決的問題。在網路資訊尚未發達之前,這可能要牽涉到重新收集一批新的資料再處理分析,可是在網路時代,資訊經常源源不斷,數據界分析這類資訊的重點就轉變成如何處理這些一直產生的新資訊
如果實驗設計或執行不良,要解釋實驗結果就可能出現很多可能。單純增加受試者數目,在數學上說得通,但可能對了解實際作用機值幫著不大。
費雪(Fisher)既然是從「劍橋下午茶事件」後,開始思索用統計來解決「主觀」與「客觀」的問題,「品茶問題」自然就開始在統計發展中扮演重要角色。從「品茶問題」開始,我們可以比較哪種可樂比較好喝,哪種止咳藥比較有效,還有 哪種疫苗比較有效嗎?
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
我們生活的世界離不開數字。有的時候是非常精準的科學,也有的時候是表達我們的觀點。這些數字對我們的影響力很大,看看我們可以說出來的話有哪些吧
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
有學過統計的人都知道,所謂的平均有許多不同的定義,我們今天要來學習在金融財務當中常見的平均方法。 這些平均方式可能是用在績效的結果,也可能是用在分析財務報表。 這些統計有時候差之毫釐、失之千里,我們在理解不同的統計分析跟看其結果時,不可不慎。 本篇文章簡單介紹5種平均數
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
2-1 取得統計資料 統計學,指的就是搜集、整理、表現及分析資料的方法。 一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了
我們生活的世界離不開數字。有的時候是非常精準的科學,也有的時候是表達我們的觀點。這些數字對我們的影響力很大,看看我們可以說出來的話有哪些吧
Thumbnail
這一節的標題是0.4 A Normal Distribution of Random Numbers,介紹常態分布的基本概念,以及相關亂數產生器的使用方法與應用方式。
Thumbnail
有學過統計的人都知道,所謂的平均有許多不同的定義,我們今天要來學習在金融財務當中常見的平均方法。 這些平均方式可能是用在績效的結果,也可能是用在分析財務報表。 這些統計有時候差之毫釐、失之千里,我們在理解不同的統計分析跟看其結果時,不可不慎。 本篇文章簡單介紹5種平均數
Thumbnail
  前面說明了所謂「假設檢定」的邏輯,也就是推論統計的基礎。但前面都還只是概念的階段,目前沒有真正進行任何的操作──還沒有提到推論統計的技術。   這篇其實有點像是一個過渡,是將前面的概念銜接到下一篇t分數之間的過程,也可以說是稍微解釋一下t檢定怎麼發展出來的。
Thumbnail
選舉民調是預測選舉結果的重要工具。然而,如果我們不了解樣本和母體的概念,就很容易被民調結果誤導。 在本文中,我們將介紹樣本和母體的概念,以及它們對民調結果的影響。我們還將提供一些在閱讀民調報告時的注意事項。
Thumbnail
接續上一篇,繼續來講如何從常態分布的機率進行假設檢定,進而推論母體的平均數吧! 這篇會提到否證的邏輯、魔法數字0.5以及統計檢定到底是什麼這三個主題。
Thumbnail
  在上一篇文章解釋了常態分布怎麼幫助我們計算事件發生的機率,而更之前也看過了抽樣分布是如何形成常態分布的過程,現在就要利用這兩件事情來慢慢帶出什麼是統計學中的「假設檢定」了。
Thumbnail
第一堂學生創新團隊的點評 我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:   「全部身高」除以「人數」等於 每個人幾公分  所以我們要設計如何用電腦計算 ,要「input」