數與人系列:常態的迷思

2021/07/18閱讀時間約 4 分鐘
常態分布(又稱高斯分布)可說是大多統計人最熟悉的統計分布,但正如人們往往會在自認為最熟悉的領域犯錯而不自覺,這個統計人最倚賴的分布其實也是最容易造成誤解的統計概念之一。
不過,要打破常態分布所帶來的迷思,還是得像畢卡索所建議的,先像一個專家學習專業知識,再像一個藝術家想辦法破解之。
常態分配在現代統計學中為什麼重要?
這牽涉到統計人對「平均數」(mean)的興趣。
至於為什麼要計算平均數呢?
這牽涉到統計人想了解的「一般人」。也就是說,當統計人想知道在一個社會中一般人過得如何就會去計算相關的平均統計量(每人每月平均蘋果消耗量、每月平均安眠藥消耗量,每年平均收入),以了解他們的生活狀況。(相關文章:平均的落點。)
當然,囿於許多現實上的限制,研究者可能沒法進行真正的普查,所以只能用樣本平均數來推論母群平均數,這時候,就要借助樣本平均數的機率分配來幫助估算誤差。而這所謂平均數的機率分配剛好就是所謂的常態分配。
下面這張圖說明用來計算平均數誤差的中央極限定理的推導。 不論原來母群的分配型態是什麼,都可以算出一個平均數。如果樣本數是5(如果一次從母群得到5個觀察值,再求樣本平均值 ),那麼多抽幾次以後,就會得到一個樣本數為5 的樣本平均數的抽樣分配。同理,我們也可以一次從母群抽得 30 個觀察值,再求這些觀察值的平均數,然後求這些樣本平均數的觀察值,就可以得到一個樣本數為 30 的樣本平均數的抽樣分配。
平均數的中央極限定理
所謂的中央極限定理和大數法則就是說,如果樣本數越大,得到的抽樣分配就會越趨近常態分配。(相關文章:和常態分布有關的統計心法
這讓許多統計人在利用「樣本平均數」做 「母群平均數」的推估時,常常忘了,縱使他們可以利用中央極限定理預測出一個「母群的平均數」也不代表「原本觀察值的母群」會是一個「常態分配」。
比如說,我們想用抽樣調查的方式去評估如今台灣每年家戶收入的平均收入。但若是只算出一個家戶平均收入而沒有留意抽樣的分配特性,就可能會讓我們錯估台灣目前的經濟狀態。
因為,各種不同的收入型態分布都可以計算出平均值。貧富差距很大的社會也可以算出一個平均值,收入震盪起伏很大的行業也可以算出一個平均值。因此,若是只根據一個估算的平均值來判斷社會經濟運作的良好與否,不但沒有幫助解決社會經濟問題,甚至可能有誤導作用。
例如,我們可以在新冠疫情期間,藉由網路調查這段時間的家戶收入,而且剛好抽到很多因為疫情所以在家工作的樣本,由於這些樣本的工作及收入並未受到封城的影響,那麼就可能有人會利用這些樣本的資料,宣稱台灣的家戶生活並未因封城而有太大影響。
同理,我們如果過度執著去計算一個社會中,到底有多少人打了疫苗,或者打了幾劑,有時也可能沒有多大意義。因為,我們的疫苗分配並不是從全體國民中隨機抽樣施打的,而是讓有些族群優先施打的。因此,我們可以預測這些相關疫苗施打模式會呈現出一些特定的模式。以目前傳出的「特權疫苗」新聞來說,我們就可以猜測: 在台灣,「疫苗」已經成為大多數人的「安全感」來源了,那麼,我們也可以大膽預估,有一定比例打不到疫苗(或覺得自己接種的疫苗保護力不足)的人即使解封,應該也不敢群聚活動,自然就不會對權力者造成威脅了。
當然,用這種方式來「自然」「減少」某些地區的人民活動,是不是符合社會正義,那就要看權力者「自圓其說」的能力了。(下圖圖片來自風傳媒 2018年文章:蔡英文駁「拒馬總統。)
2018. 1.23
再回到「常態分布」。
所謂的「常態分布」有好幾個特色,是很值得注意的:第一,數值以平均數為中線,構成左右對稱之單峰、鐘型曲線分布。第二,數值之平均數、中位數和眾數為同一數值。
常態分布圖
這意味著,在一個常態分布中,平均數是一個很有代表性的數值。如果一個社會的家戶平均收入真是呈穩定的常態分布,那麼我們的確可以用「平均數」來描繪這個社會中的「一般人」的生活樣貌。
但,如果這個社會的家戶收入是有好幾個頂峰的,或是偏斜的 ⋯⋯那麼,「平均數」所呈現的,真的有助於了解社會上「一般人」的生活嗎?
不同 型態的數據分布
這個問題值得想從「數字」了解問題,而不是掩蓋問題的「數字人」們好好想想。
蓮子水共同體
蓮子水共同體
點一盞理學的燈,觀世界。 開一扇歷史的窗,品人生。 點一道文學的餐,嚐百味。 合作請電 [email protected]
留言0
查看全部
發表第一個留言支持創作者!