數與人系列:常態的迷思

更新於 2022/11/10閱讀時間約 4 分鐘
常態分布(又稱高斯分布)可說是大多統計人最熟悉的統計分布,但正如人們往往會在自認為最熟悉的領域犯錯而不自覺,這個統計人最倚賴的分布其實也是最容易造成誤解的統計概念之一。
不過,要打破常態分布所帶來的迷思,還是得像畢卡索所建議的,先像一個專家學習專業知識,再像一個藝術家想辦法破解之。
常態分配在現代統計學中為什麼重要?
這牽涉到統計人對「平均數」(mean)的興趣。
至於為什麼要計算平均數呢?
這牽涉到統計人想了解的「一般人」。也就是說,當統計人想知道在一個社會中一般人過得如何就會去計算相關的平均統計量(每人每月平均蘋果消耗量、每月平均安眠藥消耗量,每年平均收入),以了解他們的生活狀況。(相關文章:平均的落點。)
當然,囿於許多現實上的限制,研究者可能沒法進行真正的普查,所以只能用樣本平均數來推論母群平均數,這時候,就要借助樣本平均數的機率分配來幫助估算誤差。而這所謂平均數的機率分配剛好就是所謂的常態分配。
下面這張圖說明用來計算平均數誤差的中央極限定理的推導。 不論原來母群的分配型態是什麼,都可以算出一個平均數。如果樣本數是5(如果一次從母群得到5個觀察值,再求樣本平均值 ),那麼多抽幾次以後,就會得到一個樣本數為5 的樣本平均數的抽樣分配。同理,我們也可以一次從母群抽得 30 個觀察值,再求這些觀察值的平均數,然後求這些樣本平均數的觀察值,就可以得到一個樣本數為 30 的樣本平均數的抽樣分配。
平均數的中央極限定理
所謂的中央極限定理和大數法則就是說,如果樣本數越大,得到的抽樣分配就會越趨近常態分配。(相關文章:和常態分布有關的統計心法
這讓許多統計人在利用「樣本平均數」做 「母群平均數」的推估時,常常忘了,縱使他們可以利用中央極限定理預測出一個「母群的平均數」也不代表「原本觀察值的母群」會是一個「常態分配」。
比如說,我們想用抽樣調查的方式去評估如今台灣每年家戶收入的平均收入。但若是只算出一個家戶平均收入而沒有留意抽樣的分配特性,就可能會讓我們錯估台灣目前的經濟狀態。
因為,各種不同的收入型態分布都可以計算出平均值。貧富差距很大的社會也可以算出一個平均值,收入震盪起伏很大的行業也可以算出一個平均值。因此,若是只根據一個估算的平均值來判斷社會經濟運作的良好與否,不但沒有幫助解決社會經濟問題,甚至可能有誤導作用。
例如,我們可以在新冠疫情期間,藉由網路調查這段時間的家戶收入,而且剛好抽到很多因為疫情所以在家工作的樣本,由於這些樣本的工作及收入並未受到封城的影響,那麼就可能有人會利用這些樣本的資料,宣稱台灣的家戶生活並未因封城而有太大影響。
同理,我們如果過度執著去計算一個社會中,到底有多少人打了疫苗,或者打了幾劑,有時也可能沒有多大意義。因為,我們的疫苗分配並不是從全體國民中隨機抽樣施打的,而是讓有些族群優先施打的。因此,我們可以預測這些相關疫苗施打模式會呈現出一些特定的模式。以目前傳出的「特權疫苗」新聞來說,我們就可以猜測: 在台灣,「疫苗」已經成為大多數人的「安全感」來源了,那麼,我們也可以大膽預估,有一定比例打不到疫苗(或覺得自己接種的疫苗保護力不足)的人即使解封,應該也不敢群聚活動,自然就不會對權力者造成威脅了。
當然,用這種方式來「自然」「減少」某些地區的人民活動,是不是符合社會正義,那就要看權力者「自圓其說」的能力了。(下圖圖片來自風傳媒 2018年文章:蔡英文駁「拒馬總統。)
2018. 1.23
再回到「常態分布」。
所謂的「常態分布」有好幾個特色,是很值得注意的:第一,數值以平均數為中線,構成左右對稱之單峰、鐘型曲線分布。第二,數值之平均數、中位數和眾數為同一數值。
常態分布圖
這意味著,在一個常態分布中,平均數是一個很有代表性的數值。如果一個社會的家戶平均收入真是呈穩定的常態分布,那麼我們的確可以用「平均數」來描繪這個社會中的「一般人」的生活樣貌。
但,如果這個社會的家戶收入是有好幾個頂峰的,或是偏斜的 ⋯⋯那麼,「平均數」所呈現的,真的有助於了解社會上「一般人」的生活嗎?
不同 型態的數據分布
這個問題值得想從「數字」了解問題,而不是掩蓋問題的「數字人」們好好想想。
此篇文章會顯示動態置底廣告
為什麼會看到廣告
avatar-img
52會員
425內容數
曬書天,好奇地。 文圖連播,播出新識界。 紅柿子在這方小天地不只曬書,也曬心得。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
在商業社會中,商品的價格可以從成交的交易中取得,但是禮物的價值應該如何估算呢?為什麼「民意」會對政府施政失去「參考價值」呢?也許,該檢討的,其實是人民。
統計,和法律一樣,在國家治理上有其功能,但不是魔法,更非戰場上取勝的必然保證。但是,這並不是說,統計應該被阻擋在法律會偵查之外。只要善加利用,還是有助於釐清案情。以三一九槍擊案為例 ,統計人的假設和決斷思維其實就可以幫上一點忙,指出相關偵查單位的盲點。
如果將「改變點分析」的權利交給賢能者,可以即時發揮效果,早早對危機提出警告。這自然可以運用在疫情的監控上,達成「超前預警」的觀念。但觀察衛福部的記者會,不但沒有這種「超前預警」的觀念,反而是用「校正回歸」的方式來處理疫情,著實令人納悶為何如此。
統計既然是關於猜測的科學,那麼如何隨著時間發展,根據新事件或新資訊的發生來形成新的假說(或新的估計),自然就會成為數字人想要解決的問題。在網路資訊尚未發達之前,這可能要牽涉到重新收集一批新的資料再處理分析,可是在網路時代,資訊經常源源不斷,數據界分析這類資訊的重點就轉變成如何處理這些一直產生的新資訊
如果實驗設計或執行不良,要解釋實驗結果就可能出現很多可能。單純增加受試者數目,在數學上說得通,但可能對了解實際作用機值幫著不大。
費雪(Fisher)既然是從「劍橋下午茶事件」後,開始思索用統計來解決「主觀」與「客觀」的問題,「品茶問題」自然就開始在統計發展中扮演重要角色。從「品茶問題」開始,我們可以比較哪種可樂比較好喝,哪種止咳藥比較有效,還有 哪種疫苗比較有效嗎?
在商業社會中,商品的價格可以從成交的交易中取得,但是禮物的價值應該如何估算呢?為什麼「民意」會對政府施政失去「參考價值」呢?也許,該檢討的,其實是人民。
統計,和法律一樣,在國家治理上有其功能,但不是魔法,更非戰場上取勝的必然保證。但是,這並不是說,統計應該被阻擋在法律會偵查之外。只要善加利用,還是有助於釐清案情。以三一九槍擊案為例 ,統計人的假設和決斷思維其實就可以幫上一點忙,指出相關偵查單位的盲點。
如果將「改變點分析」的權利交給賢能者,可以即時發揮效果,早早對危機提出警告。這自然可以運用在疫情的監控上,達成「超前預警」的觀念。但觀察衛福部的記者會,不但沒有這種「超前預警」的觀念,反而是用「校正回歸」的方式來處理疫情,著實令人納悶為何如此。
統計既然是關於猜測的科學,那麼如何隨著時間發展,根據新事件或新資訊的發生來形成新的假說(或新的估計),自然就會成為數字人想要解決的問題。在網路資訊尚未發達之前,這可能要牽涉到重新收集一批新的資料再處理分析,可是在網路時代,資訊經常源源不斷,數據界分析這類資訊的重點就轉變成如何處理這些一直產生的新資訊
如果實驗設計或執行不良,要解釋實驗結果就可能出現很多可能。單純增加受試者數目,在數學上說得通,但可能對了解實際作用機值幫著不大。
費雪(Fisher)既然是從「劍橋下午茶事件」後,開始思索用統計來解決「主觀」與「客觀」的問題,「品茶問題」自然就開始在統計發展中扮演重要角色。從「品茶問題」開始,我們可以比較哪種可樂比較好喝,哪種止咳藥比較有效,還有 哪種疫苗比較有效嗎?
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
在《孤獨社會》一書中,作者三浦展深入探討了現代社會中日益嚴重的孤獨現象,並將其稱為「孤單社會」。其中一個引人注目的觀點是,數位技術的發展雖然拉近了人們在虛擬世界中的距離,但卻在現實中加劇了人際關係的疏離。本文將觀察和描述技術發展如何影響人際互動,並探討我們如何在數位時代面對孤獨的挑戰。
Thumbnail
子曰:『參乎!吾道一以貫之。』曾子曰:『唯。』子出。門人問曰:『何謂也?』曾子曰:『夫子之道,忠恕而已矣』(裡仁第四)。 一次給學生講學,孔子直呼曾參說,『曾參呀!我的學問一以貫之!』孔子這話既像打算傳授曾子自己的為學精要,等著曾子發問是什麼『一以貫之』?又像
Thumbnail
當今「生成式AI」帶來了AI狂潮,不論是照片、圖片、音樂、影片、文章等,都可以找到相關的AI工具來幫助我們製作各式各樣形形色色的內容作品。然而,人類的藝術創造是否備受AI的威脅?心理學家們又怎麼看待人類藝術作品及AI藝術作品各自所帶給觀者的美感體驗呢? 「巧奪天工」的反思 「藝術
Thumbnail
第2話「原因」︱《迷途的小搖錢樹人與甦醒的大王冠》 大王冠:「你為什麼進來了迷宮?」 小搖錢樹人:「我只是在迷宮外面的一個大石頭上坐著休息,然後就被傳送進來了。」 大王冠:「看來你是誤觸了隱藏入口的機關,哈哈哈!你可是因此避開了一堆迷宮怪物,而直達了迷宮的最深處呢!不愧是象徵好運的搖錢樹人!」
Thumbnail
第1話「相遇」︱《迷途的小搖錢樹人與甦醒的大王冠》 大王冠:「感謝你喚醒了我,但是,你會找到我,肯定是在迷宮裡迷路了呢!」 小搖錢樹人:「哇!妳是怎麼知道的?」 大王冠:「因為這個迷宮當初就是設計用來專門封印我的,魔法會讓任何想找到我的人都找不到我,只有不抱任何期望的冒險者才能發現我,這就是這
Thumbnail
本熊的「內容變現」方法比較特殊──更正確的說法是,對同樣在動漫圈、宅圈的人來說是正常不過,但對一般大眾來說卻是頗令人難以置信的,所以也許這個「內容變現」方法沒什麼可被參考的價值吧?這個方法就是出版「同人誌」。
Thumbnail
2022世足賽 – 足球術語大盤點 足球進攻術語 馬賽迴旋 又稱為”360過人”、”馬拉度過人”、”馬賽輪盤”,是一種足球比賽中進攻球員擺脫對方防守球員的帶球過人技巧,視覺效果十足,並且在進攻上又有著很好的轉向選擇,讓防守者摸不著進攻者要帶球突破的方向。 遠射 Tiki-taka 弧線球 世界波
Thumbnail
身為一個長期訂閱經理人與數位時代的讀者,對於這幾個月來巨思文化集團在電子報上的做法,我想說:我看不到以往「經理人」與「數位科技」的 「Sense」有用心在像我這種透過Email訂閱電子報的觀眾上。 門面有失專業,文章內容與定位不符,恭喜你們得到了許多蹭時事流量的觀眾,失去的只是像我這種少數人種。
Thumbnail
為避免在選定目標客群時,避免各自年齡層看似百分比很高,但實際數據一攤開卻有市場規模或選定TA過小的問題發生。 因此本篇針對人口與持照人數的部分,補充兩者各年齡層分佈資料。 最後的結論是,持照人數與人口年紀分佈有相同趨勢。109年開始,撇掉60歲以上的年齡層後,未來五年的最大分佈會落在40到45歲。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
在《孤獨社會》一書中,作者三浦展深入探討了現代社會中日益嚴重的孤獨現象,並將其稱為「孤單社會」。其中一個引人注目的觀點是,數位技術的發展雖然拉近了人們在虛擬世界中的距離,但卻在現實中加劇了人際關係的疏離。本文將觀察和描述技術發展如何影響人際互動,並探討我們如何在數位時代面對孤獨的挑戰。
Thumbnail
子曰:『參乎!吾道一以貫之。』曾子曰:『唯。』子出。門人問曰:『何謂也?』曾子曰:『夫子之道,忠恕而已矣』(裡仁第四)。 一次給學生講學,孔子直呼曾參說,『曾參呀!我的學問一以貫之!』孔子這話既像打算傳授曾子自己的為學精要,等著曾子發問是什麼『一以貫之』?又像
Thumbnail
當今「生成式AI」帶來了AI狂潮,不論是照片、圖片、音樂、影片、文章等,都可以找到相關的AI工具來幫助我們製作各式各樣形形色色的內容作品。然而,人類的藝術創造是否備受AI的威脅?心理學家們又怎麼看待人類藝術作品及AI藝術作品各自所帶給觀者的美感體驗呢? 「巧奪天工」的反思 「藝術
Thumbnail
第2話「原因」︱《迷途的小搖錢樹人與甦醒的大王冠》 大王冠:「你為什麼進來了迷宮?」 小搖錢樹人:「我只是在迷宮外面的一個大石頭上坐著休息,然後就被傳送進來了。」 大王冠:「看來你是誤觸了隱藏入口的機關,哈哈哈!你可是因此避開了一堆迷宮怪物,而直達了迷宮的最深處呢!不愧是象徵好運的搖錢樹人!」
Thumbnail
第1話「相遇」︱《迷途的小搖錢樹人與甦醒的大王冠》 大王冠:「感謝你喚醒了我,但是,你會找到我,肯定是在迷宮裡迷路了呢!」 小搖錢樹人:「哇!妳是怎麼知道的?」 大王冠:「因為這個迷宮當初就是設計用來專門封印我的,魔法會讓任何想找到我的人都找不到我,只有不抱任何期望的冒險者才能發現我,這就是這
Thumbnail
本熊的「內容變現」方法比較特殊──更正確的說法是,對同樣在動漫圈、宅圈的人來說是正常不過,但對一般大眾來說卻是頗令人難以置信的,所以也許這個「內容變現」方法沒什麼可被參考的價值吧?這個方法就是出版「同人誌」。
Thumbnail
2022世足賽 – 足球術語大盤點 足球進攻術語 馬賽迴旋 又稱為”360過人”、”馬拉度過人”、”馬賽輪盤”,是一種足球比賽中進攻球員擺脫對方防守球員的帶球過人技巧,視覺效果十足,並且在進攻上又有著很好的轉向選擇,讓防守者摸不著進攻者要帶球突破的方向。 遠射 Tiki-taka 弧線球 世界波
Thumbnail
身為一個長期訂閱經理人與數位時代的讀者,對於這幾個月來巨思文化集團在電子報上的做法,我想說:我看不到以往「經理人」與「數位科技」的 「Sense」有用心在像我這種透過Email訂閱電子報的觀眾上。 門面有失專業,文章內容與定位不符,恭喜你們得到了許多蹭時事流量的觀眾,失去的只是像我這種少數人種。
Thumbnail
為避免在選定目標客群時,避免各自年齡層看似百分比很高,但實際數據一攤開卻有市場規模或選定TA過小的問題發生。 因此本篇針對人口與持照人數的部分,補充兩者各年齡層分佈資料。 最後的結論是,持照人數與人口年紀分佈有相同趨勢。109年開始,撇掉60歲以上的年齡層後,未來五年的最大分佈會落在40到45歲。