雖然多數情況下, 我們無法得知母數具體是多少, 但它卻往往是我們進行決策的一個重要依據。舉個例子, 我是一個補習班的主任, 下個禮拜我想到學測考場附近發傳單, 吸引未來的學生, 我們會遇到一個問題, 需要準備多少傳單呢? 這時候我們就需要對於學生的總數做個估計, 來做為印製多少文宣的判斷依據。這是個較顯而易見的例子, 有些時候我們所需要估計的母數並沒有那麼明顯, 估計出來的誤差與估計錯誤的成本也會比這個例子大上許多, 打個比方, 今天我想重金邀請NBA代言我們公司的運動毛巾, 但我沒有摸清楚市場需求和球迷的口袋深度, 訂出了一個遠遠高於他們所能負荷的價格, 那我要準備賠一屁股債。
另外還有一種情況, 是我們可以取得母體參數, 但由於資料的蒐集與整理曠日費時, 拿到手的時候我們的決策已經慢了半拍, 甚至是一拍半, 這時候我們也會採用估計的方法, 來得到更及時的資訊。舉個例子, 如果我們想知道台灣的GDP至少要等兩個季度, 也就是說當我們看到景氣很糟糕時, 很可能最糟糕的情況已經過去了, 這時候才開始討論要不要射出補助之箭似乎就有點緩不濟急, 因此近期有學者提出利用統一發票來對GDP做出估計, 雖然不是準確值, 卻能讓政策救援的準確度提高許多。至於該怎麼估計? 以及該怎麼判斷估計的好壞? 這就是統計學的範疇了。
點估計
政府在公布政策執行成果, 或是利用統計數據向民眾溝通某些重要訊息時, 很喜歡用平均數, 最常見的例子莫過於平均薪資, 而每次談論到這個話題, 總會有人跳出來說: 對不起, 是我拉低了平均。平均數就是一種點估計 (意指就單純給你一個數字), 我們想透過平均數來描繪出民眾的收入水平, 來判斷政府執政下, 大家的生活品質, 或是進一步調整政策方向。
然而, 只給出一個數的做法往往是很有問題的, 因為資料的解讀有很多面向, 我們無法只憑單一個數就把一切說清楚, 而且任何一個被找出來代表母數的數, 都有它是用語不是用的情況。舉例來說, 平均數就很容易受極端值影響, 因此我們就會很常看到網友用這樣的例子來進行討論, 我和郭台銘平均起來也是蠻有錢的, 我爸和我媽平均有一顆睪丸等。
幾年後, 大家也開始改用中位數來撰寫文章, 就可以避開上述喜歡上網 ”討論” 的網友的說法。但事實上中位數也指代表了最中間那群人的情況, 有時候反而比平均數更難代表母體, 比方說, 有49.5% 的人年收入是35萬, 有49.5% 的人年收入是3000萬, 只有1% 的人年收入是48萬, 這時候透過中位數給出來48萬這個數字代表性就不大。
如果不去深究其中許許多多的細節, 我們也有一些替代方案, 比方說, 同時看平均數和中位數, 假設平均數比中位數大很多, 那就可以知道, 恩, 有一群人比大部分的人有錢很多。另外, 我們也可以透過四分位數, 來大致判斷分配的長相, 舉例來說, 第25百分位和第50百分位距離很遠, 我們就知道落在這個區間的人數不多, 而第50百分位和第75百分位距離很近, 代表有很多人擠在這裡…等。這稍微做個延伸, 還可以拿來看自己在群體中的相對位置, 也就是大家小時候考試時所熟知的那把尺: pr值。
小結
當我們想了解某個群體的未知性質時, 我們就會想辦法蒐集資訊, 然後對他進行估計, 最簡單也是我們最熟悉的方法, 通常是點估計。然而, 一份資料有許多有多面向, 甚至基於不同的目的, 也會解讀出完全不同的結果。雖然我們主張盡量把東西丟到桌上, 全部攤開來, 大家集思廣益, 說不定會出現較好的做法, 但其實政府執行政策的目的有時候是不會, 甚至是不能公諸於眾的, 比方說, 如果匯率目標過於清晰, 就很容易被國外的投機客盯上, 產生套利空間, 導致央行只能賤賣自己資產, 因此政府必須採取混和策略。當大家在目標上沒有共識的時候, 硬要進行討論就很容易產生各說各話的現象, 所以討論政策的時候, 重要的其實是背後的目的, 政府把資料丟出來, 想讓大家看的、想說的是什麼。
文中, 我們繞過一個很重要的東西: 標準差, 盡量透過其他方法, 來窺探資料的樣貌, 下一篇文章, 我們將會分享一些較正式的作法, 看看如果有標準差, 事情會發生什麼改變。