最近天氣特別炎熱, 如果今天你想出門搭訕, 你知道在西門北車信義還是中山哪個地點比較容易有收穫嗎? 你會怎麼得知這個資訊呢?
母體參數
俗話說: 物以類聚, 人以群分。在被分出來的族群中, 所有的人全部打包起來, 稱為母體, 而這個母體的某個特徵 (可以不只一個), 則稱為母體參數, 或簡稱為母數。全台灣所有的高中生是個母體, 世界上所有喜歡NBA的人是個母體, 身高低於160的人也可以是一個母體, 全台灣所有高中生的身高就是母體參數, 世界上所有喜歡NBA的人的空閒時間與口袋深度也是一組母體參數。
估計
什麼是估計? 在多數情況下, 我們往往無法準確得知母體參數, 無法準確得知的原因有很多, 可能是事情具有不確定性, 或是我們無法取得所有的資訊等, 為了找出足以替代這個性質的數值, 我們會採取一系列對應的措施, 來計算出與之相近的數值, 這個過程就是在估計, 而我們找出來的值, 就稱為估計值。舉例來說, 假設今天老闆問你下禮拜有多少人會到建中參加學測, 你該怎麼回答這個問題? 當然我們無法得知下禮拜準確有多少人會來參加考試, 但我們可以透過考場的規模、教室可以容納的人數等, 來算出下禮拜大概有多少人會來參加考試。
為什麼要估計?
雖然多數情況下, 我們無法得知母數具體是多少, 但它卻往往是我們進行決策的一個重要依據。舉個例子, 我是一個補習班的主任, 下個禮拜我想到學測考場附近發傳單, 吸引未來的學生, 我們會遇到一個問題, 需要準備多少傳單呢? 這時候我們就需要對於學生的總數做個估計, 來做為印製多少文宣的判斷依據。這是個較顯而易見的例子, 有些時候我們所需要估計的母數並沒有那麼明顯, 估計出來的誤差與估計錯誤的成本也會比這個例子大上許多, 打個比方, 今天我想重金邀請NBA代言我們公司的運動毛巾, 但我沒有摸清楚市場需求和球迷的口袋深度, 訂出了一個遠遠高於他們所能負荷的價格, 那我要準備賠一屁股債。
另外還有一種情況, 是我們可以取得母體參數, 但由於資料的蒐集與整理曠日費時, 拿到手的時候我們的決策已經慢了半拍, 甚至是一拍半, 這時候我們也會採用估計的方法, 來得到更及時的資訊。舉個例子, 如果我們想知道台灣的GDP至少要等兩個季度, 也就是說當我們看到景氣很糟糕時, 很可能最糟糕的情況已經過去了, 這時候才開始討論要不要射出補助之箭似乎就有點緩不濟急, 因此近期有學者提出利用統一發票來對GDP做出估計, 雖然不是準確值, 卻能讓政策救援的準確度提高許多。至於該怎麼估計? 以及該怎麼判斷估計的好壞? 這就是統計學的範疇了。
點估計
政府在公布政策執行成果, 或是利用統計數據向民眾溝通某些重要訊息時, 很喜歡用平均數, 最常見的例子莫過於平均薪資, 而每次談論到這個話題, 總會有人跳出來說: 對不起, 是我拉低了平均。平均數就是一種點估計 (意指就單純給你一個數字), 我們想透過平均數來描繪出民眾的收入水平, 來判斷政府執政下, 大家的生活品質, 或是進一步調整政策方向。
然而, 只給出一個數的做法往往是很有問題的, 因為資料的解讀有很多面向, 我們無法只憑單一個數就把一切說清楚, 而且任何一個被找出來代表母數的數, 都有它是用語不是用的情況。舉例來說, 平均數就很容易受極端值影響, 因此我們就會很常看到網友用這樣的例子來進行討論, 我和郭台銘平均起來也是蠻有錢的, 我爸和我媽平均有一顆睪丸等。
幾年後, 大家也開始改用中位數來撰寫文章, 就可以避開上述喜歡上網 ”討論” 的網友的說法。但事實上中位數也指代表了最中間那群人的情況, 有時候反而比平均數更難代表母體, 比方說, 有49.5% 的人年收入是35萬, 有49.5% 的人年收入是3000萬, 只有1% 的人年收入是48萬, 這時候透過中位數給出來48萬這個數字代表性就不大。
如果不去深究其中許許多多的細節, 我們也有一些替代方案, 比方說, 同時看平均數和中位數, 假設平均數比中位數大很多, 那就可以知道, 恩, 有一群人比大部分的人有錢很多。另外, 我們也可以透過四分位數, 來大致判斷分配的長相, 舉例來說, 第25百分位和第50百分位距離很遠, 我們就知道落在這個區間的人數不多, 而第50百分位和第75百分位距離很近, 代表有很多人擠在這裡…等。這稍微做個延伸, 還可以拿來看自己在群體中的相對位置, 也就是大家小時候考試時所熟知的那把尺: pr值。
小結
當我們想了解某個群體的未知性質時, 我們就會想辦法蒐集資訊, 然後對他進行估計, 最簡單也是我們最熟悉的方法, 通常是點估計。然而, 一份資料有許多有多面向, 甚至基於不同的目的, 也會解讀出完全不同的結果。雖然我們主張盡量把東西丟到桌上, 全部攤開來, 大家集思廣益, 說不定會出現較好的做法, 但其實政府執行政策的目的有時候是不會, 甚至是不能公諸於眾的, 比方說, 如果匯率目標過於清晰, 就很容易被國外的投機客盯上, 產生套利空間, 導致央行只能賤賣自己資產, 因此政府必須採取混和策略。當大家在目標上沒有共識的時候, 硬要進行討論就很容易產生各說各話的現象, 所以討論政策的時候, 重要的其實是背後的目的, 政府把資料丟出來, 想讓大家看的、想說的是什麼。
文中, 我們繞過一個很重要的東西: 標準差, 盡量透過其他方法, 來窺探資料的樣貌, 下一篇文章, 我們將會分享一些較正式的作法, 看看如果有標準差, 事情會發生什麼改變。