今天來談一下「頭文字一」,不是那個「秋名山最速傳說」,會用「水溝蓋過彎」的「頭文字D」,別搞錯了喔!
請各位讀者數數你口袋裡的錢,這個數字的第一位數是多少呢?比如說你身上有一萬多、一千多、十塊錢、一塊錢,這個「第一位數」都是「1」,依此類推。如果對我們板上的讀友們做個調查,各位覺得這個數字的「頭文字」分別是1、2、3…一直到 9 的出現機率應該是多少呢?答案後面再說,先來看一下歷史。
科學與工程中經常需要做「對數」的計算,在一百多年前還沒有電子計算機的時候,大家要算對數都要去查一本厚厚的「對數表」。對數表有點類似英文字典按字母順序,是按照數字順序編排的,例如不管是要查 12345 或是 0.012345,就是掀翻到「1」的部分(會在對數表的最前面),然後在「1」這一部底下又分為「11」、「12」、「13」…「19」這九個部分,找到「12」那部分後,裡面會再分為「121」、「122」、「123」…「129」,依此類推,跟查字典一樣,要找「the」的話,先翻到「t」開頭,然後在「t」的部分找到「th」,再找「the」。
1881年時,有一位天文學家Simon Newcomb(附帶一提,他也是個科幻小說家)在圖書館查對數表時,發現從書的側面看過去,有一些頁面特別黑,表示那幾頁經常被翻查,所以弄得比較髒,有些頁面就比較乾淨。事實上,「1」的頁面最髒,「2」次之,越大的數字越乾淨。Newcomb覺得有點意外,照直覺來想,來自各個領域的人所查的五花八門的數字,應該沒有特別的偏好,會滿平均的分佈才對,為什麼第一位數越小的頁面,被翻查的次數就越多呢?
從書頁側面變髒的程度就可以知道哪些部分念得比較認真(來源:我的ARFKEN物理數學神書)
Newcomb對這個問題作了一些研究,也發表了一篇論文,提出「第一位數字」的分布公式:P(d) = log(1+1/d),這裡的 P(d) 是從 1 到 9 的數字 d 出現在第一位數的機率 log 是「以 10 為底的對數」,不過並沒有引起太大的注意。
Benford’s law,第一位數字從一到九的機率分布,數字越大出現的機率越小。
這個公式就這樣沈睡了大約50年,到了1938年,另外一位天文學家Frank Benford因為一模一樣的原因再度發現了這個定律,並且驗證了更多的數據,比如說城鎮人口、河流灌溉的流域、物質的比熱、報紙頭版上出現的第一個數字(日期除外)、物理常數…等等,發現都符合這個分布。這次 Benford 發表的論文,獲得科學界比較大的關注,這個「第一位數字定律」,也因此被命名為 Benford’s law,其實說起來,應該要叫做 Newcomb’s law 比較合理。
這個定律非常神秘,因為它幾乎可以用在來自不同領域,各式各樣的數字上。當然有一些數字是不適用的,比如說數字是作為「代碼」而不是「計數」之用,例如身份證號碼的第一位數只有1(男生)、2(女生)兩種可能,當然就不符合Benford’s law。但是例如文章一開始的例子「你身上有多少錢」,或者是「你家門牌號碼幾號」,這樣的數字如果收集得夠多,就會符合Benford’s law。
其他像是「財務報表」上面的數字也會符合——這就很有用了,事實上也曾經有利用Benford’s law抓到逃稅、作假帳的案例。由於Benford’s law並非「直覺上想當然耳」的分布,而人類心理上作假時,會有「避免極端值」的傾向,因為覺得數字太極端會產生「槍打出頭鳥」的結果,所以在竄改數據時,首位數用了太多的4, 5, 6等中間數,違反了「頭文字1」的法則,結果就被逮到了,現在有一些會計軟體已經內建Benford’s law的檢測,這也算是物理學家對社會科學的貢獻吧!
當然,如果造假者知道這個定律,就會把假數據修正到符合Benford’s law了吧,所以念物理真的很重要!(這什麼結論…)
這個定律也在2009年伊朗的總統大選中登場,由現任總統Mahmūd Ahmadinezhād 贏得連任的這場選舉充滿了爭議,舞弊的指控滿天飛,還引發了「綠色革命」的抗爭,有高達300萬人在德黑蘭示威,後來有36人喪生,4000多人被捕。舞弊指控中一個證據就是有一位落選人Karoubi在各個選區的得票數分布,頭文字是7的比例異常的高,違反了Benford’s law。最後的結果呢?只證明了科學無法解決政治問題,Mahmūd Ahmadinezhād 還是在國內爭議與國際譴責中當到2013年卸任。
2009年伊朗大選,落選人Mehdi Karroubi在各區得票數的首位數字分布M,黑色為Benford’s law,灰色為實際分布。(來源:維基百科,CC BY 3.0)
最近的新聞(是什麼新聞不能說,怕被關站)開始有一些關於Benford’s law的報導了,在此幫看不懂的網友們服務一下囉!