統計既然是關於猜測的科學,那麼如何隨著時間發展,根據新事件或新資訊的發生來形成新的假說(或新的估計),自然就會成為數字人想要解決的問題。在網路資訊尚未發達之前,這可能要牽涉到重新收集一批新的資料再處理分析,可是在網路時代,資訊經常源源不斷,數據界分析這類資訊的重點就轉變成如何處理這些一直產生的新資訊。
於是,有人建議將大數據的分析稱為大S,而從前由實驗設計開始發想的統計分析叫做小S,作為區分。
不過,大S和小S自然還是牽涉到許多相同的統計原理,而且有些在小S應用不易的定理,到了大S就顯得似乎容易多了。
貝氏定理(Bayes‘ Theorem)就是其中一例。( 下圖是 常見的 (小S)貝式定理公式,圖片來源:
Lavanya.ai )
這個公式牽涉到傳統小S的條件機率計算,許多人在學習時大概就是「背下來」,其實不太清楚其意義,所以也不太知道怎麼應用。但是,這其實是一個蠻符合「直覺」發展出來的預測觀念,所以在貝牧師 (Thomas Bayes) 提出這個公式時立刻就獲得很多人的支持,但也因為牽涉到一些事前猜測,招致很多人的批評。
不過,因為「貝式定理」牽涉到「可能發生」也「可能不發生」的事件,所以在大數據時代,有電腦按照程序來處理複雜的數據時,其實就容易理解多了。下面就是演算法的程序(其實也是貝最初給的程序,只是被簡化整理成上面的形式):
在這個情境中,我們想比較兩種事件發生的機率 —— 比如說,A事件 :covid-19 武漢株入侵台灣且正流行,B事件:covid-19 英國株入侵台灣且正流行,而 X事件是每天死於新冠肺炎的人數,我們可以依照下列程序來推算 AB 事件的發生比率。
第一,估計A事件和B事件的相對機率
第二,根據每一天死於新冠肺炎的人數,分別計算他們是死於武漢株還是英國株的可能性。
第三,根據二的資訊,利用貝式定理,估計每一天 A事件和B事件的相對機率。
也就是說,如果我們能估計每一天死於新冠肺炎的人中,究竟有多少是死於武漢株還是英國株的比率,我們就能每天都重新計算現在在台灣流行的病毒株究竟武漢株還是英國株。
根據這個資料,我們應該也可以推算從今年五月在萬華爆發的疫情,究竟是「英國株」還是「武漢株」。如果在萬華爆發然後蔓延全台的是英國株,那我們也許就可以先推論這波防疫最有可能的破口是桃園國際機場,而且和「3 + 11」政策有關。( 相關文章:
3+11 隔離政策惹議,陳時中:我負責。)
當然,貝式定理在資訊社會中最重要的意義還是猜「未來」,所以我們也可以利用這個定理來猜未來疫情的爆發點會是在哪裡,只是,如果要當料敵機先的諸葛亮,這就要先選定一些還沒有爆發但還很有可能爆發的地點來觀察或快篩。
只是,如果因此成功阻截了病毒,以致該點最後沒有爆發群聚疫情,恐怕又要被一些人說「你這烏鴉嘴,居然說這裡會爆發,可是就沒有啊!」 這樣的風涼話了!
在這種情況下,或許還是普篩,比較能免去無謂的口舌之爭吧?