書名:暗數據:被看到、被聽到、被測量到的,往往不是「真凶」(Dark Data: Why What We Don’t Know Is Even More Important Than What We Do)
作者:David Hand
譯者:賴盈滿
出版社:大塊文化
出版日期:2021/05/27
這是一本討論數據應用的書籍,聚焦在「暗」數據,也就是遺漏的資訊或數據,而這樣的遺漏,未必是刻意為之,可能還有的是「未知的未知」,簡單來說,面對暗數據的認知應該是要知道其是不可能窮盡的,這可能是首先最先需要知道的概念,也是研究假設上必須要有預設的「偏誤」,在理解有偏誤之後,後續的研究或討論也才會有價值。
暗數據就是在討論這類所有的偏誤,或是看不到、無法觀測的數據,而作者在書中將暗數據的種類分為15種,但也必須知道這15種並非暗數據的所有形式,可能還會有未被作者分類的暗數據。
暗數據的例子
1.當可樂銷售上升的時候,海邊溺死的人也會增加,若是直接推論可樂賣得越好,溺死的人就會越多的簡單因果關係,就會陷入推論不合理的窘境,沒有考量到天氣,就是一種暗數據;甚至是測量工具的侷限、資訊不對稱、簡化數據、類推到數據之外皆然。
2. 美國推動了手機APP的感應器來回報道路坑洞的問題,手機可以透過行車間的震動來判斷是否有坑洞,運用現代化數據分析的方式,讓相關單位可以知道哪裡有坑洞,需要急迫地去修補,看似美意,但實際上有車又有手機的人,通常集中在收入較高的地區,因此收入較低的地區可能永遠不會被偵測到有坑洞問題,可能又加劇了社會的不平等,這類的公共政策施政上,也當然是需要注意的。
在閱讀的過程中,感覺更多的是在反思量化研究或問卷式研究的侷限,像是隨著選舉,各類的民調層出不窮,這些民調的暗數據就可能會建立在,受訪者的刻意隱瞞、題目設計引導、拒訪樣本等情形,也都可能會讓實際的觀測上失準。
暗數據的類型
書中試圖舉了許多領域的暗數據,例如金融、科學研究等故事,也試圖在書中說明該如何「點亮」暗數據,作者將應該處理的暗數據分為「不可忽視的遺漏」、「隨機的遺漏」、「完全隨機的遺漏」。
針對完全隨機的遺漏,因為其遺漏是完全隨機,所以大可忽略不計;而隨機的遺漏相對有跡可循,因此測量到的最終結果,仍具有代表性;不可忽視的遺漏就真的是需要費思的地方,因為原本測得到的數據會測不到,這些數據並非出於隨機,也不是因為其他已測得的觀察值,這些內容可能還是要由書中解釋才會更加詳盡。
點亮數據與注意事項
而面對這些需要被「點亮」的數據,書中也提到很多統計學上的方法,例如插補、拔靴等,都是用來彌補暗數據的缺漏。
再舉一個例子,英國的推力小組懷疑英國人雖然熱量攝取減少,但體重持續增加的狀況,因此著手進行調查,初步歸納出的幾個原因,問題出在暗數據:
l 肥胖程度的提高,因為肥胖者較常低報卡路里攝取數量-DD-T11:反饋與玩弄
l 零食與外食增加-DD-T2:我們不知道遺漏掉的數據
l 調查回應率降低-DD-T1:我們知道漏掉的數據、DD-T4:自我選擇
l 熱量計算參考數據和實際狀況落差-DD-T10:量測誤差與不確定
作者在書中舉了很多有趣的例子,但同時也不是全盤否認暗數據的價值,例如特別將數據弄暗,或是利用整體統計等,也仍有其價值存在。對我來說,這本書很像是一本提供給對調查研究有興趣的讀者閱讀,其中需要有一些基本的統計基礎,才會比較好閱讀。對於研究者而言,比較像是一本「示警」的書,告訴研究者在進行研究時可能的偏誤。回歸到作者所講的第一步,對數據保持懷疑,就是能避免暗數據影響整體狀況的方法。。