班傑明.迪斯雷利:「世界上有三種謊言:謊言、該死的謊言,和統計數字。」
由於我們未知的東西可能至關重大,踏錯一步很可能導致理解不當或預測錯誤,對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮,但必須抱持謹慎。唯一的解決之道就是瞭解風險,時時警覺。
數據顯然還可以變暗:你沒有的數據,可能讓你有的數據變得價值所剩無幾。
書籍來源
桃園市立圖書館Hyread
📚閱讀時間:15小時28分鐘
關聯主題
資料科學、資料處理、統計學
閱讀動機
前幾份工作剛好都跟資料科學有不解之緣,剛好看到這本預約滿多的就排了一下,目前這本在線上公圖中好像只有桃市圖Hyread有收,有興趣的人可以去排一下隊。
推薦閱讀對象
資訊科學、統計學、資料處理相關領域的人;一般大眾則推薦前七章輕鬆看,後面因為提及資料清理上比較實際操作的方法,因此可以快速跳看,第十章是結語。
章節結構
察覺DD-Tx的存在,有助於避免由於不知道自己不知道什麼而導致的錯誤、偏差與災難。
這本書的第一章就在破題解釋「暗數據」。上面的DD-Tx就是作者自定義的「暗數據」,指的是錯誤、偏誤或是未搜集的數據。
前一至七章皆在解釋這些「暗掉的」數據是從何而來;第八、九章在於施展策略應對這些有可能是從未蒐集過的、有偏誤的數據時,應該要如何避免從這些數據出產生錯誤的結論,這邊的策略滿詳細有點專業,有統計、資料科學背景的人讀來會比較順暢。
第十章則是結語。
推薦看點
察覺被操弄的心理
書中第二章談到了不少認知偏誤的現象。如「怪異效應(bizarreness effect),驚人的事物比平淡的事物更常被記住」、「信念偏誤(belief bias),回應者會根據某個回應有多可信而決定是否如此回應」、「從眾效應(bandwagon effect),人傾向順從多數」、「負向偏誤(negativity bias),人天生傾向記得不愉快的事,多過愉快的事」……等等。
解釋這些效應的時候都會提到例子,電子書的註解也不太會跳來跳去,讀起來很順。
培養資訊識讀能力
可以透過這本書獲得統計、實驗數字怎麼來,論文以及報導上的數字是如何被操弄的。
關於科學實驗與論文,作者也用了不小的篇幅描述實驗者怎麼玩弄數字。這些對念過碩班、對實驗數據胃痛的菸酒生應該都不太陌生。
科學有幾種騙術,只有行內人清楚,外人幾乎一無所知,但或許可以說得讓一般人明白。這些騙術或可分成騙局、造假、修剪和炮製。
瑞克.方(Ferric Fang)和研究同仁指出:「期刊的影響係數,和期刊收錄的論文因詐欺、疑似詐欺或錯誤而撤回的數量,呈高度顯著相關。」
心得
一開始在看前面幾章的時候很輕鬆,還以為是一本很淺的科普書籍,僅只是將「資料清理」這個行為換個名字包裝成「暗數據」而已─但後來翻了一下作者是統計學家、又有接觸很多資料集的經驗,所以從暗數據類別的歸類、到章節邏輯的劃分上邏輯合理、行文也很順暢,中間也會穿插一些實際處理資料集的經驗,因此我認為算是不論有無相關背景的讀者都能夠有所得的一本書。
雖然其實我覺得第八九章有點冗。第八九章是把「暗數據點亮」(其實就是資料清理):要說這段是科普吧,沒有一點數學背景可能比較難啃(還是我誤會了其實會翻這本書的讀者都是數學小天才);要說教學用途,其實兩章內容不可能有系統到哪裡去,對於相關專業背景的讀者可能不如去看工具書或教科書,算是比較可惜的地方。但總體來說這本書還是很系統的在歸類數據缺失、操弄的資料,值得一讀。
深有同感的部分
在前一份工作的時候其實拿到的數據通常滿乾淨,因為是從公司的結構化資料庫定期倒出來讓我們進行資料整理、策略分析使用的─饒是這樣,我們的數據也還是要經過清理。
通常在公司內取得數據,並進行策略分析的時候都要問幾件事:
- 了解資料集當初的用途:問清楚這個資料集當初是怎麼dump過來的。拿最淺顯的來說,如果銀行的會員資料分兩邊,存戶和卡戶的話,錯把卡戶的資料當成全存戶的資料來分析,想當然就會產出錯誤的結論。
- 了解資料的限制:像是時間序列資料的資料細度。如果老闆要你出一天之間每小時的活動輪廓的話,去不能拿顆粒度以日計算的資料來跑;或是某段時間內多出了一些新的資料欄位or資料來源的標準有變動,跑資料之前就一定要先確認過…
我當初入職不久時,曾經踩過的某些小坑,都被作者各自歸類為不同的暗數據,並且提到一些作者曾經處理過的資料集、或是歷史上有名的數據誤用故事等等。可以發現有些暗數據真的不是上課的時候直接學做資料摘要就可以發現的。
在公司內,有些數據的坑得靠問資深同事或主管才能得知,像是DD-T4反饋與玩弄數據這類型的坑,就很常產生於主動跟客戶要的資料。想到我當初把客戶資料內的年收入資料當成真的來分析,因此被主管笑我就覺得很哀傷─我真的不知道那是客戶自己填的,還以為是照會窗口幫忙填上去的呢…
附錄
DD-T1:我們知道漏掉的數據
這型暗數據是前美國國防部長朗斯菲德口中的「已知的未知」。當我們知道數據出現闕漏,有可被記錄到的數值隱匿了,就表示有這型暗數據存在。例如表格裡缺了數值(如表一裡的行銷數據)或訪問名單上有人拒絕回應,不論部分問題拒答或全部拒答,都屬此類。
DD-T2:我們不知道漏掉的數據
這型暗數據是朗斯菲德口中的「未知的未知」。我們根本不曉得有數據遺漏了。例如網路民調時,我們沒有可能回應者的名單,因此不曉得有誰根本沒有回應。挑戰者號太空梭的空難事件就是忽略了這型暗數據的結果,發射會議成員沒有察覺他們遺漏了某些數據。
DD-T3:只選擇部分情況
樣本選取標準欠佳或標準恰當、但執行不良,都會造成樣本扭曲。例如研究者可能選擇比較健康的患者,或調查人員可能選擇同情受調查公司的人。還有一種特別的情況,是只選擇大量個案中的「最佳」個案,由於均值迴歸的作用,這種作法往往招致失望。同理,搞p和未考慮其他假設,也可能導致科學研究的結果無法再現。
DD-T4:自我選擇
自我選擇型暗數據是DD-T3:只選擇部分情況的變種。當人可以自行決定是否被納入數據庫,就會出現這型暗數據。例如,民調受訪者可以選擇要不要回答問卷,患者也可以選擇要不要讓自己的數據儲存到數據庫中(選擇加入或不加入),以及更一般的情況,比如消費者選擇哪家(銀行或超市)的服務。在這些例子裡,納入數據庫的人可能和沒納入的人有結構上的差異。
DD-T5:漏掉關鍵因素
有時我們會完全沒觀察到系統的關鍵面。這可能導致錯誤的因果推論,就像草坪開始枯乾,冰淇淋銷售量就增加,但這個因果鏈中顯然少了天氣這項暗數據。然而,有時關鍵因素的闕漏不會這麼明顯。辛普森悖論就是個棘手的例子:所有組成因素的機率都下降,整體機率卻不降反升。
DD-T6:可能會如何
若是採取不同行動、情境或條件而會觀察到的數據,就是反事實數據。例如某些臨床試驗中,每位患者只會接受一種療法,也許是因為試驗的目的是研究痊癒時間,所以患者一旦痊癒,就不可能回頭嘗試其他療法。單身者的配偶年齡也屬於這型暗數據。
DD-T7:隨時間而異
時間掩蓋數據有許多種方式,例如數據可能不再準確呈現當下世界的樣態,某些案例可能因為觀察期結束了才發生、所以沒觀察到,或案例因為性質改變、可能退出觀察等。還有研究患者確診後的存活時間,但患者還沒過世、觀察期就結束了,或是引用二十年前的全國人口數字來草擬當前的公共政策,可能價值有限。
DD-T8:數據的定義
定義可能不一致,也可能隨時間而改變,以符合其目的與用途。這可能導致經濟時間序列值和其他時間序列值出現問題,因為相關數據可能不再蒐集。一般而言,使用的定義不同,結論就很有可能不同。英國犯罪統計數據就是如此,一個來自警方紀錄,另一個來自被害者調查,由於兩者對犯罪的定義不同,因此得出不同的數據。
DD-T9:數據的摘要
顧名思義,摘要就代表略去數據的細節。如果只寫出平均值,就只能呈現數據的整體範圍,無法顯示其分布的偏度。平均值可能掩去「某些值極為不同」的事實,也可能偏向另一個極端,掩去「所有值都相等」的事實。
DD-T10:量測誤差與不確定
量測誤差會導致無法確定實際值。只要想像量測誤差的範圍跟實際值的範圍一樣、甚至更大,就能清楚看出這一點,因為觀察值可能和實際值差得太遠。捨入、化整為零、天花板和地板效應等,都會造成數據不確定,難以辨別實際值。此外,數據鏈結也會造成不確定與不精確。由於辨別資訊可能以不同的樣式儲存,導致匹配出錯。
DD-T11:反饋與玩弄
當數據蒐集程序受蒐集到的數據影響,就會產生這型暗數據。分數膨脹與股價泡沫都屬此類。這代表數據所呈現的現實是扭曲的,而且可能隨著時間愈偏愈遠。
DD-T12:資訊不對稱
不同的人可能持有不同的數據集。當某人握有另一人不知道的資訊時,就會出現資訊不對稱。內線交易、艾克羅夫的檸檬市場、敵對國家彼此認識有限而導致國與國情勢緊張,都是實例。
DD-T13:刻意弄暗的數據
這型暗數據特別麻煩,是DD-T3:只選擇部分情況的變種。刻意隱藏或操弄數據以遂行欺騙或誤導,就會產生這型暗數據。這是詐騙。這型暗數據不僅出現在許多狀況中,也會以各種方式產生。
DD-T14:編造與合成數據
這型暗數據可能發生在詐騙行為,編造數據以誤導他人;也可能發生在模擬,比如研究某個程序時,人為生成該程序可能產生的數據集;或是發生在複製數據時,如拔靴法、提升法和平滑法等。現代統計工具大量使用這個概念,但使用不當可能得出偏頗的結論。
DD-T15:類推到數據之外
數據集永遠是有限的,必然有最大值和最小值,超出這個範圍就屬於未知。要描述大於最大值或小於最小值的可能值為何,就必須提出假設,或是從其他來源獲取這方面的資訊。挑戰者號太空梭爆炸就是這樣的例子,發射當時的周圍溫度比之前所有發射時的周圍溫度都來得更低。