解構數據迷霧-《暗數據》

Mauro
發佈於書齋
閱讀時間約 3 分鐘
raw-image

書名:暗數據:被看到、被聽到、被測量到的,往往不是「真凶」(Dark Data: Why What We Don’t Know Is Even More Important Than What We Do)

作者:David Hand

譯者:賴盈滿

出版社:大塊文化

出版日期:2021/05/27


這是一本討論數據應用的書籍,聚焦在「暗」數據,也就是遺漏的資訊或數據,而這樣的遺漏,未必是刻意為之,可能還有的是「未知的未知」,簡單來說,面對暗數據的認知應該是要知道其是不可能窮盡的,這可能是首先最先需要知道的概念,也是研究假設上必須要有預設的「偏誤」,在理解有偏誤之後,後續的研究或討論也才會有價值。

暗數據就是在討論這類所有的偏誤,或是看不到、無法觀測的數據,而作者在書中將暗數據的種類分為15種,但也必須知道這15種並非暗數據的所有形式,可能還會有未被作者分類的暗數據。

 

暗數據的例子

1.當可樂銷售上升的時候,海邊溺死的人也會增加,若是直接推論可樂賣得越好,溺死的人就會越多的簡單因果關係,就會陷入推論不合理的窘境,沒有考量到天氣,就是一種暗數據;甚至是測量工具的侷限、資訊不對稱、簡化數據、類推到數據之外皆然。

2. 美國推動了手機APP的感應器來回報道路坑洞的問題,手機可以透過行車間的震動來判斷是否有坑洞,運用現代化數據分析的方式,讓相關單位可以知道哪裡有坑洞,需要急迫地去修補,看似美意,但實際上有車又有手機的人,通常集中在收入較高的地區,因此收入較低的地區可能永遠不會被偵測到有坑洞問題,可能又加劇了社會的不平等,這類的公共政策施政上,也當然是需要注意的。

 

在閱讀的過程中,感覺更多的是在反思量化研究或問卷式研究的侷限,像是隨著選舉,各類的民調層出不窮,這些民調的暗數據就可能會建立在,受訪者的刻意隱瞞、題目設計引導、拒訪樣本等情形,也都可能會讓實際的觀測上失準。

raw-image

 

暗數據的類型

書中試圖舉了許多領域的暗數據,例如金融、科學研究等故事,也試圖在書中說明該如何「點亮」暗數據,作者將應該處理的暗數據分為「不可忽視的遺漏」、「隨機的遺漏」、「完全隨機的遺漏」。

針對完全隨機的遺漏,因為其遺漏是完全隨機,所以大可忽略不計;而隨機的遺漏相對有跡可循,因此測量到的最終結果,仍具有代表性;不可忽視的遺漏就真的是需要費思的地方,因為原本測得到的數據會測不到,這些數據並非出於隨機,也不是因為其他已測得的觀察值,這些內容可能還是要由書中解釋才會更加詳盡。

 

點亮數據與注意事項

而面對這些需要被「點亮」的數據,書中也提到很多統計學上的方法,例如插補、拔靴等,都是用來彌補暗數據的缺漏。

再舉一個例子,英國的推力小組懷疑英國人雖然熱量攝取減少,但體重持續增加的狀況,因此著手進行調查,初步歸納出的幾個原因,問題出在暗數據:

l   肥胖程度的提高,因為肥胖者較常低報卡路里攝取數量-DD-T11:反饋與玩弄

l   零食與外食增加-DD-T2:我們不知道遺漏掉的數據

l   調查回應率降低-DD-T1:我們知道漏掉的數據、DD-T4:自我選擇

l   熱量計算參考數據和實際狀況落差-DD-T10:量測誤差與不確定

 

作者在書中舉了很多有趣的例子,但同時也不是全盤否認暗數據的價值,例如特別將數據弄暗,或是利用整體統計等,也仍有其價值存在。對我來說,這本書很像是一本提供給對調查研究有興趣的讀者閱讀,其中需要有一些基本的統計基礎,才會比較好閱讀。對於研究者而言,比較像是一本「示警」的書,告訴研究者在進行研究時可能的偏誤。回歸到作者所講的第一步,對數據保持懷疑,就是能避免暗數據影響整體狀況的方法。。

18會員
35內容數
尚有舊時書禿筆,偶將蘸墨點葡萄
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Adobe 放棄併購 Figma,科技巨頭併購時代的結束 | 科技巨頭解碼#205就在上周,Adobe 與 Figma 共同宣布,他們放棄了這個收購案 – 交易中止。在 Adobe 與 Figma 發表的共同聲明中,他們把理由講得非常明白:「雙方共同判斷 - 沒有明確的路徑能獲得歐盟委員會和英國市場競爭管理局的監管批准,所以決定解中止這個交易」。
Thumbnail
avatar
Miula
2023-12-29
屏東/勝利星村創意生活園區、遺構公園. 完整日式歷史建築融合現代解構藝術 二月,324公里的接力挑戰,從氣溫14度濕冷的北部,來到氣溫24度和暖的屏東。
Thumbnail
avatar
Smile Tang
2023-09-07
《探索筆記卡片:從瞬間想法到深入的知識管理》2:鮮為人知的寫作秘訣:掌握段落解構術!每篇文章的段落都圍繞著特定的話題。 一個好的段落會圍繞著中心話題,且各句子間有很強的相關性。 通過拆解與分析段落,我們可以更深入地了解其核心意義。
Thumbnail
avatar
王啟樺
2023-09-06
大數據構成的AI之所以強大,在於解讀數據的能力。一心追求意義時,真心就會把刻板生硬用來呈現真相的數字,透過故事變得美麗而具有意義。
avatar
始力拼達人
2023-06-12
NFLX 22Q4 財報 - 訂戶數字超越預期,但網飛這樣就夠了嗎?| 科技巨頭解碼#155串流影音龍頭網飛 Netflix,正式在前幾天公布了去年 2022 第四季的財報。雖然獲利低於預期,但由於營收符合預期,而新增訂閱戶數更是超過市場預期,也讓隔天網飛的股價繳出了一個好表現。而在本次財報發布的同時,網飛創辦人與共同執行長 Reed Hastings 也正式宣布卸任 CEO 職位...
Thumbnail
avatar
Miula
2023-01-23
SE Q1 財報 - 遊戲業務衰退下,電商與數位支付能夠支撐起 SE 嗎?| 科技巨頭解碼#118在這次的財報會議中,SE 的經營團隊不斷的強調,他們的公司在這兩年,其實是變得更強的,而且他們也證明了他們是一個能夠帶領公司勝過挑戰的團隊。我認為這是在安撫投資人的信心 – 畢竟過去半年 SE 的股價腰斬再腰斬,而今年全球經濟似乎也有相當大的壓力。
Thumbnail
avatar
Miula
2022-05-24
NFLX Q1 財報 – 訂閱數字史上首次衰退,網飛認錯的幅度夠嗎?| 科技巨頭解碼#109 我同意網飛管理層的說法 – 新冠肺炎疫情的確造成了一些數據解讀上的困難,也讓網飛之前過度輕忽了可能的問題。在全球寬頻上網人口絕對會繼續成長的未來二十年,網飛自然能夠享受上網人口成長的紅利 – 但如果北美市場已經飽和,光靠其他收入較低的地區的成長,交出來的成長率數字恐怕是會遠低於過去五年的。
Thumbnail
avatar
Miula
2022-04-20
avatar
Eudyptla
2021-11-28
【企業估值】解構Teladoc(TDOC)超複雜財報,過去三年關鍵數據重點整理本文內容:一、持有TDOC多年的感想;二、早前沽出部分TDOC持倉的原因;三、TDOC會盤整到甚麼時候?四、整理過去三年TDOC財報關鍵數據;五、後疫情時代TDOC的營收增長率會暴跌嗎?六、如何看待TDOC的國際增長故事?七、我對TDOC未來的預期。
Thumbnail
avatar
三苗
2021-04-19
《解構顧客價值鏈》:企業面臨數位轉型挑戰,該如何調整商業模式取勝?傳統企業面對環境改變所帶來的競爭,很自然會認為是新技術與數位環境造成的,但是《解構顧客價值鏈》要告訴你,真正搶走你的市場或營收的主因不在科技與技術,而是顧客的價值鏈產生了變化,真正的決勝關鍵是你的商業模式是否可以調整,而不是你的數位技術能力。假如「數位轉型」是您目前面臨的挑戰課題,一定要了解這個觀念
Thumbnail
avatar
我是老查
2020-10-16