解構數據迷霧-《暗數據》

更新於 2024/05/24閱讀時間約 3 分鐘
raw-image

書名:暗數據:被看到、被聽到、被測量到的,往往不是「真凶」(Dark Data: Why What We Don’t Know Is Even More Important Than What We Do)

作者:David Hand

譯者:賴盈滿

出版社:大塊文化

出版日期:2021/05/27


這是一本討論數據應用的書籍,聚焦在「暗」數據,也就是遺漏的資訊或數據,而這樣的遺漏,未必是刻意為之,可能還有的是「未知的未知」,簡單來說,面對暗數據的認知應該是要知道其是不可能窮盡的,這可能是首先最先需要知道的概念,也是研究假設上必須要有預設的「偏誤」,在理解有偏誤之後,後續的研究或討論也才會有價值。

暗數據就是在討論這類所有的偏誤,或是看不到、無法觀測的數據,而作者在書中將暗數據的種類分為15種,但也必須知道這15種並非暗數據的所有形式,可能還會有未被作者分類的暗數據。

 

暗數據的例子

1.當可樂銷售上升的時候,海邊溺死的人也會增加,若是直接推論可樂賣得越好,溺死的人就會越多的簡單因果關係,就會陷入推論不合理的窘境,沒有考量到天氣,就是一種暗數據;甚至是測量工具的侷限、資訊不對稱、簡化數據、類推到數據之外皆然。

2. 美國推動了手機APP的感應器來回報道路坑洞的問題,手機可以透過行車間的震動來判斷是否有坑洞,運用現代化數據分析的方式,讓相關單位可以知道哪裡有坑洞,需要急迫地去修補,看似美意,但實際上有車又有手機的人,通常集中在收入較高的地區,因此收入較低的地區可能永遠不會被偵測到有坑洞問題,可能又加劇了社會的不平等,這類的公共政策施政上,也當然是需要注意的。

 

在閱讀的過程中,感覺更多的是在反思量化研究或問卷式研究的侷限,像是隨著選舉,各類的民調層出不窮,這些民調的暗數據就可能會建立在,受訪者的刻意隱瞞、題目設計引導、拒訪樣本等情形,也都可能會讓實際的觀測上失準。

raw-image

 

暗數據的類型

書中試圖舉了許多領域的暗數據,例如金融、科學研究等故事,也試圖在書中說明該如何「點亮」暗數據,作者將應該處理的暗數據分為「不可忽視的遺漏」、「隨機的遺漏」、「完全隨機的遺漏」。

針對完全隨機的遺漏,因為其遺漏是完全隨機,所以大可忽略不計;而隨機的遺漏相對有跡可循,因此測量到的最終結果,仍具有代表性;不可忽視的遺漏就真的是需要費思的地方,因為原本測得到的數據會測不到,這些數據並非出於隨機,也不是因為其他已測得的觀察值,這些內容可能還是要由書中解釋才會更加詳盡。

 

點亮數據與注意事項

而面對這些需要被「點亮」的數據,書中也提到很多統計學上的方法,例如插補、拔靴等,都是用來彌補暗數據的缺漏。

再舉一個例子,英國的推力小組懷疑英國人雖然熱量攝取減少,但體重持續增加的狀況,因此著手進行調查,初步歸納出的幾個原因,問題出在暗數據:

l   肥胖程度的提高,因為肥胖者較常低報卡路里攝取數量-DD-T11:反饋與玩弄

l   零食與外食增加-DD-T2:我們不知道遺漏掉的數據

l   調查回應率降低-DD-T1:我們知道漏掉的數據、DD-T4:自我選擇

l   熱量計算參考數據和實際狀況落差-DD-T10:量測誤差與不確定

 

作者在書中舉了很多有趣的例子,但同時也不是全盤否認暗數據的價值,例如特別將數據弄暗,或是利用整體統計等,也仍有其價值存在。對我來說,這本書很像是一本提供給對調查研究有興趣的讀者閱讀,其中需要有一些基本的統計基礎,才會比較好閱讀。對於研究者而言,比較像是一本「示警」的書,告訴研究者在進行研究時可能的偏誤。回歸到作者所講的第一步,對數據保持懷疑,就是能避免暗數據影響整體狀況的方法。。

avatar-img
18會員
38內容數
尚有舊時書禿筆,偶將蘸墨點葡萄
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Mauro's沙龍 的其他內容
這本書是《不便利的便利店》的續集,圍繞著便利店的店員和周遭人物的成長和故事。作者金浩然和譯者陳品芳將便利店的故事以生動的文筆展現,讓讀者在閱讀過程中能夠快速投入故事情節中。
這本書旨在協助辨識人才,特別是開創性的人才。書中討論了傳統的辨識人才方式,並提供了一些新的眼光,以及如何在面試中辨識開創性人才。
這本書提供了簡單易懂的投資指南,特別適合初學者。作者重點強調了「窮人存錢,富人投資」的理念,並提及心理狀態對財務規劃的影響。書中建議在儲蓄時平衡生活享樂與儲蓄目標,並推薦持續買進投資策略。總之,這本書提供了一個清晰的財務規劃指南,幫助讀者建立起穩健的財務基礎。
《冰山對話》是本在引導讀者具備與人溝通的方法,以薩提爾的冰山理論為基礎進行延展。冰山理論是用來隱喻一個人內在經驗與外在歷程。從直觀上僅能看見一個人外在水平面上的部份,就像冰山一樣,只顯露一小部分,在水平面下看不見的部份才是人的內在,而這些在水平面之下的內在,需要透過對話、核對才有機會進行深層的挖掘。
這本書深入分析了21世紀中國的政治現實。作者指出學界對中國經濟成就存在誤解,忽略了專制政府的管制策略及體制下的黑暗面。他將書分為五個部分,探討領導人、政府言行、行動、生產、及中國本質。書中指出黨國體制是核心,意識形態是合理化權力的關鍵。習近平時代的中國面臨權力集中和未來展望的挑戰。
這本書探討美國政治中改革派與保守派的溝通策略。作者以政治案例說明框架概念,提出不應採用對手框架,應創造自身框架並提供應對方式。強調了識破他人框架並建立自身論述的重要性。這些原則不僅適用於政治,也可在其他領域中使用。
這本書是《不便利的便利店》的續集,圍繞著便利店的店員和周遭人物的成長和故事。作者金浩然和譯者陳品芳將便利店的故事以生動的文筆展現,讓讀者在閱讀過程中能夠快速投入故事情節中。
這本書旨在協助辨識人才,特別是開創性的人才。書中討論了傳統的辨識人才方式,並提供了一些新的眼光,以及如何在面試中辨識開創性人才。
這本書提供了簡單易懂的投資指南,特別適合初學者。作者重點強調了「窮人存錢,富人投資」的理念,並提及心理狀態對財務規劃的影響。書中建議在儲蓄時平衡生活享樂與儲蓄目標,並推薦持續買進投資策略。總之,這本書提供了一個清晰的財務規劃指南,幫助讀者建立起穩健的財務基礎。
《冰山對話》是本在引導讀者具備與人溝通的方法,以薩提爾的冰山理論為基礎進行延展。冰山理論是用來隱喻一個人內在經驗與外在歷程。從直觀上僅能看見一個人外在水平面上的部份,就像冰山一樣,只顯露一小部分,在水平面下看不見的部份才是人的內在,而這些在水平面之下的內在,需要透過對話、核對才有機會進行深層的挖掘。
這本書深入分析了21世紀中國的政治現實。作者指出學界對中國經濟成就存在誤解,忽略了專制政府的管制策略及體制下的黑暗面。他將書分為五個部分,探討領導人、政府言行、行動、生產、及中國本質。書中指出黨國體制是核心,意識形態是合理化權力的關鍵。習近平時代的中國面臨權力集中和未來展望的挑戰。
這本書探討美國政治中改革派與保守派的溝通策略。作者以政治案例說明框架概念,提出不應採用對手框架,應創造自身框架並提供應對方式。強調了識破他人框架並建立自身論述的重要性。這些原則不僅適用於政治,也可在其他領域中使用。
你可能也想看
Google News 追蹤
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
數據分析是現代社會的核心技能,適用於各行各業。無論是在市場營銷、財務管理,還是產品開發中,數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率,使我們能夠迅速找到關鍵信息,進而做出明智的決策。本文將探討數據分析訓練方法,提供實用案例,幫助初學者快速掌握數據分析技術。
Thumbnail
#週一推薦 #行銷人必學 數據洞察行銷的專場分享 面對瞬息萬變的數據行銷時代,您準備好了嗎? 在我眼中,沒有難做的市場,只有看不見的藍海 而準確的線上數據越來越能夠協助我們洞悉商機 #消費者旅程的洞察 隨著第三方cookie消失|各大品牌和電商積極收集從公領域轉到私領域流量的數據,如果線上和
Thumbnail
運用大數據文本分析,所得出來的結果,皆有科學論文實證。
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
作為一名擁有多年經驗的數據分析師,我深知數據分析的重要性及其對企業決策的影響。然而,數據分析並不是在任何情況下都適用。今天我想跟你聊的事情是:在數據量不足或缺乏流程優化目的時,進行數據分析的局限性。
Thumbnail
數據分析是現代社會的核心技能,適用於各行各業。無論是在市場營銷、財務管理,還是產品開發中,數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率,使我們能夠迅速找到關鍵信息,進而做出明智的決策。本文將探討數據分析訓練方法,提供實用案例,幫助初學者快速掌握數據分析技術。
Thumbnail
#週一推薦 #行銷人必學 數據洞察行銷的專場分享 面對瞬息萬變的數據行銷時代,您準備好了嗎? 在我眼中,沒有難做的市場,只有看不見的藍海 而準確的線上數據越來越能夠協助我們洞悉商機 #消費者旅程的洞察 隨著第三方cookie消失|各大品牌和電商積極收集從公領域轉到私領域流量的數據,如果線上和
Thumbnail
運用大數據文本分析,所得出來的結果,皆有科學論文實證。