每周一篇文章的讀書會心得報告摘要與筆記,主要段落分成:
1. 為什麼選這篇文章分享?
2. 作者為什麼要寫這篇文章?
3. 內容重點
4. 心得
為什麼分享這篇文章?
作者想表達甚麼?
- 何謂暗數據?
- 面對仰賴數據的時代,該如何察覺暗數據?
- 過度拘泥於現有的線索時,就會忽視尚未揭露的訊息,產生錯誤的推論。
重點內容
暗數據(dark data)
- 將人們遺漏的資訊與數據稱為「暗數據」(dark data)
- 發想自「暗物質」
- 科學家認為宇宙由 27% 的暗物質組成
- 由於它不與光和電磁輻射作用,難以察覺其存在,但會改變星體的移動速度
- 生活中有許多未察覺的暗數據,會無形中影響我們的判斷。
- 當我們過度拘泥於現有的線索時,就會忽視尚未揭露的訊息,產生錯誤的推論。
2011 年英國推出犯罪電子地圖
- 使用者可在地圖上查閱任一地點附近的治安狀況
- 民眾能在看似透明的資訊下,決定要在哪買房與租房,並在晚上避開犯罪率高的街道
- 犯案數相當高的街道,只有一家酒吧、停車場和一座公寓,沒有太多聲色場所,相對單純。
由於案件會顯示於地圖上,10% 民眾傾向不報案,避免房價下跌。
- 地圖顯示的可能是人們願意報案的區域,而非犯罪率高的地方
- 如果遺漏「10% 民眾不願報案」,誤以為地圖反映的就是真實,就會做出偏頗決策。
銀行瀏覽信用卡的交易紀錄
- 以為目標客群喜歡刷卡買電影票,因此積極找影廳洽談合作
- 部屬交給主管的資料,可能刪除了未開卡者的資料
- 資料僅反映刷卡購物者的習慣,遺漏偏好支付現金的人
- 假使未開卡者的比例高於開卡者,銀行就要調整行銷模式
從鞏固既有客戶,改為開拓新藍海市場,了解未使用信用卡者的需求,擬定新方案。
漂亮的數據也別輕信,多方汲取、爬梳資料
- 懷疑是防範暗數據的不二法則
- 改變詮釋數據的角度,能幫助我們快速判斷暗數據是否藏在裡頭
- 某樣食品標榜「90% 不含脂肪」,改成「含脂肪 10%」,你還會想購買嗎?
- 某療法宣稱能讓人的罹癌風險減半,但如果是從 2% 減至 1%,可能會覺得效果小到無足輕重
醫院透過 AI 預測肺炎病患的死亡率,出現驚人的結果
- 同時罹患氣喘和肺炎的死亡率,比單純罹患肺炎還低
- 檢視 AI 的判斷過程,會發現它忽視了不同治療方法的影響
醫師會判定氣喘病史的肺炎患者是死亡高危險群,將他送進加護病房,降低了他們的死亡率
- 醫生若相信 AI ,讓同時罹患氣喘和肺炎的病人只接受普通治療,患者死亡率可能會攀升
- 看到驚豔的數據別高興過頭,試著爬梳數據的調查方式,覺得「怪」就要探究下去
拒答、漏填也是一種資訊,加強隱私讓他們願意說
- 另一個依賴數據的現象,是企業為了追求更好的銷售表現,經常展開市調
- 強調隱私的時代,人們不見得願意透露個資
- 略過拒答者或問卷中沒填到的欄位,容易產生「倖存者偏誤」
調查結果往往只能反映願意填寫問卷者的狀況,與真實情形可能有落差。
- 針對漏填資料者進行訪談,了解他們拒答的原因,是避免倖存者偏誤的根本做法。
- 資料遺漏的另一種可能是, 受訪者認為揭露這項訊息令他們難為情
例如低收入者不願透露年薪、自認肥胖者對體重數字很敏感
- 蒐集資料時,必須注意受訪者的填答心態,微幅調整調查方式
- 採用匿名填答
- 受訪者填答完後,進行資料加密
- 除了要學會從既有資料覺察暗數據,還要留心調查過程的盲點。
- 懂得隨時修正數據的意義,才能從中得到更多的啟發。
個人心得
- 看完文章,想買一本《暗數據》來看
- 許多企業想導入數據文化,卻沒有正確數據思維
- 從RAW DATA撈資料做分析,與問卷抽樣結果大相逕庭
兩者相互做對照與探討
- 數據無法反映當下的所有細節,只能事後道出公司想要知道的關鍵結果
通常都是老闆、主管認知下的關鍵數據,許多間接數據被忽略
- 二戰飛機的彈孔位置
- 成功創業家該有的人格特質
- 某地癌症死亡率特高,誤以為該地罹癌率高→旅遊醫療
- 當數據標準是人定的,沒有科學依據,合理與否誰判斷
採番茄速度 v.s 品質
- 對數據的態度太狹隘
- 當下沒用,不代表未來某一刻沒用