付費限定

方格精選

《數據、謊言與真相》大數據的四種特性〖Premium〗

閱讀筆耕

發佈於閱讀筆耕

2021/08/17 更新2021/08/17 發佈閱讀 8 分鐘

作者：賽斯・史蒂芬斯—大衛德維茲（Seth Stephens-Davidowitz）
譯者：陳琇玲
出版社：商周出版

「人們搜尋資訊，這種行為本身就是資訊。」
「人們會把自己可能不會告訴任何人的事情，告訴這個大型搜尋引擎。」

是的，《數據、謊言與真相》即將為讀者揭示「大數據」的各種議題，包括如何運作，以及產生什麼重大發現，也談到其所受的限制——資料多數源自 Google 這座寶山。

■ 何謂數據科學？大數據？

其實，我們一直都透過大腦裡的大型關係資料庫，做各種分析判斷：發現模式，預測一個變數如何影響另一個變數，這就是數據科學。

良好數據科學的方法論通常是直觀的，但結果往往違反直覺，原來這世界的運作跟我們所想像的天差地遠。而透過大數據，讓我們挖掘更多、發現更多、理解更多。

作者在一開始就言明，不會對大數據做出一個精準定義。究竟多大才算大？這是一個籠統的概念，他寧可對大數據的特性採用涵蓋性更廣的看法（有四，稍後詳談）。

通讀本書，就我個人的體悟，大數據中的「大」是一種相對性，取決於研究者提問的格局。若只是殺雞一般的問題，小樣本抽樣就夠「大」了，根本不用祭出牛刀；提出正確的問題、採用正確的資料，才是最攸關的，未必總是需要大量數據。

現在，讓我們一起來看看大數據的四種獨特力量（特性）。

先附上〖Premium 線上版〗心智圖，超連結放在簽名檔喔！

🔍 1. 提供新穎的資訊

重新想像什麼東西有資格當成數據，通常大數據的價值不在於本身的大小，而在於提供新類型的數據，也就是以往從未蒐集過的資訊。

跟蒐集更多數據無關，而跟蒐集正確（更好的）數據有關。

若你有看過《魔球》，相信不難理解非傳統新數據的超大價值。書中舉另一個異曲同工的例子：成為賽馬明星的關鍵是什麼？傳統賽馬經紀人通常從一匹馬的血統和步態著手，然這位取得許多哈佛大學學位，後成立 EBQ 公司的馬匹狂熱份子傑夫．塞德（Jeff Seder）並不這麼想，他打算評量賽馬的各種屬性，並看看哪些屬性跟賽馬場上的表現有關。

賽德測量過馬匹的鼻孔大小、快縮肌體積，甚至連排泄物重量也不放過，多年來只是徒勞無功。後來總算是走運了，他決定測量馬的內臟大小，成效斐然。他發現心臟大小，尤其是左心室的大小，就是能否成為賽馬明星的關鍵預測因素。為此，成功幫客戶揪出「美國法老」這匹 30 年來首屈一指的三冠王。

拜數位化之賜，「什麼可以當成數據使用」有著更多可能性，像是書籍中的字詞、約會中的交談聲、畢業紀念冊中的照片⋯⋯一切都是數據！

⋯

🔍 2. 提供誠實的數據

先是以「社會期許偏誤」（social desirability bias ）破題，點出許多人在問卷調查問及令自己困窘的行為和想法時，都會說謊的現象。即使是匿名的網路問卷，人們還是希望保持自己的良好形象。

然某些線上來源，像是你搜尋什麼？瀏覽什麼？這類數位足跡的作用就像誠實豆沙包，吐露了人們真正的看法、感受和慾望。這是大數據的第二種力量，因為你有「以為沒人知道」誘因，就更願意說出真相。

不要相信人們告訴你什麼，要相信他們做了什麼。

人們可能聲稱自己很憤怒，對一些「垃圾新聞」加以譴責，但是人們還是會點擊。

題外話，關於這種「說一套做一套」的落差，剛好是我最近讀的另一本書《盲點》深入探討的主題；一方面我們很不擅長預測未來的自己，或是說在預測時和執行時的動機往往不一樣，再加上「道德褪色」的推波助瀾，終焉導致這種「言行不一」的矛盾。

⋯

🔍 3. 把焦點放在人口中的小子集

大數據就像 RAW 檔。

當觀察數「夠大」時，就允許我們有意義地放大檢視數據集的細部。猶如為了將照片的一小部分放大後還能清楚查看，照片需要有很高的畫素，這是大數據的第三種威力。

看到這邊特有別感。在台灣，平常我們在新聞上看到的各種電訪民調，樣本數抓 1000 至 2000 人差不多就緊繃，若要考慮各年齡層的分佈，多半採用「每十歲（年）」作為級距。

而下列這個棒球研究的例子，卻是用「每一年（歲）」進行切割。要做到這樣，需要有數百萬次觀察，唯有大數據才能提供支持。

「把資料切成這麼細，是要做啥？」

大數據允許我們使用與問卷調查截然不同的設計，提出嶄新的問題。觀察中發現在 1962 年和 1978 年出生的這群人中，大都會隊非常受歡迎，那段時間究竟發生什麼事？原來，大都會隊分別於 1969 年和 1986 年贏得兩次世界大賽。於是引出了一項重要指標的檢視：

讓男性從小到大死忠支持某支棒球隊的最關鍵年紀，大概就發生在八歲那段時期。

這是「小數據」做不到的格局。

⋯

🔍 4. 進行許多因果關係的實驗

在數位世界裡，要進行「隨機對照實驗」變得容易進行，整個世界就是一間實驗室。


隨機對照實驗，或稱之為「A／B測試」，就是隨機將人分成兩組，一個是要做某件事的實驗組，另一個是什麼也不必做的對照組。然後觀察每一組的回應，兩組在結果之間的差異性就是取得的因果關係。

在離線環境，像是最近吵得沸沸揚揚的疫苗第三期臨床試驗，動輒需要上萬人的實驗人數，得投入大量資源；但在線上，就是幾行程式碼的事情，既省錢又省時。

Google 和臉書每天都進行大量的 A／B測試。引用書中例子，在 2012 年 12 月，Google 更改廣告，在廣告右方添加一個由正方形包圍的向右箭頭。

說多怪就有多怪，它指向右方，但右方根本沒有東西。事實上，這個看似無意義的箭頭，卻在 A／B測試中勝出，這樣做會有更多人點擊，讓 Google 和他們的廣告客戶賺大錢。

就是因為我們不了解人性，所以測試才這麼有價值。

大數據以真正奏效的因果關係，取代直覺、猜測、普遍看法和虛假相關性。

⋯

■ 後記：表皮，果肉與纖維

在閱讀過程中，時而覺得這本書頗有《蘋果橘子經濟學》的氣質，行至結論，作者還真提到他寫這本書的最大原因，是受到李維特（Steven D. Levitt）的啟發。

看似蘋果，切下去變成橘子，用來比喻「事情的本質跟表面往往不同」，也呼應本書提到的「結果往往違反直覺」。

我喜好《數據、謊言與真相》更勝《蘋果橘子經濟學》，更嚴謹的研究方法、更有組織的書寫脈絡、更貼近你我周遭的議題，佐以更細膩的資料探勘技術。

以前剖開表皮，見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。

謝謝各位看到這邊，隨文附上我的〔讚賞公民 2.0〕〔圍爐〕〔其它平台〕鏈結，歡迎來逛逛 ❤️。

🌱 成為我的讚賞公民👇
https://liker.land/leo7283/civic 免費獲邀進圍爐
❏
🌱 追蹤【中書神經系統】
廣播資訊不漏接好書金句／書市快訊／心智圖（Mind Map）
❏
🌱 我在其它平台出沒👇
【Facbook｜Mastodon｜Medium｜Matters｜Potato】
❏
🌱 本文的〖Premium 線上版〗心智圖 👉 由此去。

以行動支持創作者！付費即可解鎖

本篇內容共 2968 字、0 則留言，僅發佈於閱讀筆耕你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

留言

創作者經濟 IMO

42.4K會員

827內容數

關注各種對「創作者經營」有益的各種話題，例如創作技巧、心態及習慣養成、閱聽方法（輸入）、筆記方法（輸出）、文案、SEO、社群經營、數位行銷、數據分析、不同創作平台比較⋯⋯終而實現創作有價，結成「創作者經濟」的果實。免費訂閱電子報 https://creatoreconomyimo.substack.com/

創作者經濟 IMO的其他內容

2024/05/29

《一如既往》我看到的 4 條軸線

⋯⋯攸關我們生計的事，需要反覆省視。就讓《一如既往》扮演一面鏡子，一面意若思鏡，映照出想望，並指引自己下一步的行動。

2024/05/29

《一如既往》我看到的 4 條軸線

⋯⋯攸關我們生計的事，需要反覆省視。就讓《一如既往》扮演一面鏡子，一面意若思鏡，映照出想望，並指引自己下一步的行動。

2023/06/05

《你該殺死那個胖子嗎？》天氣之子的電車難題

⋯⋯我們不是行為的主體，可以輕易地從上帝的視角鳥瞰；一旦我們涉入其中，可能又是另一回事了。

2023/06/05

《你該殺死那個胖子嗎？》天氣之子的電車難題

⋯⋯我們不是行為的主體，可以輕易地從上帝的視角鳥瞰；一旦我們涉入其中，可能又是另一回事了。

2022/08/14

《區塊鏈社會學》導讀・你真的理解「去中心化」嗎？

⋯⋯因此「去中心化」的精髓是架構、管治的去中心，這叫無大台⋯⋯最後竟可收束到「中心化」的邏輯，稱作共識。

2022/08/14

《區塊鏈社會學》導讀・你真的理解「去中心化」嗎？

⋯⋯因此「去中心化」的精髓是架構、管治的去中心，這叫無大台⋯⋯最後竟可收束到「中心化」的邏輯，稱作共識。

看更多

你可能也想看

麟左馬騳驫

甩脫你對資訊分析的一廂情願：《資訊》、《數據為王》

「大數據像未成年性愛：人人湊熱鬧、沒人懂門道；人人以為別人在幹，搞得人人都說自己在幹。」在大數據開始對一般私部門使用者釋出時，這句話是最流行的笑話，至今不輟。

#資訊#數據為王#書評

2021/08/07

麟左馬騳驫

甩脫你對資訊分析的一廂情願：《資訊》、《數據為王》

#資訊#數據為王#書評

2021/08/07

吳鐵肩的沙龍

淺談大數據

Q1. 大數據的特徵是什麼? Q2. 大數據思維的特徵是什麼? Q3. 世界的本質是數據和計算嗎? Q4. 科學研究最新 (第四) 範式 (paradigm) 是什麼? 本文回答以上四個問題。

2023/12/03

2023/12/03

我看《大數據的關鍵思考（增訂版）》：以人為本，探究用戶的真實需求

車品覺老師告訴我們，大數據雖然聽起來很酷炫，但並非萬能。如果您想要得知問題能否憑藉數據的解讀來解決，首先必須思考五件事以定義需要解決的問題，包括：這是什麼問題？誰的問題？這個問題是由您來解決嗎？需要現在解決嗎？資料能夠解決嗎？

#大數據#好書推薦#推薦序

2020/03/11

Vista的沙龍

我看《大數據的關鍵思考（增訂版）》：以人為本，探究用戶的真實需求

#大數據#好書推薦#推薦序

2020/03/11

創作者經濟 IMO

《數據、謊言與真相》大數據的四種特性〖Premium〗

以前剖開表皮，見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。

#閱讀書評#社會科學#大數據

2021/08/17

創作者經濟 IMO

《數據、謊言與真相》大數據的四種特性〖Premium〗

以前剖開表皮，見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。

#閱讀書評#社會科學#大數據

2021/08/17

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11