付費限定方格精選

《數據、謊言與真相》大數據的四種特性〖Premium〗

更新於 2021/08/17閱讀時間約 7 分鐘
作者:賽斯・史蒂芬斯—大衛德維茲(Seth Stephens-Davidowitz)
譯者:陳琇玲
出版社:商周出版
《數據、謊言與真相》
「人們搜尋資訊,這種行為本身就是資訊。」
「人們會把自己可能不會告訴任何人的事情,告訴這個大型搜尋引擎。」
是的,《數據、謊言與真相》即將為讀者揭示「大數據」的各種議題,包括如何運作,以及產生什麼重大發現,也談到其所受的限制——資料多數源自 Google 這座寶山。

■ 何謂數據科學?大數據?

其實,我們一直都透過大腦裡的大型關係資料庫,做各種分析判斷:發現模式,預測一個變數如何影響另一個變數,這就是數據科學。
良好數據科學的方法論通常是直觀的,但結果往往違反直覺,原來這世界的運作跟我們所想像的天差地遠。而透過大數據,讓我們挖掘更多、發現更多、理解更多。
Photo by Mika Baumeister on Unsplash
作者在一開始就言明,不會對大數據做出一個精準定義。究竟多大才算大?這是一個籠統的概念,他寧可對大數據的特性採用涵蓋性更廣的看法(有四,稍後詳談)。
通讀本書,就我個人的體悟,大數據中的「大」是一種相對性,取決於研究者提問的格局。若只是殺雞一般的問題,小樣本抽樣就夠「大」了,根本不用祭出牛刀;提出正確的問題、採用正確的資料,才是最攸關的,未必總是需要大量數據。
現在,讓我們一起來看看大數據的四種獨特力量(特性)。

先附上〖Premium 線上版〗心智圖,超連結放在簽名檔喔!
以 Xmind 編纂,開新分頁瀏覽獲得較佳解析度

🔍 1. 提供新穎的資訊

重新想像什麼東西有資格當成數據,通常大數據的價值不在於本身的大小,而在於提供新類型的數據,也就是以往從未蒐集過的資訊
跟蒐集更多數據無關,而跟蒐集正確(更好的)數據有關。
若你有看過《魔球》,相信不難理解非傳統新數據的超大價值。 書中舉另一個異曲同工的例子:成為賽馬明星的關鍵是什麼?傳統賽馬經紀人通常從一匹馬的血統和步態著手,然這位取得許多哈佛大學學位,後成立 EBQ 公司的馬匹狂熱份子傑夫.塞德(Jeff Seder)並不這麼想,他打算評量賽馬的各種屬性,並看看哪些屬性跟賽馬場上的表現有關。
賽德測量過馬匹的鼻孔大小、快縮肌體積,甚至連排泄物重量也不放過,多年來只是徒勞無功。後來總算是走運了,他決定測量馬的內臟大小,成效斐然。他發現心臟大小,尤其是左心室的大小,就是能否成為賽馬明星的關鍵預測因素。為此,成功幫客戶揪出「美國法老」這匹 30 年來首屈一指的三冠王。
資料來源:《數據、謊言與真相》內頁表格
數位化之賜,「什麼可以當成數據使用」有著更多可能性,像是書籍中的字詞、約會中的交談聲、畢業紀念冊中的照片⋯⋯一切都是數據!

🔍 2. 提供誠實的數據

先是以「社會期許偏誤」(social desirability bias )破題,點出許多人在問卷調查問及令自己困窘的行為和想法時,都會說謊的現象。即使是匿名的網路問卷,人們還是希望保持自己的良好形象。
然某些線上來源,像是你搜尋什麼?瀏覽什麼?這類數位足跡的作用就像誠實豆沙包,吐露了人們真正的看法、感受和慾望。這是大數據的第二種力量,因為你有「以為沒人知道」誘因,就更願意說出真相。
不要相信人們告訴你什麼,要相信他們做了什麼。
人們可能聲稱自己很憤怒,對一些「垃圾新聞」加以譴責,但是人們還是會點擊。
資料來源:《數據、謊言與真相》內頁表格
題外話,關於這種「說一套做一套」的落差,剛好是我最近讀的另一本書《盲點》深入探討的主題;一方面我們很不擅長預測未來的自己,或是說在預測時和執行時的動機往往不一樣,再加上「道德褪色」的推波助瀾,終焉導致這種「言行不一」的矛盾。

🔍 3. 把焦點放在人口中的小子集

大數據就像 RAW 檔。
當觀察數「夠大」時,就允許我們有意義地放大檢視數據集的細部。猶如為了將照片的一小部分放大後還能清楚查看,照片需要有很高的畫素,這是大數據的第三種威力。
看到這邊特有別感。在台灣,平常我們在新聞上看到的各種電訪民調,樣本數抓 1000 至 2000 人差不多就緊繃,若要考慮各年齡層的分佈,多半採用「每十歲(年)」作為級距。
而下列這個棒球研究的例子,卻是用「每一年(歲)」進行切割。要做到這樣,需要有數百萬次觀察,唯有大數據才能提供支持。
資料來源:《數據、謊言與真相》內頁圖表
「把資料切成這麼細,是要做啥?」
大數據允許我們使用與問卷調查截然不同的設計,提出嶄新的問題。觀察中發現在 1962 年和 1978 年出生的這群人中,大都會隊非常受歡迎,那段時間究竟發生什麼事?原來,大都會隊分別於 1969 年和 1986 年贏得兩次世界大賽。於是引出了一項重要指標的檢視:
讓男性從小到大死忠支持某支棒球隊的最關鍵年紀,大概就發生在八歲那段時期。
這是「小數據」做不到的格局。

🔍 4. 進行許多因果關係的實驗

在數位世界裡,要進行「隨機對照實驗」變得容易進行,整個世界就是一間實驗室

隨機對照實驗,或稱之為「A/B測試」,就是隨機將人分成兩組,一個是要做某件事的實驗組,另一個是什麼也不必做的對照組。然後觀察每一組的回應,兩組在結果之間的差異性就是取得的因果關係。
在離線環境,像是最近吵得沸沸揚揚的疫苗第三期臨床試驗,動輒需要上萬人的實驗人數,得投入大量資源;但在線上,就是幾行程式碼的事情,既省錢又省時。
Google 和臉書每天都進行大量的 A/B測試。引用書中例子,在 2012 年 12 月,Google 更改廣告,在廣告右方添加一個由正方形包圍的向右箭頭。
資料來源:《數據、謊言與真相》內頁圖片
說多怪就有多怪,它指向右方,但右方根本沒有東西。事實上,這個看似無意義的箭頭,卻在 A/B測試中勝出,這樣做會有更多人點擊,讓 Google 和他們的廣告客戶賺大錢。
就是因為我們不了解人性,所以測試才這麼有價值。
大數據以真正奏效的因果關係,取代直覺、猜測、普遍看法和虛假相關性。

■ 後記:表皮,果肉與纖維

在閱讀過程中,時而覺得這本書頗有《蘋果橘子經濟學》的氣質,行至結論,作者還真提到他寫這本書的最大原因,是受到 李維特(Steven D. Levitt)的啟發。
看似蘋果,切下去變成橘子,用來比喻「事情的本質跟表面往往不同」,也呼應本書提到的「結果往往違反直覺」。
我喜好《數據、謊言與真相》更勝《蘋果橘子經濟學》,更嚴謹的研究方法、更有組織的書寫脈絡、更貼近你我周遭的議題,佐以更細膩的資料探勘技術。
以前剖開表皮,見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。

謝謝各位看到這邊,隨文附上我的〔讚賞公民 2.0〕〔圍爐〕〔其它平台〕鏈結,歡迎來逛逛 ❤️。
🌱 成為我的讚賞公民👇
https://liker.land/leo7283/civic 免費獲邀進圍爐

🌱 追蹤中書神經系統
廣播資訊不漏接 好書金句/書市快訊/心智圖(Mind Map)

🌱 我在其它平台出沒👇
FacbookMastodonMediumMattersPotato

🌱 本文的〖Premium 線上版〗心智圖 👉 由此去
以行動支持創作者!付費即可解鎖
本篇內容共 2968 字、0 則留言,僅發佈於閱讀筆耕你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
你的見面禮 Premium 閱讀權限 只剩下0 小時 0
avatar-img
21.6K會員
712內容數
關注各種對「創作者經營」有益的各種話題,例如創作技巧、心態及習慣養成、閱聽方法(輸入)、筆記方法(輸出)、文案、SEO、社群經營、數位行銷、數據分析、不同創作平台比較⋯⋯終而實現創作有價,結成「創作者經濟」的果實。 免費訂閱電子報 https://creatoreconomyimo.substack.com/
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
創作者經濟 IMO 的其他內容
才德至上的菁英社會,難道不好嗎?會引發暴政?和教育的關係又是?
你可曾經想過,極簡主義也可以應用在數位生活上?
自此,對經濟學發展的來龍去脈,有一個宏觀全局的了解。
透過「數據、圖表」穿針引線,談世界真正的樣子。
才德至上的菁英社會,難道不好嗎?會引發暴政?和教育的關係又是?
你可曾經想過,極簡主義也可以應用在數位生活上?
自此,對經濟學發展的來龍去脈,有一個宏觀全局的了解。
透過「數據、圖表」穿針引線,談世界真正的樣子。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
政府推行政策須透過數據說服公眾,不過,數據的使用往往相當可議。為釐清政府說法與真實之間的落差,共力研究開啟「Game of Numbers」系列,希望能讓公眾更能自主判斷政策的潛在影響。今天想和大家談談關於萊豬進口的四個「數據迷思」。
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
  眾人一提到數學,的確會想像它是嚴密嵌合的邏輯代碼,是不可移動的判準依據,然實際上,它與現實生活是相互影響的,在更廣袤框架下,自教育、文學、藝術、歷史裡,都可以從中析分出數學意義,這便是所謂文化;從出現、發展到集大成者,當中亦存在著先後與否的因果關係,將現象置放到正確位置給予適當評價,會稱之脈絡。
Thumbnail
電腦不懂思考,會思考、留意公平與否的是人腦,締造一個公正幸福社會,不能依賴電腦和演算法。
Thumbnail
車品覺老師告訴我們,大數據雖然聽起來很酷炫,但並非萬能。如果您想要得知問題能否憑藉數據的解讀來解決,首先必須思考五件事以定義需要解決的問題,包括:這是什麼問題?誰的問題?這個問題是由您來解決嗎?需要現在解決嗎?資料能夠解決嗎?
Thumbnail
科學與宗教不相容。信仰是證據的免疫力,再確鑿的證據都可以忽視、否定。宗教以感情的交托代替證據的需求。要叫人相信科學,不但要有「事實」上的教育,而且要有「信仰」上的反教育。從民意調查可見,科學家、無神論者批評的是主流教義,打的不是稻草人。科學家信徒少,是研究科學叫人不信,而不是不信的人做了科學家。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
政府推行政策須透過數據說服公眾,不過,數據的使用往往相當可議。為釐清政府說法與真實之間的落差,共力研究開啟「Game of Numbers」系列,希望能讓公眾更能自主判斷政策的潛在影響。今天想和大家談談關於萊豬進口的四個「數據迷思」。
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
  眾人一提到數學,的確會想像它是嚴密嵌合的邏輯代碼,是不可移動的判準依據,然實際上,它與現實生活是相互影響的,在更廣袤框架下,自教育、文學、藝術、歷史裡,都可以從中析分出數學意義,這便是所謂文化;從出現、發展到集大成者,當中亦存在著先後與否的因果關係,將現象置放到正確位置給予適當評價,會稱之脈絡。
Thumbnail
電腦不懂思考,會思考、留意公平與否的是人腦,締造一個公正幸福社會,不能依賴電腦和演算法。
Thumbnail
車品覺老師告訴我們,大數據雖然聽起來很酷炫,但並非萬能。如果您想要得知問題能否憑藉數據的解讀來解決,首先必須思考五件事以定義需要解決的問題,包括:這是什麼問題?誰的問題?這個問題是由您來解決嗎?需要現在解決嗎?資料能夠解決嗎?
Thumbnail
科學與宗教不相容。信仰是證據的免疫力,再確鑿的證據都可以忽視、否定。宗教以感情的交托代替證據的需求。要叫人相信科學,不但要有「事實」上的教育,而且要有「信仰」上的反教育。從民意調查可見,科學家、無神論者批評的是主流教義,打的不是稻草人。科學家信徒少,是研究科學叫人不信,而不是不信的人做了科學家。