付費限定
方格精選

《數據、謊言與真相》大數據的四種特性〖Premium〗

更新於 發佈於 閱讀時間約 8 分鐘

作者:賽斯・史蒂芬斯—大衛德維茲(Seth Stephens-Davidowitz)
譯者:陳琇玲
出版社:商周出版

raw-image

「人們搜尋資訊,這種行為本身就是資訊。」
「人們會把自己可能不會告訴任何人的事情,告訴這個大型搜尋引擎。」

是的,《數據、謊言與真相》即將為讀者揭示「大數據」的各種議題,包括如何運作,以及產生什麼重大發現,也談到其所受的限制——資料多數源自 Google 這座寶山。

■ 何謂數據科學?大數據?

其實,我們一直都透過大腦裡的大型關係資料庫,做各種分析判斷:發現模式,預測一個變數如何影響另一個變數,這就是數據科學。

良好數據科學的方法論通常是直觀的,但結果往往違反直覺,原來這世界的運作跟我們所想像的天差地遠。而透過大數據,讓我們挖掘更多、發現更多、理解更多。

raw-image

作者在一開始就言明,不會對大數據做出一個精準定義。究竟多大才算大?這是一個籠統的概念,他寧可對大數據的特性採用涵蓋性更廣的看法(有四,稍後詳談)。

通讀本書,就我個人的體悟,大數據中的「大」是一種相對性,取決於研究者提問的格局。若只是殺雞一般的問題,小樣本抽樣就夠「大」了,根本不用祭出牛刀;提出正確的問題、採用正確的資料,才是最攸關的,未必總是需要大量數據。

現在,讓我們一起來看看大數據的四種獨特力量(特性)。


先附上〖Premium 線上版〗心智圖,超連結放在簽名檔喔!

raw-image

🔍 1. 提供新穎的資訊

重新想像什麼東西有資格當成數據,通常大數據的價值不在於本身的大小,而在於提供新類型的數據,也就是以往從未蒐集過的資訊

跟蒐集更多數據無關,而跟蒐集正確(更好的)數據有關。

若你有看過《魔球》,相信不難理解非傳統新數據的超大價值。 書中舉另一個異曲同工的例子:成為賽馬明星的關鍵是什麼?傳統賽馬經紀人通常從一匹馬的血統和步態著手,然這位取得許多哈佛大學學位,後成立 EBQ 公司的馬匹狂熱份子傑夫.塞德(Jeff Seder)並不這麼想,他打算評量賽馬的各種屬性,並看看哪些屬性跟賽馬場上的表現有關。

賽德測量過馬匹的鼻孔大小、快縮肌體積,甚至連排泄物重量也不放過,多年來只是徒勞無功。後來總算是走運了,他決定測量馬的內臟大小,成效斐然。他發現心臟大小,尤其是左心室的大小,就是能否成為賽馬明星的關鍵預測因素。為此,成功幫客戶揪出「美國法老」這匹 30 年來首屈一指的三冠王。

raw-image

數位化之賜,「什麼可以當成數據使用」有著更多可能性,像是書籍中的字詞、約會中的交談聲、畢業紀念冊中的照片⋯⋯一切都是數據!

🔍 2. 提供誠實的數據

先是以「社會期許偏誤」(social desirability bias )破題,點出許多人在問卷調查問及令自己困窘的行為和想法時,都會說謊的現象。即使是匿名的網路問卷,人們還是希望保持自己的良好形象。

然某些線上來源,像是你搜尋什麼?瀏覽什麼?這類數位足跡的作用就像誠實豆沙包,吐露了人們真正的看法、感受和慾望。這是大數據的第二種力量,因為你有「以為沒人知道」誘因,就更願意說出真相。

不要相信人們告訴你什麼,要相信他們做了什麼。

人們可能聲稱自己很憤怒,對一些「垃圾新聞」加以譴責,但是人們還是會點擊。

raw-image

題外話,關於這種「說一套做一套」的落差,剛好是我最近讀的另一本書《盲點》深入探討的主題;一方面我們很不擅長預測未來的自己,或是說在預測時和執行時的動機往往不一樣,再加上「道德褪色」的推波助瀾,終焉導致這種「言行不一」的矛盾。

🔍 3. 把焦點放在人口中的小子集

大數據就像 RAW 檔。

當觀察數「夠大」時,就允許我們有意義地放大檢視數據集的細部。猶如為了將照片的一小部分放大後還能清楚查看,照片需要有很高的畫素,這是大數據的第三種威力。

看到這邊特有別感。在台灣,平常我們在新聞上看到的各種電訪民調,樣本數抓 1000 至 2000 人差不多就緊繃,若要考慮各年齡層的分佈,多半採用「每十歲(年)」作為級距。

而下列這個棒球研究的例子,卻是用「每一年(歲)」進行切割。要做到這樣,需要有數百萬次觀察,唯有大數據才能提供支持。

raw-image

「把資料切成這麼細,是要做啥?」

大數據允許我們使用與問卷調查截然不同的設計,提出嶄新的問題。觀察中發現在 1962 年和 1978 年出生的這群人中,大都會隊非常受歡迎,那段時間究竟發生什麼事?原來,大都會隊分別於 1969 年和 1986 年贏得兩次世界大賽。於是引出了一項重要指標的檢視:

讓男性從小到大死忠支持某支棒球隊的最關鍵年紀,大概就發生在八歲那段時期。

這是「小數據」做不到的格局。

🔍 4. 進行許多因果關係的實驗

在數位世界裡,要進行「隨機對照實驗」變得容易進行,整個世界就是一間實驗室


隨機對照實驗,或稱之為「A/B測試」,就是隨機將人分成兩組,一個是要做某件事的實驗組,另一個是什麼也不必做的對照組。然後觀察每一組的回應,兩組在結果之間的差異性就是取得的因果關係。

在離線環境,像是最近吵得沸沸揚揚的疫苗第三期臨床試驗,動輒需要上萬人的實驗人數,得投入大量資源;但在線上,就是幾行程式碼的事情,既省錢又省時。

Google 和臉書每天都進行大量的 A/B測試。引用書中例子,在 2012 年 12 月,Google 更改廣告,在廣告右方添加一個由正方形包圍的向右箭頭。

raw-image

說多怪就有多怪,它指向右方,但右方根本沒有東西。事實上,這個看似無意義的箭頭,卻在 A/B測試中勝出,這樣做會有更多人點擊,讓 Google 和他們的廣告客戶賺大錢。

就是因為我們不了解人性,所以測試才這麼有價值。

大數據以真正奏效的因果關係,取代直覺、猜測、普遍看法和虛假相關性。

■ 後記:表皮,果肉與纖維

在閱讀過程中,時而覺得這本書頗有《蘋果橘子經濟學》的氣質,行至結論,作者還真提到他寫這本書的最大原因,是受到 李維特(Steven D. Levitt)的啟發。

看似蘋果,切下去變成橘子,用來比喻「事情的本質跟表面往往不同」,也呼應本書提到的「結果往往違反直覺」。

我喜好《數據、謊言與真相》更勝《蘋果橘子經濟學》,更嚴謹的研究方法、更有組織的書寫脈絡、更貼近你我周遭的議題,佐以更細膩的資料探勘技術。

以前剖開表皮,見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。

謝謝各位看到這邊,隨文附上我的〔讚賞公民 2.0〕〔圍爐〕〔其它平台〕鏈結,歡迎來逛逛 ❤️。

🌱 成為我的讚賞公民👇
https://liker.land/leo7283/civic 免費獲邀進圍爐

🌱 追蹤中書神經系統
廣播資訊不漏接 好書金句/書市快訊/心智圖(Mind Map)

🌱 我在其它平台出沒👇
FacbookMastodonMediumMattersPotato

🌱 本文的〖Premium 線上版〗心智圖 👉 由此去

以行動支持創作者!付費即可解鎖
本篇內容共 2968 字、0 則留言,僅發佈於閱讀筆耕你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
留言分享你的想法!
avatar-img
創作者經濟 IMO
31.2K會員
776內容數
關注各種對「創作者經營」有益的各種話題,例如創作技巧、心態及習慣養成、閱聽方法(輸入)、筆記方法(輸出)、文案、SEO、社群經營、數位行銷、數據分析、不同創作平台比較⋯⋯終而實現創作有價,結成「創作者經濟」的果實。 免費訂閱電子報 https://creatoreconomyimo.substack.com/
創作者經濟 IMO的其他內容
2024/05/29
⋯⋯攸關我們生計的事,需要反覆省視。就讓《一如既往》扮演一面鏡子,一面意若思鏡,映照出想望,並指引自己下一步的行動。
Thumbnail
2024/05/29
⋯⋯攸關我們生計的事,需要反覆省視。就讓《一如既往》扮演一面鏡子,一面意若思鏡,映照出想望,並指引自己下一步的行動。
Thumbnail
2023/06/05
⋯⋯我們不是行為的主體,可以輕易地從上帝的視角鳥瞰;一旦我們涉入其中,可能又是另一回事了。
Thumbnail
2023/06/05
⋯⋯我們不是行為的主體,可以輕易地從上帝的視角鳥瞰;一旦我們涉入其中,可能又是另一回事了。
Thumbnail
2022/08/14
⋯⋯因此「去中心化」的精髓是架構、管治的去中心,這叫無大台⋯⋯最後竟可收束到「中心化」的邏輯,稱作共識。
Thumbnail
2022/08/14
⋯⋯因此「去中心化」的精髓是架構、管治的去中心,這叫無大台⋯⋯最後竟可收束到「中心化」的邏輯,稱作共識。
Thumbnail
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
Q1. 大數據的特徵是什麼? Q2. 大數據思維的特徵是什麼? Q3. 世界的本質是數據和計算嗎? Q4. 科學研究最新 (第四) 範式 (paradigm) 是什麼? 本文回答以上四個問題。
Thumbnail
Q1. 大數據的特徵是什麼? Q2. 大數據思維的特徵是什麼? Q3. 世界的本質是數據和計算嗎? Q4. 科學研究最新 (第四) 範式 (paradigm) 是什麼? 本文回答以上四個問題。
Thumbnail
談到數據調查,以往我們的認知可能是拜託別人做問卷,然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後,更糟糕的是,所獲得的數據可能也不是最貼近現實的。 因為別人沒有坦誠的動機。
Thumbnail
談到數據調查,以往我們的認知可能是拜託別人做問卷,然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後,更糟糕的是,所獲得的數據可能也不是最貼近現實的。 因為別人沒有坦誠的動機。
Thumbnail
用數據藝術說故事,解構資訊時代的暗黑力量 我數據你;你數據我。他們數據我們;我們數據他們。 ~~我們全都數據在一起~~
Thumbnail
用數據藝術說故事,解構資訊時代的暗黑力量 我數據你;你數據我。他們數據我們;我們數據他們。 ~~我們全都數據在一起~~
Thumbnail
以前剖開表皮,見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。
Thumbnail
以前剖開表皮,見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。
Thumbnail
「大數據像未成年性愛:人人湊熱鬧、沒人懂門道;人人以為別人在幹,搞得人人都說自己在幹。」在大數據開始對一般私部門使用者釋出時,這句話是最流行的笑話,至今不輟。
Thumbnail
「大數據像未成年性愛:人人湊熱鬧、沒人懂門道;人人以為別人在幹,搞得人人都說自己在幹。」在大數據開始對一般私部門使用者釋出時,這句話是最流行的笑話,至今不輟。
Thumbnail
大數據時代來臨,身為數學腦殘的我一直都有種焦慮感,最近感觸更深,比如說前陣子在吵的新冠肺炎確診人數以及疫苗副作用,為什麼大家資訊理解程度如此不對等,其實一部分就是因為目前社會上會解讀數據的人相當少,不理解數據的人各自解讀、互相爭吵...
Thumbnail
大數據時代來臨,身為數學腦殘的我一直都有種焦慮感,最近感觸更深,比如說前陣子在吵的新冠肺炎確診人數以及疫苗副作用,為什麼大家資訊理解程度如此不對等,其實一部分就是因為目前社會上會解讀數據的人相當少,不理解數據的人各自解讀、互相爭吵...
Thumbnail
車品覺老師告訴我們,大數據雖然聽起來很酷炫,但並非萬能。如果您想要得知問題能否憑藉數據的解讀來解決,首先必須思考五件事以定義需要解決的問題,包括:這是什麼問題?誰的問題?這個問題是由您來解決嗎?需要現在解決嗎?資料能夠解決嗎?
Thumbnail
車品覺老師告訴我們,大數據雖然聽起來很酷炫,但並非萬能。如果您想要得知問題能否憑藉數據的解讀來解決,首先必須思考五件事以定義需要解決的問題,包括:這是什麼問題?誰的問題?這個問題是由您來解決嗎?需要現在解決嗎?資料能夠解決嗎?
Thumbnail
如果,我們說《大數據的關鍵思考》這本書是寫給產業界經營者和管理階層人士看的數據化營運策略指南。那麼,現任紅杉資本合夥人車品覺的新作《數據的商戰策略:建立以數據驅動為核心的營運關鍵》,則是企圖以更宏觀的視野來剖析,企業界在推動數據化的過程中會遭遇哪些困境?並且,試圖提出有效的因應之道。
Thumbnail
如果,我們說《大數據的關鍵思考》這本書是寫給產業界經營者和管理階層人士看的數據化營運策略指南。那麼,現任紅杉資本合夥人車品覺的新作《數據的商戰策略:建立以數據驅動為核心的營運關鍵》,則是企圖以更宏觀的視野來剖析,企業界在推動數據化的過程中會遭遇哪些困境?並且,試圖提出有效的因應之道。
Thumbnail
大數據的 4 個明顯的特徵,即數據量大、多維度、完備性和在一些場景下的實時性。我們特別強調了光是數據量大還不能構成大數據,因為它可能無法得出有效的統計規律,而多維度的特徵則讓我們可以交叉驗證信息,提高準確性。 數據不是大就是美,重點在於之後你要拿出什麼樣的具體行動。勝負不在數據,觀點才能決定一切。
Thumbnail
大數據的 4 個明顯的特徵,即數據量大、多維度、完備性和在一些場景下的實時性。我們特別強調了光是數據量大還不能構成大數據,因為它可能無法得出有效的統計規律,而多維度的特徵則讓我們可以交叉驗證信息,提高準確性。 數據不是大就是美,重點在於之後你要拿出什麼樣的具體行動。勝負不在數據,觀點才能決定一切。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News