【數據、謊言與真相】：當有人比你更了解你

林佩妤

發佈於單純心得的心得

更新於 2025/05/13私密發佈閱讀時間約 7 分鐘

google trends 是作者許多研究的資料來源，各個字詞被搜索的頻率、時空分布、關聯性一覽無遺

　　你以為沒人知道的，真的都藏好了嗎......

什麼是大數據？

　　今日，似乎什麼都能和「大數據」一詞扯上邊。冠上這個詞，什麼都一下子顯得神秘高端，言之鑿鑿，只能點頭相信不容質疑。

　　還真的什麼都能扯上邊。

　　拜網路普及所賜，數位足跡成了龐大的數據集。無論點擊、搜尋紀錄、停留的頁面和時長等，都洩露有關使用者的各種資訊。我們是什麼樣的人、在意什麼、可能採取什麼行動，在一連串的數據中無所遁形。

　　作者強調，它從未定義多龐大的資料數可以稱為「大數據」；比起「量」，數據是否有其獨創性、包含真正有用的資訊，取得方式是否易帶來偏誤（如社群媒體使用者傾向展現光鮮愉快的一面、問卷填答者傾向說點抬高自己的謊），是研究者更該注意的問題。

為什麼我們需要大數據？

　　這個問題還能往前推一步：為什麼我們需要數據？

個人經驗有限　　
心理機制帶來的偏誤
數據能將關聯性具體化

　　我生活在亞洲，放眼所見都是黃種人，不代表黃種人是最大宗的種族（哇超爛的例子）。而心理機制又會讓我們放大自身經歷、或戲劇性的事件，這就是為什麼我們擔心空難遠高於車禍，即使後者的死亡人數是前者的數十倍。除了正確理解世界，數據也能讓一切的關聯性具體化，有可以比較的數量，甚至可供估計的模型。

　　那「大數據」又有什麼過人的力量？

提供新類型的數據
提供誠實的數據
允許觀察者聚焦在小的人口集＼細微的資訊
可進行因果關係實驗

　　作者很愛拿性行為＼慾望研究做為案例，好吧他也確實抓住我了。透過色情網站的搜尋紀錄、作品主題，可以歸納出各地區更「流行」的性癖、潛在的同志人數、甚至十分普同但人們從未分享的慾望，這是過去很難取得的資料庫。

　　（印度和孟加拉在P站上對女性哺乳色情片的搜尋是其他地區的四倍……好想說一些政治不正確的話……）

　　比起現實觀察、訪談或問卷，人們在使用網路時不受觀看，加上有「透過搜尋取得想要的資訊」的誘因，通常會更誠實地表達想法和感受。書中也提到，也有大量搜尋紀錄是「我很孤單」、「我喜歡我的老師」等純表述性的語句，把那小方框當作傾訴的樹洞。網路使用數據往往能提供更貼近內心、人們在現實生活中傾向隱藏的訊息。

　　「大」的資訊量反而也有助於我們聚焦在「小」的訊息上。過去，為了讓小數據集有代表性，我們往往從各族群、地區、階級等分類中擷取少部分的人，只能做整體的研究，很難進行更細微的比較。而大數據集資料完整，即使把人群劃分成很小的單位，都能取得有意義的資訊和研究結果。此外，諸如「八歲時的世界盃冠軍」、「借款申請的用字」都被記錄下來了，我們也得以研究這些特定的細微資訊，理解各種行動間更複雜的交互關係，進行更精準的預測。

　　大數據也讓更多的自然實驗得以發生。透過各項資訊的篩選、分類，我們不用經過控制，便能從人群中找到多數條件都差不多的實驗組和對照組，檢測欲研究的變數對他們的影響。而網路本身也是廣大的實驗室，企業能從一次次細微的調整中，發現什麼形狀、位置、語句的按鈕最能吸引點擊，選擇怎樣的圖片最能創造利益。比起前三項「理解世界」的能力，這樣的實驗更能檢測因果關係，避免虛假相關的產生，產生更有效的決策。

大數據難道沒有問題嗎？

　　會這麼問一定就是有。又是一句廢話。

維度的詛咒
過度重視數據的盲點
提高個人被歧視的風險和不確定性
「過度透明」、「過度干預」

　　如果投擲夠多枚硬幣夠多次，一定能找出特定的一枚和天氣晴雨高度相關，這就是「維度的詛咒」。只要研究夠多變數（維度），總會出現具統計意義，但實際上只是巧合的相關性，可能將我們導向錯誤的理解方向。

　　數據不是萬能，還有許多向度無法被現在的（也可能是永遠的）技術量化。太看重數據可能讓我們在評估結果、尋找有影響力的變項時忽略重要的資訊；只追求以數字顯示的成效，也可能讓我們逐漸偏離行動或研究的意圖。（想想升學班裡瘋狂追分，早就不是在教學生「學習」的老師……）

　　因果關係或相關性看似直接，但現實往往複雜得多。對哈雷機車粉專按讚的人在統計結果中智商普遍較低，不代表一個聰明人不可能是哈雷大鐵粉。當這些量化、分析的技術逐漸滲入我們生活的各面向，任何細微的資訊都可能被用來決定我們求職、貸款、租屋等等的機會，對個人的歧視便越發難以預測和避免。

　　最後，「透明」不一定對每個個體都是好事。如果企業能透過數據完整認識每個消費者，依他們的願付價格量身定價，這樣算不算侵害消費者的權益？如果消費者也能以此反制企業呢？如果政府有權掌握這些數據，它有沒有權利侵犯個人自由，避免潛在的犯罪發生？如果那些表達了犯罪意圖的人裡，真正會付諸行動者極少呢？

　　前兩項偏向技術層面的問題，作者給出解方：大數據作業應結合傳統的小數據研究。大數據擷取特定的片面資訊進行預測，而傳統研究方法用更全面、深入的認識，彌補前者可能的不足。至於後兩者的倫理問題，還有賴民眾、專家、政府、企業等多方的協商討論，為這個嶄新的世代定下新規則。

單純心得的心得

社會科學正在成為一門真正的科學，而這門貨真價實的新科學將有助於改善我們的生活。

　　在總結看到這段話的時候很開心，可能還不夠自信，總很希望自己喜歡或正在學習的東西能被社會重視。

　　作者接著又花了一些篇幅強調，社會科學自此不再是口說無憑，而有嚴謹的證據支持，「很科學」。即使他聲明，這不代表社會科學也將邁向尋找簡單通則的「物理學之路」，也不否認人類心智和社會有數據難以完全解釋的複雜性，我還是不太喜歡這樣的論述。

　　只有向科學靠攏，才能被視為革命性的、值得歡慶的躍進嗎？為什麼不能認可不同領域本就該有不同的理解方式，也不該被以同一套標準衡量成果？

　　但量化研究本來就有這樣的實證性質，社會科學中也本就包含量化研究。也許只是某些字詞讓我不太愉快而已。

　　閱讀整本書的過程都隱約有類似的怪異感。那些研究和實驗結果太驚人了，我們的真實想法被看透、未來被精準預估，連點進一個連結的機率都被玩弄於股掌，反烏托邦的圖像儼然成形。

　　個人能如此扁平地成為百分點，循著簡單的相關或因果關係行事，決定數據的同時也像被數據決定了，這種認知令人不安。而且我不認為這能被成熟的倫理規範解決，發掘、運用人群中的普同性是大數據很根本的技術，無論在哪裡使用，它就是要用數據說出你是誰，你們是誰。

　　不可否認大數據研究的價值，它已經帶來許多利益、便利、對災厄疾病的事先預防；但人們因為能動性、各種因素交織的複雜性而有的價值，會在其中被抹滅嗎？或它只是揭露了現實：我們並沒有自己想像的那麼複雜、那麼特別？

　　這種討論到最後總覺得自己有點反智 = =

留言

留言分享你的想法！

O_O

28會員

26內容數

……

O_O的其他內容

2023/02/01

一月閱讀筆記

寒假有多一點時間看書了，但很懶惰地一篇心得都沒寫。最近看的幾本書都滿喜歡的，就在月底簡單整理一下好了！（排序是閱讀順序，沒有什麼特殊意義。我也想學別人打星星但根本不知道從何比較起）

2023/02/01

一月閱讀筆記

2022/11/15

【成為真正的人】：這世上沒有英雄，只有找回尊嚴的人。

海努南右手臂的牛痘花苞，不知是荼靡將盡，還是包蕊迎春。哈魯牧特悄悄拿出鋼筆，在對方的右臂畫圖。他喜歡在上頭作畫，喜歡而已。筆墨沿皮膚的細紋暈糊，冉冉擴散下去，他不清楚筆意何在，只想畫一朵綻花。這朵花被風拂過而綻，或吹落地了，像哈魯牧特心情總是輾轉不已。

2022/11/15

【成為真正的人】：這世上沒有英雄，只有找回尊嚴的人。

2022/09/15

【生活在他方】：青春、詩歌、革命

「在富於詩意的夢幻想像中，周遭的生活是多麼平庸而死寂，真正的生活總是在他方。」

2022/09/15

【生活在他方】：青春、詩歌、革命

「在富於詩意的夢幻想像中，周遭的生活是多麼平庸而死寂，真正的生活總是在他方。」

看更多

你可能也想看

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

大家好，我是一名眼科醫師，也是一位孩子的媽身為眼科醫師的我，我知道視力發展對孩子來說有多關鍵。每到開學季時，診間便充斥著許多憂心忡忡的家屬。近年來看診中，兒童提早近視、眼睛疲勞的案例明顯增加，除了3C使用過度，最常被忽略的，就是照明品質。然而作為一位媽媽，孩子能在安全、舒適的環境

#momo購物網#Philips飛利浦#軒博

2025/04/30

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

#momo購物網#Philips飛利浦#軒博

2025/04/30

方格子 vocus 官方沙龍

♥️ 5 月主題活動：我的媽呀！母親節快樂！

我的「媽」呀！母親節即將到來，vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常，或是一直想對她表達的感謝，又或者，是你這輩子最想聽她說出的一句話。也歡迎你曬出合照，分享照片背後的點點滴滴 ♥️ 透過創作，將這份情感表達出來吧！🥹

#母親節#媽媽美照#媽媽日常

2025/05/01

方格子 vocus 官方沙龍

♥️ 5 月主題活動：我的媽呀！母親節快樂！

#母親節#媽媽美照#媽媽日常

2025/05/01

wenyu的沙龍

閱讀筆記｜《暗數據》

班傑明．迪斯雷利：「世界上有三種謊言：謊言、該死的謊言，和統計數字。」由於我們未知的東西可能至關重大，踏錯一步很可能導致理解不當或預測錯誤，對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮，但必須抱持謹慎。唯一的解決之道就是瞭解風險，時時警覺。

2023/08/28

wenyu的沙龍

閱讀筆記｜《暗數據》

2023/08/28

公民行動影音紀錄資料庫的沙龍

【燦爛時光會客室】第395集｜數據竟能鬼扯？－《數據的假象》揭穿數字背後的虛偽

《數據的假象：數據識讀是深度偽造時代最重要的思辨素養，聰明決策不被操弄》一書，作者是美國華盛頓大學的兩位教授Carl T. Bergstrom和Jevin D. West，內容分析當代常見的圖表、統計資料和數據，在日常生活展現出哪些面貌？又如何操控人心？

#數據#燦爛時光會客室#公民行動影音紀錄資料庫

2023/02/16

公民行動影音紀錄資料庫的沙龍

【燦爛時光會客室】第395集｜數據竟能鬼扯？－《數據的假象》揭穿數字背後的虛偽

#數據#燦爛時光會客室#公民行動影音紀錄資料庫

2023/02/16

滾石西恩的沙龍

【超閱讀觀點18】從海量數據中找尋秘密--《數據、謊言與真相》

談到數據調查，以往我們的認知可能是拜託別人做問卷，然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後，更糟糕的是，所獲得的數據可能也不是最貼近現實的。因為別人沒有坦誠的動機。

#大數據#數據謊言與真相#讀書心得

2021/12/25

滾石西恩的沙龍

【超閱讀觀點18】從海量數據中找尋秘密--《數據、謊言與真相》

#大數據#數據謊言與真相#讀書心得

2021/12/25

Patrick.Wong的沙龍

讀後感：只憑數字做決策的主管，小心了！忽視報表沒寫的資料，嚴重時恐鬧出人命

每周一篇文章的讀書會心得報告摘要與筆記，本次分享文章為：只憑數字做決策的主管，小心了！忽視報表沒寫的資料，嚴重時恐鬧出人命： 1. 暗數據（dark data） 2. 漂亮的數據也別輕信，多方汲取、爬梳資料 3. 拒答、漏填也是一種資訊，加強隱私讓他們願意說

#暗數據#數據#數據來源

2021/11/10

Patrick.Wong的沙龍

讀後感：只憑數字做決策的主管，小心了！忽視報表沒寫的資料，嚴重時恐鬧出人命

#暗數據#數據#數據來源

2021/11/10

創作者經濟 IMO

《數據、謊言與真相》大數據的四種特性〖Premium〗

以前剖開表皮，見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。

#閱讀書評#社會科學#大數據

2021/08/17

創作者經濟 IMO

《數據、謊言與真相》大數據的四種特性〖Premium〗

以前剖開表皮，見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。

#閱讀書評#社會科學#大數據

2021/08/17

麟左馬騳驫

甩脫你對資訊分析的一廂情願：《資訊》、《數據為王》

「大數據像未成年性愛：人人湊熱鬧、沒人懂門道；人人以為別人在幹，搞得人人都說自己在幹。」在大數據開始對一般私部門使用者釋出時，這句話是最流行的笑話，至今不輟。

#資訊#數據為王#書評

2021/08/07

麟左馬騳驫

甩脫你對資訊分析的一廂情願：《資訊》、《數據為王》

#資訊#數據為王#書評

2021/08/07

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News