【數據、謊言與真相】:當有人比你更了解你

更新於 私密發佈閱讀時間約 7 分鐘

  你以為沒人知道的,真的都藏好了嗎......

什麼是大數據?

  今日,似乎什麼都能和「大數據」一詞扯上邊。冠上這個詞,什麼都一下子顯得神秘高端,言之鑿鑿,只能點頭相信不容質疑。

  還真的什麼都能扯上邊。

  拜網路普及所賜,數位足跡成了龐大的數據集。無論點擊、搜尋紀錄、停留的頁面和時長等,都洩露有關使用者的各種資訊。我們是什麼樣的人、在意什麼、可能採取什麼行動,在一連串的數據中無所遁形。

  作者強調,它從未定義多龐大的資料數可以稱為「大數據」;比起「量」,數據是否有其獨創性、包含真正有用的資訊,取得方式是否易帶來偏誤(如社群媒體使用者傾向展現光鮮愉快的一面、問卷填答者傾向說點抬高自己的謊),是研究者更該注意的問題。



為什麼我們需要大數據?

  這個問題還能往前推一步:為什麼我們需要數據?

  • 個人經驗有限  
  • 心理機制帶來的偏誤
  • 數據能將關聯性具體化

  我生活在亞洲,放眼所見都是黃種人,不代表黃種人是最大宗的種族(哇超爛的例子)。而心理機制又會讓我們放大自身經歷、或戲劇性的事件,這就是為什麼我們擔心空難遠高於車禍,即使後者的死亡人數是前者的數十倍。除了正確理解世界,數據也能讓一切的關聯性具體化,有可以比較的數量,甚至可供估計的模型。

  那「大數據」又有什麼過人的力量?

  • 提供新類型的數據
  • 提供誠實的數據
  • 允許觀察者聚焦在小的人口集\細微的資訊
  • 可進行因果關係實驗

  作者很愛拿性行為\慾望研究做為案例,好吧他也確實抓住我了。透過色情網站的搜尋紀錄、作品主題,可以歸納出各地區更「流行」的性癖、潛在的同志人數、甚至十分普同但人們從未分享的慾望,這是過去很難取得的資料庫。

  (印度和孟加拉在P站上對女性哺乳色情片的搜尋是其他地區的四倍……好想說一些政治不正確的話……)

  比起現實觀察、訪談或問卷,人們在使用網路時不受觀看,加上有「透過搜尋取得想要的資訊」的誘因,通常會更誠實地表達想法和感受。書中也提到,也有大量搜尋紀錄是「我很孤單」、「我喜歡我的老師」等純表述性的語句,把那小方框當作傾訴的樹洞。網路使用數據往往能提供更貼近內心、人們在現實生活中傾向隱藏的訊息。

  「大」的資訊量反而也有助於我們聚焦在「小」的訊息上。過去,為了讓小數據集有代表性,我們往往從各族群、地區、階級等分類中擷取少部分的人,只能做整體的研究,很難進行更細微的比較。而大數據集資料完整,即使把人群劃分成很小的單位,都能取得有意義的資訊和研究結果。此外,諸如「八歲時的世界盃冠軍」、「借款申請的用字」都被記錄下來了,我們也得以研究這些特定的細微資訊,理解各種行動間更複雜的交互關係,進行更精準的預測。

  大數據也讓更多的自然實驗得以發生。透過各項資訊的篩選、分類,我們不用經過控制,便能從人群中找到多數條件都差不多的實驗組和對照組,檢測欲研究的變數對他們的影響。而網路本身也是廣大的實驗室,企業能從一次次細微的調整中,發現什麼形狀、位置、語句的按鈕最能吸引點擊,選擇怎樣的圖片最能創造利益。比起前三項「理解世界」的能力,這樣的實驗更能檢測因果關係,避免虛假相關的產生,產生更有效的決策。



大數據難道沒有問題嗎?

  會這麼問一定就是有。又是一句廢話。

  • 維度的詛咒
  • 過度重視數據的盲點
  • 提高個人被歧視的風險和不確定性
  • 「過度透明」、「過度干預」

  如果投擲夠多枚硬幣夠多次,一定能找出特定的一枚和天氣晴雨高度相關,這就是「維度的詛咒」。只要研究夠多變數(維度),總會出現具統計意義,但實際上只是巧合的相關性,可能將我們導向錯誤的理解方向。

  數據不是萬能,還有許多向度無法被現在的(也可能是永遠的)技術量化。太看重數據可能讓我們在評估結果、尋找有影響力的變項時忽略重要的資訊;只追求以數字顯示的成效,也可能讓我們逐漸偏離行動或研究的意圖。(想想升學班裡瘋狂追分,早就不是在教學生「學習」的老師……)

  因果關係或相關性看似直接,但現實往往複雜得多。對哈雷機車粉專按讚的人在統計結果中智商普遍較低,不代表一個聰明人不可能是哈雷大鐵粉。當這些量化、分析的技術逐漸滲入我們生活的各面向,任何細微的資訊都可能被用來決定我們求職、貸款、租屋等等的機會,對個人的歧視便越發難以預測和避免。

  最後,「透明」不一定對每個個體都是好事。如果企業能透過數據完整認識每個消費者,依他們的願付價格量身定價,這樣算不算侵害消費者的權益?如果消費者也能以此反制企業呢?如果政府有權掌握這些數據,它有沒有權利侵犯個人自由,避免潛在的犯罪發生?如果那些表達了犯罪意圖的人裡,真正會付諸行動者極少呢?

  前兩項偏向技術層面的問題,作者給出解方:大數據作業應結合傳統的小數據研究。大數據擷取特定的片面資訊進行預測,而傳統研究方法用更全面、深入的認識,彌補前者可能的不足。至於後兩者的倫理問題,還有賴民眾、專家、政府、企業等多方的協商討論,為這個嶄新的世代定下新規則。


單純心得的心得

社會科學正在成為一門真正的科學,而這門貨真價實的新科學將有助於改善我們的生活。

  在總結看到這段話的時候很開心,可能還不夠自信,總很希望自己喜歡或正在學習的東西能被社會重視。

  作者接著又花了一些篇幅強調,社會科學自此不再是口說無憑,而有嚴謹的證據支持,「很科學」。即使他聲明,這不代表社會科學也將邁向尋找簡單通則的「物理學之路」,也不否認人類心智和社會有數據難以完全解釋的複雜性,我還是不太喜歡這樣的論述。

  只有向科學靠攏,才能被視為革命性的、值得歡慶的躍進嗎?為什麼不能認可不同領域本就該有不同的理解方式,也不該被以同一套標準衡量成果?

  但量化研究本來就有這樣的實證性質,社會科學中也本就包含量化研究。也許只是某些字詞讓我不太愉快而已。

  閱讀整本書的過程都隱約有類似的怪異感。那些研究和實驗結果太驚人了,我們的真實想法被看透、未來被精準預估,連點進一個連結的機率都被玩弄於股掌,反烏托邦的圖像儼然成形。

  個人能如此扁平地成為百分點,循著簡單的相關或因果關係行事,決定數據的同時也像被數據決定了,這種認知令人不安。而且我不認為這能被成熟的倫理規範解決,發掘、運用人群中的普同性是大數據很根本的技術,無論在哪裡使用,它就是要用數據說出你是誰,你們是誰。

  不可否認大數據研究的價值,它已經帶來許多利益、便利、對災厄疾病的事先預防;但人們因為能動性、各種因素交織的複雜性而有的價值,會在其中被抹滅嗎?或它只是揭露了現實:我們並沒有自己想像的那麼複雜、那麼特別?

  這種討論到最後總覺得自己有點反智 = =

  



  

  

  

    


  



留言
avatar-img
留言分享你的想法!
avatar-img
O_O
28會員
26內容數
……
O_O的其他內容
2023/02/01
寒假有多一點時間看書了,但很懶惰地一篇心得都沒寫。最近看的幾本書都滿喜歡的,就在月底簡單整理一下好了! (排序是閱讀順序,沒有什麼特殊意義。我也想學別人打星星但根本不知道從何比較起)
Thumbnail
2023/02/01
寒假有多一點時間看書了,但很懶惰地一篇心得都沒寫。最近看的幾本書都滿喜歡的,就在月底簡單整理一下好了! (排序是閱讀順序,沒有什麼特殊意義。我也想學別人打星星但根本不知道從何比較起)
Thumbnail
2022/11/15
海努南右手臂的牛痘花苞,不知是荼靡將盡,還是包蕊迎春。哈魯牧特悄悄拿出鋼筆,在對方的右臂畫圖。他喜歡在上頭作畫,喜歡而已。筆墨沿皮膚的細紋暈糊,冉冉擴散下去,他不清楚筆意何在,只想畫一朵綻花。這朵花被風拂過而綻,或吹落地了,像哈魯牧特心情總是輾轉不已。
Thumbnail
2022/11/15
海努南右手臂的牛痘花苞,不知是荼靡將盡,還是包蕊迎春。哈魯牧特悄悄拿出鋼筆,在對方的右臂畫圖。他喜歡在上頭作畫,喜歡而已。筆墨沿皮膚的細紋暈糊,冉冉擴散下去,他不清楚筆意何在,只想畫一朵綻花。這朵花被風拂過而綻,或吹落地了,像哈魯牧特心情總是輾轉不已。
Thumbnail
2022/09/15
「在富於詩意的夢幻想像中,周遭的生活是多麼平庸而死寂,真正的生活總是在他方。」
Thumbnail
2022/09/15
「在富於詩意的夢幻想像中,周遭的生活是多麼平庸而死寂,真正的生活總是在他方。」
Thumbnail
看更多
你可能也想看
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
班傑明.迪斯雷利:「世界上有三種謊言:謊言、該死的謊言,和統計數字。」 由於我們未知的東西可能至關重大,踏錯一步很可能導致理解不當或預測錯誤,對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮,但必須抱持謹慎。唯一的解決之道就是瞭解風險,時時警覺。
Thumbnail
班傑明.迪斯雷利:「世界上有三種謊言:謊言、該死的謊言,和統計數字。」 由於我們未知的東西可能至關重大,踏錯一步很可能導致理解不當或預測錯誤,對我們的健康、財產和福祉造成嚴重的後果。我們有理由對資料科學感到興奮,但必須抱持謹慎。唯一的解決之道就是瞭解風險,時時警覺。
Thumbnail
《數據的假象:數據識讀是深度偽造時代最重要的思辨素養,聰明決策不被操弄》一書,作者是美國華盛頓大學的兩位教授Carl T. Bergstrom和Jevin D. West,內容分析當代常見的圖表、統計資料和數據,在日常生活展現出哪些面貌?又如何操控人心?
Thumbnail
《數據的假象:數據識讀是深度偽造時代最重要的思辨素養,聰明決策不被操弄》一書,作者是美國華盛頓大學的兩位教授Carl T. Bergstrom和Jevin D. West,內容分析當代常見的圖表、統計資料和數據,在日常生活展現出哪些面貌?又如何操控人心?
Thumbnail
談到數據調查,以往我們的認知可能是拜託別人做問卷,然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後,更糟糕的是,所獲得的數據可能也不是最貼近現實的。 因為別人沒有坦誠的動機。
Thumbnail
談到數據調查,以往我們的認知可能是拜託別人做問卷,然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後,更糟糕的是,所獲得的數據可能也不是最貼近現實的。 因為別人沒有坦誠的動機。
Thumbnail
每周一篇文章的讀書會心得報告摘要與筆記,本次分享文章為:只憑數字做決策的主管,小心了!忽視報表沒寫的資料,嚴重時恐鬧出人命: 1. 暗數據(dark data) 2. 漂亮的數據也別輕信,多方汲取、爬梳資料 3. 拒答、漏填也是一種資訊,加強隱私讓他們願意說
Thumbnail
每周一篇文章的讀書會心得報告摘要與筆記,本次分享文章為:只憑數字做決策的主管,小心了!忽視報表沒寫的資料,嚴重時恐鬧出人命: 1. 暗數據(dark data) 2. 漂亮的數據也別輕信,多方汲取、爬梳資料 3. 拒答、漏填也是一種資訊,加強隱私讓他們願意說
Thumbnail
以前剖開表皮,見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。
Thumbnail
以前剖開表皮,見到橘子果肉就心滿意足。現在則是連纖維都不容錯過。
Thumbnail
「大數據像未成年性愛:人人湊熱鬧、沒人懂門道;人人以為別人在幹,搞得人人都說自己在幹。」在大數據開始對一般私部門使用者釋出時,這句話是最流行的笑話,至今不輟。
Thumbnail
「大數據像未成年性愛:人人湊熱鬧、沒人懂門道;人人以為別人在幹,搞得人人都說自己在幹。」在大數據開始對一般私部門使用者釋出時,這句話是最流行的笑話,至今不輟。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News