【數據、謊言與真相】:當有人比你更了解你

閱讀時間約 7 分鐘
google trends 是作者許多研究的資料來源,各個字詞被搜索的頻率、時空分布、關聯性一覽無遺
  你以為沒人知道的,真的都藏好了嗎......

什麼是大數據?

  今日,似乎什麼都能和「大數據」一詞扯上邊。冠上這個詞,什麼都一下子顯得神秘高端,言之鑿鑿,只能點頭相信不容質疑。
  還真的什麼都能扯上邊。
  拜網路普及所賜,數位足跡成了龐大的數據集。無論點擊、搜尋紀錄、停留的頁面和時長等,都洩露有關使用者的各種資訊。我們是什麼樣的人、在意什麼、可能採取什麼行動,在一連串的數據中無所遁形。
  作者強調,它從未定義多龐大的資料數可以稱為「大數據」;比起「量」,數據是否有其獨創性、包含真正有用的資訊,取得方式是否易帶來偏誤(如社群媒體使用者傾向展現光鮮愉快的一面、問卷填答者傾向說點抬高自己的謊),是研究者更該注意的問題。

為什麼我們需要大數據?

  這個問題還能往前推一步:為什麼我們需要數據?
  • 個人經驗有限  
  • 心理機制帶來的偏誤
  • 數據能將關聯性具體化
  我生活在亞洲,放眼所見都是黃種人,不代表黃種人是最大宗的種族(哇超爛的例子)。而心理機制又會讓我們放大自身經歷、或戲劇性的事件,這就是為什麼我們擔心空難遠高於車禍,即使後者的死亡人數是前者的數十倍。除了正確理解世界,數據也能讓一切的關聯性具體化,有可以比較的數量,甚至可供估計的模型。
  那「大數據」又有什麼過人的力量?
  • 提供新類型的數據
  • 提供誠實的數據
  • 允許觀察者聚焦在小的人口集\細微的資訊
  • 可進行因果關係實驗
  作者很愛拿性行為\慾望研究做為案例,好吧他也確實抓住我了。透過色情網站的搜尋紀錄、作品主題,可以歸納出各地區更「流行」的性癖、潛在的同志人數、甚至十分普同但人們從未分享的慾望,這是過去很難取得的資料庫。
  (印度和孟加拉在P站上對女性哺乳色情片的搜尋是其他地區的四倍……好想說一些政治不正確的話……)
  比起現實觀察、訪談或問卷,人們在使用網路時不受觀看,加上有「透過搜尋取得想要的資訊」的誘因,通常會更誠實地表達想法和感受。書中也提到,也有大量搜尋紀錄是「我很孤單」、「我喜歡我的老師」等純表述性的語句,把那小方框當作傾訴的樹洞。網路使用數據往往能提供更貼近內心、人們在現實生活中傾向隱藏的訊息。
  「大」的資訊量反而也有助於我們聚焦在「小」的訊息上。過去,為了讓小數據集有代表性,我們往往從各族群、地區、階級等分類中擷取少部分的人,只能做整體的研究,很難進行更細微的比較。而大數據集資料完整,即使把人群劃分成很小的單位,都能取得有意義的資訊和研究結果。此外,諸如「八歲時的世界盃冠軍」、「借款申請的用字」都被記錄下來了,我們也得以研究這些特定的細微資訊,理解各種行動間更複雜的交互關係,進行更精準的預測。
  大數據也讓更多的自然實驗得以發生。透過各項資訊的篩選、分類,我們不用經過控制,便能從人群中找到多數條件都差不多的實驗組和對照組,檢測欲研究的變數對他們的影響。而網路本身也是廣大的實驗室,企業能從一次次細微的調整中,發現什麼形狀、位置、語句的按鈕最能吸引點擊,選擇怎樣的圖片最能創造利益。比起前三項「理解世界」的能力,這樣的實驗更能檢測因果關係,避免虛假相關的產生,產生更有效的決策。

大數據難道沒有問題嗎?

  會這麼問一定就是有。又是一句廢話。
  • 維度的詛咒
  • 過度重視數據的盲點
  • 提高個人被歧視的風險和不確定性
  • 「過度透明」、「過度干預」
  如果投擲夠多枚硬幣夠多次,一定能找出特定的一枚和天氣晴雨高度相關,這就是「維度的詛咒」。只要研究夠多變數(維度),總會出現具統計意義,但實際上只是巧合的相關性,可能將我們導向錯誤的理解方向。
  數據不是萬能,還有許多向度無法被現在的(也可能是永遠的)技術量化。太看重數據可能讓我們在評估結果、尋找有影響力的變項時忽略重要的資訊;只追求以數字顯示的成效,也可能讓我們逐漸偏離行動或研究的意圖。(想想升學班裡瘋狂追分,早就不是在教學生「學習」的老師……)
  因果關係或相關性看似直接,但現實往往複雜得多。對哈雷機車粉專按讚的人在統計結果中智商普遍較低,不代表一個聰明人不可能是哈雷大鐵粉。當這些量化、分析的技術逐漸滲入我們生活的各面向,任何細微的資訊都可能被用來決定我們求職、貸款、租屋等等的機會,對個人的歧視便越發難以預測和避免。
  最後,「透明」不一定對每個個體都是好事。如果企業能透過數據完整認識每個消費者,依他們的願付價格量身定價,這樣算不算侵害消費者的權益?如果消費者也能以此反制企業呢?如果政府有權掌握這些數據,它有沒有權利侵犯個人自由,避免潛在的犯罪發生?如果那些表達了犯罪意圖的人裡,真正會付諸行動者極少呢?
  前兩項偏向技術層面的問題,作者給出解方:大數據作業應結合傳統的小數據研究。大數據擷取特定的片面資訊進行預測,而傳統研究方法用更全面、深入的認識,彌補前者可能的不足。至於後兩者的倫理問題,還有賴民眾、專家、政府、企業等多方的協商討論,為這個嶄新的世代定下新規則。

單純心得的心得

社會科學正在成為一門真正的科學,而這門貨真價實的新科學將有助於改善我們的生活。
  在總結看到這段話的時候很開心,可能還不夠自信,總很希望自己喜歡或正在學習的東西能被社會重視。
  作者接著又花了一些篇幅強調,社會科學自此不再是口說無憑,而有嚴謹的證據支持,「很科學」。即使他聲明,這不代表社會科學也將邁向尋找簡單通則的「物理學之路」,也不否認人類心智和社會有數據難以完全解釋的複雜性,我還是不太喜歡這樣的論述。
  只有向科學靠攏,才能被視為革命性的、值得歡慶的躍進嗎?為什麼不能認可不同領域本就該有不同的理解方式,也不該被以同一套標準衡量成果?
  但量化研究本來就有這樣的實證性質,社會科學中也本就包含量化研究。也許只是某些字詞讓我不太愉快而已。
  閱讀整本書的過程都隱約有類似的怪異感。那些研究和實驗結果太驚人了,我們的真實想法被看透、未來被精準預估,連點進一個連結的機率都被玩弄於股掌,反烏托邦的圖像儼然成形。
  個人能如此扁平地成為百分點,循著簡單的相關或因果關係行事,決定數據的同時也像被數據決定了,這種認知令人不安。而且我不認為這能被成熟的倫理規範解決,發掘、運用人群中的普同性是大數據很根本的技術,無論在哪裡使用,它就是要用數據說出你是誰,你們是誰。
  不可否認大數據研究的價值,它已經帶來許多利益、便利、對災厄疾病的事先預防;但人們因為能動性、各種因素交織的複雜性而有的價值,會在其中被抹滅嗎?或它只是揭露了現實:我們並沒有自己想像的那麼複雜、那麼特別?
  這種討論到最後總覺得自己有點反智 = =
  
  
  
  
    
  
25會員
22內容數
情感和記憶都太飄渺,需要在觸得到的物裡安放。 (白話文:以物為題的短文們)
留言0
查看全部
發表第一個留言支持創作者!
林佩妤的沙龍 的其他內容
從圖書館借來的書,大概是1998的出版,書頁泛黃,偶爾有鉛筆字跡的對話,每次翻頁都有年歲的氣息。我擺放的時候總是比較小心,一是怕它不乾淨,二是有點對待珍品的意味。 (那是愛滋的時代欸,是圈裡會低聲流傳著誰「得了」,是要抱著孤獨病死的風險去愛一個人的時代啊) (好我根本在浪漫化)(好想讀疾病的隱喻)
從圖書館借來的書,大概是1998的出版,書頁泛黃,偶爾有鉛筆字跡的對話,每次翻頁都有年歲的氣息。我擺放的時候總是比較小心,一是怕它不乾淨,二是有點對待珍品的意味。 (那是愛滋的時代欸,是圈裡會低聲流傳著誰「得了」,是要抱著孤獨病死的風險去愛一個人的時代啊) (好我根本在浪漫化)(好想讀疾病的隱喻)
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
美聯儲褐皮書有“經濟晴雨錶”之稱,一個重要的經濟指標。因為公佈的內容不僅可以給投資者提供金融市場的動嚮,同時也反應美國經濟的動態。多重的作用讓市場極為關註該報告,希望從中找尋下一步指引。
Thumbnail
美國初請失業金人數公佈後,給市場一個大大的“驚喜”。
本週對市場而言,關鍵的經濟數據指引落在了周三晚間美國Q4 GDP修正值上,之所以關鍵,是因為數據會進一步影響經濟學家和交易者對美國經濟前景和降息路徑的判斷。
Thumbnail
大數據和人工智慧,宛如情侶的曖昧關係一樣!在電腦和應用程式領域,硬體與軟體、前端與後端也彷彿身體和心靈的愛人。這議題將分為學術研究、企業運用、技術發展、人才培養以及政策支持五大方向,探討了何時該分隔這三對情侶,又何時需要將它們合而為一。一切視乎專業領域、生產模式、成本與風險、科技進步與市場需求而定。
Thumbnail
美國就業數據與通膨趨勢 美國七月新增非農就業人數為18.7萬人,低於預期的20萬人。前值也從20.9萬人下修至18.5萬人。然而,失業率卻維持在3.5%,低於預期水平。同時,時薪年增率仍然保持在4.4%。儘管如此,這可能導致核心通膨的緩解速度稍微緩慢。芝加哥聯邦銀行行長Austan Goolsbe
Thumbnail
大雨滂沱的高譚市,晦暗無比的夜空,僅照耀著明亮的蝙蝠信號,這既是恐懼也是正義的私刑手段,「復仇使者」的伺機而動,成了這座萬惡之城的唯一清流,但在所有代表著詩意與暴力的權力背後,潛藏的依然是最深層的謊言,《蝙蝠俠2022》是繼《羅根》後做出最不超級英雄的英雄故事。
Thumbnail
納粹軍人用槍管抵著他的頭,他笑著對孩子擠眉弄眼,假裝這只是一場遊戲。 「爸爸,我們要去哪裏啊?」​ ​ 「寶貝,今天是你的生日,我們特意為你準備了一場驚喜旅行。」​ ​ 在被納粹押送往集中營的途中,父親基多溫柔地安慰他的孩子。​ ​ 到達集中營後,不懂德語的基多搶著為軍官做翻譯,將殘酷的脅迫改成
Thumbnail
稍早公布的七月核心物價(PCE個人消費支出)為年增率3.6%,與市場分析師預期相同,也跟六月相同;此外,若與七月相比(月比),雖然小幅下跌為0.3%的正增長,但仍為正增長。 市場擔憂物價偏高。 不過,有句話是這樣:在戰爭和屈辱面前你選擇了屈辱,但最
Thumbnail
你,對催眠感到興趣嗎? 催眠,科學嗎?審視一下近期的研究結果 一般人對於催眠,大多還是抱持著半信半疑、既期待又怕受傷害的心態。在科學研究的大帽子底下,催眠,也許曾經被大科學的學者們逼出科學帽的帽圜之外,並視為無稽之談。但是,隨著科技的更加進展,尤其是受益於大的顯影科技的進步,許多催眠的科學根據,
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
美聯儲褐皮書有“經濟晴雨錶”之稱,一個重要的經濟指標。因為公佈的內容不僅可以給投資者提供金融市場的動嚮,同時也反應美國經濟的動態。多重的作用讓市場極為關註該報告,希望從中找尋下一步指引。
Thumbnail
美國初請失業金人數公佈後,給市場一個大大的“驚喜”。
本週對市場而言,關鍵的經濟數據指引落在了周三晚間美國Q4 GDP修正值上,之所以關鍵,是因為數據會進一步影響經濟學家和交易者對美國經濟前景和降息路徑的判斷。
Thumbnail
大數據和人工智慧,宛如情侶的曖昧關係一樣!在電腦和應用程式領域,硬體與軟體、前端與後端也彷彿身體和心靈的愛人。這議題將分為學術研究、企業運用、技術發展、人才培養以及政策支持五大方向,探討了何時該分隔這三對情侶,又何時需要將它們合而為一。一切視乎專業領域、生產模式、成本與風險、科技進步與市場需求而定。
Thumbnail
美國就業數據與通膨趨勢 美國七月新增非農就業人數為18.7萬人,低於預期的20萬人。前值也從20.9萬人下修至18.5萬人。然而,失業率卻維持在3.5%,低於預期水平。同時,時薪年增率仍然保持在4.4%。儘管如此,這可能導致核心通膨的緩解速度稍微緩慢。芝加哥聯邦銀行行長Austan Goolsbe
Thumbnail
大雨滂沱的高譚市,晦暗無比的夜空,僅照耀著明亮的蝙蝠信號,這既是恐懼也是正義的私刑手段,「復仇使者」的伺機而動,成了這座萬惡之城的唯一清流,但在所有代表著詩意與暴力的權力背後,潛藏的依然是最深層的謊言,《蝙蝠俠2022》是繼《羅根》後做出最不超級英雄的英雄故事。
Thumbnail
納粹軍人用槍管抵著他的頭,他笑著對孩子擠眉弄眼,假裝這只是一場遊戲。 「爸爸,我們要去哪裏啊?」​ ​ 「寶貝,今天是你的生日,我們特意為你準備了一場驚喜旅行。」​ ​ 在被納粹押送往集中營的途中,父親基多溫柔地安慰他的孩子。​ ​ 到達集中營後,不懂德語的基多搶著為軍官做翻譯,將殘酷的脅迫改成
Thumbnail
稍早公布的七月核心物價(PCE個人消費支出)為年增率3.6%,與市場分析師預期相同,也跟六月相同;此外,若與七月相比(月比),雖然小幅下跌為0.3%的正增長,但仍為正增長。 市場擔憂物價偏高。 不過,有句話是這樣:在戰爭和屈辱面前你選擇了屈辱,但最
Thumbnail
你,對催眠感到興趣嗎? 催眠,科學嗎?審視一下近期的研究結果 一般人對於催眠,大多還是抱持著半信半疑、既期待又怕受傷害的心態。在科學研究的大帽子底下,催眠,也許曾經被大科學的學者們逼出科學帽的帽圜之外,並視為無稽之談。但是,隨著科技的更加進展,尤其是受益於大的顯影科技的進步,許多催眠的科學根據,
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答