你以為沒人知道的,真的都藏好了嗎......
什麼是大數據?
今日,似乎什麼都能和「大數據」一詞扯上邊。冠上這個詞,什麼都一下子顯得神秘高端,言之鑿鑿,只能點頭相信不容質疑。
還真的什麼都能扯上邊。
拜網路普及所賜,數位足跡成了龐大的數據集。無論點擊、搜尋紀錄、停留的頁面和時長等,都洩露有關使用者的各種資訊。我們是什麼樣的人、在意什麼、可能採取什麼行動,在一連串的數據中無所遁形。
作者強調,它從未定義多龐大的資料數可以稱為「大數據」;比起「量」,數據是否有其獨創性、包含真正有用的資訊,取得方式是否易帶來偏誤(如社群媒體使用者傾向展現光鮮愉快的一面、問卷填答者傾向說點抬高自己的謊),是研究者更該注意的問題。
為什麼我們需要大數據?
這個問題還能往前推一步:為什麼我們需要數據?
- 個人經驗有限
- 心理機制帶來的偏誤
- 數據能將關聯性具體化
我生活在亞洲,放眼所見都是黃種人,不代表黃種人是最大宗的種族(哇超爛的例子)。而心理機制又會讓我們放大自身經歷、或戲劇性的事件,這就是為什麼我們擔心空難遠高於車禍,即使後者的死亡人數是前者的數十倍。除了正確理解世界,數據也能讓一切的關聯性具體化,有可以比較的數量,甚至可供估計的模型。
那「大數據」又有什麼過人的力量?
- 提供新類型的數據
- 提供誠實的數據
- 允許觀察者聚焦在小的人口集\細微的資訊
- 可進行因果關係實驗
作者很愛拿性行為\慾望研究做為案例,好吧他也確實抓住我了。透過色情網站的搜尋紀錄、作品主題,可以歸納出各地區更「流行」的性癖、潛在的同志人數、甚至十分普同但人們從未分享的慾望,這是過去很難取得的資料庫。
(印度和孟加拉在P站上對女性哺乳色情片的搜尋是其他地區的四倍……好想說一些政治不正確的話……)
比起現實觀察、訪談或問卷,人們在使用網路時不受觀看,加上有「透過搜尋取得想要的資訊」的誘因,通常會更誠實地表達想法和感受。書中也提到,也有大量搜尋紀錄是「我很孤單」、「我喜歡我的老師」等純表述性的語句,把那小方框當作傾訴的樹洞。網路使用數據往往能提供更貼近內心、人們在現實生活中傾向隱藏的訊息。
「大」的資訊量反而也有助於我們聚焦在「小」的訊息上。過去,為了讓小數據集有代表性,我們往往從各族群、地區、階級等分類中擷取少部分的人,只能做整體的研究,很難進行更細微的比較。而大數據集資料完整,即使把人群劃分成很小的單位,都能取得有意義的資訊和研究結果。此外,諸如「八歲時的世界盃冠軍」、「借款申請的用字」都被記錄下來了,我們也得以研究這些特定的細微資訊,理解各種行動間更複雜的交互關係,進行更精準的預測。
大數據也讓更多的自然實驗得以發生。透過各項資訊的篩選、分類,我們不用經過控制,便能從人群中找到多數條件都差不多的實驗組和對照組,檢測欲研究的變數對他們的影響。而網路本身也是廣大的實驗室,企業能從一次次細微的調整中,發現什麼形狀、位置、語句的按鈕最能吸引點擊,選擇怎樣的圖片最能創造利益。比起前三項「理解世界」的能力,這樣的實驗更能檢測因果關係,避免虛假相關的產生,產生更有效的決策。
大數據難道沒有問題嗎?
會這麼問一定就是有。又是一句廢話。
- 維度的詛咒
- 過度重視數據的盲點
- 提高個人被歧視的風險和不確定性
- 「過度透明」、「過度干預」
如果投擲夠多枚硬幣夠多次,一定能找出特定的一枚和天氣晴雨高度相關,這就是「維度的詛咒」。只要研究夠多變數(維度),總會出現具統計意義,但實際上只是巧合的相關性,可能將我們導向錯誤的理解方向。
數據不是萬能,還有許多向度無法被現在的(也可能是永遠的)技術量化。太看重數據可能讓我們在評估結果、尋找有影響力的變項時忽略重要的資訊;只追求以數字顯示的成效,也可能讓我們逐漸偏離行動或研究的意圖。(想想升學班裡瘋狂追分,早就不是在教學生「學習」的老師……)
因果關係或相關性看似直接,但現實往往複雜得多。對哈雷機車粉專按讚的人在統計結果中智商普遍較低,不代表一個聰明人不可能是哈雷大鐵粉。當這些量化、分析的技術逐漸滲入我們生活的各面向,任何細微的資訊都可能被用來決定我們求職、貸款、租屋等等的機會,對個人的歧視便越發難以預測和避免。
最後,「透明」不一定對每個個體都是好事。如果企業能透過數據完整認識每個消費者,依他們的願付價格量身定價,這樣算不算侵害消費者的權益?如果消費者也能以此反制企業呢?如果政府有權掌握這些數據,它有沒有權利侵犯個人自由,避免潛在的犯罪發生?如果那些表達了犯罪意圖的人裡,真正會付諸行動者極少呢?
前兩項偏向技術層面的問題,作者給出解方:大數據作業應結合傳統的小數據研究。大數據擷取特定的片面資訊進行預測,而傳統研究方法用更全面、深入的認識,彌補前者可能的不足。至於後兩者的倫理問題,還有賴民眾、專家、政府、企業等多方的協商討論,為這個嶄新的世代定下新規則。
單純心得的心得
社會科學正在成為一門真正的科學,而這門貨真價實的新科學將有助於改善我們的生活。
在總結看到這段話的時候很開心,可能還不夠自信,總很希望自己喜歡或正在學習的東西能被社會重視。
作者接著又花了一些篇幅強調,社會科學自此不再是口說無憑,而有嚴謹的證據支持,「很科學」。即使他聲明,這不代表社會科學也將邁向尋找簡單通則的「物理學之路」,也不否認人類心智和社會有數據難以完全解釋的複雜性,我還是不太喜歡這樣的論述。
只有向科學靠攏,才能被視為革命性的、值得歡慶的躍進嗎?為什麼不能認可不同領域本就該有不同的理解方式,也不該被以同一套標準衡量成果?
但量化研究本來就有這樣的實證性質,社會科學中也本就包含量化研究。也許只是某些字詞讓我不太愉快而已。
閱讀整本書的過程都隱約有類似的怪異感。那些研究和實驗結果太驚人了,我們的真實想法被看透、未來被精準預估,連點進一個連結的機率都被玩弄於股掌,反烏托邦的圖像儼然成形。
個人能如此扁平地成為百分點,循著簡單的相關或因果關係行事,決定數據的同時也像被數據決定了,這種認知令人不安。而且我不認為這能被成熟的倫理規範解決,發掘、運用人群中的普同性是大數據很根本的技術,無論在哪裡使用,它就是要用數據說出你是誰,你們是誰。
不可否認大數據研究的價值,它已經帶來許多利益、便利、對災厄疾病的事先預防;但人們因為能動性、各種因素交織的複雜性而有的價值,會在其中被抹滅嗎?或它只是揭露了現實:我們並沒有自己想像的那麼複雜、那麼特別?
這種討論到最後總覺得自己有點反智 = =