🔢🔢🔢
我們生活在一個對數字極端仰賴的時代。小時候還在學校求學時,我們就已經被制約為用數字來代表一個人的學習成績跟操行表現,升學考試的分數決定我們未來會念哪間大學,而社會上更是充滿許許多多的數字用來評估一個人的工作表現和經濟能力。一到選舉,各種各樣的民調數字充斥媒體版面,候選人也嘗試將政績化為數字,說服選民投下神聖的一票。該如何評估新冠疫情的嚴重度?經濟成長跟防疫哪個比較重要?哪個廠牌的疫苗保護力最好?似乎只要拿出數字,我們就可以得到最終解答。
數字,難道不是客觀反映了現實?我們都有著各自的主觀意見,如果要消弭爭議、得到真相,我們應該尋求的答案就是數字。數字大神無所不能,一個人的智力、幸福感、未來是否容易犯罪,一個國家的經濟成長、自由程度等等,凡是你能想到的概念,全都可以用數字來呈現。
《數字偏見:不再被操弄與誤導,洞悉偽科學的防彈思考》要挑戰的就是上述種種關於數字的期待和崇拜:
數字並非純然客觀,許多數字背後都反映了人的主觀偏好和價值選擇;人的思維偏誤會對數據做出錯誤詮釋,而利益團體和政治人物可以透過操弄數字來扭曲真相。本書作者桑妮.布勞是一位經濟學家兼記者,也曾經是數字的狂熱信徒,但研究和新聞工作的經驗讓她發現數字背後蘊藏的迷思、誤用和各種令人意外的故事。數字,依然脫離不了哈拉瑞所說的「想像建構的秩序」,我們該如何成為一個更聰明的數字使用者,而不被數字欺騙和綁架?
從概略介紹數據的歷史談起,布勞從數字標準化、蒐集和分析的觀點,探討了人們面對數字時常有的偏見。有些層面極為有趣且重要,包括相關性不等於因果關係、該如何詮釋黑人智力測驗分數低於白人,乃至於大數據在倫理上的爭議,而有些數字背後的內幕故事更是讓人出乎意料。這一次,我們暫時跳脫數字,用冷靜、批判的角度,思考數字和你我真實生活的關係。
一.當有人宣稱自己的智商157多數人都有接受過智力測驗的經驗(我指的當然不是網路上的趣味心理測驗),不管是在求學或求職階段,智力測驗的結果通常會是影響你能夠獲得哪些資源的其中一個依據。表面上看,智力測驗測量的是智力,因此你在測驗上所得到的智力商數就代表了你的聰明才智,這應該是很合邏輯的想法。有人喜歡宣稱自己的智商157,這就是來自智力測驗的結果,好像157這個數字代表了一個人在各個層面都非常優秀,他的想法、人格、處理國家大事的能力是一等一的,他人望塵莫及。
但「智力」究竟是什麼?智力測驗真的反映你聰不聰明嗎?非裔美國人在智力測驗上的平均分數低於白人,這是否代表黑皮膚的人先天就比較笨,白皮膚的人就是比較優秀?曾經有科學家就是這麼主張的,他們認為不同族裔在智力測驗上的表現差異純粹是先天因素造成,而且可以作為差別對待的依據。「不信你可以看看數字」,他們和宣稱自己智商157的人一樣,都很相信數字就代表真實。
但智力,以及許多抽象的概念(像GDP和幸福指數),其實在本質上都是人為的建構,是人們為了特定的目標所構思出的理論,以此解釋和預測人類行為或經濟發展。不同的科學家會對智力有不同的定義,這取決於科學家的價值判斷和個人信念,而不同的智力定義下所發展的智力測驗並不會相同。智力測驗只是對智力這個「建構的概念」做有限的觀察,在理想情形下,它的結果可以作為智力的良好估計——但也只是估計而已,要了解一個人的智力,首先要承認智力會隨著定義不同而展現出不同面向,而我們不可能只從單一管道就了解智力,而是需要多重來源的資料。
更進一步的,如同許多心理特質,智力是先天基因和後天環境交互作用下的產物,智力測驗分數高,部分反映了一個人所得到的教育資源相當充足,而某個族群智力測驗的平均數較低,反映的很可能不是種族先天上的差異,而是後天環境裡所遭受的差別對待。
「國內生產毛額只是測量生產的數字,智商也只不過是測驗分數」,是的,有很多東西數字並沒有說明,我們在透過數字進行推論時,必須注意到它並不打算多說東西。
二.抽菸致癌,如何確定?如果你曾經修過初等統計學,必定會聽過「相關性不等於因果關係」這句箴言,它被印在教科書裡,被教授當作重點中的重點,真理中的真理。即便如此,我們日常生活中還是要面對許多相關性資料,人在面對這些資料時會很直覺地形成因果假設,畢竟當一件事情發生(例如癌症),我們會希望知道原因究竟是什麼,藉此控制結果。而很多時候,我們會選擇對自己而言最明顯的那個,或對自己最有利的那個。
相關性為何不代表因果關係?作者提出了幾個理由:巧合、消失的因素(也就是統計學所稱的第三變項問題)以及相反因果關係。當我們手邊只有相關性資料,這些理由確實會讓我們無法合理推斷因果關係的存在,畢竟,在一般情況裡,因果關係的存在要滿足下列準則:時間順序(因在果前)、因果之間有相關、因果之間的相關不存在替代性解釋。
一個人可以運用「相關不等於因果」來批判性地思考數據當然很好,麻煩的問題是,當我們發現吸菸和肺癌之間存在關聯,動物實驗顯示菸焦油會致癌,接受菸草商委託的科學家出來說話了:這只是相關,不代表吸菸和肺癌有因果關係!這是在老鼠身上發現的,不是人!
很遺憾的,很多時候出於倫理或實務考量,我們就是沒辦法進行隨機性實驗——隨機分派受試者,操弄假設的因,看會出現什麼結果;我們手邊有的可能只有大量的相關性數據。挑戰在於我們必須做出行動,是要放任菸商不管,還是做出干預和限制?
本書作者提供的方法是廣泛回顧該領域的研究資料,如果大量的研究結果皆顯示香菸有害,那我們就得採取行動。這是回歸「證據聚集原則」的做法,也就是如果不同的研究者、不同的研究方法、不同的研究樣本都顯示出共同的結論,那它就可以當作是科學共識來接受。這裡我可以稍微作一點小小補充:其實相關性還是可以協助研究者進行一定程度的因果推論,重點在於使用了什麼方法?是不是了解方法本身的限制?統計控制(statistical control)是其中一個做法,而本書出現過的流行病學家布萊佛德.希爾(Bardford Hill)也曾提過一套被稱之為
布萊佛德.希爾準則(Bradford Hill criteria)的原則(註),可以幫助我們在只有相關性資料時,仍可以進行合理的因果推論。
我們無法隨機分派人類受試者去吸菸,再看看他們罹癌了沒,很多高風險性的實驗確實不能用在人類身上。即便如此,關於癌症與致癌物的關係,我們還是有許多可信的資料,而這相當仰賴科學家的假設、推論和信念,很多時候我們也還在尋找答案的道路上。數字反映的不只是人們怎麼想,其實還存在著不確定性。
三.大數據無法回答的事即便你不是需要在意民調數字的政治家,也不是需要透過研究數據來推論的科學家,但今天的我們都活在大數據裡,變成大量資料的一部分。大數據公司宣稱,擁有這些關於個人的大量資料,可以讓我們的生活更好,可以幫助企業或政府做出更適切的決策。能夠大規模蒐集數據,不再需要擔心樣本數的問題,也不用再仔細規劃問卷的內容,透過科技工具所獲取到的每一個生活的小細節都可以透露你是誰,哪些人、哪些商品、哪些議題適合你。我們何需懷疑數據的威力呢?
是的,大數據的未來可能很美好,演算法的能力遠遠超過傳統的統計學,也許很多的數據蒐集和分析的問題都可以藉大數據和演算法消除,但有一個問題還是存在:
什麼樣的目標才是我們該追求的?我們應該把科技建立在什麼樣的規範上?預測執法(predictive policing)可以幫助警方找出可能的犯罪者,防範未然;以大數據為基礎的信用分數可以讓創業者更容易貸款,有助於人的自我實現和社會的經濟成長;從獲利者的角度,一切都那麼美好,但畢竟還是存在著犧牲者。有色人種更容易被逮捕,弱勢者更無法借到錢,長期下來,大數據產生了惡性的自證預言。
我們或許需要更多的數據才能處理大數據的問題,但我們也可以選擇暫時跳脫數字,不要那麼仰賴它。
這意味著數字不再是終極解答,它是一個開端,讓我們開始對話,尋求共識,開始觀察那些無法那麼容易被量化的事物,而這或許才是重點。四.太多數字,太少理解你能夠想像一個沒有數字的世界嗎?一個人的財產、幸福、健康、智力……都不再對應於數字,生活中的一切數字,從時間、空間、血壓、臉書按讚數、汽車行駛里程數…全部消失不見?很難想像,幾乎無法想像人在那種世界會怎麼生活!我需要知道現在幾點!我需要知道銀行帳戶還剩多少錢!
人類文明演進至今,我們已不得不依靠數字才能生活,數字確實也是相當方便有效的工具,讓我們能看見現實世界的輪廓,協助我們做更好的決策和選擇。
但一旦我們忘了數字只是工具,數據只是用來估計現實而不是客觀的反應現實,我們就會迷失在浩瀚的數字裡,讓數字決定我們是誰。跟作者桑妮.布勞相似,我一直是數據愛好者,也被教育成數字的信仰者,非常相信「統計讓數字說話」,而數字,代表的應該是真相。這本書讓我重新反省自己對於數字的情感,以及數字在我生活中的比重,我也發現應該要修改一下我的信條:
統計呈現了數字,但真正為數字說話的,還是人。
我們必須注意的,是誰在為數據說話,為了什麼目的說話?數字還是可以相信的工具,只要我們不迷信,永遠保持一顆好奇的心;只要我們願意去了解自己的認知偏誤,願意去覺察自己對數字的感覺,我們可以減少誤用數字。
不要再把數字當作一切問題的解答。我們這個社會提出了那麼多的數字,以數字來回應數字,有時卻陷入更深的泥淖,讓議題失去焦點。我們缺乏的永遠不會是數字,而是相互理解和對話。
🔢🔢🔢
註:
關於布萊佛德.希爾準則(Bradford Hill criteria)的詳細資料,可參考
維基百科: