如果用一個詞形容這個時代,「數字」或許最為精準。
身為現代人,我們無時無刻不處在種種數學模型之下,分分秒秒被運算著,拆解著,指向某個目的。
如在購物網站上,我們的行為被切分成時間和次數,根據購物行為的累積,我們被歸類成某種類型的消費者,推薦相對應的商品給我們。又或者,在FB的演算法之下,我們讀到什麼,不由自己掌控,而是背後複雜的算式,時刻估摸著我們的Like和愛。進到公司,週會總結,只有穩固的數學模型能回應主管要求,同時決定了員工的價值。把孩子送入學校後,遠在天邊的父母,透過評分,知曉孩子的成長進度,即時與老師討論對策,解決問題。
數字是一切客觀的基礎,沒有數字,沒有真實。
要衝擊這條鐵律不難,如今許多思想家都在反思數字的宰制合理與否,但由一位業內人士,一位哈佛大學的數學博士來反抗這股潮流,深入到社會中各個真實案例的肌理,揭開其不理性面向,或許遠比前者更有說服力。《大數據的傲慢與偏見》就是這樣一本好書。
《大數據的傲慢與偏見》先是提到本書作者凱西·歐尼爾的故事,她離開「緩慢的」學術圈進入「快速的」金融圈,在經歷金融風暴後逐漸覺醒,回過頭檢視數學模型的合理性,並在書的餘下部分深入現實案例,呈現數學模型如何使事情變得更糟。這些錯誤的數學模型,她稱之為數學毀滅性武器。
譬如在大學排名的案例中,作者要我們注意到,排名預設了哪些因素,我們很容易想到成績、錄取率、論文引用次數等等,但這些因素一來必須是可被量化的(正如公平、正義很難量化),二來是可以作弊的。人為調低錄取率,降低考試難度提高畢業率,老師偷改答案提高學校成績,高薪聘請知名教授提高論文引用次數⋯⋯關於這些操作,本書都給出了實際案例,並非憑空捏造。
不難理解,但凡有過工作經驗,都知道數字本質上並不客觀,而是服務於使用者的目的。今天我要讓公司覺得有希望,值得投資,我使用的數據和圖表都是為了呈現這一趨勢而製作的,其效力訴求的就是數字天然的信任感。這種信任感,在我看來,不就是迷信嗎?
如書中例子,要評價一位教師時,製作模型的人必須先決定,哪些指標要被考慮,這些指標能否量化,不能量化的部分要使用何種替代指標。數據不從虛空中蹦出來,它反映了模型製作者認為什麼是重要的,要如何測量,等等。
要達到數學毀滅性武器這一等級,需要具備三項特質:不透明,大規模應用,會造成傷害。
基本上,透明與不透明都會有問題。透明的模型容易造成作弊現象,但如果不透明的話,相信很多FB使用者都曾遇過,一篇普普通通的廣告貼文,被警告因政治違規,卻不說明具體規則。不透明的特質用在招聘和教師評價上,也會造成不錄取和解僱這些具有傷害性的後果,受害者無處伸冤,無法得知錯在哪裡。
作者將這種使用數據的草率方式比擬為顱相學,壞的數據使用方式不反映事實,而是製造現實。再犯機率的模型,因為認定某些犯人再犯機率高而關更久,致使他們更難回歸社會,所以導致再犯罪;銀行評斷來自貧困地區的人還款風險高,因而只能得到較低的信用額度和較高的借款利率,使該地區的居民更容易陷入貧困。數字毀滅性武器不斷製造事實,讓社會進入愈來愈不公平的惡性循環。
它們根據過去的資料預測未來,問的是「像你這樣的人一般會如何」而不是「你是什麼樣的人」,背後預設了人是不可改變的,人出生在哪裡,原生家庭如何,就必定是怎樣的人,更別提納入模型計算的因素有多麼貧乏。最糟的是,很多此類模型缺乏回饋機制,如履歷篩選模型,使用者不可能回過頭去追蹤被篩掉的人是否是遺珠。
人類心理最弔詭之處在於,我們在不知道其運算原理的情況下,就相信運算結果是可信的。看看日常中常見的幸福度排名、學校排名、性格測試、風險評估,說到底,這都是懶惰,因為使用模型能快速處理大量工作,而錯誤就不可避免,但當這些錯誤到了人身上,就會造成連帶傷害。人們不知道自己為何一直失敗,怪罪到自身,不自覺深陷大數據的世界,個人資料被賣來賣去,資料裡滿滿的都是偏見與錯誤。
這樣看來,我們早已成了卡夫卡筆下的K,面對永遠無法到達的城堡,和城堡下達的莫名其妙的命令,毫無還手之力,只是不斷被歸類,不斷被推離,終究成了輕飄飄的異鄉人。
寫於2023.12.19


















