方格精選

讀書誌:《大數據的傲慢與偏見:一個「圈內數學家」對演算法霸權的警告與揭發》

更新於 發佈於 閱讀時間約 6 分鐘

這本所謂「大數據」著作(《偏見》),主要內容是關注隱藏在我們四周的「演算法」,中文副題《一個「圈內數學家」對演算法霸權的警告與揭發》反而清楚指出著作內容。雖然有點感到「被騙」,也許側面印證「大數據」一詞具有盈利潛力,總要沾一沾。《偏見》內容很少涉及大數據,但專注演算法;尤其所謂「演算法霸權」,亦值得一讀。

為何選讀這類書籍?到處都在追捧大數據,大量「讓我告訴你成功運用大數據盈利的秘訣」書籍充斥市面,總是讓筆者嗅到那種「騙徒」的體臭。單憑直覺定罪不太公允,惟有篩走大量「發大財秘訣」讀本,先讀一些揭大數據瘡疤的作品,以備應對市面種種對大數據的歌功頌德。當然,可能令筆者矯枉過正,倒向另一個偏頗。


數學毀滅性武器 WMD

作者Cathy O'Neil從事與數據演算法有關的工作,故此多年來撰文指出種種問題。英文書名《Weapons of Math Destruction》,中文版譯作「數學毀滅性武器」。翻譯提醒讀者:「大殺傷力武器」(Weapon of Mass Destruction)的英文首字縮寫,恰巧都是WMD(21頁),似乎作者是故意為之,突顯現存的演算法弊端,並對人造成的廣泛傷害。

對甚麼人造成何種傷害?

書中談及的「演算法」,並非鬧得熱烘烘的Facebook或YouTube演算法,而是藏身於眾多電腦系統之中的數學模型。這些數學模型協助管理層作出日常決策,涵蓋教育、推廣銷售、銀行、保險、治安、求職、大學排名等等。這些工作本來由「人」擔任、做判斷,現在由電腦代勞,好處「多不勝數」:可以更快、更準確、更長時間(24/7 support)、更客觀(冷血/無情)、處理更大量資料。

然而,電腦和數學模型如何像「人」一般,去觀察、了解、查證另一個「人」?現階段AI仍未懂得認識、摸透一個人,像「人」一般對人評頭品足,但21世紀的資訊網絡及社交媒體,存放了大量我們的資料,在其中勤奮發掘(所謂的data mining),總有得著。

如何發掘?選取一個幫助我們對人作出判斷的「替代指標」,並靠賴數學模型中的「演算法」。《偏見》透過不同章節,分析「替代指標」如何錯誤標籤一個人,「演算法」如何錯誤運用資料,製作「替代指標」。兩者是合謀共犯,雙劍合壁之下就會出現極其荒謬的局面,例如如何評估客戶,分辨出他們是潛在的「豪客」或可以忽略的「窮光蛋」?由於不少個人信用/信貸/財務資料仍屬私隱,未能「隨意方便」取得,於是退而求其次,尋找/挖掘一些較少規管的資料,諸如點擊記錄、定位數據、郵遞區號等等(162-164頁),用作估算「替代指標」。於是,你在甚麼地方使用網絡(是否豪宅區或非裔、墨西哥裔聚居地)?閣下曾否瀏覽奢侈品網站?你居住的區域拖欠信用卡還款的比率高嗎?

既然如此,只要我不希罕「豪客」這個身份,「演算法」對我就無可奈何?且別高興得太早。《偏見》提及一些案例,經濟環境欠佳的人,更多在網絡搜尋有關政府援助的資料。既然知道這類人「有困難」,結果就讓你看見更多與「貸款」有關的網絡廣告,作者用的字眼是:他們”….令自己成為「掠奪」的目標….”(224頁)。

還有相似的案例。有些演算法/替代指標會認為:花時間看條款細則、正確填寫申請表的人,比較守規則,「信用」應較好。然而新移民、教育程度較低的人,填寫各種申請表時,拼寫及標點運用出錯機會較高,會被演算法視為「風險」一族,需要收取較高的借貸利息。這裡出現一個惡性循環:這類人士本來在借貸市場已經沒有優勢,高昂利率令他們拖欠還款機會增加,進一步強化這個演算法/替代指標的「自信」(176頁)。《偏見》還引述更多惡劣的例子,涵蓋前文提及的生活領域。

美國社會對此並非一無所知,為何多間機構仍繼續讓這種演算法運作下去,不願作出改善?

因為盈利。大機構使用演算法及替代指標,首要目的是改善盈利,財務報表既然報捷,目標已達;加上這演算法「苦主/受害人」並非他們心儀的「豪客」們,何解要節外生枝?若非「圈內數學家」(作者)及部份受害人喧嘩煩擾,恐怕會不了了之。

然而,政府機構也在使用演算法,他們也在追求盈利嗎?政府機構未必追求盈利,卻在意政績。在談及執法、治安問題一段,政府政績就是罪案減少,但背後的代價是甚麼?是更多非裔/拉丁裔居民,因為演算法的「助攻」被捕及入獄?但其他同樣犯法的較富裕白人呢(104-122頁) ?《偏見》在2017年出版,但仍可幫助我們了解多一點George Floyd案件的社會背景及氛圍。

「公平」一點,電腦不懂思考,會思考、留意公平與否的是人腦,電腦、演算法、替代指標「該當何罪」?締造一個公正幸福社會,不能依賴電腦和演算法,如作者所言:

“….數學毀滅性武器傾向重視效能……但公平是個含糊和難以量化的概念……因此,數學毀滅性武器不考慮公平問題。結果它們大規模地製造出不公平的情況….”(114頁)

資訊科技總會為全人類帶來美好將來?視乎你指涉的是「誰」的將來。《偏見》提醒大家,若果你不是「豪客」們,這個美好將來可能與你無關。

北望神州,我們看見更先進、更有效率的社會信用評分體制(1),大家感到幸福、美好嗎?

註:

(1) 《【中國社會信用評分】大數據打撃無賴成未來監獄?即計你有幾分》 (香港01 10/7/2019) https://www.hk01.com/數碼生活/350379/中國社會信用評分-大數據打撃無賴成未來監獄-即計你有幾分



留言
avatar-img
留言分享你的想法!
胡啟敢-avatar-img
2020/06/23
好文章,可惜我十分貧窮,不能做你的訂閱者,課金給你。
avatar-img
關間聞的沙龍
29會員
134內容數
關間聞的沙龍的其他內容
2025/04/23
2025/04/23
2025/04/17
既然是新嘗試,不宜太早下判斷,理應疑中留情。
Thumbnail
2025/04/17
既然是新嘗試,不宜太早下判斷,理應疑中留情。
Thumbnail
2025/03/07
把粵語藏「庫」於民,首先是民間不缺各種粵語素材,雅俗並存、流行精緻俱備。這些舊典藏既營造氛圍,亦陸續啟發更多人懂得運用粵語發聲。
Thumbnail
2025/03/07
把粵語藏「庫」於民,首先是民間不缺各種粵語素材,雅俗並存、流行精緻俱備。這些舊典藏既營造氛圍,亦陸續啟發更多人懂得運用粵語發聲。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
「AI」也就是人工智能,可說是近期最熱門的話題之一,隨著它的應用越來越廣泛,許多人更期望這樣的科技革新,能夠帶來更加進步且平等的社會秩序。然而,這樣的思維卻忽略了科技是「由人而生」的本質,儘管運算邏輯上並不會帶有情感,卻可能在一開始的設定就存在人類的偏見,進而無形中成為加深社會不平等的最佳工具。
Thumbnail
「AI」也就是人工智能,可說是近期最熱門的話題之一,隨著它的應用越來越廣泛,許多人更期望這樣的科技革新,能夠帶來更加進步且平等的社會秩序。然而,這樣的思維卻忽略了科技是「由人而生」的本質,儘管運算邏輯上並不會帶有情感,卻可能在一開始的設定就存在人類的偏見,進而無形中成為加深社會不平等的最佳工具。
Thumbnail
一、從大數據孕育出人工智能 (AI)。 二、宏觀角度-人異化成為數據及演算法之奴。 歐尼爾的警告:最安静的恐怖主義。 哈拉瑞的警告:數據主義和神人統治論。 三、微觀角度-人異化成為自己的陌生人、真實世界的陌生客。 網路大數據與 AI 是新型的精神舞台與精神鴉片。 網民變得稚萌淺薄,語言表達能力退化。
Thumbnail
一、從大數據孕育出人工智能 (AI)。 二、宏觀角度-人異化成為數據及演算法之奴。 歐尼爾的警告:最安静的恐怖主義。 哈拉瑞的警告:數據主義和神人統治論。 三、微觀角度-人異化成為自己的陌生人、真實世界的陌生客。 網路大數據與 AI 是新型的精神舞台與精神鴉片。 網民變得稚萌淺薄,語言表達能力退化。
Thumbnail
請試著想想看,隔著螢幕或手機後面,有上千個數據工程師,他們高薪聘請來找出可以吸引你目光的做法,發展各種實驗讓你願意花更多的時間與專注力、讓你願意交出更多的生活點滴;在這樣龐大的動力下,你真的能夠隻身一人抵擋這些不斷滑進你眼裡的資訊,不被左右思緒嗎?
Thumbnail
請試著想想看,隔著螢幕或手機後面,有上千個數據工程師,他們高薪聘請來找出可以吸引你目光的做法,發展各種實驗讓你願意花更多的時間與專注力、讓你願意交出更多的生活點滴;在這樣龐大的動力下,你真的能夠隻身一人抵擋這些不斷滑進你眼裡的資訊,不被左右思緒嗎?
Thumbnail
太多因果關係純屬一廂情願。例如玩暴力電玩的人一定比較容易出現暴力行為、例如強暴都是去危險的地方遇到壞人、例如努力一定能成功。只要因果關係符合直覺或符合我們對世界的期待,我們就不管它真不真確,直接信了。
Thumbnail
太多因果關係純屬一廂情願。例如玩暴力電玩的人一定比較容易出現暴力行為、例如強暴都是去危險的地方遇到壞人、例如努力一定能成功。只要因果關係符合直覺或符合我們對世界的期待,我們就不管它真不真確,直接信了。
Thumbnail
談到數據調查,以往我們的認知可能是拜託別人做問卷,然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後,更糟糕的是,所獲得的數據可能也不是最貼近現實的。 因為別人沒有坦誠的動機。
Thumbnail
談到數據調查,以往我們的認知可能是拜託別人做問卷,然後回收再進行量化處理。但在歷經一段這麼辛苦的歷程後,更糟糕的是,所獲得的數據可能也不是最貼近現實的。 因為別人沒有坦誠的動機。
Thumbnail
大數據時代來臨,身為數學腦殘的我一直都有種焦慮感,最近感觸更深,比如說前陣子在吵的新冠肺炎確診人數以及疫苗副作用,為什麼大家資訊理解程度如此不對等,其實一部分就是因為目前社會上會解讀數據的人相當少,不理解數據的人各自解讀、互相爭吵...
Thumbnail
大數據時代來臨,身為數學腦殘的我一直都有種焦慮感,最近感觸更深,比如說前陣子在吵的新冠肺炎確診人數以及疫苗副作用,為什麼大家資訊理解程度如此不對等,其實一部分就是因為目前社會上會解讀數據的人相當少,不理解數據的人各自解讀、互相爭吵...
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
小心「誘導統計數據」的陷阱。問題不在於指標本身,而在於過度執著於指標——也就是過度評估和不適當的評估方式。
Thumbnail
這又是一篇讀者敲碗系列的讀書心得,本來覺得老生常談,這主題的書近來有很多出版品了,但這本書還是有它值得一讀的地方。 故事先從批判思考開始,說明上個世紀的兩個危機如何透過理性判斷度過,然後展開一個以合理思考判斷為探討主題的系列分析。從常見的陰謀論、網路酸民和彩虹騙術為基礎,說明當情緒先在特定操弄中被激
Thumbnail
這又是一篇讀者敲碗系列的讀書心得,本來覺得老生常談,這主題的書近來有很多出版品了,但這本書還是有它值得一讀的地方。 故事先從批判思考開始,說明上個世紀的兩個危機如何透過理性判斷度過,然後展開一個以合理思考判斷為探討主題的系列分析。從常見的陰謀論、網路酸民和彩虹騙術為基礎,說明當情緒先在特定操弄中被激
Thumbnail
電腦不懂思考,會思考、留意公平與否的是人腦,締造一個公正幸福社會,不能依賴電腦和演算法。
Thumbnail
電腦不懂思考,會思考、留意公平與否的是人腦,締造一個公正幸福社會,不能依賴電腦和演算法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News