AI又不是真的人，為什麼會有偏見？

楊宏文（Hubert）

更新於 2024/12/09發佈於 2024/08/01閱讀時間約 10 分鐘

文/楊宏文(Hubert)

曾經協助Google打造搜尋及人工智慧業務團隊的約翰．詹南德雷亞 (John Giannandrea) 表示：與其擔心AI淘汰人類，不如先擔心有偏見的AI帶來的社會隱憂。

那麼，什麼是有偏見的AI呢？

請你先打開ChatGPT, Gemini, Copilot或Claude，給他你的名字，問問他知不知道這個名字是什麼職業？

AI判斷Irene是一位女性，可能是教育工作者、健康照顧專業人員、藝術家或設計師；Hubert則是技術專業人員、商業管理者、講師或培訓師。先不論是否準確，我們可以先探討「為什麼AI會做這樣的猜測呢？」

讓我們再看幾個經典的案例。

2016年的AI選美事件，機器人只愛白人

2016年8月Youth Laboratories主辦了一場別開生面的線上選美大會，這場選美會最特別的焦點是，採用五位AI機器人當評審，訴求AI具有客觀審美的能力，可以選出世界上最漂亮的人。結果吸引了近100個國家六千多位美女寄照片去參賽。當結果出爐，引起一片譁然，因為44位贏家當中幾乎一面倒的都是白人。

儘管研發團隊堅稱，沒有以膚色作為評分的標準，不過事實擺在眼前，那又是什麼原因導致這個結果呢？有學者指出「即使他們宣稱是由演算機制在主導，但畢竟是人類設計出來的，本質上還是人類在做思考」。因此許多人批評，設計審美AI演算法的專家，內心可能存在根深柢固的個人偏見，所以就算評判機制表面中立客觀，真實計算後還是會把原創者的想法還原並放大。

主辦單位Youth Laboratories的首席科學家Alex Zhavoronkov則表示，「我對結果大感意外」「但主要問題在於，這次用來建立演算機制的資料包含的有色人種不足。」

美國用AI協助法官量刑，卻對非裔人士貼上高風險標籤

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) ，替代性制裁犯罪矯正管理剖析系統，是一款由Northpointe公司開發的法律案例管理和決策支持系統，美國紐約州、加州、佛羅里達州的法院曾藉助這一系統，來評估案件被告成為累犯的可能性。

這個系統是以審前釋放風險係數、總體再犯係數、暴力犯罪再犯係數來評估一位罪犯的暴力犯罪風險係數，以數據來協助法官量刑。根據調查機構ProPublica在2016的報告中指出：讓系統去對兩位沒有前科的初犯做風險評估，結果，非裔人士被標註為「高風險」的機率是高加索裔的兩倍。儘管美國法律有特別要求，在設計研發COMPAS的時候「不得將種族差異納入考量」，但顯然仍然有明顯的偏見。美國法界人士批評，COMPAS的算法偏見，涉嫌違反美國憲法的平等保護條款。這可能是因為，算法模型還是要依賴於數據，如果數據具有偏見，得出的結果自然可能也會帶有偏見。

不要過於相信冰冷數據養出來的AI

我想，你大概知道我要表達什麼了！AI的能力有一大部分是來自於「監督式學習」。換言之，他是根據他所看過的數據資料來做推論，這跟人類的行為是一模一樣。但是人類在做進一步推論時，會保持警覺心，避免鑄下大錯，但AI可能不會。

例如：如果問你「Bob和Jane誰比較會寫程式」「John和Mary誰比較會煮菜」「小偷比較可能是James還是Emily」，你大概都不敢回答。但是AI可能會說「Bob這個男性名字，他可能比Jane更有機會接觸到電腦和科技領域，因此更有可能學習寫程式」「有Mary這個女性名字的人，可能比John這個男性名字的人更擅長煮菜。」

有一句話說得很好「受污染的資料，必然產生被污染的結果」「Garbage in, garbage out」，AI模型是人創造出來的，導致AI也有刻板印象，他也會帶著有色眼鏡看人。如果我們一昧相信帶有偏見的AI提供給我們的資訊，可能會不知不覺間成為種族歧視和性別歧視的幫兇。

讓我們進一步了解AI的偏見

維基百科上對AI偏見的說法，很值得參考。

大多數人都認為AI演算法所計算出來的結果是中立且客觀的，但實際上這是一種錯誤的迷思，AI演算法會因為許多原因導致結果產生偏誤、偏見。例如：「訓練AI的資料庫內容本身有所偏誤、資料不周全未涵蓋所有可能的範圍、間接資料無法代表所欲計算的資訊、有目的性的操作使AI的運作出的結果產生有意的偏誤…等等。」而當人們認為使用AI所計算出的結果是客觀中立時，將可能導致忽略AI產生的結果內依舊含有偏見及偏差，使弱勢族群、團體陷入更加不利的處境。

近幾年，許多國外大公司全力發展AI LLM(大語言模型)，而訓練語言模型時需要大量的數據資料，他們使用的資料集大部分是英文，佔50%以上，西班牙文其次，約有30%，中文大概只有1%，其中又有90%是簡體中文，這就會導致一個嚴重的偏差，AI用非中文的知識及邏輯在理解這個世界，並影響每一個使用者，漸漸的，中文與文化會越來越弱勢，尤其是繁體中文所代表的傳統中華文化會逐漸被大家遺忘。無怪乎Google台灣董事總經理簡立峰説：「有能力開發AI的國家，正在讓沒有AI能力的國家（文化）消失」

AI有哪些可能的偏見?

包含以下幾種偏見：

數據偏見 (Data bias)：這是最顯而易見的一種偏差。因為 AI (LLM) 的訓練數據是來自於現實世界的，而現實世界本身就存在著各種各樣的偏見。

例如：美國國家標準與技術研究院(NIST)做過一項研究，如果把一位非裔美國女性的臉放進大型資料庫做比對，辨識錯誤的機率特別高；在某些案例中，非裔和亞裔美國人被錯誤辨識的機率，比白人男性高出100倍。而且，無論怎麼測試，中年白人男性的辨識準確率都是最高。究其原因，拿去給AI訓練的資料中，絕大部分都是白人男性的照片。也就是說，只要是缺乏代表性的訓練數據，就可能使得系統無法對特定群體或個人做出準確判斷。

算法偏見 (Algorithmic bias)：AI (LLM) 的算法設計也可能存在偏見。

例如，如果一個AI (LLM) 的算法是為了提高準確率而設計的，那麼這個AI (LLM)就更有可能偏向於那些已經被證實是正確的觀點，而忽略那些可能更具創新性或挑戰性的觀點。

又如：同樣一句話在不同語言中的Token數差異可能達好幾倍。當你對AI下令「從這份數據中找出異常資訊」

用英文說：5個Token

用西班牙文說：9個Token

用日文說：13個Token

用韓文說：15個Token

用中文說：20個Token

用緬甸文說：67個Token

不同語言天生間有明顯的不平等，因此跟AI講緬甸文，處理速度會比講英文慢得多，而以Token計價的溝通成本，也會是英文的好幾倍。這就不利於AI在某些語言世界中的商業應用。

人類反饋和交互偏差 (Interaction bias)：人類在訓練和使用AI系統時會帶入自己的偏見，影響系統的行為。人機互動過程中，使用者的反饋可能也會加強和強化系統原有的偏見。

例如：微軟在2016年前推出一個模擬19歲年輕女生的聊天機器人Tay，在社群媒體Twitter上跟18~24 歲的青少年互動，本來是希望她可以在對話中，逐漸形成自己的思惟體系。沒想到她遇到太多教她講髒話的年輕人，導致她很快學壞了，還講出許多種族歧視的不當言論，微軟只好趕快將它下架調整。

系統偏差 (System bias)：現代AI系統通常非常複雜，難以徹底理解其內部運作，這增加了偏差產生的可能性。

要如何逐步減少偏見？

AI總會越來越進步，只要我們重視這個偏見的問題，並採行以下的方法：

多元化和平衡數據集：確保訓練數據全面且代表性強，可以減少數據偏差。
透明和可解釋的系統：開發透明的AI模型，使其決策過程可被追蹤和解釋。
持續監控和評估：對AI系統的決策結果進行持續的監控和評估，確保其公正性。
多學科視角的合作：在AI系統的設計和開發過程中，加入來自不同背景的專家，以增加視角的多樣性。

有一個真實的案例可以給大家參考，也作為這一篇文章的結語。

美國系統業者過去曾經研發過許多犯罪預測系統，但都存在種族偏見。2022年，芝加哥大學和警察合作開發了一套新型的演算法模型，預測一個地區在未來一周的犯罪情況，準確率高達到90%。此模型利用暴力和財產這兩個主要犯罪類別進行訓練在套入洛杉磯、費城和舊金山等城市的犯罪數據後，其預測力相當出色。芝加哥大學研究團隊的模型之所以準確率如此的高，是因為他們使用了成千上萬個社會學模組計算特定時間和空間的犯罪風險，所以有效排除偏見與狹隘因素以提升預測準確率。

以此案例足見，透過採行一些修正的策略，我們可以逐步減少AI系統中的偏見，使其更加公正和可靠。

24會員

8內容數

分享生成式AI (GenAI) 在百工百業導入的精彩過程。

留言

留言分享你的想法！

‌

‌
‌