文/楊宏文(Hubert)
曾經協助Google打造搜尋及人工智慧業務團隊的約翰.詹南德雷亞 (John Giannandrea) 表示:與其擔心AI淘汰人類,不如先擔心有偏見的AI帶來的社會隱憂。
那麼,什麼是有偏見的AI呢?
請你先打開ChatGPT, Gemini, Copilot或Claude,給他你的名字,問問他知不知道這個名字是什麼職業?
AI判斷Irene是一位女性,可能是教育工作者、健康照顧專業人員、藝術家或設計師;Hubert則是技術專業人員、商業管理者、講師或培訓師。先不論是否準確,我們可以先探討「為什麼AI會做這樣的猜測呢?」
讓我們再看幾個經典的案例。
2016年的AI選美事件,機器人只愛白人
2016年8月Youth Laboratories主辦了一場別開生面的線上選美大會,這場選美會最特別的焦點是,採用五位AI機器人當評審,訴求AI具有客觀審美的能力,可以選出世界上最漂亮的人。結果吸引了近100個國家六千多位美女寄照片去參賽。當結果出爐,引起一片譁然,因為44位贏家當中幾乎一面倒的都是白人。
儘管研發團隊堅稱,沒有以膚色作為評分的標準,不過事實擺在眼前,那又是什麼原因導致這個結果呢?有學者指出「即使他們宣稱是由演算機制在主導,但畢竟是人類設計出來的,本質上還是人類在做思考」。因此許多人批評,設計審美AI演算法的專家,內心可能存在根深柢固的個人偏見,所以就算評判機制表面中立客觀,真實計算後還是會把原創者的想法還原並放大。
主辦單位Youth Laboratories的首席科學家Alex Zhavoronkov則表示,「我對結果大感意外」「但主要問題在於,這次用來建立演算機制的資料包含的有色人種不足。」
美國用AI協助法官量刑,卻對非裔人士貼上高風險標籤
COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) ,替代性制裁犯罪矯正管理剖析系統,是一款由Northpointe公司開發的法律案例管理和決策支持系統,美國紐約州、加州、佛羅里達州的法院曾藉助這一系統,來評估案件被告成為累犯的可能性。
這個系統是以審前釋放風險係數、總體再犯係數、暴力犯罪再犯係數來評估一位罪犯的暴力犯罪風險係數,以數據來協助法官量刑。根據調查機構ProPublica在2016的報告中指出:讓系統去對兩位沒有前科的初犯做風險評估,結果,非裔人士被標註為「高風險」的機率是高加索裔的兩倍。儘管美國法律有特別要求,在設計研發COMPAS的時候「不得將種族差異納入考量」,但顯然仍然有明顯的偏見。美國法界人士批評,COMPAS的算法偏見,涉嫌違反美國憲法的平等保護條款。這可能是因為,算法模型還是要依賴於數據,如果數據具有偏見,得出的結果自然可能也會帶有偏見。
不要過於相信冰冷數據養出來的AI
我想,你大概知道我要表達什麼了!AI的能力有一大部分是來自於「監督式學習」。換言之,他是根據他所看過的數據資料來做推論,這跟人類的行為是一模一樣。但是人類在做進一步推論時,會保持警覺心,避免鑄下大錯,但AI可能不會。
例如:如果問你「Bob和Jane誰比較會寫程式」「John和Mary誰比較會煮菜」「小偷比較可能是James還是Emily」,你大概都不敢回答。但是AI可能會說「Bob這個男性名字,他可能比Jane更有機會接觸到電腦和科技領域,因此更有可能學習寫程式」「有Mary這個女性名字的人,可能比John這個男性名字的人更擅長煮菜。」
有一句話說得很好「受污染的資料,必然產生被污染的結果」「Garbage in, garbage out」,AI模型是人創造出來的,導致AI也有刻板印象,他也會帶著有色眼鏡看人。如果我們一昧相信帶有偏見的AI提供給我們的資訊,可能會不知不覺間成為種族歧視和性別歧視的幫兇。
讓我們進一步了解AI的偏見
維基百科上對AI偏見的說法,很值得參考。
大多數人都認為AI演算法所計算出來的結果是中立且客觀的,但實際上這是一種錯誤的迷思,AI演算法會因為許多原因導致結果產生偏誤、偏見。例如:「訓練AI的資料庫內容本身有所偏誤、資料不周全未涵蓋所有可能的範圍、間接資料無法代表所欲計算的資訊、有目的性的操作使AI的運作出的結果產生有意的偏誤…等等。」而當人們認為使用AI所計算出的結果是客觀中立時,將可能導致忽略AI產生的結果內依舊含有偏見及偏差,使弱勢族群、團體陷入更加不利的處境。
近幾年,許多國外大公司全力發展AI LLM(大語言模型),而訓練語言模型時需要大量的數據資料,他們使用的資料集大部分是英文,佔50%以上,西班牙文其次,約有30%,中文大概只有1%,其中又有90%是簡體中文,這就會導致一個嚴重的偏差,AI用非中文的知識及邏輯在理解這個世界,並影響每一個使用者,漸漸的,中文與文化會越來越弱勢,尤其是繁體中文所代表的傳統中華文化會逐漸被大家遺忘。無怪乎Google台灣董事總經理簡立峰説:「有能力開發AI的國家,正在讓沒有AI能力的國家(文化)消失」
AI有哪些可能的偏見?
包含以下幾種偏見:
例如:美國國家標準與技術研究院(NIST)做過一項研究,如果把一位非裔美國女性的臉放進大型資料庫做比對,辨識錯誤的機率特別高;在某些案例中,非裔和亞裔美國人被錯誤辨識的機率,比白人男性高出100倍。而且,無論怎麼測試,中年白人男性的辨識準確率都是最高。究其原因,拿去給AI訓練的資料中,絕大部分都是白人男性的照片。也就是說,只要是缺乏代表性的訓練數據,就可能使得系統無法對特定群體或個人做出準確判斷。
例如,如果一個AI (LLM) 的算法是為了提高準確率而設計的,那麼這個AI (LLM)就更有可能偏向於那些已經被證實是正確的觀點,而忽略那些可能更具創新性或挑戰性的觀點。
又如:同樣一句話在不同語言中的Token數差異可能達好幾倍。當你對AI下令「從這份數據中找出異常資訊」
用英文說:5個Token
用西班牙文說:9個Token
用日文說:13個Token
用韓文說:15個Token
用中文說:20個Token
用緬甸文說:67個Token
不同語言天生間有明顯的不平等,因此跟AI講緬甸文,處理速度會比講英文慢得多,而以Token計價的溝通成本,也會是英文的好幾倍。這就不利於AI在某些語言世界中的商業應用。
例如:微軟在2016年前推出一個模擬19歲年輕女生的聊天機器人Tay,在社群媒體Twitter上跟18~24 歲的青少年互動,本來是希望她可以在對話中,逐漸形成自己的思惟體系。沒想到她遇到太多教她講髒話的年輕人,導致她很快學壞了,還講出許多種族歧視的不當言論,微軟只好趕快將它下架調整。
要如何逐步減少偏見?
AI總會越來越進步,只要我們重視這個偏見的問題,並採行以下的方法:
有一個真實的案例可以給大家參考,也作為這一篇文章的結語。
美國系統業者過去曾經研發過許多犯罪預測系統,但都存在種族偏見。2022年,芝加哥大學和警察合作開發了一套新型的演算法模型,預測一個地區在未來一周的犯罪情況,準確率高達到90%。此模型利用暴力和財產這兩個主要犯罪類別進行訓練在套入洛杉磯、費城和舊金山等城市的犯罪數據後,其預測力相當出色。芝加哥大學研究團隊的模型之所以準確率如此的高,是因為他們使用了成千上萬個社會學模組計算特定時間和空間的犯罪風險,所以有效排除偏見與狹隘因素以提升預測準確率。
以此案例足見,透過採行一些修正的策略,我們可以逐步減少AI系統中的偏見,使其更加公正和可靠。