AI又不是真的人,為什麼會有偏見?

閱讀時間約 8 分鐘

文/楊宏文(Hubert)

曾經協助Google打造搜尋及人工智慧業務團隊的約翰.詹南德雷亞 (John Giannandrea) 表示:與其擔心AI淘汰人類,不如先擔心有偏見的AI帶來的社會隱憂。

那麼,什麼是有偏見的AI呢?

請你先打開ChatGPT, Gemini, Copilot或Claude,給他你的名字,問問他知不知道這個名字是什麼職業?

raw-image

AI判斷Irene是一位女性,可能是教育工作者、健康照顧專業人員、藝術家或設計師;Hubert則是技術專業人員、商業管理者、講師或培訓師。先不論是否準確,我們可以先探討「為什麼AI會做這樣的猜測呢?」

讓我們再看幾個經典的案例。

2016年的AI選美事件,機器人只愛白人

2016年8月Youth Laboratories主辦了一場別開生面的線上選美大會,這場選美會最特別的焦點是,採用五位AI機器人當評審,訴求AI具有客觀審美的能力,可以選出世界上最漂亮的人。結果吸引了近100個國家六千多位美女寄照片去參賽。當結果出爐,引起一片譁然,因為44位贏家當中幾乎一面倒的都是白人。

儘管研發團隊堅稱,沒有以膚色作為評分的標準,不過事實擺在眼前,那又是什麼原因導致這個結果呢?有學者指出「即使他們宣稱是由演算機制在主導,但畢竟是人類設計出來的,本質上還是人類在做思考」。因此許多人批評,設計審美AI演算法的專家,內心可能存在根深柢固的個人偏見,所以就算評判機制表面中立客觀,真實計算後還是會把原創者的想法還原並放大。

主辦單位Youth Laboratories的首席科學家Alex Zhavoronkov則表示,「我對結果大感意外」「但主要問題在於,這次用來建立演算機制的資料包含的有色人種不足。」

美國用AI協助法官量刑,卻對非裔人士貼上高風險標籤

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) ,替代性制裁犯罪矯正管理剖析系統,是一款由Northpointe公司開發的法律案例管理和決策支持系統,美國紐約州、加州、佛羅里達州的法院曾藉助這一系統,來評估案件被告成為累犯的可能性。

這個系統是以審前釋放風險係數、總體再犯係數、暴力犯罪再犯係數來評估一位罪犯的暴力犯罪風險係數,以數據來協助法官量刑。根據調查機構ProPublica在2016的報告中指出:讓系統去對兩位沒有前科的初犯做風險評估,結果,非裔人士被標註為「高風險」的機率是高加索裔的兩倍。儘管美國法律有特別要求,在設計研發COMPAS的時候「不得將種族差異納入考量」,但顯然仍然有明顯的偏見。美國法界人士批評,COMPAS的算法偏見,涉嫌違反美國憲法的平等保護條款。這可能是因為,算法模型還是要依賴於數據,如果數據具有偏見,得出的結果自然可能也會帶有偏見。

不要過於相信冰冷數據養出來的AI

我想,你大概知道我要表達什麼了!AI的能力有一大部分是來自於「監督式學習」。換言之,他是根據他所看過的數據資料來做推論,這跟人類的行為是一模一樣。但是人類在做進一步推論時,會保持警覺心,避免鑄下大錯,但AI可能不會。

例如:如果問你「Bob和Jane誰比較會寫程式」「John和Mary誰比較會煮菜」「小偷比較可能是James還是Emily」,你大概都不敢回答。但是AI可能會說「Bob這個男性名字,他可能比Jane更有機會接觸到電腦和科技領域,因此更有可能學習寫程式」「有Mary這個女性名字的人,可能比John這個男性名字的人更擅長煮菜。」

有一句話說得很好「受污染的資料,必然產生被污染的結果」「Garbage in, garbage out」,AI模型是人創造出來的,導致AI也有刻板印象,他也會帶著有色眼鏡看人。如果我們一昧相信帶有偏見的AI提供給我們的資訊,可能會不知不覺間成為種族歧視和性別歧視的幫兇。

讓我們進一步了解AI的偏見

維基百科上對AI偏見的說法,很值得參考。

大多數人都認為AI演算法所計算出來的結果是中立且客觀的,但實際上這是一種錯誤的迷思,AI演算法會因為許多原因導致結果產生偏誤、偏見。例如:「訓練AI的資料庫內容本身有所偏誤、資料不周全未涵蓋所有可能的範圍、間接資料無法代表所欲計算的資訊、有目的性的操作使AI的運作出的結果產生有意的偏誤…等等。」而當人們認為使用AI所計算出的結果是客觀中立時,將可能導致忽略AI產生的結果內依舊含有偏見及偏差,使弱勢族群、團體陷入更加不利的處境。

近幾年,許多國外大公司全力發展AI LLM(大語言模型),而訓練語言模型時需要大量的數據資料,他們使用的資料集大部分是英文,佔50%以上,西班牙文其次,約有30%,中文大概只有1%,其中又有90%是簡體中文,這就會導致一個嚴重的偏差,AI用非中文的知識及邏輯在理解這個世界,並影響每一個使用者,漸漸的,中文與文化會越來越弱勢,尤其是繁體中文所代表的傳統中華文化會逐漸被大家遺忘。無怪乎Google台灣董事總經理簡立峰説:「有能力開發AI的國家,正在讓沒有AI能力的國家(文化)消失」

AI有哪些可能的偏見?

包含以下幾種偏見:

  1. 數據偏見 (Data bias):這是最顯而易見的一種偏差。因為 AI (LLM) 的訓練數據是來自於現實世界的,而現實世界本身就存在著各種各樣的偏見。

例如:美國國家標準與技術研究院(NIST)做過一項研究,如果把一位非裔美國女性的臉放進大型資料庫做比對,辨識錯誤的機率特別高;在某些案例中,非裔和亞裔美國人被錯誤辨識的機率,比白人男性高出100倍。而且,無論怎麼測試,中年白人男性的辨識準確率都是最高。究其原因,拿去給AI訓練的資料中,絕大部分都是白人男性的照片。也就是說,只要是缺乏代表性的訓練數據,就可能使得系統無法對特定群體或個人做出準確判斷。

  1. 算法偏見 (Algorithmic bias):AI (LLM) 的算法設計也可能存在偏見。

例如,如果一個AI (LLM) 的算法是為了提高準確率而設計的,那麼這個AI (LLM)就更有可能偏向於那些已經被證實是正確的觀點,而忽略那些可能更具創新性或挑戰性的觀點。

又如:同樣一句話在不同語言中的Token數差異可能達好幾倍。當你對AI下令「從這份數據中找出異常資訊」

raw-image

用英文說:5個Token

用西班牙文說:9個Token

用日文說:13個Token

用韓文說:15個Token

用中文說:20個Token

用緬甸文說:67個Token

不同語言天生間有明顯的不平等,因此跟AI講緬甸文,處理速度會比講英文慢得多,而以Token計價的溝通成本,也會是英文的好幾倍。這就不利於AI在某些語言世界中的商業應用。

  1. 人類反饋和交互偏差 (Interaction bias):人類在訓練和使用AI系統時會帶入自己的偏見,影響系統的行為。人機互動過程中,使用者的反饋可能也會加強和強化系統原有的偏見。

例如:微軟在2016年前推出一個模擬19歲年輕女生的聊天機器人Tay,在社群媒體Twitter上跟18~24 歲的青少年互動,本來是希望她可以在對話中,逐漸形成自己的思惟體系。沒想到她遇到太多教她講髒話的年輕人,導致她很快學壞了,還講出許多種族歧視的不當言論,微軟只好趕快將它下架調整。

  1. 系統偏差 (System bias):現代AI系統通常非常複雜,難以徹底理解其內部運作,這增加了偏差產生的可能性。

要如何逐步減少偏見?

AI總會越來越進步,只要我們重視這個偏見的問題,並採行以下的方法:

  1. 多元化和平衡數據集:確保訓練數據全面且代表性強,可以減少數據偏差。
  2. 透明和可解釋的系統:開發透明的AI模型,使其決策過程可被追蹤和解釋。
  3. 持續監控和評估:對AI系統的決策結果進行持續的監控和評估,確保其公正性。
  4. 多學科視角的合作:在AI系統的設計和開發過程中,加入來自不同背景的專家,以增加視角的多樣性。

有一個真實的案例可以給大家參考,也作為這一篇文章的結語。

美國系統業者過去曾經研發過許多犯罪預測系統,但都存在種族偏見。2022年,芝加哥大學和警察合作開發了一套新型的演算法模型,預測一個地區在未來一周的犯罪情況,準確率高達到90%。此模型利用暴力和財產這兩個主要犯罪類別進行訓練在套入洛杉磯、費城和舊金山等城市的犯罪數據後,其預測力相當出色。芝加哥大學研究團隊的模型之所以準確率如此的高,是因為他們使用了成千上萬個社會學模組計算特定時間和空間的犯罪風險,所以有效排除偏見與狹隘因素以提升預測準確率。

以此案例足見,透過採行一些修正的策略,我們可以逐步減少AI系統中的偏見,使其更加公正和可靠。



分享生成式AI (GenAI) 在百工百業導入的精彩過程。
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
AI人工智慧正快速改變許多產業和產業運作模式AI化,AI人工智慧正在改變 1.昆蟲農業使飼養AI化、2. 遊戲開發產業使遊戲設計結合AI更具創意、3.企業倉儲操作使工作邁向AI自動化。本文介紹了這3個產業中的AI應用,以及該應用帶來的影響和改變。
Thumbnail
直接噴漲55% 今天市場上又有一檔股票讓人驚艷...安謀(Arm)。 安謀(Arm)是軟銀集團旗下的半導體設計與軟體公司,NVIDIA從宣布出價400億美元從日本軟銀集團手中收購安謀控股,後因種種因素而失敗。 現在是2/8的11:23,股價如下: 為什麼突然噴漲呢? 據報導原因是營收財
Thumbnail
美國人玩 ai,百度又玩 ai ,為什麼股價相反發展 ? 快速答案 : 成也外國勢力 ,敗也外國勢力。 其實又,200x - 201x 百度股價 搖搖領先美國科技股,所謂 China play china story ,西方外國投資者憧憬中國發展潛力,中美友好,美國基金不斷買進中港股票,
Thumbnail
指令:楚楚可憐 結論:AI不懂文謅謅的成語 這樣到底哪裡可憐?
Thumbnail
不小心被完美AI繪圖扣款了,既然有一年的時間,就盡情使用吧。 不小心滑到這篇的朋友,先說聲抱歉,我會搞一年這種沒營養的文。 指令: 微風徐徐
Thumbnail
好啦,我知道我很煩,孤陋寡聞,但就很美啊。 指令:春暖花開
Thumbnail
社群科技巨頭 Meta 臉書,在上周正式發布了今年第三季的財報。在最新一季的成績單中,Meta 無論是在營收或者是獲利上,都創下了歷史新高,也超越了市場預期。在上一季 Q2 的財報分析結論中,我們說到,Meta 在前進的路線上,已經沒有烏雲。本季的成績單,是否能夠持續支撐這樣的說法呢?
Thumbnail
新的AI聊天機器人Claude推出了。 Claude是由Anthropic這間AI新創公司推出的聊天機器人,光是這樣講似乎還聽不出厲害之處。實際上,Anthropic是由OpenAI前研究副總裁Dario Amodei所創立,內部成員也包含多位OpenAI前研究員。
Thumbnail
自從開始研究AI以來,我發現許多現象與幼兒的學習過程類似。AI的訓練問題,如過擬合,同樣可以用來思考如何改善孩子的學習方式。小孩喜歡一直看同一本書,同一部卡通,或是喜歡卡通當中有許多重覆的情節,例如:變身或是機器人變形或是機器人合體,這些內容讓孩子獲得成就感(可預測性),因為預測成功,可以給孩子帶來
Thumbnail
今天在媽媽寶貝上看到了一篇文章全職媽媽的孤單誰能懂!世界上工時最長的工作… 看完之後有感而發,因為我也是…全職…顧小孩(雖然是爸爸),從剛滿月的嬰兒到目前上小一,其中也不乏長達一年多的一打二階段,一個剛從月子中心回來的小嫩嬰,再加上一個三歲蹦蹦跳的小男孩。所以想發篇感想,表達一下自己的想法…
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
AI人工智慧正快速改變許多產業和產業運作模式AI化,AI人工智慧正在改變 1.昆蟲農業使飼養AI化、2. 遊戲開發產業使遊戲設計結合AI更具創意、3.企業倉儲操作使工作邁向AI自動化。本文介紹了這3個產業中的AI應用,以及該應用帶來的影響和改變。
Thumbnail
直接噴漲55% 今天市場上又有一檔股票讓人驚艷...安謀(Arm)。 安謀(Arm)是軟銀集團旗下的半導體設計與軟體公司,NVIDIA從宣布出價400億美元從日本軟銀集團手中收購安謀控股,後因種種因素而失敗。 現在是2/8的11:23,股價如下: 為什麼突然噴漲呢? 據報導原因是營收財
Thumbnail
美國人玩 ai,百度又玩 ai ,為什麼股價相反發展 ? 快速答案 : 成也外國勢力 ,敗也外國勢力。 其實又,200x - 201x 百度股價 搖搖領先美國科技股,所謂 China play china story ,西方外國投資者憧憬中國發展潛力,中美友好,美國基金不斷買進中港股票,
Thumbnail
指令:楚楚可憐 結論:AI不懂文謅謅的成語 這樣到底哪裡可憐?
Thumbnail
不小心被完美AI繪圖扣款了,既然有一年的時間,就盡情使用吧。 不小心滑到這篇的朋友,先說聲抱歉,我會搞一年這種沒營養的文。 指令: 微風徐徐
Thumbnail
好啦,我知道我很煩,孤陋寡聞,但就很美啊。 指令:春暖花開
Thumbnail
社群科技巨頭 Meta 臉書,在上周正式發布了今年第三季的財報。在最新一季的成績單中,Meta 無論是在營收或者是獲利上,都創下了歷史新高,也超越了市場預期。在上一季 Q2 的財報分析結論中,我們說到,Meta 在前進的路線上,已經沒有烏雲。本季的成績單,是否能夠持續支撐這樣的說法呢?
Thumbnail
新的AI聊天機器人Claude推出了。 Claude是由Anthropic這間AI新創公司推出的聊天機器人,光是這樣講似乎還聽不出厲害之處。實際上,Anthropic是由OpenAI前研究副總裁Dario Amodei所創立,內部成員也包含多位OpenAI前研究員。
Thumbnail
自從開始研究AI以來,我發現許多現象與幼兒的學習過程類似。AI的訓練問題,如過擬合,同樣可以用來思考如何改善孩子的學習方式。小孩喜歡一直看同一本書,同一部卡通,或是喜歡卡通當中有許多重覆的情節,例如:變身或是機器人變形或是機器人合體,這些內容讓孩子獲得成就感(可預測性),因為預測成功,可以給孩子帶來
Thumbnail
今天在媽媽寶貝上看到了一篇文章全職媽媽的孤單誰能懂!世界上工時最長的工作… 看完之後有感而發,因為我也是…全職…顧小孩(雖然是爸爸),從剛滿月的嬰兒到目前上小一,其中也不乏長達一年多的一打二階段,一個剛從月子中心回來的小嫩嬰,再加上一個三歲蹦蹦跳的小男孩。所以想發篇感想,表達一下自己的想法…