既 ChatGBT 於去年十一月底被釋出後,2023 宛如生成式 AI(generative AI)元年,各種應用程式大量湧現,業界甚至開始探討 AI 是否能在內容創作方面取待人類。
乍聽之下,你或許認為這只是藝術家和創作者等少數人要面臨的問題,但如果你理解生成式 AI 的原理和侷限,就會知道內容創作如果被 AI 取代,將是全人類的議題。
藝術創作的目的,不外乎為了抒發個人情感或表達己見。而生成式 AI 缺乏創造力、強化偏見、且排擠多元性,非但無法適切的傳達身而為人最複雜獨特的想法和感受,不當的運用甚至可能阻礙人類社會的進步。
批評 AI 的創造力,似乎和直覺想像有些衝突。我們首先要了解的是,當前的 AI 使用的是神經網絡 (neural network)這種數據導向(data-driven)方法。把大量的輸入和輸出數據(input & output)放到一系列演算法組成的神經網絡中,讓神經網絡可以學習到數據之間的規律以調整演算法。AI 沒有人類所擁有的情感、直覺、和自發性,甚至不了解每個 input output 的意義,所有的 input output 對 AI 而言只是數字和規律。這樣的 AI 只能依照過去(訓練數據)去預測,所以它頂多只能和其訓練數據一樣有創意。
用生成式 AI 所產出的作品,大多也有很多訓練數據的影子。有報導顯示,用 DALL-E 所生成的的圖像或許奇異(浣熊打網球、豬騎機車),但缺乏美感而且非常地歐式。這是因為美術界有很大一部分是西方白人藝術家主導,AI 接受到的訓練數據多為西方藝術品,這樣的 AI 產出作品因此也跳脫不出西方藝術的框架。
“AI-generated art, in theory, could be an incredibly useful tool for imagining a more equitable vision of art that looks very different from what we have come to take for granted. Instead, it stands to simply perpetuate the colonial ideas that drive our understanding of art today” - AI art looks way too European, Vox
正因為 AI 是數據導向,它的產出和其訓練數據有密切關聯。當向ChatGBT詢問其客觀性, ChatGBT 自己也承認它的回答可能受到數據限制和偏差的影響。
AI 的偏差存在於訓練數據和演算法當中,並造成以下三種現象。
以 ChatGBT 所使用的 Large Language Model 為例,其原理簡單而言就是在經過數據訓練後,讓系統預測下一個字的出現機率。可想而知,當訓練的數據大量含藏著廣泛存在於社會中的刻板印象和主流價值,ChatGBT 的產出內容也將具有同樣的價值觀和偏見。例如,當ChatGBT被要求分別寫出關於男人和女人的英文俳句,ChatGBT 讚揚了男性的力量力氣,以及女人的美麗。當我在中文版問相同的問題,也得到隱含性別刻版印象的詩句。
在方格子ChatGBT創作大賽專題裡,一個用 ChatGBT 續寫關於媽媽的故事中,也有相同的現象。作者輸入的原段落並未提及其母親的職業,而 ChatGBT 續寫的故事裡,母親是位護士(為什麼不是醫生或企業家?),並且在孩子出生後 「她決定放棄工作,全職在家帶我。這樣做雖然讓她失去了自己的事業,但她卻說自己從來沒有後悔過。」 (先入為主「女人為家庭犧牲但不後悔」的觀念)。
二戰期間,美國軍人觀察歸來的戰機和機身上的槍彈痕跡,就此歸納出戰機最容易被襲擊的部位,以便對這些部位加強防護,降低戰機墜毀的風險。這個分析貌似合理,但存在一個偏誤:那些被擊中要害而墜落的戰機,永遠沒有飛回基地,讓美軍好好分析。這就是所謂的「選擇性偏差」。
Bessie Smith 是被譽為「藍調音樂女皇」 (Empress of the Blues) 的非裔美國女歌手,她的作品對美國現代流行音樂有極大的影響。當ChatGBT被問起Bessie Smith時,ChatGBT 只回答了其生平資訊,卻未能提及其貢獻和影響力。這是因為美國種族歧視的體現之一,是忽視抹滅少數族群對社會的貢獻。當文獻和書本缺乏記載,那些被社會忽視的人事物就是數據庫裡墜落的戰機,在 AI 的產出裡找不到它們的蹤跡。
研究顯示,ChatGBT 對於不同政見的立場,有左傾的現象。除了前面所提到的訓練數據偏差會影響 AI 的產出,這個立場偏差的主因,更有可能源自於人類反饋的強化學習 (RLHF)。因為 AI 沒有原則和價值觀,它的產出僅僅如同解統計學的機率問題,因此在訓練 AI 神經網絡時,往往有人類反饋校正產出的步驟,以期AI 的產出能更貼近人類的價值觀。
然而能夠參與反饋的,僅僅是少部分的人,而這些人多半是男性白人工程師。 沒有人是百分之百客觀中立,怎樣的誤差是可以被接受的?怎樣的產出符合道德標準?這些問題交給不同人,就會有不同的答案。而我們不知不覺中,把這些正確答案的認定權交給了少數白人男性,他們所相信的價值觀,也就透過程式碼和演算法規則,滲透進 AI 的回答。
“The bias I'm most nervous about is the bias of the human feedback raters.”- OpenAI CEO Sam Altman
或許你會懷疑,即使目前的 AI 技術有缺陷,但問題有這麼嚴重嗎?
生成式 AI 最可怕的點,在於它可以快速、大量、低成本的產出。而這些產出是系統預測能夠符合演算法機率最大的產出,所以其品質不會是百年一見的優質作品,它只會是最普通、最一般、機率最高的平庸。這造成兩個問題。第一,大量平庸且很可能含藏偏見的作品,又被納入 AI 的數據訓練庫,擴大數據庫的偏差。第二,研究顯示,當市場裡存在著太多競爭者,創作者將不再願意花費心思產出更有原創性的作品。如此,將來有一天我們所看的書和吸收到的觀念,將只是 AI 各種舊有思想的拼湊與回收。
但舊有思相是需要被持續挑戰和突破的。1918 年英國女性才開始有投票權,2019 年同志在台灣才有結婚的權利,多元意見一直以來都是社會進步的動力。多少人願意以性命捍衛思想和言論自由,我們怎麼又如此輕易的把話語權交給 AI (背後的主流單一思想)?
當少數者的聲音被消弭,在這個以男性主角為主流的電影界中,你就再也看不到像《芭比》一樣發人省思,並締造票房奇蹟的電影。
AI 的運用並非毫無可取之處,例如,我們無法否認 AI 的產出通常有非常清晰的邏輯架構。但至少在創作上,這個人性、情感、道德、和價值觀得以表現之處,正是因為 ChatGBT的出現,我們每一個擁有不同聲音的人,都更應該努力書寫下去。