ChatGPT 已經問世接近一年,許多公司、學校也開始使用這項服務,無論是出自於娛樂,甚至與 ChatGPT 共同協作,加速自己原先的工作流程,ChatGPT 已經慢慢改變著人們的工作型態。而除此之外,更多樣化的大型語言模型(Large Language Model, 簡稱 LLM)也相繼發佈,皆成為了 AI 路上 ChatGPT 的競爭者。前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!
儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論,然而,了解大型語言模型是否因為時間而有所變化,是這份研究主要想表達的重要觀點。
…our findings shows that the behavior of the “same” LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality. (大型語言模型可能在短時間內發生許多變化,因此了解它的變化相當重要。)
這篇研究由史丹佛大學的資訊學院的教授James Zou、Matei Zaharia和學生Lingjiao Chen 共同完成。研究中提到,他們將任務分成四個種類:數學題、回答用詞的敏感題目、程式碼生成、視覺推理,得到相當有趣的結果。
以數學題為例,他們詢問 ChatGPT 一系列「某數是否為質數(prime)」的問題,並請 ChatGPT 一步一步邏輯推理出結果。他們發現,GPT-4 在三月的準確率從 97.6% 下降到六月的 2.4%,而 GPT-3.5 的準確率則從 7.4% 大幅提升至 86.8%,不過 GPT-4 的回答變得更加簡潔。
又如同生成程式碼,GPT-4在三月的可直接執行生成數量超過50%,但在六月只有10%。GPT-3.5的趨勢也類似。而兩個模型的回覆也顯得更加冗長。
然而,以這兩個為例,也馬上遭到另一派人馬反駁。
普林斯頓大學資訊工程教授 Arvind Narayanan 撰文寫出不同想法。他提到,這篇研究為了檢驗兩個模型的效能差異,是去看兩個模型所生成程式碼「是否可以執行」,然而,新模型提供更多的註解、引導,若只針對是否可執行進行評估,這些 GPT-4 所額外做的指導就可能被忽視了。
另外,針對數學題,有人也提到選擇使用「某數是否為質數」作為題目相當奇怪,且他們挑選題目的正確答案皆為「是」。而如果在質數這個命題框架下,去詢問ChatGPT其他的問題組合,例如「某數是否為合數」,發現得到截然不同的統計結果。
儘管兩篇持不同觀點,但其實都表達相同的一件事情:前篇研究提到,研究結果表明,在相對短的時間內,GPT-3.5和GPT-4的行為有顯著的變化,凸顯了在應用大型語言模型的過程中,持續評估語言模型的行為有其必要性;後篇也認為這是一個相當有價值的省思。
這些大型語言模型是否因為使用者使用了一陣子過後行為可能有所改變,是時候應該好好評估與研究。「穩定的 AI」才能給予人類穩定的工作效率與成果,而要如何公平的量化評估、監測這些模型的行為與效能,目前仍沒有統一的黃金準則。
The pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.
不過,史丹佛的研究(前篇)有附上 Github 連結,也歡迎大家一同做實驗看看:https://github.com/lchen001/LLMDrift