【ChatGPT 系列】ChatGPT 不準了？AI 準確度會隨著時間變化嗎？

2024/01/10 更新2023/07/23 發佈閱讀 5 分鐘

ChatGPT 已經問世接近一年，許多公司、學校也開始使用這項服務，無論是出自於娛樂，甚至與 ChatGPT 共同協作，加速自己原先的工作流程，ChatGPT 已經慢慢改變著人們的工作型態。而除此之外，更多樣化的大型語言模型（Large Language Model, 簡稱 LLM）也相繼發佈，皆成為了 AI 路上 ChatGPT 的競爭者。前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本（preprint），提及 ChatGPT 隨著時間可能產生了變化，甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差！

儘管隨即被許多人相繼駁斥，此篇研究並沒有提出任何關於 GPT-4 效能變差的結論，然而，了解大型語言模型是否因為時間而有所變化，是這份研究主要想表達的重要觀點。

Jonathan Kemper on Unsplash

…our findings shows that the behavior of the “same” LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality. （大型語言模型可能在短時間內發生許多變化，因此了解它的變化相當重要。）

這篇研究由史丹佛大學的資訊學院的教授James Zou、Matei Zaharia和學生Lingjiao Chen 共同完成。研究中提到，他們將任務分成四個種類：數學題、回答用詞的敏感題目、程式碼生成、視覺推理，得到相當有趣的結果。

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。（Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.）

以數學題為例，他們詢問 ChatGPT 一系列「某數是否為質數（prime）」的問題，並請 ChatGPT 一步一步邏輯推理出結果。他們發現，GPT-4 在三月的準確率從 97.6% 下降到六月的 2.4%，而 GPT-3.5 的準確率則從 7.4% 大幅提升至 86.8%，不過 GPT-4 的回答變得更加簡潔。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

又如同生成程式碼，GPT-4在三月的可直接執行生成數量超過50％，但在六月只有10％。GPT-3.5的趨勢也類似。而兩個模型的回覆也顯得更加冗長。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

然而，以這兩個為例，也馬上遭到另一派人馬反駁。

普林斯頓大學資訊工程教授 Arvind Narayanan 撰文寫出不同想法。他提到，這篇研究為了檢驗兩個模型的效能差異，是去看兩個模型所生成程式碼「是否可以執行」，然而，新模型提供更多的註解、引導，若只針對是否可執行進行評估，這些 GPT-4 所額外做的指導就可能被忽視了。

另外，針對數學題，有人也提到選擇使用「某數是否為質數」作為題目相當奇怪，且他們挑選題目的正確答案皆為「是」。而如果在質數這個命題框架下，去詢問ChatGPT其他的問題組合，例如「某數是否為合數」，發現得到截然不同的統計結果。

儘管兩篇持不同觀點，但其實都表達相同的一件事情：前篇研究提到，研究結果表明，在相對短的時間內，GPT-3.5和GPT-4的行為有顯著的變化，凸顯了在應用大型語言模型的過程中，持續評估語言模型的行為有其必要性；後篇也認為這是一個相當有價值的省思。

這些大型語言模型是否因為使用者使用了一陣子過後行為可能有所改變，是時候應該好好評估與研究。「穩定的 AI」才能給予人類穩定的工作效率與成果，而要如何公平的量化評估、監測這些模型的行為與效能，目前仍沒有統一的黃金準則。

The pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.

不過，史丹佛的研究（前篇）有附上 Github 連結，也歡迎大家一同做實驗看看：https://github.com/lchen001/LLMDrift

CTCT 寫寫新聞整理 & 觀點CTCT 數位工具與程式學習筆記軟體工具CTCT 數位工具與程式學習筆記AI 筆記

留言

留言分享你的想法！

84會員

92內容數

加入沙龍追蹤 CT 更多文章！

CT的其他內容

2024/10/29

【生成式AI】能上網的AI！打造Perplexity 事實查核聊天室

在生成式 AI 的崛起中，Perplexity 作為一款強大的 AI 搜尋引擎，能夠即時搜尋網路資訊。本文將嘗試使用 Perplexity 完成事實查核任務 DEMO。

2024/10/29

【生成式AI】能上網的AI！打造Perplexity 事實查核聊天室

在生成式 AI 的崛起中，Perplexity 作為一款強大的 AI 搜尋引擎，能夠即時搜尋網路資訊。本文將嘗試使用 Perplexity 完成事實查核任務 DEMO。

2024/10/03

【AI 寫程式】「合併列印」落伍了？問對問題讓 AI 教你製作 Google 自動化收據系統！

本篇文章針對小企業與對生成式AI、AI寫程式有興趣的讀者，提供如何利用Google Apps Script結合生成式AI，快速製作自動化收據開立系統的實用指導。即使沒有程式設計背景，讀者也可以透過簡單的步驟學習如何與AI互動，定義任務，與AI協作完成自動化工具。

2024/10/03

【AI 寫程式】「合併列印」落伍了？問對問題讓 AI 教你製作 Google 自動化收據系統！

2023/11/07

【ChatGPT】實測 OpenAI 發表會全新功能：全新介面、「GPTs」客製化小工具真的有那麼神嗎？

聊天機器人 ChatGPT 開發團隊 OpenAI 昨天（2023/11/7）臺灣時間凌晨迎來首次的開發者大會（DevDay），除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外，針對一般使用者付費使用的 ChatGPT 也全面更新。

2023/11/07

【ChatGPT】實測 OpenAI 發表會全新功能：全新介面、「GPTs」客製化小工具真的有那麼神嗎？

#科技力的其他內容

Steam Deck OLED 開箱評測, 改版規格解析, 推薦買下去指數五顆星

你可能也想看

Juju Roxy的沙龍

新的ChatGPT4 Turbo會帶來什麼影響

ChatGPT發佈者大會剛落幕, 預計會為一般人帶來什麼影響呢？我預計會有三個影響。而你呢？你想在這個新的AI世界擔任什麼角色？

2023/11/09

Juju Roxy的沙龍

新的ChatGPT4 Turbo會帶來什麼影響

ChatGPT發佈者大會剛落幕, 預計會為一般人帶來什麼影響呢？我預計會有三個影響。而你呢？你想在這個新的AI世界擔任什麼角色？

2023/11/09

【ChatGPT】實測 OpenAI 發表會全新功能：全新介面、「GPTs」客製化小工具真的有那麼神嗎？

#ChatGPT#GPT-4#OpenAI

2023/11/07

【ChatGPT】實測 OpenAI 發表會全新功能：全新介面、「GPTs」客製化小工具真的有那麼神嗎？

#ChatGPT#GPT-4#OpenAI

2023/11/07

男子漢聊AI的沙龍

當ChatGPT 重新嘗試UPSC 時

今年二月，第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC（被廣泛認為是世界上最難考試之一）時，它慘遭失敗。ChatGPT 無法通過UPSC 預賽，使許多人為自己感到驕傲。但是，自從我們做了這個故事以來，人工智慧世界發生了許多新的更新和發展。

2023/10/18

2023/10/18

熱度下滑，性能變弱，財務堪憂，Open AI現況是什麼呢？

ChatGPT，曾經是人工智能的彌賽亞，人人可用，便宜好用的生成式語言模型如同福音書一樣傳遍了大街小巷。但是，然後呢？兩個月，在不少的的新聞裡面，我們都可以看到Open Ai似乎開始有無法衰退的跡象

#ChatGPT#OpenAI#人工智能

2023/08/23

樂子