【ChatGPT 系列】ChatGPT 不準了？AI 準確度會隨著時間變化嗎？

2024/01/10 更新2023/07/23 發佈閱讀 5 分鐘

ChatGPT 已經問世接近一年，許多公司、學校也開始使用這項服務，無論是出自於娛樂，甚至與 ChatGPT 共同協作，加速自己原先的工作流程，ChatGPT 已經慢慢改變著人們的工作型態。而除此之外，更多樣化的大型語言模型（Large Language Model, 簡稱 LLM）也相繼發佈，皆成為了 AI 路上 ChatGPT 的競爭者。前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本（preprint），提及 ChatGPT 隨著時間可能產生了變化，甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差！

儘管隨即被許多人相繼駁斥，此篇研究並沒有提出任何關於 GPT-4 效能變差的結論，然而，了解大型語言模型是否因為時間而有所變化，是這份研究主要想表達的重要觀點。

Jonathan Kemper on Unsplash

…our findings shows that the behavior of the “same” LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality. （大型語言模型可能在短時間內發生許多變化，因此了解它的變化相當重要。）

這篇研究由史丹佛大學的資訊學院的教授James Zou、Matei Zaharia和學生Lingjiao Chen 共同完成。研究中提到，他們將任務分成四個種類：數學題、回答用詞的敏感題目、程式碼生成、視覺推理，得到相當有趣的結果。

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。（Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.）

以數學題為例，他們詢問 ChatGPT 一系列「某數是否為質數（prime）」的問題，並請 ChatGPT 一步一步邏輯推理出結果。他們發現，GPT-4 在三月的準確率從 97.6% 下降到六月的 2.4%，而 GPT-3.5 的準確率則從 7.4% 大幅提升至 86.8%，不過 GPT-4 的回答變得更加簡潔。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

又如同生成程式碼，GPT-4在三月的可直接執行生成數量超過50％，但在六月只有10％。GPT-3.5的趨勢也類似。而兩個模型的回覆也顯得更加冗長。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

然而，以這兩個為例，也馬上遭到另一派人馬反駁。

普林斯頓大學資訊工程教授 Arvind Narayanan 撰文寫出不同想法。他提到，這篇研究為了檢驗兩個模型的效能差異，是去看兩個模型所生成程式碼「是否可以執行」，然而，新模型提供更多的註解、引導，若只針對是否可執行進行評估，這些 GPT-4 所額外做的指導就可能被忽視了。

另外，針對數學題，有人也提到選擇使用「某數是否為質數」作為題目相當奇怪，且他們挑選題目的正確答案皆為「是」。而如果在質數這個命題框架下，去詢問ChatGPT其他的問題組合，例如「某數是否為合數」，發現得到截然不同的統計結果。

儘管兩篇持不同觀點，但其實都表達相同的一件事情：前篇研究提到，研究結果表明，在相對短的時間內，GPT-3.5和GPT-4的行為有顯著的變化，凸顯了在應用大型語言模型的過程中，持續評估語言模型的行為有其必要性；後篇也認為這是一個相當有價值的省思。

這些大型語言模型是否因為使用者使用了一陣子過後行為可能有所改變，是時候應該好好評估與研究。「穩定的 AI」才能給予人類穩定的工作效率與成果，而要如何公平的量化評估、監測這些模型的行為與效能，目前仍沒有統一的黃金準則。

The pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.

不過，史丹佛的研究（前篇）有附上 Github 連結，也歡迎大家一同做實驗看看：https://github.com/lchen001/LLMDrift

CTCT 寫寫新聞整理 & 觀點CTCT 數位工具與程式學習筆記軟體工具CTCT 數位工具與程式學習筆記AI 筆記

留言

97會員

93內容數

加入沙龍追蹤 CT 更多文章！

CT的其他內容

2024/10/29

【生成式AI】能上網的AI！打造Perplexity 事實查核聊天室

在生成式 AI 的崛起中，Perplexity 作為一款強大的 AI 搜尋引擎，能夠即時搜尋網路資訊。本文將嘗試使用 Perplexity 完成事實查核任務 DEMO。

2024/10/29

【生成式AI】能上網的AI！打造Perplexity 事實查核聊天室

在生成式 AI 的崛起中，Perplexity 作為一款強大的 AI 搜尋引擎，能夠即時搜尋網路資訊。本文將嘗試使用 Perplexity 完成事實查核任務 DEMO。

2024/10/03

【AI 寫程式】「合併列印」落伍了？問對問題讓 AI 教你製作 Google 自動化收據系統！

本篇文章針對小企業與對生成式AI、AI寫程式有興趣的讀者，提供如何利用Google Apps Script結合生成式AI，快速製作自動化收據開立系統的實用指導。即使沒有程式設計背景，讀者也可以透過簡單的步驟學習如何與AI互動，定義任務，與AI協作完成自動化工具。

2024/10/03

【AI 寫程式】「合併列印」落伍了？問對問題讓 AI 教你製作 Google 自動化收據系統！

2023/11/07

【ChatGPT】實測 OpenAI 發表會全新功能：全新介面、「GPTs」客製化小工具真的有那麼神嗎？

聊天機器人 ChatGPT 開發團隊 OpenAI 昨天（2023/11/7）臺灣時間凌晨迎來首次的開發者大會（DevDay），除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外，針對一般使用者付費使用的 ChatGPT 也全面更新。

2023/11/07

【ChatGPT】實測 OpenAI 發表會全新功能：全新介面、「GPTs」客製化小工具真的有那麼神嗎？

#科技力的其他內容

Steam Deck OLED 開箱評測, 改版規格解析, 推薦買下去指數五顆星

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14