【ChatGPT 系列】ChatGPT 不準了?AI 準確度會隨著時間變化嗎?

更新 發佈閱讀 5 分鐘

ChatGPT 已經問世接近一年,許多公司、學校也開始使用這項服務,無論是出自於娛樂,甚至與 ChatGPT 共同協作,加速自己原先的工作流程,ChatGPT 已經慢慢改變著人們的工作型態。而除此之外,更多樣化的大型語言模型(Large Language Model, 簡稱 LLM)也相繼發佈,皆成為了 AI 路上 ChatGPT 的競爭者。前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!

儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論,然而,了解大型語言模型是否因為時間而有所變化,是這份研究主要想表達的重要觀點

…our findings shows that the behavior of the “same” LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality. (大型語言模型可能在短時間內發生許多變化,因此了解它的變化相當重要。)

這篇研究由史丹佛大學的資訊學院的教授James Zou、Matei Zaharia和學生Lingjiao Chen 共同完成。研究中提到,他們將任務分成四個種類:數學題、回答用詞的敏感題目、程式碼生成、視覺推理,得到相當有趣的結果。

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。(Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.)

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。(Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.)

以數學題為例,他們詢問 ChatGPT 一系列「某數是否為質數(prime)」的問題,並請 ChatGPT 一步一步邏輯推理出結果。他們發現,GPT-4 在三月的準確率從 97.6% 下降到六月的 2.4%,而 GPT-3.5 的準確率則從 7.4% 大幅提升至 86.8%,不過 GPT-4 的回答變得更加簡潔。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

又如同生成程式碼,GPT-4在三月的可直接執行生成數量超過50%,但在六月只有10%。GPT-3.5的趨勢也類似。而兩個模型的回覆也顯得更加冗長。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

然而,以這兩個為例,也馬上遭到另一派人馬反駁

普林斯頓大學資訊工程教授 Arvind Narayanan 撰文寫出不同想法。他提到,這篇研究為了檢驗兩個模型的效能差異,是去看兩個模型所生成程式碼「是否可以執行」,然而,新模型提供更多的註解、引導,若只針對是否可執行進行評估,這些 GPT-4 所額外做的指導就可能被忽視了。

另外,針對數學題,有人也提到選擇使用「某數是否為質數」作為題目相當奇怪,且他們挑選題目的正確答案皆為「是」。而如果在質數這個命題框架下,去詢問ChatGPT其他的問題組合,例如「某數是否為合數」,發現得到截然不同的統計結果


儘管兩篇持不同觀點,但其實都表達相同的一件事情:前篇研究提到,研究結果表明,在相對短的時間內,GPT-3.5和GPT-4的行為有顯著的變化,凸顯了在應用大型語言模型的過程中,持續評估語言模型的行為有其必要性;後篇也認為這是一個相當有價值的省思。

這些大型語言模型是否因為使用者使用了一陣子過後行為可能有所改變,是時候應該好好評估與研究。「穩定的 AI」才能給予人類穩定的工作效率與成果,而要如何公平的量化評估、監測這些模型的行為與效能,目前仍沒有統一的黃金準則。

The pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.
不過,史丹佛的研究(前篇)有附上 Github 連結,也歡迎大家一同做實驗看看:https://github.com/lchen001/LLMDrift
留言
avatar-img
留言分享你的想法!
avatar-img
CT
84會員
92內容數
加入沙龍追蹤 CT 更多文章!
CT的其他內容
2024/10/29
在生成式 AI 的崛起中,Perplexity 作為一款強大的 AI 搜尋引擎,能夠即時搜尋網路資訊。本文將嘗試使用 Perplexity 完成事實查核任務 DEMO。
Thumbnail
2024/10/29
在生成式 AI 的崛起中,Perplexity 作為一款強大的 AI 搜尋引擎,能夠即時搜尋網路資訊。本文將嘗試使用 Perplexity 完成事實查核任務 DEMO。
Thumbnail
2024/10/03
本篇文章針對小企業與對生成式AI、AI寫程式有興趣的讀者,提供如何利用Google Apps Script結合生成式AI,快速製作自動化收據開立系統的實用指導。即使沒有程式設計背景,讀者也可以透過簡單的步驟學習如何與AI互動,定義任務,與AI協作完成自動化工具。
Thumbnail
2024/10/03
本篇文章針對小企業與對生成式AI、AI寫程式有興趣的讀者,提供如何利用Google Apps Script結合生成式AI,快速製作自動化收據開立系統的實用指導。即使沒有程式設計背景,讀者也可以透過簡單的步驟學習如何與AI互動,定義任務,與AI協作完成自動化工具。
Thumbnail
2023/11/07
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
2023/11/07
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
看更多
你可能也想看
Thumbnail
ChatGPT發佈者大會剛落幕, 預計會為一般人帶來什麼影響呢? 我預計會有三個影響。 而你呢?你想在這個新的AI世界擔任什麼角色?
Thumbnail
ChatGPT發佈者大會剛落幕, 預計會為一般人帶來什麼影響呢? 我預計會有三個影響。 而你呢?你想在這個新的AI世界擔任什麼角色?
Thumbnail
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
ChatGPT,曾經是人工智能的彌賽亞,人人可用,便宜好用的生成式語言模型如同福音書一樣傳遍了大街小巷。 但是,然後呢? 兩個月,在不少的的新聞裡面,我們都可以看到Open Ai似乎開始有無法衰退的跡象
Thumbnail
ChatGPT,曾經是人工智能的彌賽亞,人人可用,便宜好用的生成式語言模型如同福音書一樣傳遍了大街小巷。 但是,然後呢? 兩個月,在不少的的新聞裡面,我們都可以看到Open Ai似乎開始有無法衰退的跡象
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
自從ChatGPT更新到第四版,討論度更甚以往。在回應內容品質提升的同時,大家開始擔心它對學習的影響。以評量為例,我對ChatGPT帶來的影響並不悲觀。
Thumbnail
自從ChatGPT更新到第四版,討論度更甚以往。在回應內容品質提升的同時,大家開始擔心它對學習的影響。以評量為例,我對ChatGPT帶來的影響並不悲觀。
Thumbnail
相信自從去年年底一直到現在都一直聽到 ChatGPT 這個名詞吧?顯然這個名詞已經變成另一個媒體爭寵的話題。但就我看來這次與上次的區塊鏈很不一樣! 而在昨天第四代 GPT 已經發布了,有興趣可以到他們官網了解與 GPT-4 相關的資訊,我相信第四代 GPT 應該會引起人們更多對於 AI 的極限以及應
Thumbnail
相信自從去年年底一直到現在都一直聽到 ChatGPT 這個名詞吧?顯然這個名詞已經變成另一個媒體爭寵的話題。但就我看來這次與上次的區塊鏈很不一樣! 而在昨天第四代 GPT 已經發布了,有興趣可以到他們官網了解與 GPT-4 相關的資訊,我相信第四代 GPT 應該會引起人們更多對於 AI 的極限以及應
Thumbnail
GPT-4.0(生成型預訓練變換模型4.0)在台灣時間2023年3月16日發表於youtube網站,並詳細描述了這次不同於先前的GPT-3.5有哪些不一樣的功能。僅僅一天,影片就迎來了192萬次的觀看。那麼,這次的發表有哪些重點呢?AI是否又更進化了?我們就來瞧瞧。
Thumbnail
GPT-4.0(生成型預訓練變換模型4.0)在台灣時間2023年3月16日發表於youtube網站,並詳細描述了這次不同於先前的GPT-3.5有哪些不一樣的功能。僅僅一天,影片就迎來了192萬次的觀看。那麼,這次的發表有哪些重點呢?AI是否又更進化了?我們就來瞧瞧。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News