【ChatGPT 系列】ChatGPT 不準了?AI 準確度會隨著時間變化嗎?

更新於 發佈於 閱讀時間約 5 分鐘

ChatGPT 已經問世接近一年,許多公司、學校也開始使用這項服務,無論是出自於娛樂,甚至與 ChatGPT 共同協作,加速自己原先的工作流程,ChatGPT 已經慢慢改變著人們的工作型態。而除此之外,更多樣化的大型語言模型(Large Language Model, 簡稱 LLM)也相繼發佈,皆成為了 AI 路上 ChatGPT 的競爭者。前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!

儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論,然而,了解大型語言模型是否因為時間而有所變化,是這份研究主要想表達的重要觀點

…our findings shows that the behavior of the “same” LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality. (大型語言模型可能在短時間內發生許多變化,因此了解它的變化相當重要。)

這篇研究由史丹佛大學的資訊學院的教授James Zou、Matei Zaharia和學生Lingjiao Chen 共同完成。研究中提到,他們將任務分成四個種類:數學題、回答用詞的敏感題目、程式碼生成、視覺推理,得到相當有趣的結果。

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。(Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.)

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。(Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.)

以數學題為例,他們詢問 ChatGPT 一系列「某數是否為質數(prime)」的問題,並請 ChatGPT 一步一步邏輯推理出結果。他們發現,GPT-4 在三月的準確率從 97.6% 下降到六月的 2.4%,而 GPT-3.5 的準確率則從 7.4% 大幅提升至 86.8%,不過 GPT-4 的回答變得更加簡潔。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

又如同生成程式碼,GPT-4在三月的可直接執行生成數量超過50%,但在六月只有10%。GPT-3.5的趨勢也類似。而兩個模型的回覆也顯得更加冗長。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

然而,以這兩個為例,也馬上遭到另一派人馬反駁

普林斯頓大學資訊工程教授 Arvind Narayanan 撰文寫出不同想法。他提到,這篇研究為了檢驗兩個模型的效能差異,是去看兩個模型所生成程式碼「是否可以執行」,然而,新模型提供更多的註解、引導,若只針對是否可執行進行評估,這些 GPT-4 所額外做的指導就可能被忽視了。

另外,針對數學題,有人也提到選擇使用「某數是否為質數」作為題目相當奇怪,且他們挑選題目的正確答案皆為「是」。而如果在質數這個命題框架下,去詢問ChatGPT其他的問題組合,例如「某數是否為合數」,發現得到截然不同的統計結果


儘管兩篇持不同觀點,但其實都表達相同的一件事情:前篇研究提到,研究結果表明,在相對短的時間內,GPT-3.5和GPT-4的行為有顯著的變化,凸顯了在應用大型語言模型的過程中,持續評估語言模型的行為有其必要性;後篇也認為這是一個相當有價值的省思。

這些大型語言模型是否因為使用者使用了一陣子過後行為可能有所改變,是時候應該好好評估與研究。「穩定的 AI」才能給予人類穩定的工作效率與成果,而要如何公平的量化評估、監測這些模型的行為與效能,目前仍沒有統一的黃金準則。

The pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.
不過,史丹佛的研究(前篇)有附上 Github 連結,也歡迎大家一同做實驗看看:https://github.com/lchen001/LLMDrift
avatar-img
64會員
75內容數
加入沙龍追蹤 CT 更多文章!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
CT 的其他內容
如何設定「延伸螢幕」還是「同步螢幕(鏡像螢幕)」?Mac 在切換延伸螢幕與同步螢幕(Mac其實是稱為「鏡像模式」),只要先後按下「command +F1」;Windows 先後按下「Windows + P」,就會跳出選單,讓使用者可以選定所想要的模式。
睽違一個月,Google Bard 迎來最新更新,此次一次更新許多重要功能,包含支援繁體中文、整合 Google Lens 服務提供使用者上傳圖片、語音朗讀以及其他功能增強等。
Google 於前日(5月23日)公布最新的聊天機器人 Bard 更新:Bard 現在可以與 Google 搜尋引擎互動,依據使用者需求呈現圖片,以圖片形式提供有用的回應。換句話說,使用者可以直接向 Bard 搜尋圖片。每次提供圖片時,Bard 都會附上圖片來源。
此篇也直接幫大家整理目前台灣此時此刻馬上可以使用的功能有哪些,以及那些炫砲AI何時能運用到實際場域?Bard 是一個由 Google 所開發的聊天機器人,原先以 LaMDA 的大型語言模型為基礎所建立。臺灣時間5/11 Google 發表全新 Bard 更新。
ChatGPT 是一款基於 GPT 技術的自然語言處理工具。那 GPT 是什麼呢?GPT 指的是 Generative Pre-trained Transformer,它是一種神經網絡模型,能夠處理自然語言的文本數據,學習文本之間的關聯,並且能夠根據這些關聯自動生成新的文本。ChatGPT 正是利用
ChatPDF 研究生福音!ChatPDF是一個基於ChatGPT所開發的應用工具,可以讓使用者將PDF文件上傳至系統,並透過問答的方式,輕鬆地尋找想要的資訊。ReaderGPT 是一個經由 Google Chrome 安裝使用的 Plugin / Extension (擴充功能),快速生成摘要。
如何設定「延伸螢幕」還是「同步螢幕(鏡像螢幕)」?Mac 在切換延伸螢幕與同步螢幕(Mac其實是稱為「鏡像模式」),只要先後按下「command +F1」;Windows 先後按下「Windows + P」,就會跳出選單,讓使用者可以選定所想要的模式。
睽違一個月,Google Bard 迎來最新更新,此次一次更新許多重要功能,包含支援繁體中文、整合 Google Lens 服務提供使用者上傳圖片、語音朗讀以及其他功能增強等。
Google 於前日(5月23日)公布最新的聊天機器人 Bard 更新:Bard 現在可以與 Google 搜尋引擎互動,依據使用者需求呈現圖片,以圖片形式提供有用的回應。換句話說,使用者可以直接向 Bard 搜尋圖片。每次提供圖片時,Bard 都會附上圖片來源。
此篇也直接幫大家整理目前台灣此時此刻馬上可以使用的功能有哪些,以及那些炫砲AI何時能運用到實際場域?Bard 是一個由 Google 所開發的聊天機器人,原先以 LaMDA 的大型語言模型為基礎所建立。臺灣時間5/11 Google 發表全新 Bard 更新。
ChatGPT 是一款基於 GPT 技術的自然語言處理工具。那 GPT 是什麼呢?GPT 指的是 Generative Pre-trained Transformer,它是一種神經網絡模型,能夠處理自然語言的文本數據,學習文本之間的關聯,並且能夠根據這些關聯自動生成新的文本。ChatGPT 正是利用
ChatPDF 研究生福音!ChatPDF是一個基於ChatGPT所開發的應用工具,可以讓使用者將PDF文件上傳至系統,並透過問答的方式,輕鬆地尋找想要的資訊。ReaderGPT 是一個經由 Google Chrome 安裝使用的 Plugin / Extension (擴充功能),快速生成摘要。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
ChatGPT 4o 是一個強大的AI服務,提供了免費版和付費版的服務。付費用戶除了享有流量優先權外,還擁有更精確的回覆和更多功能,像是理解圖片、個性化設定、記憶功能等。本文將探討付費用戶的優勢,並提供了適合啟用付費版的人群。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
前年2022年11月OpenAI公司發表了ChatGPT,並開放ChatGPT-3.5在網路上供人免費下載試用,瞬間引爆了人工智慧的話題,能夠自我學習的ChatGPT以每天可見的變化在進步,讓人見識到人工智能的學習力,隨後OpenAI發表的GPT-4,讓人見識到GPT這個人工智慧系統有著令人驚訝的智
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
ChatGPT的問世改變了全球,其強大的人工智慧功能在寫作、翻譯、編程和解決問題方面表現出色。然而,用戶需選擇付費版或免費版,決定了他們能否使用到更強大的估能。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
從ChatGPT 4.0到GPTs 我是ChatGPT 4.0的付費使用者,說真格的,自從付費之後,就不想退出了,因為真是好用。 最近,ChatGPT 4.0又提供了GPTs的服務...... 有時候別人邀請我演講,我都會先溝通需求,有一次,某間學校邀請我對學生分享ChatGPT等生成式人工智
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
OpenAI最近進行了重大更新,ChatGPT-4o將開放給所有用戶,具備更強的理解力和出色的長文、邏輯能力等功能。新版本增加了上傳圖片的選項,更換模型功能,並進行了功能測試。本文將針對用戶的實際體驗進行測評。
Thumbnail
ChatGPT 4o 是一個強大的AI服務,提供了免費版和付費版的服務。付費用戶除了享有流量優先權外,還擁有更精確的回覆和更多功能,像是理解圖片、個性化設定、記憶功能等。本文將探討付費用戶的優勢,並提供了適合啟用付費版的人群。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT新模型GPT-4o即將推出,速度更快,並支援處理影片以及多種語言。免費用戶也可以使用ChatBots,而付費版本則限制頻寬並提高至原本的5倍。此外,還將推出ChatGPT桌面應用程式,讓使用者在電腦上進行各項工作時,更輕鬆地使用ChatGPT。
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
前年2022年11月OpenAI公司發表了ChatGPT,並開放ChatGPT-3.5在網路上供人免費下載試用,瞬間引爆了人工智慧的話題,能夠自我學習的ChatGPT以每天可見的變化在進步,讓人見識到人工智能的學習力,隨後OpenAI發表的GPT-4,讓人見識到GPT這個人工智慧系統有著令人驚訝的智
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
ChatGPT的問世改變了全球,其強大的人工智慧功能在寫作、翻譯、編程和解決問題方面表現出色。然而,用戶需選擇付費版或免費版,決定了他們能否使用到更強大的估能。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
從ChatGPT 4.0到GPTs 我是ChatGPT 4.0的付費使用者,說真格的,自從付費之後,就不想退出了,因為真是好用。 最近,ChatGPT 4.0又提供了GPTs的服務...... 有時候別人邀請我演講,我都會先溝通需求,有一次,某間學校邀請我對學生分享ChatGPT等生成式人工智