【ChatGPT 系列】ChatGPT 不準了?AI 準確度會隨著時間變化嗎?

更新於 2024/01/10閱讀時間約 5 分鐘

ChatGPT 已經問世接近一年,許多公司、學校也開始使用這項服務,無論是出自於娛樂,甚至與 ChatGPT 共同協作,加速自己原先的工作流程,ChatGPT 已經慢慢改變著人們的工作型態。而除此之外,更多樣化的大型語言模型(Large Language Model, 簡稱 LLM)也相繼發佈,皆成為了 AI 路上 ChatGPT 的競爭者。前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!

儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論,然而,了解大型語言模型是否因為時間而有所變化,是這份研究主要想表達的重要觀點

…our findings shows that the behavior of the “same” LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality. (大型語言模型可能在短時間內發生許多變化,因此了解它的變化相當重要。)

這篇研究由史丹佛大學的資訊學院的教授James Zou、Matei Zaharia和學生Lingjiao Chen 共同完成。研究中提到,他們將任務分成四個種類:數學題、回答用詞的敏感題目、程式碼生成、視覺推理,得到相當有趣的結果。

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。(Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.)

作者透過四個任務檢驗不同時期的 GPT-3.5 與 GPT-4 是否「效能」有所影響。(Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.)

以數學題為例,他們詢問 ChatGPT 一系列「某數是否為質數(prime)」的問題,並請 ChatGPT 一步一步邏輯推理出結果。他們發現,GPT-4 在三月的準確率從 97.6% 下降到六月的 2.4%,而 GPT-3.5 的準確率則從 7.4% 大幅提升至 86.8%,不過 GPT-4 的回答變得更加簡潔。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

又如同生成程式碼,GPT-4在三月的可直接執行生成數量超過50%,但在六月只有10%。GPT-3.5的趨勢也類似。而兩個模型的回覆也顯得更加冗長。

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

Chen, L., Zaharia, M., & Zou, J. (2023). How is ChatGPT's behavior changing over time?. arXiv preprint arXiv:2307.09009.

然而,以這兩個為例,也馬上遭到另一派人馬反駁

普林斯頓大學資訊工程教授 Arvind Narayanan 撰文寫出不同想法。他提到,這篇研究為了檢驗兩個模型的效能差異,是去看兩個模型所生成程式碼「是否可以執行」,然而,新模型提供更多的註解、引導,若只針對是否可執行進行評估,這些 GPT-4 所額外做的指導就可能被忽視了。

另外,針對數學題,有人也提到選擇使用「某數是否為質數」作為題目相當奇怪,且他們挑選題目的正確答案皆為「是」。而如果在質數這個命題框架下,去詢問ChatGPT其他的問題組合,例如「某數是否為合數」,發現得到截然不同的統計結果


儘管兩篇持不同觀點,但其實都表達相同的一件事情:前篇研究提到,研究結果表明,在相對短的時間內,GPT-3.5和GPT-4的行為有顯著的變化,凸顯了在應用大型語言模型的過程中,持續評估語言模型的行為有其必要性;後篇也認為這是一個相當有價值的省思。

這些大型語言模型是否因為使用者使用了一陣子過後行為可能有所改變,是時候應該好好評估與研究。「穩定的 AI」才能給予人類穩定的工作效率與成果,而要如何公平的量化評估、監測這些模型的行為與效能,目前仍沒有統一的黃金準則。

The pitfalls we uncovered are a reminder of how hard it is to quantitatively evaluate language models.
不過,史丹佛的研究(前篇)有附上 Github 連結,也歡迎大家一同做實驗看看:https://github.com/lchen001/LLMDrift
avatar-img
64會員
74內容數
加入沙龍追蹤 CT 更多文章!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
CT 的其他內容
如何設定「延伸螢幕」還是「同步螢幕(鏡像螢幕)」?Mac 在切換延伸螢幕與同步螢幕(Mac其實是稱為「鏡像模式」),只要先後按下「command +F1」;Windows 先後按下「Windows + P」,就會跳出選單,讓使用者可以選定所想要的模式。
睽違一個月,Google Bard 迎來最新更新,此次一次更新許多重要功能,包含支援繁體中文、整合 Google Lens 服務提供使用者上傳圖片、語音朗讀以及其他功能增強等。
Google 於前日(5月23日)公布最新的聊天機器人 Bard 更新:Bard 現在可以與 Google 搜尋引擎互動,依據使用者需求呈現圖片,以圖片形式提供有用的回應。換句話說,使用者可以直接向 Bard 搜尋圖片。每次提供圖片時,Bard 都會附上圖片來源。
此篇也直接幫大家整理目前台灣此時此刻馬上可以使用的功能有哪些,以及那些炫砲AI何時能運用到實際場域?Bard 是一個由 Google 所開發的聊天機器人,原先以 LaMDA 的大型語言模型為基礎所建立。臺灣時間5/11 Google 發表全新 Bard 更新。
ChatGPT 是一款基於 GPT 技術的自然語言處理工具。那 GPT 是什麼呢?GPT 指的是 Generative Pre-trained Transformer,它是一種神經網絡模型,能夠處理自然語言的文本數據,學習文本之間的關聯,並且能夠根據這些關聯自動生成新的文本。ChatGPT 正是利用
ChatPDF 研究生福音!ChatPDF是一個基於ChatGPT所開發的應用工具,可以讓使用者將PDF文件上傳至系統,並透過問答的方式,輕鬆地尋找想要的資訊。ReaderGPT 是一個經由 Google Chrome 安裝使用的 Plugin / Extension (擴充功能),快速生成摘要。
如何設定「延伸螢幕」還是「同步螢幕(鏡像螢幕)」?Mac 在切換延伸螢幕與同步螢幕(Mac其實是稱為「鏡像模式」),只要先後按下「command +F1」;Windows 先後按下「Windows + P」,就會跳出選單,讓使用者可以選定所想要的模式。
睽違一個月,Google Bard 迎來最新更新,此次一次更新許多重要功能,包含支援繁體中文、整合 Google Lens 服務提供使用者上傳圖片、語音朗讀以及其他功能增強等。
Google 於前日(5月23日)公布最新的聊天機器人 Bard 更新:Bard 現在可以與 Google 搜尋引擎互動,依據使用者需求呈現圖片,以圖片形式提供有用的回應。換句話說,使用者可以直接向 Bard 搜尋圖片。每次提供圖片時,Bard 都會附上圖片來源。
此篇也直接幫大家整理目前台灣此時此刻馬上可以使用的功能有哪些,以及那些炫砲AI何時能運用到實際場域?Bard 是一個由 Google 所開發的聊天機器人,原先以 LaMDA 的大型語言模型為基礎所建立。臺灣時間5/11 Google 發表全新 Bard 更新。
ChatGPT 是一款基於 GPT 技術的自然語言處理工具。那 GPT 是什麼呢?GPT 指的是 Generative Pre-trained Transformer,它是一種神經網絡模型,能夠處理自然語言的文本數據,學習文本之間的關聯,並且能夠根據這些關聯自動生成新的文本。ChatGPT 正是利用
ChatPDF 研究生福音!ChatPDF是一個基於ChatGPT所開發的應用工具,可以讓使用者將PDF文件上傳至系統,並透過問答的方式,輕鬆地尋找想要的資訊。ReaderGPT 是一個經由 Google Chrome 安裝使用的 Plugin / Extension (擴充功能),快速生成摘要。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
在這篇示範裡面,我將教你如何利用AI繪圖工具Stable Diffusion產生出自己的一整套塔羅牌排組,而且這整套牌組還是套用上自己Training的LORA的,也就是塔羅牌的主角都可以是你或是你身邊的人(或是你的偶像明星),一旦掌握訣竅,用這篇的方法一天以內就可以完成這個工作。
Thumbnail
在面試準備的過程中,我們可能會發現自己對某些領域缺乏相關的專業知識,尤其是廣泛的領域如Marketing更是如此,永遠都有學不完的知識。這時候不需要因為看到陌生的名詞而感到沮喪。相反地,我們可以善用現有的資源,例如 Chat GPT 等實用軟體,從網路上輕鬆獲得所需的知識,以增強自己的硬實力。
Thumbnail
本文介紹了如何使用 Chat GPT 進行面試準備,以提高面試成功率。同時,使用 Chat GPT 還能幫助你製作出更有組織性的文章,讓你的回答更易於閱讀和理解。儘管 Chat GPT 提供了有價值的輔助,成功仍然取決於面試者本身的充分準備和自信,只有這樣才能在面試中脫穎而出。
Thumbnail
OpenAI 是一家成立於 2015 年的人工智能研究公司,總部位於美國加利福尼亞州舊金山,創始人包括 Tesla 和 SpaceX 的 CEO Elon Musk、PayPal 創始人 Peter Thiel、LinkedIn 的聯合創始人 Reid Hoffman....
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
要將 ChatGPT 用得好,關鍵是學會輸入清楚的指令(Prompt)。可惜我發現,多數人的指令都非常模糊,因此得到的結果也非常的...悲劇。分享 3 個訣竅寫出清楚的 ChatGPT 指令,並得到滿意的回答結果。
Thumbnail
現在這個充滿GPT開箱的年代,做什麼實測都感覺落伍。不過我覺得本文這兩個實測,即便不是最新穎,也算是方便好用且有益於生產力。 工作中,對我來說最困難的事情,就是快速量產。這裡寫兩個使用ChatGPT的案例,一個是寫作,一個是寫程式。後者是我的工作,我讓GPT融入我日常工作。 而下面二個實例,純展示結
Thumbnail
ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知! 隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道
Thumbnail
我使用 ChatGPT 已經超過 1 個月了,極度關注 ChatGPT 的相關新聞。我發現網路與報章雜誌上都開始報導 ChatGPT 這款工具,但多數人還是不瞭解這款工具可以如何幫助我們。如果不了解 ChatGPT 的細節,我們就只能「聽說」這款工具很厲害,但卻無法為己所用。這篇文章分享 3 個快速
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
在這篇示範裡面,我將教你如何利用AI繪圖工具Stable Diffusion產生出自己的一整套塔羅牌排組,而且這整套牌組還是套用上自己Training的LORA的,也就是塔羅牌的主角都可以是你或是你身邊的人(或是你的偶像明星),一旦掌握訣竅,用這篇的方法一天以內就可以完成這個工作。
Thumbnail
在面試準備的過程中,我們可能會發現自己對某些領域缺乏相關的專業知識,尤其是廣泛的領域如Marketing更是如此,永遠都有學不完的知識。這時候不需要因為看到陌生的名詞而感到沮喪。相反地,我們可以善用現有的資源,例如 Chat GPT 等實用軟體,從網路上輕鬆獲得所需的知識,以增強自己的硬實力。
Thumbnail
本文介紹了如何使用 Chat GPT 進行面試準備,以提高面試成功率。同時,使用 Chat GPT 還能幫助你製作出更有組織性的文章,讓你的回答更易於閱讀和理解。儘管 Chat GPT 提供了有價值的輔助,成功仍然取決於面試者本身的充分準備和自信,只有這樣才能在面試中脫穎而出。
Thumbnail
OpenAI 是一家成立於 2015 年的人工智能研究公司,總部位於美國加利福尼亞州舊金山,創始人包括 Tesla 和 SpaceX 的 CEO Elon Musk、PayPal 創始人 Peter Thiel、LinkedIn 的聯合創始人 Reid Hoffman....
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
要將 ChatGPT 用得好,關鍵是學會輸入清楚的指令(Prompt)。可惜我發現,多數人的指令都非常模糊,因此得到的結果也非常的...悲劇。分享 3 個訣竅寫出清楚的 ChatGPT 指令,並得到滿意的回答結果。
Thumbnail
現在這個充滿GPT開箱的年代,做什麼實測都感覺落伍。不過我覺得本文這兩個實測,即便不是最新穎,也算是方便好用且有益於生產力。 工作中,對我來說最困難的事情,就是快速量產。這裡寫兩個使用ChatGPT的案例,一個是寫作,一個是寫程式。後者是我的工作,我讓GPT融入我日常工作。 而下面二個實例,純展示結
Thumbnail
ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知! 隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道
Thumbnail
我使用 ChatGPT 已經超過 1 個月了,極度關注 ChatGPT 的相關新聞。我發現網路與報章雜誌上都開始報導 ChatGPT 這款工具,但多數人還是不瞭解這款工具可以如何幫助我們。如果不了解 ChatGPT 的細節,我們就只能「聽說」這款工具很厲害,但卻無法為己所用。這篇文章分享 3 個快速