2023-10-18|閱讀時間 ‧ 約 0 分鐘

當ChatGPT 重新嘗試UPSC 時

今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。

但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。最值得注意的是,OpenAI發布了GPT4,這是迄今為止最先進的大型語言模型(LLM)。

ChatGPT的先前版本由GPT3.5提供支持,幾個月前,OpenAI透過ChatGPT Plus訪問GPT-4 。


再次對GPT4進行了相同的實驗,但這次,我們向GPT-100 提出了相同的4 個問題,這次,它答對了86 個問題。


雖然前一年(2021 年)的截止值為87.54 分,但僅考慮試卷1,GPT-4 得分為162.76 分,這意味著ChatGPT Plus(由GPT-4 提供支援)通過了UPSC。


在先前的實驗中,ChatGPT 給了46 個錯誤的答案,從這個角度來看,我們看到GPT-4 有了巨大的改進,因為它只答錯了14 個答案。話雖如此,這也不是完全出乎意料的事情。


OpenAI在發布GPT-4的技術論文時,沒有提到任何關於架構(包括模型大小)、硬體、訓練計算、資料集建構、訓練方法等信息,引起了研究人員的軒然。


但有趣的是,OpenAI確實透露,他們在各種基準測試上測試了GPT-4,包括模擬最初為人類設計的考試。

在技​​術論文中,OpenAI也指出,GPT-4在大多數測驗考試中的表現優於GPT-3.5(ChatGPT)。因此,GPT-4 在UPSC 中的得分高於ChatGPT 也就不足為奇了。


此外,重要的是要注意,這只是一個有趣的實驗,不應該根據這些結果做出具體的判斷。


雖然GPT-4 通過了GRE 和LSAT 等考試,但它在英國文學中失敗了。同樣,ChatGPT 儘管擁有世界上所有的知識,但在為六年級學生設計的考試中失敗了。


最後,同樣重要的是要注意,透過更改查詢,我們可以提示GPT-4 得出準確的回應。這意味著在某些情況下,改寫相同的問題可能會導致GPT-4 提供正確的答案,反之亦然。但是,在實驗中,只考慮了機器人的初始反應。


分享至
成為作者繼續創作的動力吧!
從 Google News 追蹤更多 vocus 的最新精選內容從 Google News 追蹤更多 vocus 的最新精選內容

作者的相關文章

男子漢聊AI的沙龍 的其他內容

你可能也想看

發表回應

成為會員 後即可發表留言
© 2024 vocus All rights reserved.