付費限定

當ChatGPT 重新嘗試UPSC 時

更新 發佈閱讀 2 分鐘

今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。

但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。最值得注意的是,OpenAI發布了GPT4,這是迄今為止最先進的大型語言模型(LLM)。

ChatGPT的先前版本由GPT3.5提供支持,幾個月前,OpenAI透過ChatGPT Plus訪問GPT-4 。


再次對GPT4進行了相同的實驗,但這次,我們向GPT-100 提出了相同的4 個問題,這次,它答對了86 個問題。


雖然前一年(2021 年)的截止值為87.54 分,但僅考慮試卷1,GPT-4 得分為162.76 分,這意味著ChatGPT Plus(由GPT-4 提供支援)通過了UPSC。


在先前的實驗中,ChatGPT 給了46 個錯誤的答案,從這個角度來看,我們看到GPT-4 有了巨大的改進,因為它只答錯了14 個答案。話雖如此,這也不是完全出乎意料的事情。


OpenAI在發布GPT-4的技術論文時,沒有提到任何關於架構(包括模型大小)、硬體、訓練計算、資料集建構、訓練方法等信息,引起了研究人員的軒然。


但有趣的是,OpenAI確實透露,他們在各種基準測試上測試了GPT-4,包括模擬最初為人類設計的考試。

raw-image

在技​​術論文中,OpenAI也指出,GPT-4在大多數測驗考試中的表現優於GPT-3.5(ChatGPT)。因此,GPT-4 在UPSC 中的得分高於ChatGPT 也就不足為奇了。


此外,重要的是要注意,這只是一個有趣的實驗,不應該根據這些結果做出具體的判斷。


雖然GPT-4 通過了GRE 和LSAT 等考試,但它在英國文學中失敗了。同樣,ChatGPT 儘管擁有世界上所有的知識,但在為六年級學生設計的考試中失敗了。


最後,同樣重要的是要注意,透過更改查詢,我們可以提示GPT-4 得出準確的回應。這意味著在某些情況下,改寫相同的問題可能會導致GPT-4 提供正確的答案,反之亦然。但是,在實驗中,只考慮了機器人的初始反應。


創作者正在準備中
請加入 男子漢聊AI的沙龍 了解最新動態!
留言
avatar-img
男子漢聊AI的沙龍
43會員
186內容數
「秒懂AI提問指令」是您AI學習的社群首選,擁有專業的ChatGPT、MidJourney及stable diffusion知識分享。這裡不僅是學習AI內容的最佳平台,更是實戰與資源的寶庫。讓人工智能成為你的效率神器,助您深入了解AI各種面向。更重要的是,我們的社群中聚集了大量AI極客,讓您有機會與同好一同交流、學習。
2023/10/18
Hama:https://www.hama.app/zh 使用感受:非常方便智慧,並且免費。不會使用ps的夥伴一定要嘗試下。 借助AI將圖片不需要的某些元素完美消除,並通過演算法自動修補殘缺的部分,達到毫無修補痕跡的效果。
Thumbnail
2023/10/18
Hama:https://www.hama.app/zh 使用感受:非常方便智慧,並且免費。不會使用ps的夥伴一定要嘗試下。 借助AI將圖片不需要的某些元素完美消除,並通過演算法自動修補殘缺的部分,達到毫無修補痕跡的效果。
Thumbnail
2023/10/18
Heypi 使用感受:介面非常簡潔、乾淨。使用起來很方便,而且免費。需要的小夥伴快去體驗吧~體驗地址在最後~ Pi是一種新型AI,能夠以自然、流暢的風格進行對話。並且能夠提供友善的建議和簡潔的資訊。優先處理與人的對話,提高工作效率、搜尋或回答問題。
Thumbnail
2023/10/18
Heypi 使用感受:介面非常簡潔、乾淨。使用起來很方便,而且免費。需要的小夥伴快去體驗吧~體驗地址在最後~ Pi是一種新型AI,能夠以自然、流暢的風格進行對話。並且能夠提供友善的建議和簡潔的資訊。優先處理與人的對話,提高工作效率、搜尋或回答問題。
Thumbnail
2023/10/18
從推出至今,Transformer 已成為眾多模型的核心模組,例如大家熟悉的BERT、T5 等都有Transformer 的身影。 就連近段時間爆火的ChatGPT 也依賴Transformer,後者早已被Google申請了專利。
Thumbnail
2023/10/18
從推出至今,Transformer 已成為眾多模型的核心模組,例如大家熟悉的BERT、T5 等都有Transformer 的身影。 就連近段時間爆火的ChatGPT 也依賴Transformer,後者早已被Google申請了專利。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
自從ChatGPT更新到第四版,討論度更甚以往。在回應內容品質提升的同時,大家開始擔心它對學習的影響。以評量為例,我對ChatGPT帶來的影響並不悲觀。
Thumbnail
自從ChatGPT更新到第四版,討論度更甚以往。在回應內容品質提升的同時,大家開始擔心它對學習的影響。以評量為例,我對ChatGPT帶來的影響並不悲觀。
Thumbnail
大部分人對chatGPT 既驚喜又懼怕,由11月30日推出至今卻愈來愈多人發生問題,我想在這裡簡易講述它的缺點並且提供其中一個解決方法。
Thumbnail
大部分人對chatGPT 既驚喜又懼怕,由11月30日推出至今卻愈來愈多人發生問題,我想在這裡簡易講述它的缺點並且提供其中一個解決方法。
Thumbnail
GPT-4.0(生成型預訓練變換模型4.0)在台灣時間2023年3月16日發表於youtube網站,並詳細描述了這次不同於先前的GPT-3.5有哪些不一樣的功能。僅僅一天,影片就迎來了192萬次的觀看。那麼,這次的發表有哪些重點呢?AI是否又更進化了?我們就來瞧瞧。
Thumbnail
GPT-4.0(生成型預訓練變換模型4.0)在台灣時間2023年3月16日發表於youtube網站,並詳細描述了這次不同於先前的GPT-3.5有哪些不一樣的功能。僅僅一天,影片就迎來了192萬次的觀看。那麼,這次的發表有哪些重點呢?AI是否又更進化了?我們就來瞧瞧。
Thumbnail
ChatGPT依舊火熱,最近這幾天能這風潮PK的除了黑暗榮耀第二季開播、剛結束的WBC的台灣賽事、美國BVD倒閉風暴外...好像日常重點還是圍繞生成式Ai究竟還能多強大。Samuel H. Altman完全不給對手追上的機會,OpenAi於美國時間3/14 更新釋出ChatGPT4
Thumbnail
ChatGPT依舊火熱,最近這幾天能這風潮PK的除了黑暗榮耀第二季開播、剛結束的WBC的台灣賽事、美國BVD倒閉風暴外...好像日常重點還是圍繞生成式Ai究竟還能多強大。Samuel H. Altman完全不給對手追上的機會,OpenAi於美國時間3/14 更新釋出ChatGPT4
Thumbnail
學生使用Chat GPT就是偷懶嗎? 這篇文章不但要求Chat GPT挑戰112年學測英文作文,同時要求他評分、批改、改寫、教學,甚至寫範文,評價自己寫的範文,這些挑戰他都能做到嗎? 當AI的能力已經可以取代人類的智力,該做的是利用他,還是禁止他?
Thumbnail
學生使用Chat GPT就是偷懶嗎? 這篇文章不但要求Chat GPT挑戰112年學測英文作文,同時要求他評分、批改、改寫、教學,甚至寫範文,評價自己寫的範文,這些挑戰他都能做到嗎? 當AI的能力已經可以取代人類的智力,該做的是利用他,還是禁止他?
Thumbnail
今天文章目的很簡單,就是要其他的題目考倒Chat GPT!證明人類還沒有輸!!不過我知道正常考Chat GPT肯定是不行的,人類根本不是對手,這次就要來玩陰的,用六個題目考倒Chat GPT!!進來看看這場Chat GPT跟人類最終之戰!!
Thumbnail
今天文章目的很簡單,就是要其他的題目考倒Chat GPT!證明人類還沒有輸!!不過我知道正常考Chat GPT肯定是不行的,人類根本不是對手,這次就要來玩陰的,用六個題目考倒Chat GPT!!進來看看這場Chat GPT跟人類最終之戰!!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News