付費限定

當ChatGPT 重新嘗試UPSC 時

閱讀時間約 2 分鐘

今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。

但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。最值得注意的是,OpenAI發布了GPT4,這是迄今為止最先進的大型語言模型(LLM)。

ChatGPT的先前版本由GPT3.5提供支持,幾個月前,OpenAI透過ChatGPT Plus訪問GPT-4 。


再次對GPT4進行了相同的實驗,但這次,我們向GPT-100 提出了相同的4 個問題,這次,它答對了86 個問題。


雖然前一年(2021 年)的截止值為87.54 分,但僅考慮試卷1,GPT-4 得分為162.76 分,這意味著ChatGPT Plus(由GPT-4 提供支援)通過了UPSC。


在先前的實驗中,ChatGPT 給了46 個錯誤的答案,從這個角度來看,我們看到GPT-4 有了巨大的改進,因為它只答錯了14 個答案。話雖如此,這也不是完全出乎意料的事情。


OpenAI在發布GPT-4的技術論文時,沒有提到任何關於架構(包括模型大小)、硬體、訓練計算、資料集建構、訓練方法等信息,引起了研究人員的軒然。


但有趣的是,OpenAI確實透露,他們在各種基準測試上測試了GPT-4,包括模擬最初為人類設計的考試。

raw-image

在技​​術論文中,OpenAI也指出,GPT-4在大多數測驗考試中的表現優於GPT-3.5(ChatGPT)。因此,GPT-4 在UPSC 中的得分高於ChatGPT 也就不足為奇了。


此外,重要的是要注意,這只是一個有趣的實驗,不應該根據這些結果做出具體的判斷。


雖然GPT-4 通過了GRE 和LSAT 等考試,但它在英國文學中失敗了。同樣,ChatGPT 儘管擁有世界上所有的知識,但在為六年級學生設計的考試中失敗了。


最後,同樣重要的是要注意,透過更改查詢,我們可以提示GPT-4 得出準確的回應。這意味著在某些情況下,改寫相同的問題可能會導致GPT-4 提供正確的答案,反之亦然。但是,在實驗中,只考慮了機器人的初始反應。


創作者正在準備中
請加入 男子漢聊AI的沙龍 了解最新動態!
avatar-img
25會員
186內容數
「秒懂AI提問指令」是您AI學習的社群首選,擁有專業的ChatGPT、MidJourney及stable diffusion知識分享。這裡不僅是學習AI內容的最佳平台,更是實戰與資源的寶庫。讓人工智能成為你的效率神器,助您深入了解AI各種面向。更重要的是,我們的社群中聚集了大量AI極客,讓您有機會與同好一同交流、學習。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
男子漢聊AI的沙龍 的其他內容
艾倫人工智慧研究所很高興地宣布,我們正在著手創建一個開放的、最先進的生成語言模型:AI2 OLMo(Open Language Model)。 OLMo 的規模將與其他最先進的大型語言模型相媲美,參數達到70 億個,預計在2024 年初推出。
Meta 已經產生了許多創新的生成式AI 研究,但其中大部分只是介紹給了學術研究人員。5月11日,該公司宣佈為廣告主提供三項生成AI功能。 1.文字變體:產生多個版本的文字來突顯廣告客戶文案的要點,讓廣告客戶可以選擇針對特定受眾嘗試不同的文字。
PicAvatar 是一款能夠在任何風格下為您的應用程式或網站創建驚艷頭像的工具。該工具能夠輕鬆訓練自訂模型,以便根據先前的藝術作品或您自己的臉部生成頭像。頭像儲存在全球熱儲存中,並透過CDN 提供服務,因此您可以輕鬆將它們添加到您的應用程式中。
Therabot 是一種基於人工智慧的治療機器人,旨在幫助使用者識別並解決與AI 的關係中可能出現的問題。透過使用自然語言處理和機器學習技術,Therabot 可以對使用者輸入的資訊進行分析,並提供個人化的治療方案。
Solvemigo 是一款付費的Telegram 機器人,提供了ChatGPT、Dall-E、Whisper 等多種先進的AI 工具,讓您隨時隨地在各種裝置和平台上使用。現在您可以將作家、行銷人員、程式設計師、顧問、藝術家和助手都裝進您的口袋裡了。 Solvemigo 讓使用者可以透過Tele
Smaty 是一款智慧合約開發平台,利用GPT-4 技術,幫助用戶更快地創建、測試和部署智慧合約。它不僅具有高級漏洞檢測功能,還可以簡化單元測試生成,並能快速生成可自訂的React 應用程序,實現無縫的區塊鏈整合。
艾倫人工智慧研究所很高興地宣布,我們正在著手創建一個開放的、最先進的生成語言模型:AI2 OLMo(Open Language Model)。 OLMo 的規模將與其他最先進的大型語言模型相媲美,參數達到70 億個,預計在2024 年初推出。
Meta 已經產生了許多創新的生成式AI 研究,但其中大部分只是介紹給了學術研究人員。5月11日,該公司宣佈為廣告主提供三項生成AI功能。 1.文字變體:產生多個版本的文字來突顯廣告客戶文案的要點,讓廣告客戶可以選擇針對特定受眾嘗試不同的文字。
PicAvatar 是一款能夠在任何風格下為您的應用程式或網站創建驚艷頭像的工具。該工具能夠輕鬆訓練自訂模型,以便根據先前的藝術作品或您自己的臉部生成頭像。頭像儲存在全球熱儲存中,並透過CDN 提供服務,因此您可以輕鬆將它們添加到您的應用程式中。
Therabot 是一種基於人工智慧的治療機器人,旨在幫助使用者識別並解決與AI 的關係中可能出現的問題。透過使用自然語言處理和機器學習技術,Therabot 可以對使用者輸入的資訊進行分析,並提供個人化的治療方案。
Solvemigo 是一款付費的Telegram 機器人,提供了ChatGPT、Dall-E、Whisper 等多種先進的AI 工具,讓您隨時隨地在各種裝置和平台上使用。現在您可以將作家、行銷人員、程式設計師、顧問、藝術家和助手都裝進您的口袋裡了。 Solvemigo 讓使用者可以透過Tele
Smaty 是一款智慧合約開發平台,利用GPT-4 技術,幫助用戶更快地創建、測試和部署智慧合約。它不僅具有高級漏洞檢測功能,還可以簡化單元測試生成,並能快速生成可自訂的React 應用程序,實現無縫的區塊鏈整合。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
在這次新加坡旅遊中,我放棄了與朋友坐一起,最終卻意外體驗了無與倫比的飛行時光。在飛行的過程中體會到了脫離常理的快樂,與朋友分開坐的安排,反而消除了社交壓力,讓我發現不理想的選擇有時能帶來意想不到的好處。這次經歷讓我認識到,偶爾跳脫常規的選擇,也能為我們的旅程帶來新的體悟。
Thumbnail
最近AI用多了,發現真的超越人腦太多。未來書面上的設計與知識都不再重要,前提是你要能掌握資源物料與真的實作技術,才能在AI的世界下,有一個位置。 使用Chatgpt然後輸入:芳香學Aromachology 整體文章如下: 芳香學(Aromachology)是研究香氣
Thumbnail
AI火爆,冠軍榜單流行歌《蜃樓》也反思AI將會給人類帶來的困惑。網上看到這二創MV是透過《與神對話》的摘句,反映眾人的靈魂拷問與生命大哉問。之前就讀過整套《與神對話》,因為太喜歡了,還去Google圖書買了中文版電子書,這世道能把前衛藝術與傳統人性價值,甚至生命靈性,完全融合得很好的,我都佩服。推!
Thumbnail
臺灣從2023年初到現今,已出現許多ChatGPT應用在各個領域的內容與經驗分享,而本文則從將ChatGPT執行新聞下標與摘要人員的實作中,去回應ChatGPT應用在新聞產業上,目前能做到哪些事情?以及透過這些運用的經驗去反思ChatGPT對於新聞產業的影響。 讓ChatGPT執行下標新聞內容
Thumbnail
提示詞: 你是我的運營顧問,我目前在做【工作】,主要通過【手段】【手段】來完成。請幫助我優化在{主要問題1}和{主要問題2}方面的問題。我希望你能幫我分析問題原因,並建立一個高效的{工作週期}運營流程SOP。
Thumbnail
人到中年,總是有些年輕時的夢想沒有實現,而現在是嘗試實現一些些夢想的時候了。而我年少時最大的夢想,就是認認真真寫一部長篇小說。
Thumbnail
當我們利用Chatgpt做工具來協助創作的過程當中,偶爾總會覺得,似乎內容當中少了一點靈魂,或者說少了點人味。 畢業他在邏輯跟架構上比較擅長,並且富有條理,但需要我們去做一些修正,並去補充一些字詞,讓文字更為順口跟流暢。 我自己的作法是三部份處理: 第一個是在問問題的時候,我們要盡量去要求他在
Thumbnail
生活中難免會遇到困擾。有些話、有些困擾,真的需要: 一個不會外傳的樹洞、一個客觀的傾聽者、 一個能夠提出有建設性回饋的幫助者。 但這樣的對象、管道,真的能..找得到嗎? 一、碰到困擾時可能的抒發求助管道:也許會有後遺症 (一)對親近的人?--可能會造成情緒負擔,並惡化問題 不想造成家人朋友的負擔、
Thumbnail
以前習慣用日文辭典app查資料,還是時常覺得很難查、不清楚、不是我要的答案,我試著把chatGPT拿來當翻譯機,結果,它顛覆我的想像……
美國晶片設計大廠輝達執行長黃仁勳說:我們即將面臨iphone時刻!這代表時代的變遷終於到來,殺手級的商品快出現了 此話一出,對於台積電是利多消息,因為要動用到最新製程2奈米。今年最火熱的產業就是人工智慧,美國的發展就是以微軟帶頭發展底下的open AI的ChatGPT,他多恐怖呢?人家臉書跟You
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
在這次新加坡旅遊中,我放棄了與朋友坐一起,最終卻意外體驗了無與倫比的飛行時光。在飛行的過程中體會到了脫離常理的快樂,與朋友分開坐的安排,反而消除了社交壓力,讓我發現不理想的選擇有時能帶來意想不到的好處。這次經歷讓我認識到,偶爾跳脫常規的選擇,也能為我們的旅程帶來新的體悟。
Thumbnail
最近AI用多了,發現真的超越人腦太多。未來書面上的設計與知識都不再重要,前提是你要能掌握資源物料與真的實作技術,才能在AI的世界下,有一個位置。 使用Chatgpt然後輸入:芳香學Aromachology 整體文章如下: 芳香學(Aromachology)是研究香氣
Thumbnail
AI火爆,冠軍榜單流行歌《蜃樓》也反思AI將會給人類帶來的困惑。網上看到這二創MV是透過《與神對話》的摘句,反映眾人的靈魂拷問與生命大哉問。之前就讀過整套《與神對話》,因為太喜歡了,還去Google圖書買了中文版電子書,這世道能把前衛藝術與傳統人性價值,甚至生命靈性,完全融合得很好的,我都佩服。推!
Thumbnail
臺灣從2023年初到現今,已出現許多ChatGPT應用在各個領域的內容與經驗分享,而本文則從將ChatGPT執行新聞下標與摘要人員的實作中,去回應ChatGPT應用在新聞產業上,目前能做到哪些事情?以及透過這些運用的經驗去反思ChatGPT對於新聞產業的影響。 讓ChatGPT執行下標新聞內容
Thumbnail
提示詞: 你是我的運營顧問,我目前在做【工作】,主要通過【手段】【手段】來完成。請幫助我優化在{主要問題1}和{主要問題2}方面的問題。我希望你能幫我分析問題原因,並建立一個高效的{工作週期}運營流程SOP。
Thumbnail
人到中年,總是有些年輕時的夢想沒有實現,而現在是嘗試實現一些些夢想的時候了。而我年少時最大的夢想,就是認認真真寫一部長篇小說。
Thumbnail
當我們利用Chatgpt做工具來協助創作的過程當中,偶爾總會覺得,似乎內容當中少了一點靈魂,或者說少了點人味。 畢業他在邏輯跟架構上比較擅長,並且富有條理,但需要我們去做一些修正,並去補充一些字詞,讓文字更為順口跟流暢。 我自己的作法是三部份處理: 第一個是在問問題的時候,我們要盡量去要求他在
Thumbnail
生活中難免會遇到困擾。有些話、有些困擾,真的需要: 一個不會外傳的樹洞、一個客觀的傾聽者、 一個能夠提出有建設性回饋的幫助者。 但這樣的對象、管道,真的能..找得到嗎? 一、碰到困擾時可能的抒發求助管道:也許會有後遺症 (一)對親近的人?--可能會造成情緒負擔,並惡化問題 不想造成家人朋友的負擔、
Thumbnail
以前習慣用日文辭典app查資料,還是時常覺得很難查、不清楚、不是我要的答案,我試著把chatGPT拿來當翻譯機,結果,它顛覆我的想像……
美國晶片設計大廠輝達執行長黃仁勳說:我們即將面臨iphone時刻!這代表時代的變遷終於到來,殺手級的商品快出現了 此話一出,對於台積電是利多消息,因為要動用到最新製程2奈米。今年最火熱的產業就是人工智慧,美國的發展就是以微軟帶頭發展底下的open AI的ChatGPT,他多恐怖呢?人家臉書跟You