付費限定

當ChatGPT 重新嘗試UPSC 時

更新於 發佈於 閱讀時間約 2 分鐘

今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。

但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。最值得注意的是,OpenAI發布了GPT4,這是迄今為止最先進的大型語言模型(LLM)。

ChatGPT的先前版本由GPT3.5提供支持,幾個月前,OpenAI透過ChatGPT Plus訪問GPT-4 。


再次對GPT4進行了相同的實驗,但這次,我們向GPT-100 提出了相同的4 個問題,這次,它答對了86 個問題。


雖然前一年(2021 年)的截止值為87.54 分,但僅考慮試卷1,GPT-4 得分為162.76 分,這意味著ChatGPT Plus(由GPT-4 提供支援)通過了UPSC。


在先前的實驗中,ChatGPT 給了46 個錯誤的答案,從這個角度來看,我們看到GPT-4 有了巨大的改進,因為它只答錯了14 個答案。話雖如此,這也不是完全出乎意料的事情。


OpenAI在發布GPT-4的技術論文時,沒有提到任何關於架構(包括模型大小)、硬體、訓練計算、資料集建構、訓練方法等信息,引起了研究人員的軒然。


但有趣的是,OpenAI確實透露,他們在各種基準測試上測試了GPT-4,包括模擬最初為人類設計的考試。

raw-image

在技​​術論文中,OpenAI也指出,GPT-4在大多數測驗考試中的表現優於GPT-3.5(ChatGPT)。因此,GPT-4 在UPSC 中的得分高於ChatGPT 也就不足為奇了。


此外,重要的是要注意,這只是一個有趣的實驗,不應該根據這些結果做出具體的判斷。


雖然GPT-4 通過了GRE 和LSAT 等考試,但它在英國文學中失敗了。同樣,ChatGPT 儘管擁有世界上所有的知識,但在為六年級學生設計的考試中失敗了。


最後,同樣重要的是要注意,透過更改查詢,我們可以提示GPT-4 得出準確的回應。這意味著在某些情況下,改寫相同的問題可能會導致GPT-4 提供正確的答案,反之亦然。但是,在實驗中,只考慮了機器人的初始反應。


創作者正在準備中
請加入 男子漢聊AI的沙龍 了解最新動態!
留言
avatar-img
留言分享你的想法!
avatar-img
男子漢聊AI的沙龍
38會員
186內容數
「秒懂AI提問指令」是您AI學習的社群首選,擁有專業的ChatGPT、MidJourney及stable diffusion知識分享。這裡不僅是學習AI內容的最佳平台,更是實戰與資源的寶庫。讓人工智能成為你的效率神器,助您深入了解AI各種面向。更重要的是,我們的社群中聚集了大量AI極客,讓您有機會與同好一同交流、學習。
2023/10/18
Hama:https://www.hama.app/zh 使用感受:非常方便智慧,並且免費。不會使用ps的夥伴一定要嘗試下。 借助AI將圖片不需要的某些元素完美消除,並通過演算法自動修補殘缺的部分,達到毫無修補痕跡的效果。
Thumbnail
2023/10/18
Hama:https://www.hama.app/zh 使用感受:非常方便智慧,並且免費。不會使用ps的夥伴一定要嘗試下。 借助AI將圖片不需要的某些元素完美消除,並通過演算法自動修補殘缺的部分,達到毫無修補痕跡的效果。
Thumbnail
2023/10/18
Heypi 使用感受:介面非常簡潔、乾淨。使用起來很方便,而且免費。需要的小夥伴快去體驗吧~體驗地址在最後~ Pi是一種新型AI,能夠以自然、流暢的風格進行對話。並且能夠提供友善的建議和簡潔的資訊。優先處理與人的對話,提高工作效率、搜尋或回答問題。
Thumbnail
2023/10/18
Heypi 使用感受:介面非常簡潔、乾淨。使用起來很方便,而且免費。需要的小夥伴快去體驗吧~體驗地址在最後~ Pi是一種新型AI,能夠以自然、流暢的風格進行對話。並且能夠提供友善的建議和簡潔的資訊。優先處理與人的對話,提高工作效率、搜尋或回答問題。
Thumbnail
2023/10/18
從推出至今,Transformer 已成為眾多模型的核心模組,例如大家熟悉的BERT、T5 等都有Transformer 的身影。 就連近段時間爆火的ChatGPT 也依賴Transformer,後者早已被Google申請了專利。
Thumbnail
2023/10/18
從推出至今,Transformer 已成為眾多模型的核心模組,例如大家熟悉的BERT、T5 等都有Transformer 的身影。 就連近段時間爆火的ChatGPT 也依賴Transformer,後者早已被Google申請了專利。
Thumbnail
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
ChatGPT上線已經一年多了,連GPT-4上架到市面上販售也都一年了,眾所周知ChatGPT就是GPT-3.5,而微軟的搜尋引擎Bing使用的是GPT-4,那針對同一個問題,3.5的版本與4.0的版本在回答上會做出什麼樣的差別?她們在智力上有明顯的差別嗎?她們面對問題的思考上有什麼不一樣呢?
Thumbnail
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
聊天機器人 ChatGPT 開發團隊 OpenAI 昨天(2023/11/7)臺灣時間凌晨迎來首次的開發者大會(DevDay),除了發表全新的「GPT-4 Turbo」模型、將許多全新 ChatGPT 功能釋出給開發者外,針對一般使用者付費使用的 ChatGPT 也全面更新。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
今年二月,第一次嘗試人工智慧聊天機器人ChatGPT 嘗試UPSC(被廣泛認為是世界上最難考試之一)時,它慘遭失敗。ChatGPT 無法通過UPSC 預賽,使許多人為自己感到驕傲。 但是,自從我們做了這個故事以來,人工智慧世界發生了許多新的更新和發展。
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
自從ChatGPT更新到第四版,討論度更甚以往。在回應內容品質提升的同時,大家開始擔心它對學習的影響。以評量為例,我對ChatGPT帶來的影響並不悲觀。
Thumbnail
自從ChatGPT更新到第四版,討論度更甚以往。在回應內容品質提升的同時,大家開始擔心它對學習的影響。以評量為例,我對ChatGPT帶來的影響並不悲觀。
Thumbnail
大部分人對chatGPT 既驚喜又懼怕,由11月30日推出至今卻愈來愈多人發生問題,我想在這裡簡易講述它的缺點並且提供其中一個解決方法。
Thumbnail
大部分人對chatGPT 既驚喜又懼怕,由11月30日推出至今卻愈來愈多人發生問題,我想在這裡簡易講述它的缺點並且提供其中一個解決方法。
Thumbnail
GPT-4.0(生成型預訓練變換模型4.0)在台灣時間2023年3月16日發表於youtube網站,並詳細描述了這次不同於先前的GPT-3.5有哪些不一樣的功能。僅僅一天,影片就迎來了192萬次的觀看。那麼,這次的發表有哪些重點呢?AI是否又更進化了?我們就來瞧瞧。
Thumbnail
GPT-4.0(生成型預訓練變換模型4.0)在台灣時間2023年3月16日發表於youtube網站,並詳細描述了這次不同於先前的GPT-3.5有哪些不一樣的功能。僅僅一天,影片就迎來了192萬次的觀看。那麼,這次的發表有哪些重點呢?AI是否又更進化了?我們就來瞧瞧。
Thumbnail
ChatGPT依舊火熱,最近這幾天能這風潮PK的除了黑暗榮耀第二季開播、剛結束的WBC的台灣賽事、美國BVD倒閉風暴外...好像日常重點還是圍繞生成式Ai究竟還能多強大。Samuel H. Altman完全不給對手追上的機會,OpenAi於美國時間3/14 更新釋出ChatGPT4
Thumbnail
ChatGPT依舊火熱,最近這幾天能這風潮PK的除了黑暗榮耀第二季開播、剛結束的WBC的台灣賽事、美國BVD倒閉風暴外...好像日常重點還是圍繞生成式Ai究竟還能多強大。Samuel H. Altman完全不給對手追上的機會,OpenAi於美國時間3/14 更新釋出ChatGPT4
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News