對 AI 模型進行「人類的最後考試」(目前 DeepSeek 還無法勝出)

Mr. Colin-avatar-img
發佈於AI
更新 發佈閱讀 2 分鐘
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。

原文:https://agi.safe.ai/

真的非常困難

可以參考其中提到的範例問題:

屬於雨燕目(Apodiformes)的蜂鳥(Hummingbirds)獨特地擁有一塊雙側成對的橢圓形籽骨(sesamoid),該籽骨嵌入擴展的十字形肌腱膜(cruciate aponeurosis)內,位於尾部下壓肌(m. depressor caudae)附著處的尾側外部(caudolateral portion)。這塊籽骨支撐了多少對肌腱?請以數字作答
- Edward V
Massachusetts Institute of Technology

再看一下裡面提到的測試結果:

目前 DeepSeek 還無法勝出

vocus|新世代的創作平台

看來現在已經從晶片戰爭進入 AI 戰爭了

我的想法:

  1. 科技巨頭為了維持優勢,必須持續投入高資本訓練更優秀的模型,目前還沒有看到會被取代的可能。
  2. 低成本 DeepSeek 能夠讓 AI 深入尋常百姓家,可預見的未來是將會完全普及,成為基本款。
  3. 未來的 AI 戰場不在中低階應用,全是高階,或是專業領域的專用模型。只要是領域的專家又斜槓 AI,就會吃到紅利。


歡迎交流。


留言
avatar-img
Mr. Colin 清醒者的現實校準室
43會員
212內容數
外商職場文化與趨勢觀察,分享成長型思維觀點;記錄「男生也要好好保護自己」的保護令申請經過、訴訟對抗《不合理的》最小變動與幼兒從母原則;串連菁英大腦,歡迎加入交流,或贊助支持 Mr. Colin。
2025/02/01
這個農曆年假期 受到 DeepSeek 新聞的刺激 我完成了第一堂由微軟跟領英合開的線上課程:Career Essentials in Generative AI 並且通過測驗取得領英跟微軟共同頒發的證書
Thumbnail
2025/02/01
這個農曆年假期 受到 DeepSeek 新聞的刺激 我完成了第一堂由微軟跟領英合開的線上課程:Career Essentials in Generative AI 並且通過測驗取得領英跟微軟共同頒發的證書
Thumbnail
2023/04/23
在大者恆大的世界裡,各項資源分配的集中度已經逐漸移往極端值的兩側,而現行已經掌握注意力分配的資訊曝光平台、技術或服務公司、政府、社交媒體,未來AI的運用會加強對於受眾或使用者的黏著度,而當注意力已經習慣性被集中時,未來稀缺的資源將由注意力轉移到信任感。 因為信任感,自然能帶來注意力的紅利。
Thumbnail
2023/04/23
在大者恆大的世界裡,各項資源分配的集中度已經逐漸移往極端值的兩側,而現行已經掌握注意力分配的資訊曝光平台、技術或服務公司、政府、社交媒體,未來AI的運用會加強對於受眾或使用者的黏著度,而當注意力已經習慣性被集中時,未來稀缺的資源將由注意力轉移到信任感。 因為信任感,自然能帶來注意力的紅利。
Thumbnail
2023/04/19
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
Thumbnail
2023/04/19
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
Thumbnail
看更多
你可能也想看
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
或說,把這本書取名為「猴子也能懂的人工智慧」也有過之而無不及。作者松尾豐教授長年深耕人工智慧的研究與開發,並且經歷AI發展史上的大起大落。之所以著作本書,與其說是推廣或科普人工智慧的知識,不如說是提供務實的資訊與評估,讓那些拿著大把鈔票的資本家們,不會抱有過高的期待,反而耽誤了人工智慧的發展...
Thumbnail
或說,把這本書取名為「猴子也能懂的人工智慧」也有過之而無不及。作者松尾豐教授長年深耕人工智慧的研究與開發,並且經歷AI發展史上的大起大落。之所以著作本書,與其說是推廣或科普人工智慧的知識,不如說是提供務實的資訊與評估,讓那些拿著大把鈔票的資本家們,不會抱有過高的期待,反而耽誤了人工智慧的發展...
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
越想要精確回應的結果,就越會被問題的根本給困住。
Thumbnail
越想要精確回應的結果,就越會被問題的根本給困住。
Thumbnail
文 / 丁學文 這幾年,台灣也開始了追求AI的熱潮,不但新創圈人人朗朗上口的就是AI,連大型企業也是振臂疾呼著AI時代的來臨。 延伸閱讀 AI時代,應該學什麼? 人工智慧的前緣 延伸閱讀 人工智慧幫你下單 我的想法? 本文章反映作者意見,不代表《遠見》立場
Thumbnail
文 / 丁學文 這幾年,台灣也開始了追求AI的熱潮,不但新創圈人人朗朗上口的就是AI,連大型企業也是振臂疾呼著AI時代的來臨。 延伸閱讀 AI時代,應該學什麼? 人工智慧的前緣 延伸閱讀 人工智慧幫你下單 我的想法? 本文章反映作者意見,不代表《遠見》立場
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
我們一萬小時的努力,贏不了AI一個小時的算力。 本書主要在討論,相對於單一領域的專才,多方探索通才更是成功的關鍵。 1.專才劣勢 贏在起跑點的執著,可能會導致輸在終點! 經過多年磨練的本事,最容易被機器取代!熟能生巧用熟悉模式學習,在未來將無法因應環境驟變! 立竿見影的學習,反而欲
Thumbnail
我們一萬小時的努力,贏不了AI一個小時的算力。 本書主要在討論,相對於單一領域的專才,多方探索通才更是成功的關鍵。 1.專才劣勢 贏在起跑點的執著,可能會導致輸在終點! 經過多年磨練的本事,最容易被機器取代!熟能生巧用熟悉模式學習,在未來將無法因應環境驟變! 立竿見影的學習,反而欲
Thumbnail
這本書於2016年9月發行,距今已經過了6.5年。夯到快不行的ChatGPT鋪天蓋地,像這樣的類神經網路會偷走我們的工作嗎 ?
Thumbnail
這本書於2016年9月發行,距今已經過了6.5年。夯到快不行的ChatGPT鋪天蓋地,像這樣的類神經網路會偷走我們的工作嗎 ?
Thumbnail
人類在驚人的AI發展底下,有哪些閱讀教育的訓練要點以及必須養成的能力,才能駕馭AI工具,而不被AI取代?
Thumbnail
人類在驚人的AI發展底下,有哪些閱讀教育的訓練要點以及必須養成的能力,才能駕馭AI工具,而不被AI取代?
Thumbnail
在這世,什麼事,能「確定」? 東西只要往上拋,總有一天往下掉; 植物只要勤照料,總有一天會長高。
Thumbnail
在這世,什麼事,能「確定」? 東西只要往上拋,總有一天往下掉; 植物只要勤照料,總有一天會長高。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News