對 AI 模型進行「人類的最後考試」(目前 DeepSeek 還無法勝出)

Mr. Colin-avatar-img
發佈於AI
更新於 發佈於 閱讀時間約 2 分鐘
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。

原文:https://agi.safe.ai/

真的非常困難

可以參考其中提到的範例問題:

屬於雨燕目(Apodiformes)的蜂鳥(Hummingbirds)獨特地擁有一塊雙側成對的橢圓形籽骨(sesamoid),該籽骨嵌入擴展的十字形肌腱膜(cruciate aponeurosis)內,位於尾部下壓肌(m. depressor caudae)附著處的尾側外部(caudolateral portion)。這塊籽骨支撐了多少對肌腱?請以數字作答
- Edward V
Massachusetts Institute of Technology

再看一下裡面提到的測試結果:

目前 DeepSeek 還無法勝出

raw-image

看來現在已經從晶片戰爭進入 AI 戰爭了

我的想法:

  1. 科技巨頭為了維持優勢,必須持續投入高資本訓練更優秀的模型,目前還沒有看到會被取代的可能。
  2. 低成本 DeepSeek 能夠讓 AI 深入尋常百姓家,可預見的未來是將會完全普及,成為基本款。
  3. 未來的 AI 戰場不在中低階應用,全是高階,或是專業領域的專用模型。只要是領域的專家又斜槓 AI,就會吃到紅利。


歡迎交流。


avatar-img
38會員
152內容數
分享台商、外商、日商職場文化,與成長屬性的視野與閱讀心得;記錄「男生也要好好保護自己」的保護令申請經過、訴訟對抗《不合理的》最小變動與幼兒從母原則;串連菁英大腦,歡迎加入交流,或贊助支持 Mr. Colin。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Mr. Colin 的沙龍 的其他內容
這個農曆年假期 受到 DeepSeek 新聞的刺激 我完成了第一堂由微軟跟領英合開的線上課程:Career Essentials in Generative AI 並且通過測驗取得領英跟微軟共同頒發的證書
在大者恆大的世界裡,各項資源分配的集中度已經逐漸移往極端值的兩側,而現行已經掌握注意力分配的資訊曝光平台、技術或服務公司、政府、社交媒體,未來AI的運用會加強對於受眾或使用者的黏著度,而當注意力已經習慣性被集中時,未來稀缺的資源將由注意力轉移到信任感。 因為信任感,自然能帶來注意力的紅利。
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
好奇問了一下Sage機器人想當男生還是女生,結果又在跳針... 我試著軟化我的態度跟他溝通... 然後設個政治不正確陷阱...
這個農曆年假期 受到 DeepSeek 新聞的刺激 我完成了第一堂由微軟跟領英合開的線上課程:Career Essentials in Generative AI 並且通過測驗取得領英跟微軟共同頒發的證書
在大者恆大的世界裡,各項資源分配的集中度已經逐漸移往極端值的兩側,而現行已經掌握注意力分配的資訊曝光平台、技術或服務公司、政府、社交媒體,未來AI的運用會加強對於受眾或使用者的黏著度,而當注意力已經習慣性被集中時,未來稀缺的資源將由注意力轉移到信任感。 因為信任感,自然能帶來注意力的紅利。
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
好奇問了一下Sage機器人想當男生還是女生,結果又在跳針... 我試著軟化我的態度跟他溝通... 然後設個政治不正確陷阱...
你可能也想看
Google News 追蹤
Thumbnail
大家可以和親朋好友或高三以上的孩子們,一起選擇一個題目來做深度的思考與討論…
要死的不是我們,而是考試
Thumbnail
設計思考的生活運用 在我們求學的過程中,因為升學主義的影響,我們往往習慣於認為答案只有一個標準。「刻意練習」往往會變成如何穩定自己的分數。然而,隨著踏入社會,現代社會因AI和網路全球化的發展而發生了巨大的變化。雖然許多傳統社會中的基礎邏輯和框架在當代社會中仍然存在,但學習模式已經發生了變革。社群媒
Thumbnail
人生像是一場考試~ 等到答案揭曉時才知道我們錯在哪裡 人生最重要的是學習 學習是人生最重要的課題 學習寬容是第一題的標準答案 學習不要太計較是第二題的答案 學習圓滿人生所遇到人事物的不圓滿是第三題的答案 學習提昇自己的智慧是第四題的答案 改掉不好的習慣與脾氣是下一題的答案 人生就是"邊考邊找參考書找
Thumbnail
整理高中考大學各學群常見面試問題,學生可做為參考練習
本次實驗範圍: 義守大學近五年108-112考古題資料庫 閱讀測驗詳解 生物學題目詳解 國文科題目詳解&英語科重點整理!! https://chat.openai.com/g/g-73igfJQO6-post-bacc-tcm-gpt (CHATGPT PLUS用戶 免費使用喔~)
Thumbnail
考上與沒有考上的人有什麼差別呢?差在一個會考試一個比較不會考試,如此而已(運氣也是實力的一種)。而這考試既考不出思考力、考不出創意、考不出人品道德、考不出溝通能力、考不出長得帥不帥美不美等文字以外的所有能力;像個無知之幕一般,頂多以「字」取人(自認字還滿「藝術」的,辛苦閱卷老師了),只考會不
Thumbnail
大家可以和親朋好友或高三以上的孩子們,一起選擇一個題目來做深度的思考與討論…
要死的不是我們,而是考試
Thumbnail
設計思考的生活運用 在我們求學的過程中,因為升學主義的影響,我們往往習慣於認為答案只有一個標準。「刻意練習」往往會變成如何穩定自己的分數。然而,隨著踏入社會,現代社會因AI和網路全球化的發展而發生了巨大的變化。雖然許多傳統社會中的基礎邏輯和框架在當代社會中仍然存在,但學習模式已經發生了變革。社群媒
Thumbnail
人生像是一場考試~ 等到答案揭曉時才知道我們錯在哪裡 人生最重要的是學習 學習是人生最重要的課題 學習寬容是第一題的標準答案 學習不要太計較是第二題的答案 學習圓滿人生所遇到人事物的不圓滿是第三題的答案 學習提昇自己的智慧是第四題的答案 改掉不好的習慣與脾氣是下一題的答案 人生就是"邊考邊找參考書找
Thumbnail
整理高中考大學各學群常見面試問題,學生可做為參考練習
本次實驗範圍: 義守大學近五年108-112考古題資料庫 閱讀測驗詳解 生物學題目詳解 國文科題目詳解&英語科重點整理!! https://chat.openai.com/g/g-73igfJQO6-post-bacc-tcm-gpt (CHATGPT PLUS用戶 免費使用喔~)
Thumbnail
考上與沒有考上的人有什麼差別呢?差在一個會考試一個比較不會考試,如此而已(運氣也是實力的一種)。而這考試既考不出思考力、考不出創意、考不出人品道德、考不出溝通能力、考不出長得帥不帥美不美等文字以外的所有能力;像個無知之幕一般,頂多以「字」取人(自認字還滿「藝術」的,辛苦閱卷老師了),只考會不