人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。
真的非常困難
可以參考其中提到的範例問題:
屬於雨燕目(Apodiformes)的蜂鳥(Hummingbirds)獨特地擁有一塊雙側成對的橢圓形籽骨(sesamoid),該籽骨嵌入擴展的十字形肌腱膜(cruciate aponeurosis)內,位於尾部下壓肌(m. depressor caudae)附著處的尾側外部(caudolateral portion)。這塊籽骨支撐了多少對肌腱?請以數字作答
- Edward V
Massachusetts Institute of Technology
再看一下裡面提到的測試結果:
目前 DeepSeek 還無法勝出
看來現在已經從晶片戰爭進入 AI 戰爭了
我的想法:
歡迎交流。