人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。
真的非常困難
可以參考其中提到的範例問題:屬於雨燕目(Apodiformes)的蜂鳥(Hummingbirds)獨特地擁有一塊雙側成對的橢圓形籽骨(sesamoid),該籽骨嵌入擴展的十字形肌腱膜(cruciate aponeurosis)內,位於尾部下壓肌(m. depressor caudae)附著處的尾側外部(caudolateral portion)。這塊籽骨支撐了多少對肌腱?請以數字作答
- Edward V
Massachusetts Institute of Technology
再看一下裡面提到的測試結果:
目前 DeepSeek 還無法勝出

看來現在已經從晶片戰爭進入 AI 戰爭了
我的想法:
- 科技巨頭為了維持優勢,必須持續投入高資本訓練更優秀的模型,目前還沒有看到會被取代的可能。
- 低成本 DeepSeek 能夠讓 AI 深入尋常百姓家,可預見的未來是將會完全普及,成為基本款。
- 未來的 AI 戰場不在中低階應用,全是高階,或是專業領域的專用模型。只要是領域的專家又斜槓 AI,就會吃到紅利。
歡迎交流。