對 AI 模型進行「人類的最後考試」(目前 DeepSeek 還無法勝出)

Mr. Colin-avatar-img
發佈於AI
更新於 發佈於 閱讀時間約 2 分鐘
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。

原文:https://agi.safe.ai/

真的非常困難

可以參考其中提到的範例問題:

屬於雨燕目(Apodiformes)的蜂鳥(Hummingbirds)獨特地擁有一塊雙側成對的橢圓形籽骨(sesamoid),該籽骨嵌入擴展的十字形肌腱膜(cruciate aponeurosis)內,位於尾部下壓肌(m. depressor caudae)附著處的尾側外部(caudolateral portion)。這塊籽骨支撐了多少對肌腱?請以數字作答
- Edward V
Massachusetts Institute of Technology

再看一下裡面提到的測試結果:

目前 DeepSeek 還無法勝出

raw-image

看來現在已經從晶片戰爭進入 AI 戰爭了

我的想法:

  1. 科技巨頭為了維持優勢,必須持續投入高資本訓練更優秀的模型,目前還沒有看到會被取代的可能。
  2. 低成本 DeepSeek 能夠讓 AI 深入尋常百姓家,可預見的未來是將會完全普及,成為基本款。
  3. 未來的 AI 戰場不在中低階應用,全是高階,或是專業領域的專用模型。只要是領域的專家又斜槓 AI,就會吃到紅利。


歡迎交流。


留言
avatar-img
留言分享你的想法!
avatar-img
Mr. Colin 的沙龍
38會員
174內容數
外商職場文化與趨勢觀察,分享成長型思維觀點;記錄「男生也要好好保護自己」的保護令申請經過、訴訟對抗《不合理的》最小變動與幼兒從母原則;串連菁英大腦,歡迎加入交流,或贊助支持 Mr. Colin。
Mr. Colin 的沙龍的其他內容
2025/02/01
這個農曆年假期 受到 DeepSeek 新聞的刺激 我完成了第一堂由微軟跟領英合開的線上課程:Career Essentials in Generative AI 並且通過測驗取得領英跟微軟共同頒發的證書
Thumbnail
2025/02/01
這個農曆年假期 受到 DeepSeek 新聞的刺激 我完成了第一堂由微軟跟領英合開的線上課程:Career Essentials in Generative AI 並且通過測驗取得領英跟微軟共同頒發的證書
Thumbnail
2023/04/23
在大者恆大的世界裡,各項資源分配的集中度已經逐漸移往極端值的兩側,而現行已經掌握注意力分配的資訊曝光平台、技術或服務公司、政府、社交媒體,未來AI的運用會加強對於受眾或使用者的黏著度,而當注意力已經習慣性被集中時,未來稀缺的資源將由注意力轉移到信任感。 因為信任感,自然能帶來注意力的紅利。
Thumbnail
2023/04/23
在大者恆大的世界裡,各項資源分配的集中度已經逐漸移往極端值的兩側,而現行已經掌握注意力分配的資訊曝光平台、技術或服務公司、政府、社交媒體,未來AI的運用會加強對於受眾或使用者的黏著度,而當注意力已經習慣性被集中時,未來稀缺的資源將由注意力轉移到信任感。 因為信任感,自然能帶來注意力的紅利。
Thumbnail
2023/04/19
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
Thumbnail
2023/04/19
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
Thumbnail
看更多
你可能也想看
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
人類最後的考試(Humanity's Last Exam),這是一個處於人類知識前沿的多模態基準測試,旨在成為同類型中最後一個封閉式學術基準測試,並涵蓋廣泛的學科範圍。該資料集包含來自 100 多個學科的 3,000 道高難度問題。 原文:https://agi.safe.ai/
Thumbnail
在這世,什麼事,能「確定」? 東西只要往上拋,總有一天往下掉; 植物只要勤照料,總有一天會長高。
Thumbnail
在這世,什麼事,能「確定」? 東西只要往上拋,總有一天往下掉; 植物只要勤照料,總有一天會長高。
Thumbnail
我們一萬小時的努力,贏不了AI一個小時的算力。 本書主要在討論,相對於單一領域的專才,多方探索通才更是成功的關鍵。 1.專才劣勢 贏在起跑點的執著,可能會導致輸在終點! 經過多年磨練的本事,最容易被機器取代!熟能生巧用熟悉模式學習,在未來將無法因應環境驟變! 立竿見影的學習,反而欲
Thumbnail
我們一萬小時的努力,贏不了AI一個小時的算力。 本書主要在討論,相對於單一領域的專才,多方探索通才更是成功的關鍵。 1.專才劣勢 贏在起跑點的執著,可能會導致輸在終點! 經過多年磨練的本事,最容易被機器取代!熟能生巧用熟悉模式學習,在未來將無法因應環境驟變! 立竿見影的學習,反而欲
Thumbnail
人類在驚人的AI發展底下,有哪些閱讀教育的訓練要點以及必須養成的能力,才能駕馭AI工具,而不被AI取代?
Thumbnail
人類在驚人的AI發展底下,有哪些閱讀教育的訓練要點以及必須養成的能力,才能駕馭AI工具,而不被AI取代?
Thumbnail
越想要精確回應的結果,就越會被問題的根本給困住。
Thumbnail
越想要精確回應的結果,就越會被問題的根本給困住。
Thumbnail
這本書於2016年9月發行,距今已經過了6.5年。夯到快不行的ChatGPT鋪天蓋地,像這樣的類神經網路會偷走我們的工作嗎 ?
Thumbnail
這本書於2016年9月發行,距今已經過了6.5年。夯到快不行的ChatGPT鋪天蓋地,像這樣的類神經網路會偷走我們的工作嗎 ?
Thumbnail
或說,把這本書取名為「猴子也能懂的人工智慧」也有過之而無不及。作者松尾豐教授長年深耕人工智慧的研究與開發,並且經歷AI發展史上的大起大落。之所以著作本書,與其說是推廣或科普人工智慧的知識,不如說是提供務實的資訊與評估,讓那些拿著大把鈔票的資本家們,不會抱有過高的期待,反而耽誤了人工智慧的發展...
Thumbnail
或說,把這本書取名為「猴子也能懂的人工智慧」也有過之而無不及。作者松尾豐教授長年深耕人工智慧的研究與開發,並且經歷AI發展史上的大起大落。之所以著作本書,與其說是推廣或科普人工智慧的知識,不如說是提供務實的資訊與評估,讓那些拿著大把鈔票的資本家們,不會抱有過高的期待,反而耽誤了人工智慧的發展...
Thumbnail
文 / 丁學文 這幾年,台灣也開始了追求AI的熱潮,不但新創圈人人朗朗上口的就是AI,連大型企業也是振臂疾呼著AI時代的來臨。 延伸閱讀 AI時代,應該學什麼? 人工智慧的前緣 延伸閱讀 人工智慧幫你下單 我的想法? 本文章反映作者意見,不代表《遠見》立場
Thumbnail
文 / 丁學文 這幾年,台灣也開始了追求AI的熱潮,不但新創圈人人朗朗上口的就是AI,連大型企業也是振臂疾呼著AI時代的來臨。 延伸閱讀 AI時代,應該學什麼? 人工智慧的前緣 延伸閱讀 人工智慧幫你下單 我的想法? 本文章反映作者意見,不代表《遠見》立場
Thumbnail
在天下出版的《造局者:思考框架的威力》書中可得知,人類心智與動物不同,擁有三大特性:尋找因果關係、想像各種可能的後果、懂得取捨限制條件,這裡先不談書中如何推論,我們只要知道這三項特性最終合成一個人類最重要的核心能力:定義事件/問題框架。​
Thumbnail
在天下出版的《造局者:思考框架的威力》書中可得知,人類心智與動物不同,擁有三大特性:尋找因果關係、想像各種可能的後果、懂得取捨限制條件,這裡先不談書中如何推論,我們只要知道這三項特性最終合成一個人類最重要的核心能力:定義事件/問題框架。​
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News