xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
本次 Grok4 發布會懶人包
- 性能與功能:xAI 宣稱 Grok 4 是「全球最聰明的 AI」,在推理、程式碼編寫和多模態能力(處理文字與圖像)方面表現卓越。特別強調其在學術基準測試上的優異成績,例如在極具挑戰的「Humanity’s Last Exam (HLE)」中獲得 25.4% 的分數,這是一個包含超過 2,500 道數學、科學、語言學等博士等級的嚴苛測試。
- 專業版本與語音特色:Grok 4 將提供多個專業版本,包括專為開發者設計的「Grok 4 Code」,以及具備自然語音能力的「Grok 4 Voice」,展現出高度擬人化的互動體驗。Elon Musk 在發布會上更誇口 Grok 4 能在四小時內修復完整的原始碼檔案,甚至從零開始構建一個第一人稱射擊遊戲。
- 訂閱方案與定價策略:Grok 4 目前僅限付費的進階用戶使用。xAI 推出了兩種訂閱方案:「SuperGrok Heavy」每月 300 美元,可使用 Grok 4 及其多代理人版本 Grok 4 Heavy;另一方案每月 30 美元,可使用 Grok 4 和 Grok 3。
- 未來展望與願景:Elon Musk 和 xAI 團隊對 Grok 4 的未來發展充滿信心,預計它將在短時間內實現技術、科學上的突破性發現,並最終透過與機器人的結合,實現與物理世界的深度互動,加速人類文明的進程,甚至改變全球經濟體系。
Grok 4 技術亮點
Grok 4 之所以讓 xAI 譽為「全球最聰明 AI」,其背後有著一系列的技術突破:超越人類的學術表現
在發布會中,xAI 團隊不斷強調 Grok 4 在學術基準測試上的「超人類」表現。其中最受矚目的,莫過於「Humanity’s Last Exam (HLE)」。這是一套極其艱難的測試,總計包含 2500 道由各領域專家策劃的問題,涵蓋數學、自然科學、工程學,乃至人文學科。早期模型在這個測試中,通常只能達到個位數的準確度。
然而,Grok 4 在這個測試中達到了 25.4% 的成績。更令人驚訝的是,透過單一代理人模式,Grok 4 已經能解決 HLE 中 40% 的問題;而當啟用其多代理人版本 Grok 4 Heavy 時,在純文本子集測試上的解決率甚至能超過 50%。這項成績的重要性在於,這些問題的難度通常是博士級別甚至更深的研究級別,人類在其中任何單一學科能取得高分已屬不易,要像 Grok 4 這樣在所有學科達到「後研究生級別」(PhD level in everything),幾乎是不可想像的。Elon Musk 更直言,人類在此測試中的最佳表現可能只有 5%,而 Grok 4 甚至能完美通過 SAT 或 GRE 等考試。
強化學習與工具整合
Grok 4 的驚人表現並非偶然,團隊透露,Grok 4 的訓練量相較於 Grok 2 增加了高達 100 倍,並且在「推理」與「強化學習」(RL, Reinforcement Learning)方面投入了大量算力。這種「從第一性原理開始思考」、「糾正自身錯誤」的能力,正是強化學習的成果。
更值得注意的是 Grok 4 對「工具使用」的訓練。相較於 Grok 3 僅依賴泛化能力來使用工具(例如 Deep Search),Grok 4 將工具能力「原生」地整合到訓練流程中,顯著提升模型工具使用能力,使其更加可靠。雖然目前 Grok 4 使用的仍是相對「原始」的工具,但 xAI 承諾,後續將為 Grok 4 提供企業級的強大工具。最終的願景是讓 Grok 4 能透過人形機器人 Optimus 與真實世界互動,從現實中驗證假設、解決問題。
Grok 4 Heavy 的多代理人協作模式
Grok 4 Heavy 是 Grok 4 的多代理人(Multi-agent)版本,它在處理複雜問題時展現了更強大的能力。當 Grok 4 Heavy 面對困難任務時,它會同時啟動多個 AI 代理人,這些代理人獨立工作,然後像一個「學習小組」一樣,彼此比較並分享它們的思考過程與解決方案。這種模式並非簡單的多數決,而是能夠讓代理人之間相互啟發,找出問題的「關鍵訣竅」或獨特的解決路徑,最終綜合出最佳答案。
這種「測試時算力」(test-time compute)的顯著提升(約一個數量級),使得 Grok 4 Heavy 在 HLE 等測試中能取得更高的分數,證明了多代理人協作在解決複雜、多學科問題上的巨大潛力。
多模態能力與未來展望
Grok 4 不僅在文字和推理上表現出色,也具備初步的多模態能力,能夠處理圖像資訊。儘管團隊坦承目前 Grok 4 在圖像理解和生成方面仍有改進空間,但他們透露,基於最新版的基礎模型訓練即將完成,屆時,Grok 4 將能更像人類一樣「看見」世界。
除此之外,xAI 也明確了未來的發展路線:
- 專注於編碼能力:將推出一個專門為程式設計師設計的、兼具速度與智能的編碼模型。
- 全面提升多模態:除了視覺,還將強化音頻理解,讓 Grok 4 能夠「聽見」世界,為更多應用場景解鎖潛力。
- 影片生成:最終的目標是實現「像素輸入、像素輸出」(pixel in, pixel out),讓模型能夠生成影片,期望在今年底或明年帶來非常驚人的影片生成和理解能力。
Elon Musk 甚至將當前 AI 的快速發展比喻為一場「智能大爆炸」(intelligence big bang),認為我們正處於歷史上最有趣的時代。他預測 AI 將在今年或明年發現新的技術,並在兩年內發現新的物理學。他甚至大膽地從卡爾達肖夫指數(Kardashev scale,是根據一個文明所能夠利用的能源量級,來量度文明層次及技術先進程度的一種假說)的角度來預測未來文明,認為 AI 將把人類文明從目前僅佔 I 型文明 1-2% 的水平,推向 80-90%,甚至最終邁向 II 型文明。
TN科技筆記的觀點
- 超越人類學術表現的意義: Grok 4 在 HLE 等頂級學術測試中的表現,尤其是多代理人模式下對複雜問題的分解與協作,不僅僅是分數高低的問題,更代表 AI 在「深度推理」和「跨領域知識整合」上取得了質的飛躍。這證明了 AI 不僅能處理極大量的資訊,更能理解其內在邏輯並生成連貫的解決方案,這種能力一旦普及,將會是科學、教育、產業研究的巨大加速器。
- 工具使用與物理世界的連結: xAI 對 Grok 4 工具使用能力的強調,以及未來與 Tesla Optimus 機器人結合的願景,這意味著 AI 將不再是僅限於虛擬空間,而是能真正「動手」改造物理世界。從設計、製造到驗證,AI 將能形成一個閉環,這將是真正意義上的產業革命。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!