方格子 vocus

Grok 3：馬斯克稱「地球上最聰明的AI」，性能超越GPT-4與Gemini？（上）

2025/03/19 更新2025/02/18 發佈閱讀 3 分鐘

馬斯克的AI公司 xAI 正式發布了Grok 3，被馬斯克稱為「地球上最聰明的AI」。該模型現已向X平台的Premium+訂閱用戶開放。經測試Grok 3在數學、科學和程式設計等基準測試中表現優於現有模型，如OpenAI的GPT-4o、Google的Gemini、DeepSeek的V3和Anthropic的Claude。它的開發使用了比前代產品更強大的計算能力，並包括DeepSearch功能，以及即將推出的語音模式。xAI還計劃在Grok 3成熟後開源其前代產品Grok 2。

Grok 3的開發過程特別之處：

計算能力：Grok 3使用了令人印象深刻的計算基礎設施。它在名為「Colossus」的超級計算機集群上訓練，該集群包含約20萬個GPU。這比Grok 2的計算能力增加了十倍，能夠更快、更高效地處理大型數據集。
開發速度：Grok 3的開發速度非常快，馬斯克指出，首批10萬個GPU的訓練花了122天，隨後在92天內擴展到了全容量。
人類反饋和情境訓練：xAI融入了人類反饋循環和情境訓練，通過多重驗證步驟提高回應的自然性和準確性，專注於減少幻覺。

Grok 3的特點：

進階推理：Grok 3設計有明顯改進的推理能力，特別是在數學、科學和程式設計方面，比前代產品更好地處理複雜的邏輯問題和情境合成。
DeepSearch：對標OpenAI的Deep Research，讓Grok 3有即時資訊的研究能力，為用戶查詢提供全面的摘要，增強其在研究和訊息收集方面的實用性。
語音模式：雖然在發布時尚未提供，但已預計很快會推出語音互動模式，允許更自然的對話互動。
自我修正和邏輯一致性：Grok 3能夠反思其錯誤以達到邏輯一致性，減少其回應中的錯誤。
多模態互動：Grok 3設定為處理文本、圖像和音頻，使其在不同類型的數據互動中具有多功能性。
合成數據學習：為了提高性能，Grok 3使用合成數據集和真實世界數據，可能增強其生成創新解決方案的能力。
倫理層面：Grok 3被描述為「最大限度地追求真相」，即使這一真相可能不符合政治正確，這使其與採用更保守內容審核的模型有所區別。
遊戲和代碼生成：在物理問題解決和遊戲代碼生成方面展現了能力，暗示在遊戲和軟件開發中的潛在應用。

Grok 3與其他AI模型的測試比較：

數學：Grok 3在AIME 2024基準測試中得分達52%，超過了GPT-4o (47%)、Claude 3.5 (44%)及其他模型。
科學：在GPQA基準測試中，Grok 3達到了75%的得分，顯著高於Claude 3.5的68%，以及DeepSeek V3和Gemini 2.0 Pro等其他模型的分數。
程式設計：Grok 3在LiveCodeBench等程式設計基準測試中的表現為57%，高於Gemini 2.0 Pro的49%，同時也優於GPT-4o、Claude 3.5和DeepSeek V3。
一般知識與推理：Grok 3在聊天機器人競技場等平台上展現出有競爭力的結果，得分高於Gemini 2.0 Flash Thinking、DeepSeek的R1，甚至超過了OpenAI的o1和o3模型。

Grok 3無疑是當前AI領域的重要突破，其在計算力、開發速度和功能上都顯示出顯著進步。這些都代表著AI技術正朝著更聰明、更多功能的方向快速發展。下篇文章我將整理馬斯克在Grok 3發布期間的評論，以及這些評論如何顯示他對AI未來發展的獨特願景。

發表會影片：

Grok3 Launch

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心給我支持鼓勵～

也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

70會員

233內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/04/29

挑戰Google搜尋？ChatGPT購物與引文新功能搶先看

OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能，並分析這些更新如何改變我們的線上搜尋與購物方式。

2025/04/29

挑戰Google搜尋？ChatGPT購物與引文新功能搶先看

2025/04/23

TTS模型：NotebookLM、ElevenLabs、Sesame與Dia四大技術比拼

介紹TTS模型（文字轉語音）的運作原理與應用，比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製，幫助您選擇最適合的TTS解決方案。

2025/04/23

TTS模型：NotebookLM、ElevenLabs、Sesame與Dia四大技術比拼

2025/04/19

Gemma 3 QAT 量化技術解析：讓 AI 走進家用電腦

隨著 AI 的快速發展，大型語言模型的性能不斷提升，但顯卡等硬體需求往往讓一般用戶望而卻步。Google 於 2025 年 4 月 18 日發布的 Gemma 3 系列量化模型，透過 Quantization-Aware Training（QAT）技術，成功將頂尖 AI 性能帶入消費級硬體，如 N

2025/04/19

Gemma 3 QAT 量化技術解析：讓 AI 走進家用電腦

#方格新手的其他內容

從街頭藝人到 UNIQLO：我的十年職涯穿搭進化史｜為彼此領航 Let's link up 徵文活動

Ivy小苑 | 小資女日常🧸

怪奇物語完美落幕｜陪伴十年的霍金斯小鎮終章觀後感分享

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11