馬斯克的AI公司 xAI 正式發布了Grok 3,被馬斯克稱為「地球上最聰明的AI」。該模型現已向X平台的Premium+訂閱用戶開放。經測試Grok 3在數學、科學和程式設計等基準測試中表現優於現有模型,如OpenAI的GPT-4o、Google的Gemini、DeepSeek的V3和Anthropic的Claude。它的開發使用了比前代產品更強大的計算能力,並包括DeepSearch功能,以及即將推出的語音模式。xAI還計劃在Grok 3成熟後開源其前代產品Grok 2。
Grok 3的開發過程特別之處:
- 計算能力:Grok 3使用了令人印象深刻的計算基礎設施。它在名為「Colossus」的超級計算機集群上訓練,該集群包含約20萬個GPU。這比Grok 2的計算能力增加了十倍,能夠更快、更高效地處理大型數據集。
- 開發速度:Grok 3的開發速度非常快,馬斯克指出,首批10萬個GPU的訓練花了122天,隨後在92天內擴展到了全容量。
- 人類反饋和情境訓練:xAI融入了人類反饋循環和情境訓練,通過多重驗證步驟提高回應的自然性和準確性,專注於減少幻覺。
Grok 3的特點:
- 進階推理:Grok 3設計有明顯改進的推理能力,特別是在數學、科學和程式設計方面,比前代產品更好地處理複雜的邏輯問題和情境合成。
- DeepSearch:對標OpenAI的Deep Research,讓Grok 3有即時資訊的研究能力,為用戶查詢提供全面的摘要,增強其在研究和訊息收集方面的實用性。
- 語音模式:雖然在發布時尚未提供,但已預計很快會推出語音互動模式,允許更自然的對話互動。
- 自我修正和邏輯一致性:Grok 3能夠反思其錯誤以達到邏輯一致性,減少其回應中的錯誤。
- 多模態互動:Grok 3設定為處理文本、圖像和音頻,使其在不同類型的數據互動中具有多功能性。
- 合成數據學習:為了提高性能,Grok 3使用合成數據集和真實世界數據,可能增強其生成創新解決方案的能力。
- 倫理層面:Grok 3被描述為「最大限度地追求真相」,即使這一真相可能不符合政治正確,這使其與採用更保守內容審核的模型有所區別。
- 遊戲和代碼生成:在物理問題解決和遊戲代碼生成方面展現了能力,暗示在遊戲和軟件開發中的潛在應用。
Grok 3與其他AI模型的測試比較:
- 數學:Grok 3在AIME 2024基準測試中得分達52%,超過了GPT-4o (47%)、Claude 3.5 (44%)及其他模型。
- 科學:在GPQA基準測試中,Grok 3達到了75%的得分,顯著高於Claude 3.5的68%,以及DeepSeek V3和Gemini 2.0 Pro等其他模型的分數。
- 程式設計:Grok 3在LiveCodeBench等程式設計基準測試中的表現為57%,高於Gemini 2.0 Pro的49%,同時也優於GPT-4o、Claude 3.5和DeepSeek V3。
- 一般知識與推理:Grok 3在聊天機器人競技場等平台上展現出有競爭力的結果,得分高於Gemini 2.0 Flash Thinking、DeepSeek的R1,甚至超過了OpenAI的o1和o3模型。
Grok 3無疑是當前AI領域的重要突破,其在計算力、開發速度和功能上都顯示出顯著進步。這些都代表著AI技術正朝著更聰明、更多功能的方向快速發展。下篇文章我將整理馬斯克在Grok 3發布期間的評論,以及這些評論如何顯示他對AI未來發展的獨特願景。
發表會影片:
Grok3 Launch
我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!