Grok 3:馬斯克稱「地球上最聰明的AI」,性能超越GPT-4與Gemini?(上)

更新於 發佈於 閱讀時間約 4 分鐘

馬斯克的AI公司 xAI 正式發布了Grok 3,被馬斯克稱為「地球上最聰明的AI」。該模型現已向X平台的Premium+訂閱用戶開放。經測試Grok 3在數學、科學和程式設計等基準測試中表現優於現有模型,如OpenAI的GPT-4o、Google的Gemini、DeepSeek的V3和Anthropic的Claude。它的開發使用了比前代產品更強大的計算能力,並包括DeepSearch功能,以及即將推出的語音模式。xAI還計劃在Grok 3成熟後開源其前代產品Grok 2。

raw-image



Grok 3的開發過程特別之處:

  • 計算能力:Grok 3使用了令人印象深刻的計算基礎設施。它在名為「Colossus」的超級計算機集群上訓練,該集群包含約20萬個GPU。這比Grok 2的計算能力增加了十倍,能夠更快、更高效地處理大型數據集。
  • 開發速度:Grok 3的開發速度非常快,馬斯克指出,首批10萬個GPU的訓練花了122天,隨後在92天內擴展到了全容量。
  • 人類反饋和情境訓練:xAI融入了人類反饋循環和情境訓練,通過多重驗證步驟提高回應的自然性和準確性,專注於減少幻覺。




Grok 3的特點:

  • 進階推理:Grok 3設計有明顯改進的推理能力,特別是在數學、科學和程式設計方面,比前代產品更好地處理複雜的邏輯問題和情境合成。
  • DeepSearch:對標OpenAI的Deep Research,讓Grok 3有即時資訊的研究能力,為用戶查詢提供全面的摘要,增強其在研究和訊息收集方面的實用性。
  • 語音模式:雖然在發布時尚未提供,但已預計很快會推出語音互動模式,允許更自然的對話互動。
  • 自我修正和邏輯一致性:Grok 3能夠反思其錯誤以達到邏輯一致性,減少其回應中的錯誤。
  • 多模態互動:Grok 3設定為處理文本、圖像和音頻,使其在不同類型的數據互動中具有多功能性。
  • 合成數據學習:為了提高性能,Grok 3使用合成數據集和真實世界數據,可能增強其生成創新解決方案的能力。
  • 倫理層面:Grok 3被描述為「最大限度地追求真相」,即使這一真相可能不符合政治正確,這使其與採用更保守內容審核的模型有所區別。
  • 遊戲和代碼生成:在物理問題解決和遊戲代碼生成方面展現了能力,暗示在遊戲和軟件開發中的潛在應用。



Grok 3與其他AI模型的測試比較:

  • 數學:Grok 3在AIME 2024基準測試中得分達52%,超過了GPT-4o (47%)、Claude 3.5 (44%)及其他模型。
  • 科學:在GPQA基準測試中,Grok 3達到了75%的得分,顯著高於Claude 3.5的68%,以及DeepSeek V3和Gemini 2.0 Pro等其他模型的分數。
  • 程式設計:Grok 3在LiveCodeBench等程式設計基準測試中的表現為57%,高於Gemini 2.0 Pro的49%,同時也優於GPT-4o、Claude 3.5和DeepSeek V3。
  • 一般知識與推理:Grok 3在聊天機器人競技場等平台上展現出有競爭力的結果,得分高於Gemini 2.0 Flash Thinking、DeepSeek的R1,甚至超過了OpenAI的o1和o3模型。
raw-image


raw-image



Grok 3無疑是當前AI領域的重要突破,其在計算力、開發速度和功能上都顯示出顯著進步。這些都代表著AI技術正朝著更聰明、更多功能的方向快速發展。下篇文章我將整理馬斯克在Grok 3發布期間的評論,以及這些評論如何顯示他對AI未來發展的獨特願景。

發表會影片:

Grok3 Launch


我是TN科技筆記,如果喜歡這篇文章,歡迎留言或轉發給朋友給我支持鼓勵!!


大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
OpenAI即將推出GPT-4.5和GPT-5,帶來AI使用體驗的革命性改變。GPT-4.5將簡化操作,整合產品線,GPT-5則具有更強大的推理能力、更可靠的運行表現和整合多媒體功能等。本文探討這兩大模型的特性與影響,並預測其將推動AI普及化發展。
本文整理美國川普政府對於AI發展的看法和策略,涵蓋經濟影響、國際合作、監管策略、能源需求、社會影響及國家安全等面向,並點出政府希望藉由避免過度監管、鼓勵創新和保護美國勞工權益,以確保美國在AI領域保持領先地位。
Google 最新 Gemini 2.0 模型系列震撼登場!三大版本 Flash、Pro 和 Flash-Lite 全面提升性能,上下文理解能力大幅提升,更在成本和靈活性上為企業級應用開闢全新藍海,似乎正是為了扭轉 Google 股價在財報後下跌的氣氛!
OpenAI在今天馬不停蹄地又推出了一款名為「Deep Research」的工具展示了AI技術的驚人潛力,能夠快速瀏覽、分析和整合網路資訊。跟DeepSeek-R1相比的結果如何呢?
還記得一顆衛星讓美國徹底驚醒的史普尼克時刻,以及隨之而來的太空競賽嗎?2025年,AI 界似乎正在上演類似的劇情:當 DeepSeek 展現實力,OpenAI 不只強勢反擊,更首次向免費用戶開放高階功能。這場驚人相似的歷史重演,似乎暗示背後的AI大戰已經悄悄開始了! 史普尼克1號(Spu
中國新創公司DeepSeek推出的DeepSeek-R1模型,以更少的運算資源達到與OpenAI的o1模型相同的效能,引發科技界震盪。但細心的投資者發現,這可能不是末日,而是新機會的開始!傑文斯悖論似乎提示了AI 效率提升背後隱藏的市場擴張機會。
OpenAI即將推出GPT-4.5和GPT-5,帶來AI使用體驗的革命性改變。GPT-4.5將簡化操作,整合產品線,GPT-5則具有更強大的推理能力、更可靠的運行表現和整合多媒體功能等。本文探討這兩大模型的特性與影響,並預測其將推動AI普及化發展。
本文整理美國川普政府對於AI發展的看法和策略,涵蓋經濟影響、國際合作、監管策略、能源需求、社會影響及國家安全等面向,並點出政府希望藉由避免過度監管、鼓勵創新和保護美國勞工權益,以確保美國在AI領域保持領先地位。
Google 最新 Gemini 2.0 模型系列震撼登場!三大版本 Flash、Pro 和 Flash-Lite 全面提升性能,上下文理解能力大幅提升,更在成本和靈活性上為企業級應用開闢全新藍海,似乎正是為了扭轉 Google 股價在財報後下跌的氣氛!
OpenAI在今天馬不停蹄地又推出了一款名為「Deep Research」的工具展示了AI技術的驚人潛力,能夠快速瀏覽、分析和整合網路資訊。跟DeepSeek-R1相比的結果如何呢?
還記得一顆衛星讓美國徹底驚醒的史普尼克時刻,以及隨之而來的太空競賽嗎?2025年,AI 界似乎正在上演類似的劇情:當 DeepSeek 展現實力,OpenAI 不只強勢反擊,更首次向免費用戶開放高階功能。這場驚人相似的歷史重演,似乎暗示背後的AI大戰已經悄悄開始了! 史普尼克1號(Spu
中國新創公司DeepSeek推出的DeepSeek-R1模型,以更少的運算資源達到與OpenAI的o1模型相同的效能,引發科技界震盪。但細心的投資者發現,這可能不是末日,而是新機會的開始!傑文斯悖論似乎提示了AI 效率提升背後隱藏的市場擴張機會。
本篇參與的主題活動
當流量至上成為標準,性騷擾被輕描淡寫、受害者被噤聲,我們是否還能給孩子一個安全的未來?作為父親,我無法接受這種價值觀繼續影響下一代。我們該做的,不是遺忘,而是改變環境——拒絕縱容、用行動發聲,讓孩子知道「尊重是底線,說不是權利」。這不只是關於孫生,而是關於我們願意為未來的孩子守住什麼樣的世界。
學習《小狗錢錢》的理財方法,並透過實際操作,達成財務目標與自我提升。從記帳、設定目標、寫夢想清單、成功日記,到發展副業,分享如何將書中方法應用於生活中,並體會到理財不僅僅是管理金錢,更是規劃生活,實現夢想的重要過程。
比較2017年與2024年日本東北旅遊照片,對比藏王樹冰、銀山溫泉、山寺等景點在不同時間的景觀差異,即使地點相同,不同時間的體驗與感受截然不同,珍惜每個當下的珍貴回憶。2024年因暖冬導致雪景不如預期,反觀2017年的雪景壯觀美麗。新聞報導2025年日本東北暴雪,衷心祈願一切平安。
經過年末年初的大掃除,大家是否也好好整頓了自己的居家環境呢?身為家有幼童的媽媽,我也是歷經多次的練習,才調整到適合自己的清潔節奏,在此與大家分享我的清潔小撇步,每個習慣幾乎不超過5分鐘,就能換得一室乾淨,一起來看吧!
記錄一場前往屏東縣三地門鄉德文山(觀望山)的登山之旅,分享路線規劃、登山心得、沿途風景與美食體驗,並提醒登山客注意入山證申請及避免錯過三角點。
薪水的高低,從來不是努力的問題,而是思維的選擇。年薪百萬的人,不是單靠埋頭苦幹,而是透過「創造價值」決定自己的價格。他們懂得提升不可取代性、創造多重收入、主動尋找機會、投資自己,讓財富加速成長。與其等加薪,不如掌握「決定薪資的能力」。這篇文章,讓你看清真正的收入差距,從現在開始,為自己創造更高價值!
當流量至上成為標準,性騷擾被輕描淡寫、受害者被噤聲,我們是否還能給孩子一個安全的未來?作為父親,我無法接受這種價值觀繼續影響下一代。我們該做的,不是遺忘,而是改變環境——拒絕縱容、用行動發聲,讓孩子知道「尊重是底線,說不是權利」。這不只是關於孫生,而是關於我們願意為未來的孩子守住什麼樣的世界。
學習《小狗錢錢》的理財方法,並透過實際操作,達成財務目標與自我提升。從記帳、設定目標、寫夢想清單、成功日記,到發展副業,分享如何將書中方法應用於生活中,並體會到理財不僅僅是管理金錢,更是規劃生活,實現夢想的重要過程。
比較2017年與2024年日本東北旅遊照片,對比藏王樹冰、銀山溫泉、山寺等景點在不同時間的景觀差異,即使地點相同,不同時間的體驗與感受截然不同,珍惜每個當下的珍貴回憶。2024年因暖冬導致雪景不如預期,反觀2017年的雪景壯觀美麗。新聞報導2025年日本東北暴雪,衷心祈願一切平安。
經過年末年初的大掃除,大家是否也好好整頓了自己的居家環境呢?身為家有幼童的媽媽,我也是歷經多次的練習,才調整到適合自己的清潔節奏,在此與大家分享我的清潔小撇步,每個習慣幾乎不超過5分鐘,就能換得一室乾淨,一起來看吧!
記錄一場前往屏東縣三地門鄉德文山(觀望山)的登山之旅,分享路線規劃、登山心得、沿途風景與美食體驗,並提醒登山客注意入山證申請及避免錯過三角點。
薪水的高低,從來不是努力的問題,而是思維的選擇。年薪百萬的人,不是單靠埋頭苦幹,而是透過「創造價值」決定自己的價格。他們懂得提升不可取代性、創造多重收入、主動尋找機會、投資自己,讓財富加速成長。與其等加薪,不如掌握「決定薪資的能力」。這篇文章,讓你看清真正的收入差距,從現在開始,為自己創造更高價值!
你可能也想看
Google News 追蹤
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
2024年5月13日,Openai發布了新一代的模組GPT-4o,念法:GPT-four-O。強調即時對話以及圖像解析能力,官方發布的影片中展現了即席英語-義大利語口譯、程式碼解析、算式解析、人臉表情解析,以及幾乎可媲美真人的語音回應,包含調整語氣、用詞以及模仿機器人語音等,相當令人驚豔。
Thumbnail
人工智慧(AI)發展一日千里,年初OpenAI的Sora,三月初Anthropic的Cloude3,都為未來科技的創想帶來震撼。Elon Musk的X AI公司將他們的大型語言模型Grok-1開源,不僅展現了對AI技術開放共享的承諾,也預示著行業未來可能也會有不同於資本競爭、算力對抗的新發展方向。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
「我們將擁有一種比我們所有人都聰明的智能,而我們對發生了什麼毫不知情。」
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
GPT-4o中的“o”代表“omni”,意思是全能。它能夠在232毫秒內做出回應,幾乎和人類一樣快。這個模型可以即時翻譯、進行視覺推理和自然對話,顯示出它在智能對話、多模態處理和擴展應用場景方面的巨大潛力。
Thumbnail
2024年5月13日,Openai發布了新一代的模組GPT-4o,念法:GPT-four-O。強調即時對話以及圖像解析能力,官方發布的影片中展現了即席英語-義大利語口譯、程式碼解析、算式解析、人臉表情解析,以及幾乎可媲美真人的語音回應,包含調整語氣、用詞以及模仿機器人語音等,相當令人驚豔。
Thumbnail
人工智慧(AI)發展一日千里,年初OpenAI的Sora,三月初Anthropic的Cloude3,都為未來科技的創想帶來震撼。Elon Musk的X AI公司將他們的大型語言模型Grok-1開源,不僅展現了對AI技術開放共享的承諾,也預示著行業未來可能也會有不同於資本競爭、算力對抗的新發展方向。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
「我們將擁有一種比我們所有人都聰明的智能,而我們對發生了什麼毫不知情。」
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大