📝📝：善於推理的 Grok 3 卻漏洞百出？｜神經科學家 Gary Marcus：增加 GPU 未必能增強推理

鋼哥

2025/02/28 更新2025/02/28 發佈閱讀 4 分鐘

本文翻譯自美國神經科學家 Gary Marcus 的文章《Grok 3 Beta in Shambles》

馬斯克最近推出了 Grok 3，聲稱其是「地球上最聰明的 AI」，擁有 200,000 個 GPU 提供計算能力。Grok 3 被宣稱是「最大程度尋求真相」的模型。

然而，神經科學家 Gary Marcus 實際測試，暴露了 Grok 3 的重大缺陷，與之前的大型語言模型 (LLM) 相似的問題依然存在。

基本計算與推理錯誤

Grok 3 的第一個警訊來自其基本數學運算能力。

雖然 Grok 3 最初成功比較了兩個小數，但隨後的查詢顯示其表現不穩定。這表明，即使擁有強大計算資源，Grok 3 仍然在數學推理方面表現不佳，這對於高級 AI 來說是一個嚴重缺陷。

ASCII 藝術與視覺表現的困難

用戶嘗試透過 ASCII 藝術來繞過 Grok 3 眾所周知的圖像生成限制，認為基於文本的表現方式應該較容易處理。

然而，Grok 3 產生了扭曲且無法辨識的輸出。即使在「思考模式」（thinking mode）下，Grok 3 的回應仍然不可靠。這凸顯了 Grok 3 在處理和再現結構化視覺資訊方面的缺陷。

Grok 3 將圖中像素合成的猴子臉龐指認成座位（seat）。來源： Gary Marcus

基本事實檢索與日期辨識錯誤

另一個令人擔憂的問題是 Grok 3 無法準確檢索基本事實，例如當天日期。

雖然有些用戶成功獲得正確答案，但也有用戶發現 AI 提供了錯誤或多選答案。對於被設計為提供即時資訊的 AI 來說，這是一個意外的缺陷。

Gary Marcus 詢問當天的日期，Grok 3 卻回應 2024/9/11，即使請 Grok 3 再次確認還是執意認為自己是對的。來源：Gary Marcus

深度搜索：看似準確卻潛藏錯誤

Grok 3 的「深度搜索」功能應能提供深入的數據驅動回應，但測試顯示其結果常有遺漏與錯誤。

例如，Marcus 要求 Grok 3 列出美國丹佛（Denvor）以西且人口超過 100,000 的主要城市時，Grok 3 遺漏了蒙大拿州的比靈斯（Billings），該市人口為 117,116。

此外，AI 也忽略了所有加拿大相關城市，包括溫哥華（人口 662,248），即使之前的查詢均與加拿大地理有關。

來源：Dude Rancher Lodge

當被問及為何比靈斯未被列入時，Grok 3 誤解了問題，提供了一份關於比靈斯近期發生地震的虛假報告。

然而，Marcus 查證過後，發現比靈斯近期根本沒有地震。即使 Marcus 要求澄清，Grok 3 仍然堅持其錯誤說法，並引用不存在的來源。這顯示其無法有效區分事實與幻覺內容。

增加算力，卻無法解決過度自信

Grok 3 最令人擔憂的問題之一，正是 Grok 3 無法進行自我修正。

與傳統科學方法不同，當有新證據時，Grok 3 並不會重新評估整體的推論，而是加深錯誤的資料來源，使使用者受到誤導。作為一個「最大程度尋求真相」的 AI 來說，這嚴重損害了 Grok 3 的可信度。

在一系列的推理錯誤之下，Marcus 指出：

即使 Grok 3 計算能力大幅提升：耗費數月的訓練，也比 Grok 2 高出 15 倍的計算能力。但 Grok 3 仍然出現與早期 LLM 相同的錯誤。

這引發了一個關鍵問題：單純擴展計算資源真的能提升 AI 推理能力？還是我們已接近現有技術的極限？

耗費數月的訓練，也比 Grok 2 高出 15 倍的計算能力。Grok 3 仍然出現與早期 LLM 相同的錯誤。 Jaap Arriens/NurPhoto(opens in a new window)/ Getty Images

Grok 3 的缺陷提醒我們，AI 的炒作並不總能轉化為實際可靠性。儘管業界持續投入數十億美元來擴展模型，但基本挑戰仍未解決：

幻覺與過度自信

AI 會自信地生成錯誤資訊，且缺乏內建的自我修正機制。

邏輯與計算不一致

即使是基本算術與推理任務仍然容易出錯。

數據選擇偏差

加拿大城市的遺漏，表明 Grok 3 的數據集或訓練方法可能存在地區的偏見。

計算擴展的邊際效益遞減

增加 GPU 和訓練時間未必能改善推理能力。

Grok 3 的持續缺陷表明，AI 發展需要的不僅僅是大規模計算能力。為了構建真正可靠和智慧的系統，Marcus 認為，研究人員應專注於：

增強錯誤檢測與自我修正機制。
改善上下文理解以避免誤解查詢。
超越純粹的計算能力擴展，重新思考訓練方法。
優先考慮透明性與事實查核，以減少錯誤資訊的傳播。

在這些問題得到解決之前，用戶必須對 AI 生成的內容保持批判性思考。無論 AI 輸出的內容看起來多麼令人印象深刻，「使用者自行對生成的內容負責」仍然是黃金法則。

留言

社會人的哲學沉思

190會員

350內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

社會人的哲學沉思的其他內容

2025/04/25

📝📝：AI 正處於危險的幻覺｜認知科學家 Guillaume Thierry：我們需要停止人性化 AI

大型語言模型以自然的節奏說話，表達好奇心，甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實：這些 AI 系統根本不具備這些人類特質。

2025/04/25

📝📝：AI 正處於危險的幻覺｜認知科學家 Guillaume Thierry：我們需要停止人性化 AI

2025/04/22

📝📝：馬來人、爪哇人、菲律賓人都很懶惰？｜「懶惰」的迷思隨著殖民政策延續至今的東南亞

「懶惰原住民」（the Lazy Native）的迷思並非自然形成，而是殖民當局帶著明確的意識形態意圖精心打造的。

2025/04/22

📝📝：馬來人、爪哇人、菲律賓人都很懶惰？｜「懶惰」的迷思隨著殖民政策延續至今的東南亞

「懶惰原住民」（the Lazy Native）的迷思並非自然形成，而是殖民當局帶著明確的意識形態意圖精心打造的。

2025/04/18

📝📝：未來的人類不再意識到 AI 的存在｜科技思想家 Kevin Kelly 對技術、AI 及其未來影響的見解

KK 指出，AI 的長期影響將超過電力與火的發明，但這個變革需要數百年來逐步展現。

2025/04/18

📝📝：未來的人類不再意識到 AI 的存在｜科技思想家 Kevin Kelly 對技術、AI 及其未來影響的見解

KK 指出，AI 的長期影響將超過電力與火的發明，但這個變革需要數百年來逐步展現。

看更多

你可能也想看

每日發車

筆記-24.03.25-科技財知道

筆記-24.03.25-科技財知道 *輝達想做的事情非常多，包括AI GPU的算力提供(GB200)、協助半導體製造(cuLitho)、車用晶片(Drive Thor)、機器人開發平台(GR00T)、元宇宙等物理模擬(Omniverse)。 *GB200 = 2個B100+1個Grace CPU

2024/03/31

2024/03/31

有研究發現，人類大腦可能是一台大型量子電腦，此時做個大膽假設「大腦可以進行量子運作」，大腦中的電子神經元運作，就是接受來自宇宙深處的電訊號。

2024/08/12

2024/08/12

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

新石的沙龍

AI狂想曲之通靈軟體

記者：「上次採訪的萬物溝通軟體，在網路引爆熱潮，不過大部都是拿來當笑話!害我被老板給訓了一頓，還要我再找時間來採訪博士，然後一再叮嚀千萬不能再採訪超級電腦一號了，就怕碰見上次的「程式故障」!」摩爾博士：「上次的確是失禮了!本想開個玩笑卻惹起這麼大的風波，還有人打電話到我們研究機構，說我們有沒有通

2024/06/25

2024/06/25

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28