📝📝:善於推理的 Grok 3 卻漏洞百出?| 神經科學家 Gary Marcus:增加 GPU 未必能增強推理

更新於 發佈於 閱讀時間約 4 分鐘
raw-image




本文翻譯自美國神經科學家 Gary Marcus 的文章《Grok 3 Beta in Shambles



馬斯克最近推出了 Grok 3,聲稱其是「地球上最聰明的 AI」,擁有 200,000 個 GPU 提供計算能力。Grok 3 被宣稱是「最大程度尋求真相」的模型。

然而,神經科學家 Gary Marcus 實際測試,暴露了 Grok 3 的重大缺陷,與之前的大型語言模型 (LLM) 相似的問題依然存在。


基本計算與推理錯誤

Grok 3 的第一個警訊來自其基本數學運算能力。

雖然 Grok 3 最初成功比較了兩個小數,但隨後的查詢顯示其表現不穩定。這表明,即使擁有強大計算資源,Grok 3 仍然在數學推理方面表現不佳,這對於高級 AI 來說是一個嚴重缺陷。


ASCII 藝術與視覺表現的困難

用戶嘗試透過 ASCII 藝術來繞過 Grok 3 眾所周知的圖像生成限制,認為基於文本的表現方式應該較容易處理。

然而,Grok 3 產生了扭曲且無法辨識的輸出。即使在「思考模式」(thinking mode)下,Grok 3 的回應仍然不可靠。這凸顯了 Grok 3 在處理和再現結構化視覺資訊方面的缺陷。

Grok 3 將圖中像素合成的猴子臉龐指認成座位(seat)。來源: Gary Marcus

Grok 3 將圖中像素合成的猴子臉龐指認成座位(seat)。來源: Gary Marcus


基本事實檢索與日期辨識錯誤

另一個令人擔憂的問題是 Grok 3 無法準確檢索基本事實,例如當天日期。

雖然有些用戶成功獲得正確答案,但也有用戶發現 AI 提供了錯誤或多選答案。對於被設計為提供即時資訊的 AI 來說,這是一個意外的缺陷。

Gary Marcus 詢問當天的日期,Grok 3 卻回應 2024/9/11,即使請 Grok 3 再次確認還是執意認為自己是對的。來源:Gary Marcus

Gary Marcus 詢問當天的日期,Grok 3 卻回應 2024/9/11,即使請 Grok 3 再次確認還是執意認為自己是對的。來源:Gary Marcus


深度搜索:看似準確卻潛藏錯誤

Grok 3 的「深度搜索」功能應能提供深入的數據驅動回應,但測試顯示其結果常有遺漏與錯誤。

例如,Marcus 要求 Grok 3 列出美國丹佛(Denvor)以西且人口超過 100,000 的主要城市時,Grok 3 遺漏了蒙大拿州的比靈斯(Billings),該市人口為 117,116。

此外,AI 也忽略了所有加拿大相關城市,包括溫哥華(人口 662,248),即使之前的查詢均與加拿大地理有關。


來源:Dude Rancher Lodge

來源:Dude Rancher Lodge


當被問及為何比靈斯未被列入時,Grok 3 誤解了問題,提供了一份關於比靈斯近期發生地震的虛假報告。

然而,Marcus 查證過後,發現比靈斯近期根本沒有地震。即使 Marcus 要求澄清,Grok 3 仍然堅持其錯誤說法,並引用不存在的來源。這顯示其無法有效區分事實與幻覺內容。

增加算力,卻無法解決過度自信

Grok 3 最令人擔憂的問題之一,正是 Grok 3 無法進行自我修正。

與傳統科學方法不同,當有新證據時,Grok 3 並不會重新評估整體的推論,而是加深錯誤的資料來源,使使用者受到誤導。作為一個「最大程度尋求真相」的 AI 來說,這嚴重損害了 Grok 3 的可信度。


在一系列的推理錯誤之下,Marcus 指出:

即使 Grok 3 計算能力大幅提升:耗費數月的訓練,也比 Grok 2 高出 15 倍的計算能力。但 Grok 3 仍然出現與早期 LLM 相同的錯誤。

這引發了一個關鍵問題:單純擴展計算資源真的能提升 AI 推理能力?還是我們已接近現有技術的極限?

耗費數月的訓練,也比 Grok 2 高出 15 倍的計算能力。Grok 3 仍然出現與早期 LLM 相同的錯誤。 Jaap Arriens/NurPhoto(opens in a new window)/ Getty Images

耗費數月的訓練,也比 Grok 2 高出 15 倍的計算能力。Grok 3 仍然出現與早期 LLM 相同的錯誤。 Jaap Arriens/NurPhoto(opens in a new window)/ Getty Images


Grok 3 的缺陷提醒我們,AI 的炒作並不總能轉化為實際可靠性。儘管業界持續投入數十億美元來擴展模型,但基本挑戰仍未解決:

幻覺與過度自信

AI 會自信地生成錯誤資訊,且缺乏內建的自我修正機制。

邏輯與計算不一致

即使是基本算術與推理任務仍然容易出錯。

數據選擇偏差

加拿大城市的遺漏,表明 Grok 3 的數據集或訓練方法可能存在地區的偏見。

計算擴展的邊際效益遞減

增加 GPU 和訓練時間未必能改善推理能力。




Grok 3 的持續缺陷表明,AI 發展需要的不僅僅是大規模計算能力。為了構建真正可靠和智慧的系統,Marcus 認為,研究人員應專注於:

  • 增強錯誤檢測與自我修正機制。
  • 改善上下文理解以避免誤解查詢。
  • 超越純粹的計算能力擴展,重新思考訓練方法。
  • 優先考慮透明性與事實查核,以減少錯誤資訊的傳播。


在這些問題得到解決之前,用戶必須對 AI 生成的內容保持批判性思考。無論 AI 輸出的內容看起來多麼令人印象深刻,「使用者自行對生成的內容負責」仍然是黃金法則。




avatar-img
111會員
232內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
留言
avatar-img
留言分享你的想法!

































































社會人的哲學沉思 的其他內容
合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。
相較於過往強調的 CP 值(Cost Performance),Z 世代更強調 TP 值,也就是「時間效益」(TP, Time Performance),即如何在最短時間內獲取最大的價值與滿足感。
韓炳哲探討了「情色」與「色情」的區別,兩者有著截然不同的意義,並主張「情色」與「色情」在透明社會中正經歷一種不可逆反的轉變。
5/5透明社會
《狂人法則》(The Apprentice)講述美國總統川普(Donald Trump)在 1970 年代至 1980 年代的紐約房地產行業闖蕩的經歷,以及與律師羅伊.科恩之間的師徒關係。
4/5狂人法則
從日本使用者角度觀察 DeepSeek,會發現時常偏向中國官方觀點的敘述;若暗示實際上並不中立,很可能讓系統進入混亂的思考過程,甚至陷入無法收拾的迴圈。
我經常想著「為什麼一定要拿湯碗裝燒仙草呢?」又或者「我應該也可以用杯子裝玉米濃湯吧?」對我來說,杯和碗,在功能上似乎是可以互換的容器。
合成數據並未能緩解數據缺乏的焦慮,隨著模型幾代的演算,生成的作品愈趨同質、失去多樣性;甚至,最後陷入模型自嗜的狀況。
相較於過往強調的 CP 值(Cost Performance),Z 世代更強調 TP 值,也就是「時間效益」(TP, Time Performance),即如何在最短時間內獲取最大的價值與滿足感。
韓炳哲探討了「情色」與「色情」的區別,兩者有著截然不同的意義,並主張「情色」與「色情」在透明社會中正經歷一種不可逆反的轉變。
5/5透明社會
《狂人法則》(The Apprentice)講述美國總統川普(Donald Trump)在 1970 年代至 1980 年代的紐約房地產行業闖蕩的經歷,以及與律師羅伊.科恩之間的師徒關係。
4/5狂人法則
從日本使用者角度觀察 DeepSeek,會發現時常偏向中國官方觀點的敘述;若暗示實際上並不中立,很可能讓系統進入混亂的思考過程,甚至陷入無法收拾的迴圈。
我經常想著「為什麼一定要拿湯碗裝燒仙草呢?」又或者「我應該也可以用杯子裝玉米濃湯吧?」對我來說,杯和碗,在功能上似乎是可以互換的容器。
你可能也想看
Google News 追蹤
Thumbnail
有研究發現,人類大腦可能是一台大型量子電腦,此時做個大膽假設「大腦可以進行量子運作」,大腦中的電子神經元運作,就是接受來自宇宙深處的電訊號。
Thumbnail
記者:「上次採訪的萬物溝通軟體,在網路引爆熱潮,不過大部都是拿來當笑話!害我被老板給訓了一頓,還要我再找時間來採訪博士,然後一再叮嚀千萬不能再採訪超級電腦一號了,就怕碰見上次的「程式故障」!」 摩爾博士:「上次的確是失禮了!本想開個玩笑卻惹起這麼大的風波,還有人打電話到我們研究機構,說我們有沒有通
Thumbnail
AI PC 硬體 + AI OS + AI PC 摘要
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
相信不少顏色粉(而且很多還是特粉)一定會酸他在「與虎謀皮」最後一定會被養套殺,事實上,馬斯克的智商比各位都高太多了,而且以他擁有的資源,他的視野與維度完全與一般人是在不同的量級上,馬斯克只不過是在跟中共做一樁買賣,互取所需而已,彼此都有,也都知道對方想要交換的籌碼是什麼。
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
筆記-24.03.25-科技財知道 *輝達想做的事情非常多,包括AI GPU的算力提供(GB200)、協助半導體製造(cuLitho)、車用晶片(Drive Thor)、機器人開發平台(GR00T)、元宇宙等物理模擬(Omniverse)。 *GB200 = 2個B100+1個Grace CPU
Thumbnail
Hi 我是 VK~ 這期我們來聊聊《致富心態》作者 Morgan Housel 他如何思考財富?如何寫出暢銷書? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 今年二月底,馬斯克在 X Spaces 提到他旗下腦機介面新創 Neuralink 的新進展:
Thumbnail
2024年初春,馬斯克和黃仁勳的AGI人工智慧新聞對比。無論在OpenAI控告還是AGI定義方面,黃仁勳都顯得更為穩重和理智。
Thumbnail
有研究發現,人類大腦可能是一台大型量子電腦,此時做個大膽假設「大腦可以進行量子運作」,大腦中的電子神經元運作,就是接受來自宇宙深處的電訊號。
Thumbnail
記者:「上次採訪的萬物溝通軟體,在網路引爆熱潮,不過大部都是拿來當笑話!害我被老板給訓了一頓,還要我再找時間來採訪博士,然後一再叮嚀千萬不能再採訪超級電腦一號了,就怕碰見上次的「程式故障」!」 摩爾博士:「上次的確是失禮了!本想開個玩笑卻惹起這麼大的風波,還有人打電話到我們研究機構,說我們有沒有通
Thumbnail
AI PC 硬體 + AI OS + AI PC 摘要
Thumbnail
筆記-股癌-24.05.22 *認養狗可以聯絡Liza的IG。 *微軟AI PC: - 售價1000歐元起的AI PC,6/18推出,晶片NPU算力在40 TOPS以上, - 裝置有連動GPT-4o,這部分的功能還是要連上網;Copilot功能下放到邊緣端。 - recall功能,可以把螢
Thumbnail
相信不少顏色粉(而且很多還是特粉)一定會酸他在「與虎謀皮」最後一定會被養套殺,事實上,馬斯克的智商比各位都高太多了,而且以他擁有的資源,他的視野與維度完全與一般人是在不同的量級上,馬斯克只不過是在跟中共做一樁買賣,互取所需而已,彼此都有,也都知道對方想要交換的籌碼是什麼。
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
筆記-24.03.25-科技財知道 *輝達想做的事情非常多,包括AI GPU的算力提供(GB200)、協助半導體製造(cuLitho)、車用晶片(Drive Thor)、機器人開發平台(GR00T)、元宇宙等物理模擬(Omniverse)。 *GB200 = 2個B100+1個Grace CPU
Thumbnail
Hi 我是 VK~ 這期我們來聊聊《致富心態》作者 Morgan Housel 他如何思考財富?如何寫出暢銷書? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 今年二月底,馬斯克在 X Spaces 提到他旗下腦機介面新創 Neuralink 的新進展:
Thumbnail
2024年初春,馬斯克和黃仁勳的AGI人工智慧新聞對比。無論在OpenAI控告還是AGI定義方面,黃仁勳都顯得更為穩重和理智。