【批判思考】Grok 4.20 新模型:4個AI人格辯論,降低AI幻覺,開放免費免登入使用

更新 發佈閱讀 4 分鐘
用4個AI人格互相辯論降低AI幻覺 Grok 4.20新模型開放免費用不登入也能問 - 來自癮科技。

文章結論(想要說服你的部分)

Grok 4.20比較不會出現幻覺。

文章原因(用什麼要素說服你)

他採用的不同角色互相結辯的方式,確認整體的推導過程的正確性。


我認為的假設

  • 隱含前提:大部分的人都可以分辨得出來哪些是幻覺,而哪些不是,在這樣的前提下去評估AI幻覺。⇒ Gemini說文章提到「幻覺會導致錯誤認知」,暗示了「人類無法輕易分辨幻覺」,所以才需要 Grok 4.20 來幫忙降低 65% 的錯誤。
  • 隱藏假設:大部分的AI因為只有一個人能蒐集到的資料有限。⇒ Gemini說真正的隱含假設是:「多模型對話的品質,必然優於單一模型的深度計算」。這點不一定成立,有時候四個平庸的代理人討論出來的結果,可能還不如一個頂尖模型的直覺。
  • 隱藏假設:大部分的人都沒辦法同時針對不同的視角提問,所以導致AI在蒐集要回應問題的資料與證據,只能是單向的,也就是說針對提問者當下視角所提出的問題。
  • 隱藏假設:大家在對AI提出的問題,都會是正確的問題。
  • 隱藏假設:大家現在都已經非常信任AI,當AI幻覺產生錯誤的認知,會危害到使用者的心理健康狀態。Gemini說原文最後一段直接寫了「AI 幻覺有可能導致錯誤認知,甚至是危害健康」,所以這是直接陳述,不是隱含假設。
  • 隱含假設:這四個代理人就算各自答案不一樣,但他們最終會找到共識的。

我認為的偏誤

  • 大眾謬誤:從使用者不同AI工具互相提問,確認答案的準確度,就相信只要多一點人進來分析同一個問題,那麼就比較不會有錯誤。
  • 過度簡化:因為之前的AI都是一個人,所以會碰到幻覺本來就很容易,所以只要增加多一點人就不會有這個問題。
  • 語意雙關:因為Grok是四個人同時分析,所以正常情況下會比只有一個人來的好。(忽略了可能的其他因素)

相關問題

  1. 為什麼大部分AI單模型的關係,所以收集資料和證據不充分,但是變成多人的話就可以變得比較充分,而不是算力的問題?
  2. 會不會發生推論過程都沒有問題,但結果答案是錯的?
  3. 如果當AI證據與資料不充足的話,可以不要用其他統計資料去填補答案嗎?
  4. 多少的證據與資料才算是充足的呢?
  5. 為什麼Grok設定的代理人要這四個角色呢?
  6. 如果Grok設定的代理人不是這四個角色會發生什麼事情?
  7. 如果Grok這四個代理人各自的答案都不相同,他們會以誰的為主呢?
  8. 如果提問者本身就比較沒辦法分辨幻覺的話,就算降低幻覺的錯誤率,會有幫助嗎?
  9. 如果我在推出這個Grok的時候,只聚焦於某個領域會怎麼樣?
  10. 如果我讓幻覺更加嚴重的話會怎麼樣呢?
  11. 是怎麼比較這樣的方式和過去的方式,AI幻覺的錯誤率有所降低?有實際的數據可以支持嗎?

Gemini補充:

  • 為了讓四個 Agent 辯論,Grok 的回應速度降低了多少?算力成本增加了幾倍?這是否意味著這種模式永遠無法應用在需要即時反應(如自動駕駛、急診診斷)的場景?
  • 文章說降低了 65% 的幻覺。這個『65%』的基準點是什麼?是跟 Grok 3 比,還是跟 ChatGPT 4 比?測試的題目是客觀事實題(歷史),還是主觀推論題(未來預測)?
  • 如果我給 AI 一個『本身就沒有正確答案』的悖論(例如:電車難題),這四個人格會陷入無窮迴圈嗎?還是會因為必須給出答案,而集體編造一個充滿邏輯感的假答案?
留言
avatar-img
不正經の練功道路
20會員
43內容數
不正經的方式拆解正經的讀書心得,用最正經的態度分析不正經的實際體驗。
2026/02/24
本文深入探討 AI 快速發展可能帶來的經濟衝擊,從失業率攀升、現有經濟模型瓦解,到潛在的通縮風險。分析文章的假設與偏誤,並提出多個關鍵問題,引導讀者思考 AI 時代下的經濟轉型與挑戰,同時對比網路泡沫與現今 AI 巨頭的差異,探討資本流向與勞動力市場的未來趨勢。
Thumbnail
2026/02/24
本文深入探討 AI 快速發展可能帶來的經濟衝擊,從失業率攀升、現有經濟模型瓦解,到潛在的通縮風險。分析文章的假設與偏誤,並提出多個關鍵問題,引導讀者思考 AI 時代下的經濟轉型與挑戰,同時對比網路泡沫與現今 AI 巨頭的差異,探討資本流向與勞動力市場的未來趨勢。
Thumbnail
2025/07/29
極限銷售實戰班,從「加減乘除」的銷售概念、人脈經營、效益量測指標到AI時代的軟實力堆疊。
Thumbnail
2025/07/29
極限銷售實戰班,從「加減乘除」的銷售概念、人脈經營、效益量測指標到AI時代的軟實力堆疊。
Thumbnail
2025/05/15
從節目「三聲有幸」中詹仁雄先生的分享,學習突破慣性、洞察人心、持續精進及展望未來等面向,激發創意、提升效率與創造力。
Thumbnail
2025/05/15
從節目「三聲有幸」中詹仁雄先生的分享,學習突破慣性、洞察人心、持續精進及展望未來等面向,激發創意、提升效率與創造力。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
蔣萬安台北市中小學營養午餐免費政策一經推出,即獲得兩"大報"及不少附庸媒體吹捧:掌握話語權,驚醒藍綠諸侯、連滾帶爬追隨等等。 潘朵拉的盒子被打開,瞬間,一股白爛陳腐的臭酸味撲鼻而來,著實令人感到噁心想吐!但,久入鮑魚之肆者則不覺其臭,其缺乏風險意識者,甚至還紛紛誇讚,無知莫甚於此!
Thumbnail
蔣萬安台北市中小學營養午餐免費政策一經推出,即獲得兩"大報"及不少附庸媒體吹捧:掌握話語權,驚醒藍綠諸侯、連滾帶爬追隨等等。 潘朵拉的盒子被打開,瞬間,一股白爛陳腐的臭酸味撲鼻而來,著實令人感到噁心想吐!但,久入鮑魚之肆者則不覺其臭,其缺乏風險意識者,甚至還紛紛誇讚,無知莫甚於此!
Thumbnail
暢銷作家黃山料收到借閱補償金後,為了讓粉絲趕快看到他的書,他決定用補償金買更多書捐給圖書館,另外是……「鼓勵讀者去誠品免費閱讀一整本。」 這樣的鼓吹或心態,會對產業造成什麼影響?
Thumbnail
暢銷作家黃山料收到借閱補償金後,為了讓粉絲趕快看到他的書,他決定用補償金買更多書捐給圖書館,另外是……「鼓勵讀者去誠品免費閱讀一整本。」 這樣的鼓吹或心態,會對產業造成什麼影響?
Thumbnail
「上帝能創造一塊祂搬不動的石頭嗎?」 這個看似無解的問題,其實可能從一開始就問錯了。 本文從一個被忽略的關鍵出發——耶穌為何拒絕把石頭變成麵包——重新理解什麼叫「全能」。 結論很簡單,也很顛覆: 全能,不是什麼都要做,而是有權選擇不去做。
Thumbnail
「上帝能創造一塊祂搬不動的石頭嗎?」 這個看似無解的問題,其實可能從一開始就問錯了。 本文從一個被忽略的關鍵出發——耶穌為何拒絕把石頭變成麵包——重新理解什麼叫「全能」。 結論很簡單,也很顛覆: 全能,不是什麼都要做,而是有權選擇不去做。
Thumbnail
你是不是也在煩惱貸款的事?想要好的利率、高額度,卻不知道從何下手?在 PTT、Dcard、Threads 這三大討論區上,經常看到網友詢問「有人辦過理債一日便嗎?」、「理債一日便評價如何?」這類問題。其實,貸款這件事真的不簡單,如果只靠自己一家一家銀行比較,不僅耗時費力,還可能因為不懂眉角而吃虧!
Thumbnail
你是不是也在煩惱貸款的事?想要好的利率、高額度,卻不知道從何下手?在 PTT、Dcard、Threads 這三大討論區上,經常看到網友詢問「有人辦過理債一日便嗎?」、「理債一日便評價如何?」這類問題。其實,貸款這件事真的不簡單,如果只靠自己一家一家銀行比較,不僅耗時費力,還可能因為不懂眉角而吃虧!
Thumbnail
「從理論到實踐:如何利用PhET模擬提升學習效果?」 「免費資源大揭秘:PhET互動模擬讓學習變得更有趣!」 「打破傳統教學:PhET模擬如何改變學生的學習方式?」 PhET互動模擬網站(PhET Interactive Simulations)是由科羅拉多大學博爾德分校(Universi
Thumbnail
「從理論到實踐:如何利用PhET模擬提升學習效果?」 「免費資源大揭秘:PhET互動模擬讓學習變得更有趣!」 「打破傳統教學:PhET模擬如何改變學生的學習方式?」 PhET互動模擬網站(PhET Interactive Simulations)是由科羅拉多大學博爾德分校(Universi
Thumbnail
古希臘哲學盛世時期,辯論是極為常見的活動,有一句話「真理越辯越明」即是描述了辯論的初衷,與人辯論是一種辯論,利用論點與論證,去證明自己的觀點,去說服對方;與自己辯論也是一種辯論,當我們看了書,其實腦袋瓜就已經在開始自我辯論......
Thumbnail
古希臘哲學盛世時期,辯論是極為常見的活動,有一句話「真理越辯越明」即是描述了辯論的初衷,與人辯論是一種辯論,利用論點與論證,去證明自己的觀點,去說服對方;與自己辯論也是一種辯論,當我們看了書,其實腦袋瓜就已經在開始自我辯論......
Thumbnail
這場民主黨與共和黨候選人的辯論,集中討論了關鍵政策、經濟挑戰以及醫療改革,並強調了國內問題和國際外交。
Thumbnail
這場民主黨與共和黨候選人的辯論,集中討論了關鍵政策、經濟挑戰以及醫療改革,並強調了國內問題和國際外交。
Thumbnail
「金錢上的賺到」只是附加的價值,貪小便宜並非他們的原初動機,真正的快樂來自於,他們證明了「你以為我們不行,但沒想到我們可以」的小確幸,用小蝦米對抗大鯨魚的姿態贏得了所謂的勝利。
Thumbnail
「金錢上的賺到」只是附加的價值,貪小便宜並非他們的原初動機,真正的快樂來自於,他們證明了「你以為我們不行,但沒想到我們可以」的小確幸,用小蝦米對抗大鯨魚的姿態贏得了所謂的勝利。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News