【批判思考】Grok 4.20 新模型:4個AI人格辯論,降低AI幻覺,開放免費免登入使用

更新 發佈閱讀 4 分鐘
用4個AI人格互相辯論降低AI幻覺 Grok 4.20新模型開放免費用不登入也能問 - 來自癮科技。

文章結論(想要說服你的部分)

Grok 4.20比較不會出現幻覺。

文章原因(用什麼要素說服你)

他採用的不同角色互相結辯的方式,確認整體的推導過程的正確性。


我認為的假設

  • 隱含前提:大部分的人都可以分辨得出來哪些是幻覺,而哪些不是,在這樣的前提下去評估AI幻覺。⇒ Gemini說文章提到「幻覺會導致錯誤認知」,暗示了「人類無法輕易分辨幻覺」,所以才需要 Grok 4.20 來幫忙降低 65% 的錯誤。
  • 隱藏假設:大部分的AI因為只有一個人能蒐集到的資料有限。⇒ Gemini說真正的隱含假設是:「多模型對話的品質,必然優於單一模型的深度計算」。這點不一定成立,有時候四個平庸的代理人討論出來的結果,可能還不如一個頂尖模型的直覺。
  • 隱藏假設:大部分的人都沒辦法同時針對不同的視角提問,所以導致AI在蒐集要回應問題的資料與證據,只能是單向的,也就是說針對提問者當下視角所提出的問題。
  • 隱藏假設:大家在對AI提出的問題,都會是正確的問題。
  • 隱藏假設:大家現在都已經非常信任AI,當AI幻覺產生錯誤的認知,會危害到使用者的心理健康狀態。Gemini說原文最後一段直接寫了「AI 幻覺有可能導致錯誤認知,甚至是危害健康」,所以這是直接陳述,不是隱含假設。
  • 隱含假設:這四個代理人就算各自答案不一樣,但他們最終會找到共識的。

我認為的偏誤

  • 大眾謬誤:從使用者不同AI工具互相提問,確認答案的準確度,就相信只要多一點人進來分析同一個問題,那麼就比較不會有錯誤。
  • 過度簡化:因為之前的AI都是一個人,所以會碰到幻覺本來就很容易,所以只要增加多一點人就不會有這個問題。
  • 語意雙關:因為Grok是四個人同時分析,所以正常情況下會比只有一個人來的好。(忽略了可能的其他因素)

相關問題

  1. 為什麼大部分AI單模型的關係,所以收集資料和證據不充分,但是變成多人的話就可以變得比較充分,而不是算力的問題?
  2. 會不會發生推論過程都沒有問題,但結果答案是錯的?
  3. 如果當AI證據與資料不充足的話,可以不要用其他統計資料去填補答案嗎?
  4. 多少的證據與資料才算是充足的呢?
  5. 為什麼Grok設定的代理人要這四個角色呢?
  6. 如果Grok設定的代理人不是這四個角色會發生什麼事情?
  7. 如果Grok這四個代理人各自的答案都不相同,他們會以誰的為主呢?
  8. 如果提問者本身就比較沒辦法分辨幻覺的話,就算降低幻覺的錯誤率,會有幫助嗎?
  9. 如果我在推出這個Grok的時候,只聚焦於某個領域會怎麼樣?
  10. 如果我讓幻覺更加嚴重的話會怎麼樣呢?
  11. 是怎麼比較這樣的方式和過去的方式,AI幻覺的錯誤率有所降低?有實際的數據可以支持嗎?

Gemini補充:

  • 為了讓四個 Agent 辯論,Grok 的回應速度降低了多少?算力成本增加了幾倍?這是否意味著這種模式永遠無法應用在需要即時反應(如自動駕駛、急診診斷)的場景?
  • 文章說降低了 65% 的幻覺。這個『65%』的基準點是什麼?是跟 Grok 3 比,還是跟 ChatGPT 4 比?測試的題目是客觀事實題(歷史),還是主觀推論題(未來預測)?
  • 如果我給 AI 一個『本身就沒有正確答案』的悖論(例如:電車難題),這四個人格會陷入無窮迴圈嗎?還是會因為必須給出答案,而集體編造一個充滿邏輯感的假答案?
留言
avatar-img
在正常的世界中叛逆
264會員
115內容數
批判才能刺激思考,思考才能產生問題,問題才能想出答案。
2026/02/24
本文深入探討 AI 快速發展可能帶來的經濟衝擊,從失業率攀升、現有經濟模型瓦解,到潛在的通縮風險。分析文章的假設與偏誤,並提出多個關鍵問題,引導讀者思考 AI 時代下的經濟轉型與挑戰,同時對比網路泡沫與現今 AI 巨頭的差異,探討資本流向與勞動力市場的未來趨勢。
Thumbnail
2026/02/24
本文深入探討 AI 快速發展可能帶來的經濟衝擊,從失業率攀升、現有經濟模型瓦解,到潛在的通縮風險。分析文章的假設與偏誤,並提出多個關鍵問題,引導讀者思考 AI 時代下的經濟轉型與挑戰,同時對比網路泡沫與現今 AI 巨頭的差異,探討資本流向與勞動力市場的未來趨勢。
Thumbnail
2025/07/29
極限銷售實戰班,從「加減乘除」的銷售概念、人脈經營、效益量測指標到AI時代的軟實力堆疊。
Thumbnail
2025/07/29
極限銷售實戰班,從「加減乘除」的銷售概念、人脈經營、效益量測指標到AI時代的軟實力堆疊。
Thumbnail
2025/05/15
從節目「三聲有幸」中詹仁雄先生的分享,學習突破慣性、洞察人心、持續精進及展望未來等面向,激發創意、提升效率與創造力。
Thumbnail
2025/05/15
從節目「三聲有幸」中詹仁雄先生的分享,學習突破慣性、洞察人心、持續精進及展望未來等面向,激發創意、提升效率與創造力。
Thumbnail
看更多
你可能也想看
Thumbnail
這場民主黨與共和黨候選人的辯論,集中討論了關鍵政策、經濟挑戰以及醫療改革,並強調了國內問題和國際外交。
Thumbnail
這場民主黨與共和黨候選人的辯論,集中討論了關鍵政策、經濟挑戰以及醫療改革,並強調了國內問題和國際外交。
Thumbnail
「從理論到實踐:如何利用PhET模擬提升學習效果?」 「免費資源大揭秘:PhET互動模擬讓學習變得更有趣!」 「打破傳統教學:PhET模擬如何改變學生的學習方式?」 PhET互動模擬網站(PhET Interactive Simulations)是由科羅拉多大學博爾德分校(Universi
Thumbnail
「從理論到實踐:如何利用PhET模擬提升學習效果?」 「免費資源大揭秘:PhET互動模擬讓學習變得更有趣!」 「打破傳統教學:PhET模擬如何改變學生的學習方式?」 PhET互動模擬網站(PhET Interactive Simulations)是由科羅拉多大學博爾德分校(Universi
Thumbnail
「上帝能創造一塊祂搬不動的石頭嗎?」 這個看似無解的問題,其實可能從一開始就問錯了。 本文從一個被忽略的關鍵出發——耶穌為何拒絕把石頭變成麵包——重新理解什麼叫「全能」。 結論很簡單,也很顛覆: 全能,不是什麼都要做,而是有權選擇不去做。
Thumbnail
「上帝能創造一塊祂搬不動的石頭嗎?」 這個看似無解的問題,其實可能從一開始就問錯了。 本文從一個被忽略的關鍵出發——耶穌為何拒絕把石頭變成麵包——重新理解什麼叫「全能」。 結論很簡單,也很顛覆: 全能,不是什麼都要做,而是有權選擇不去做。
Thumbnail
你是不是也在煩惱貸款的事?想要好的利率、高額度,卻不知道從何下手?在 PTT、Dcard、Threads 這三大討論區上,經常看到網友詢問「有人辦過理債一日便嗎?」、「理債一日便評價如何?」這類問題。其實,貸款這件事真的不簡單,如果只靠自己一家一家銀行比較,不僅耗時費力,還可能因為不懂眉角而吃虧!
Thumbnail
你是不是也在煩惱貸款的事?想要好的利率、高額度,卻不知道從何下手?在 PTT、Dcard、Threads 這三大討論區上,經常看到網友詢問「有人辦過理債一日便嗎?」、「理債一日便評價如何?」這類問題。其實,貸款這件事真的不簡單,如果只靠自己一家一家銀行比較,不僅耗時費力,還可能因為不懂眉角而吃虧!
Thumbnail
你聽過「哈瑪星:不廢搖滾」音樂祭嗎?這是高雄市逼走了平均一年補助500萬的大港開唱後,用最多可擴充至1300萬的預算發包的「免費」音樂祭,諷刺的是,名為「不廢搖滾」的音樂祭,卻徹徹底底地把高雄音樂祭及搖滾樂的消費市場給廢了。
Thumbnail
你聽過「哈瑪星:不廢搖滾」音樂祭嗎?這是高雄市逼走了平均一年補助500萬的大港開唱後,用最多可擴充至1300萬的預算發包的「免費」音樂祭,諷刺的是,名為「不廢搖滾」的音樂祭,卻徹徹底底地把高雄音樂祭及搖滾樂的消費市場給廢了。
Thumbnail
暢銷作家黃山料收到借閱補償金後,為了讓粉絲趕快看到他的書,他決定用補償金買更多書捐給圖書館,另外是……「鼓勵讀者去誠品免費閱讀一整本。」 這樣的鼓吹或心態,會對產業造成什麼影響?
Thumbnail
暢銷作家黃山料收到借閱補償金後,為了讓粉絲趕快看到他的書,他決定用補償金買更多書捐給圖書館,另外是……「鼓勵讀者去誠品免費閱讀一整本。」 這樣的鼓吹或心態,會對產業造成什麼影響?
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
古希臘哲學盛世時期,辯論是極為常見的活動,有一句話「真理越辯越明」即是描述了辯論的初衷,與人辯論是一種辯論,利用論點與論證,去證明自己的觀點,去說服對方;與自己辯論也是一種辯論,當我們看了書,其實腦袋瓜就已經在開始自我辯論......
Thumbnail
古希臘哲學盛世時期,辯論是極為常見的活動,有一句話「真理越辯越明」即是描述了辯論的初衷,與人辯論是一種辯論,利用論點與論證,去證明自己的觀點,去說服對方;與自己辯論也是一種辯論,當我們看了書,其實腦袋瓜就已經在開始自我辯論......
Thumbnail
「金錢上的賺到」只是附加的價值,貪小便宜並非他們的原初動機,真正的快樂來自於,他們證明了「你以為我們不行,但沒想到我們可以」的小確幸,用小蝦米對抗大鯨魚的姿態贏得了所謂的勝利。
Thumbnail
「金錢上的賺到」只是附加的價值,貪小便宜並非他們的原初動機,真正的快樂來自於,他們證明了「你以為我們不行,但沒想到我們可以」的小確幸,用小蝦米對抗大鯨魚的姿態贏得了所謂的勝利。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News