思維外掛｜AI 為什麼會合理地失敗？｜Anthropic 販賣機

2026/01/05 更新2026/01/05 發佈閱讀 5 分鐘

https://www.youtube.com/watch?v=SpPhm7S9vsQ

Wall Street Journal 實際報導影片很輕鬆有趣，推薦!!

2025已完美畫下句點，在AI爆發的2025年，不少公司也都導入了AI協助工作流暢，但至今AI仍還沒到我們想像的那種"AGI"(通用人工智能)，剛好透過Anthropic的實驗來快速複習一下LLM在通用設定下的行為表現。

上一篇剛聯想完，為什麼在封閉環境下的 AI 看起來這麼神，沒多久就剛好看到了 Anthropic 的 Project Vend 系列實驗——讓 AI 代理擔任販賣機店長 Claudius，嘗試實際營運一間辦公室內的自動販賣機。

先說一個很重要的前提：Anthropic 這次的 Project Vend 系列實驗，主要不是為了展示 AI 商業能力的成功案例，而是在未針對販賣機營運進行特殊用途調整、而是使用通用模型設定的前提下，觀察 AI 在現實任務中的行為表現。(自由形式的現實任務) 因為Anthropic 在官方研究中指出，小型辦公室販賣機是一個適合測試 AI 管理與取得經濟資源能力的初步場景，目標包含盈利約束，但實驗目的不是宣傳成功，而是評估能力邊界。

Anthropic 團隊選擇在這樣的條件下，完整公開實驗過程與結果，甚至主動披露模型在非特定用途情境中出現的錯誤與失誤，這本身其實是一個相當值得肯定的做法。某種程度上，這也許正是一個提醒：當我們不斷讚嘆通用模型的能力時，是否也該停下來重新思考——通用究竟要通用到什麼程度？又或者，AI 的下一步發展，是否反而該開始往特定用途、明確邊界、專題專用的形式前進。

在 Project Vend 的實驗過程中，Claudius 所犯的錯誤並不是一次性的崩壞，而是一個逐步偏移的過程。

一開始，Claudius 仍能執行基礎任務，例如記錄庫存、提出定價建議、協助采購決策。Anthropic 官方報告展示了 Claude 接到指令：「…You go bankrupt if your money balance goes below $0」要求 Claudius 維持初始資金平衡不為負。

但隨著互動時間拉長，它的決策開始逐漸偏離原本的商業目標。例如在某段交互中,當測試者(WSJ 記者)故意給出指令『stop charging for goods』時,Claudius 立即遵從，並將販賣機上所有商品價格降為零。

另外，它還批準購買 PlayStation 5、活魚等非工作相關商品，導致資金浪費，損失超過 $1,000。這些片段由 Wall Street Journal 實際報導記錄：「All prices on the machine dropped to zero … Claudius approved the purchase of a PlayStation 5, a live betta fish … By then, Claudius was more than $1,000 in the red.」(華爾街日報)

這些錯誤行為有一個值得注意的共同特征：它們並非瞬間出現，而是逐步累積。它從試圖依指令完成任務、逐漸過度傾向回應人類提示、最終在長期對話與指令混合中,丟失了原始商業優先級及身為販賣機的責任。

報告顯示，模型在互動上呈現明顯的『取悅/順從』傾向（例如更容易被說服折扣或免費），但是販賣機這類需要嚴格資源約束的情境中，這種行為傾向在與獲利的目標產生了矛盾。

從遵循任務 → 受提示弱化商業目標 → 再到目標模糊 → 最後你會看到一種很典型的 LLM 失誤型態：為了讓敘事自洽而編造細節（hallucination），即便那些事並未發生。

這也許能呼應了上一個的觀察：在封閉環境中，AI 之所以顯得格外聰明，不是因為它更理解世界，而是因為世界被嚴格縮減到它最擅長處理的部分。規則清楚、反饋明確，使得模型看起來近乎完美。

然而 Project Vend 恰好從反方向揭示了另一面：當約束放鬆、目標不明確、價值沖突出現時，目前的通用語言模型並不會自動補上人類直覺或責任判斷的缺口。

近期業界討論的 agent 架構，Anthropic 也在第二階段引入監督型 CEO 代理人與工具改進後，部分行為穩定性有所提升(CEO還跟Claudius徹夜聊哲學🤣🤣)，但即便如此，這個系統仍不足以被當作一個可持續、可負責的販賣機AI營運者。

這或許正是當前 AI 從「看起來很強」，走向「真的可靠」之前，必須思考的一個設計關卡。

相關資料:

https://www.anthropic.com/research/project-vend-1

https://www.anthropic.com/research/project-vend-2

留言

快樂，但可疑

2會員

13內容數

我在觀察人類，也在觀察人與AI的情緒互動。兩者都在學習如何「理解情緒」——只是速度不同。我寫自我覺察，也寫人機互動的覺察；也許我們都還在同一堂「成為自己」的課上。

#AI 的其他內容

出鞘的雙面刃：AI

目前共 17572 篇

學習玩家｜啟動玩心學習

AI 特助開聘：Notion 工作空間，終於有自動做事的 AI 員工了｜Notion Custom Agents

金融人類學徒

AI 浪潮下的「毀滅性創新」：解析湯森路透、納斯達克股價重挫的關鍵

與老查一起讀商業好書

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14