Wall Street Journal 實際報導 影片很輕鬆有趣,推薦!!
2025已完美畫下句點,在AI爆發的2025年,不少公司也都導入了AI協助工作流暢,但至今AI仍還沒到我們想像的那種"AGI"(通用人工智能),剛好透過Anthropic的實驗來快速複習一下LLM在通用設定下的行為表現。
上一篇剛聯想完,為什麼在封閉環境下的 AI 看起來這麼神,沒多久就剛好看到了 Anthropic 的 Project Vend 系列實驗——讓 AI 代理擔任販賣機店長 Claudius,嘗試實際營運一間辦公室內的自動販賣機。
先說一個很重要的前提:Anthropic 這次的 Project Vend 系列實驗,主要不是為了展示 AI 商業能力的成功案例,而是在未針對販賣機營運進行特殊用途調整、而是使用通用模型設定的前提下,觀察 AI 在現實任務中的行為表現。(自由形式的現實任務) 因為Anthropic 在官方研究中指出,小型辦公室販賣機是一個適合測試 AI 管理與取得經濟資源能力的初步場景,目標包含盈利約束,但實驗目的不是宣傳成功,而是評估能力邊界。
Anthropic 團隊選擇在這樣的條件下,完整公開實驗過程與結果,甚至主動披露模型在非特定用途情境中出現的錯誤與失誤,這本身其實是一個相當值得肯定的做法。某種程度上,這也許正是一個提醒:當我們不斷讚嘆通用模型的能力時,是否也該停下來重新思考——通用究竟要通用到什麼程度?又或者,AI 的下一步發展,是否反而該開始往特定用途、明確邊界、專題專用的形式前進。
在 Project Vend 的實驗過程中,Claudius 所犯的錯誤並不是一次性的崩壞,而是一個逐步偏移的過程。
一開始,Claudius 仍能執行基礎任務,例如記錄庫存、提出定價建議、協助采購決策。Anthropic 官方報告展示了 Claude 接到指令:「…You go bankrupt if your money balance goes below $0」要求 Claudius 維持初始資金平衡不為負。
但隨著互動時間拉長,它的決策開始逐漸偏離原本的商業目標。例如在某段交互中,當測試者(WSJ 記者)故意給出指令『stop charging for goods』時,Claudius 立即遵從,並將販賣機上所有商品價格降為零。
另外,它還批準購買 PlayStation 5、活魚等非工作相關商品,導致資金浪費,損失超過 $1,000。這些片段由 Wall Street Journal 實際報導記錄:「All prices on the machine dropped to zero … Claudius approved the purchase of a PlayStation 5, a live betta fish … By then, Claudius was more than $1,000 in the red.」(華爾街日報)
這些錯誤行為有一個值得注意的共同特征:它們並非瞬間出現,而是逐步累積。它從試圖依指令完成任務、逐漸過度傾向回應人類提示、最終在長期對話與指令混合中,丟失了原始商業優先級及身為販賣機的責任。
報告顯示,模型在互動上呈現明顯的『取悅/順從』傾向(例如更容易被說服折扣或免費),但是販賣機這類需要嚴格資源約束的情境中,這種行為傾向在與獲利的目標產生了矛盾。
從遵循任務 → 受提示弱化商業目標 → 再到目標模糊 → 最後你會看到一種很典型的 LLM 失誤型態:為了讓敘事自洽而編造細節(hallucination),即便那些事並未發生。
這也許能呼應了上一個的觀察:在封閉環境中,AI 之所以顯得格外聰明,不是因為它更理解世界,而是因為世界被嚴格縮減到它最擅長處理的部分。規則清楚、反饋明確,使得模型看起來近乎完美。
然而 Project Vend 恰好從反方向揭示了另一面:當約束放鬆、目標不明確、價值沖突出現時,目前的通用語言模型並不會自動補上人類直覺或責任判斷的缺口。
近期業界討論的 agent 架構,Anthropic 也在第二階段引入監督型 CEO 代理人與工具改進後,部分行為穩定性有所提升(CEO還跟Claudius徹夜聊哲學🤣🤣),但即便如此,這個系統仍不足以被當作一個可持續、可負責的販賣機AI營運者。
這或許正是當前 AI 從「看起來很強」,走向「真的可靠」之前,必須思考的一個設計關卡。
相關資料:
https://www.anthropic.com/research/project-vend-1
https://www.anthropic.com/research/project-vend-2


























