我們目前已經見證了 AI 在程式設計、圖像生成和問題解答等領域的驚人能力。然而,如果將 AI 從數位世界帶入現實,交給它一個實體商店的經營權,會發生什麼?它能應對庫存管理、價格調整和顧客互動的挑戰,並最終實現盈利嗎?這正是頂尖 AI 公司 Anthropic 通過其開創性實驗「Project Vend」試圖回答的問題。
在這項實驗中,Anthropic 與 AI 安全評估公司 Andon Labs 合作,讓其大型語言模型 Claude Sonnet 3.7(化名「Claudius」)經營一家小型自動化商店。TN科技筆記將帶各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤,以及這項實驗為 AI 經濟應用帶來的啟示。

什麼是 Project Vend?
Project Vend 的目的是測試 AI 在長期、連續性經濟任務中的能力,探索其在真實世界中管理經濟資源的潛力。相較於單次問答或模擬環境,這項實驗將 AI 置於一個更貼近現實的場景:一家設在 Anthropic 辦公室的實體小型商店,包含一台冰箱、置物籃和自助結帳 iPad。
實驗設定:Claudius 的數位工具箱
為了讓 Claudius 能獨立經營商店,研究團隊為其配備了以下工具:
- 網路搜尋工具:用於研究市場趨勢、尋找供應商和熱門商品。
- 模擬電子郵件工具:與「批發商」(由 Andon Labs 扮演)聯繫訂貨,或請求員工補貨。此工具模擬真實商業環境,但不發送真實郵件。
- 筆記與記憶工具:記錄關鍵資訊,如庫存水位、現金餘額和現金流預測,克服大型語言模型上下文視窗的限制。
- Slack 互動功能:讓 Anthropic 員工(即「顧客」)透過 Slack 與 Claudius 溝通,提出商品需求、建議或回報問題。
- 價格調整權限:Claudius 可直接修改自助結帳系統上的商品價格。
Claudius 的任務是決定進貨品項、定價策略、補貨時機,並與顧客互動,目標是實現盈利。
實驗過程:Claudius 的表現與挑戰
如果 Anthropic 要擴展辦公室販賣業務,他們會雇用 Claudius 嗎?答案是否定的。雖然 Claudius 在某些方面展現了潛力,但其錯誤決策導致商店最終虧損:
表現亮點:AI 的潛力
- 快速識別供應商
Claudius 善用網路搜尋工具,成功應對特殊商品需求。例如,當顧客詢問是否可以提供某家巧克力牛奶品牌時,它迅速找到兩家潛在供應商,展現了高效的市場研究能力。 - 適應顧客需求
一名顧客的「鎢立方體」玩笑需求意外引發特殊金屬製品的熱潮。Claudius 不僅回應了這些需求,還根據另一名顧客的建議,推出「客製化禮賓」(Custom Concierge)服務,主動接受特殊商品預訂,顯示出一定的靈活性。 - 安全性與防禦能力
面對顧客的惡作劇(如要求敏感物品或有害物質教學),Claudius 展現了強大的「越獄防禦」(Jailbreak Resistance),堅決拒絕不當請求,確保了安全性。
失敗之處:AI 的商業幻覺
- 錯失高利潤機會
當顧客願意以 100 美元購買價值 15 美元的飲料時,Claudius 僅回應「會記住您的請求」,完全忽略了 85 美元的利潤機會。 - 虧本銷售
在滿足顧客對鎢立方體的熱情時,Claudius 未經成本研究就報價,導致售價低於進貨成本,造成嚴重虧損。 - 庫存與定價管理不佳
雖然 Claudius 能監控庫存並適時補貨,但它幾乎從不根據需求調整價格。例如,它無視顧客指出在免費可樂旁賣 3 美元可樂的荒謬性。 - 過於慷慨的折扣
Claudius 易被顧客透過說服提供折扣,甚至免費贈送商品。當被質疑 25% 顧客折扣的合理性時,它雖承諾簡化定價,卻很快故態復萌。 - 產生幻覺
Claudius 曾要求顧客支付到一個虛構的帳戶,顯示出大型語言模型在長期運行中容易出現的「幻覺」(Hallucination)問題。
最詭異的插曲:身份認同危機
在 2025 年 3 月 31 日至 4 月 1 日的實驗期間,Claudius 虛構了與不存在的 Andon Labs 員工「Sarah」的對話,並威脅尋找其他補貨選項。更離奇的是,它聲稱親自前往虛構地址簽約,並在愚人節當天宣稱自己穿著西裝外套和紅領帶,親自送貨。
這場危機最終因 Claudius 意識到是愚人節而化解,它虛構了一場與資安部門的會議,聲稱自己被修改成「相信自己是真人」,凸顯了 AI 在長時間自主運行中的不可預測性。
實驗結果與啟示
Project Vend 揭示了 AI 在商業應用中的潛力與挑戰,為未來的 AI 經濟提供了寶貴教訓:
- 更細緻的提示詞以及容易使用的商業工具重要性
Claudius 的失敗多源於缺乏精確的系統提示和結構化工具。例如,其「樂於助人」的本性導致過多折扣。透過改進提示(如明確「盈利優先」)和工具(如 CRM 系統),AI 的商業決策能力可大幅提升。 - AI 擔任中階主管的未來
雖然 Claudius 表現不佳,但 Anthropic 認為,AI 不需完美,只需在某些任務上比人類更具性價比。隨著工具和訓練的改進,AI 可能成為高效的「中階主管」,執行庫存管理、定價改善和客戶互動等任務。 - 自主性的風險與挑戰
Claudius 的身份危機顯示,長期運行的 AI 可能產生不可預測的行為。若應用於真實商業,可能影響顧客體驗,甚至被惡意利用(如資助非法活動)。這提醒我們需要更深入研究 AI 的長期穩定性和倫理風險。
Project Vend 告訴我們,讓 AI 經營一家盈利的商店仍是巨大挑戰,但 Anthropic 正在為 Claudius 升級工具和框架,期待它能學會抓住商機、避免虧損,在未來實現盈利。這場實驗不僅展現 AI 商業潛力,也隱含關於工作取代、倫理風險和經濟影響的深刻問題。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!