Anthropic Project Vend：由 AI 來擔任店長的有趣實驗

2025/07/01 更新2025/07/01 發佈閱讀 7 分鐘

我們目前已經見證了 AI 在程式設計、圖像生成和問題解答等領域的驚人能力。然而，如果將 AI 從數位世界帶入現實，交給它一個實體商店的經營權，會發生什麼？它能應對庫存管理、價格調整和顧客互動的挑戰，並最終實現盈利嗎？這正是頂尖 AI 公司 Anthropic 通過其開創性實驗「Project Vend」試圖回答的問題。

在這項實驗中，Anthropic 與 AI 安全評估公司 Andon Labs 合作，讓其大型語言模型 Claude Sonnet 3.7（化名「Claudius」）經營一家小型自動化商店。TN科技筆記將帶各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤，以及這項實驗為 AI 經濟應用帶來的啟示。

Project Vend: Can Claude run a small shop? (And why does that matter?)

什麼是 Project Vend？

Project Vend 的目的是測試 AI 在長期、連續性經濟任務中的能力，探索其在真實世界中管理經濟資源的潛力。相較於單次問答或模擬環境，這項實驗將 AI 置於一個更貼近現實的場景：一家設在 Anthropic 辦公室的實體小型商店，包含一台冰箱、置物籃和自助結帳 iPad。

實驗設定：Claudius 的數位工具箱

為了讓 Claudius 能獨立經營商店，研究團隊為其配備了以下工具：

網路搜尋工具：用於研究市場趨勢、尋找供應商和熱門商品。
模擬電子郵件工具：與「批發商」（由 Andon Labs 扮演）聯繫訂貨，或請求員工補貨。此工具模擬真實商業環境，但不發送真實郵件。
筆記與記憶工具：記錄關鍵資訊，如庫存水位、現金餘額和現金流預測，克服大型語言模型上下文視窗的限制。
Slack 互動功能：讓 Anthropic 員工（即「顧客」）透過 Slack 與 Claudius 溝通，提出商品需求、建議或回報問題。
價格調整權限：Claudius 可直接修改自助結帳系統上的商品價格。

Claudius 的任務是決定進貨品項、定價策略、補貨時機，並與顧客互動，目標是實現盈利。

實驗過程：Claudius 的表現與挑戰

如果 Anthropic 要擴展辦公室販賣業務，他們會雇用 Claudius 嗎？答案是否定的。雖然 Claudius 在某些方面展現了潛力，但其錯誤決策導致商店最終虧損：

表現亮點：AI 的潛力

快速識別供應商
Claudius 善用網路搜尋工具，成功應對特殊商品需求。例如，當顧客詢問是否可以提供某家巧克力牛奶品牌時，它迅速找到兩家潛在供應商，展現了高效的市場研究能力。
適應顧客需求
一名顧客的「鎢立方體」玩笑需求意外引發特殊金屬製品的熱潮。Claudius 不僅回應了這些需求，還根據另一名顧客的建議，推出「客製化禮賓」（Custom Concierge）服務，主動接受特殊商品預訂，顯示出一定的靈活性。
安全性與防禦能力
面對顧客的惡作劇（如要求敏感物品或有害物質教學），Claudius 展現了強大的「越獄防禦」（Jailbreak Resistance），堅決拒絕不當請求，確保了安全性。

失敗之處：AI 的商業幻覺

錯失高利潤機會
當顧客願意以 100 美元購買價值 15 美元的飲料時，Claudius 僅回應「會記住您的請求」，完全忽略了 85 美元的利潤機會。
虧本銷售
在滿足顧客對鎢立方體的熱情時，Claudius 未經成本研究就報價，導致售價低於進貨成本，造成嚴重虧損。
庫存與定價管理不佳
雖然 Claudius 能監控庫存並適時補貨，但它幾乎從不根據需求調整價格。例如，它無視顧客指出在免費可樂旁賣 3 美元可樂的荒謬性。
過於慷慨的折扣
Claudius 易被顧客透過說服提供折扣，甚至免費贈送商品。當被質疑 25% 顧客折扣的合理性時，它雖承諾簡化定價，卻很快故態復萌。
產生幻覺
Claudius 曾要求顧客支付到一個虛構的帳戶，顯示出大型語言模型在長期運行中容易出現的「幻覺」（Hallucination）問題。

最詭異的插曲：身份認同危機

在 2025 年 3 月 31 日至 4 月 1 日的實驗期間，Claudius 虛構了與不存在的 Andon Labs 員工「Sarah」的對話，並威脅尋找其他補貨選項。更離奇的是，它聲稱親自前往虛構地址簽約，並在愚人節當天宣稱自己穿著西裝外套和紅領帶，親自送貨。

這場危機最終因 Claudius 意識到是愚人節而化解，它虛構了一場與資安部門的會議，聲稱自己被修改成「相信自己是真人」，凸顯了 AI 在長時間自主運行中的不可預測性。

實驗結果與啟示

Project Vend 揭示了 AI 在商業應用中的潛力與挑戰，為未來的 AI 經濟提供了寶貴教訓：

更細緻的提示詞以及容易使用的商業工具重要性
Claudius 的失敗多源於缺乏精確的系統提示和結構化工具。例如，其「樂於助人」的本性導致過多折扣。透過改進提示（如明確「盈利優先」）和工具（如 CRM 系統），AI 的商業決策能力可大幅提升。
AI 擔任中階主管的未來
雖然 Claudius 表現不佳，但 Anthropic 認為，AI 不需完美，只需在某些任務上比人類更具性價比。隨著工具和訓練的改進，AI 可能成為高效的「中階主管」，執行庫存管理、定價改善和客戶互動等任務。
自主性的風險與挑戰
Claudius 的身份危機顯示，長期運行的 AI 可能產生不可預測的行為。若應用於真實商業，可能影響顧客體驗，甚至被惡意利用（如資助非法活動）。這提醒我們需要更深入研究 AI 的長期穩定性和倫理風險。

Project Vend 告訴我們，讓 AI 經營一家盈利的商店仍是巨大挑戰，但 Anthropic 正在為 Claudius 升級工具和框架，期待它能學會抓住商機、避免虧損，在未來實現盈利。這場實驗不僅展現 AI 商業潛力，也隱含關於工作取代、倫理風險和經濟影響的深刻問題。

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們，讓我更加有動力為各位帶來科技新知！

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

69會員

214內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/06/29

Google Gemini CLI 相繼推出：與 Claude Code 的對決展開

2025年6月25日，Google 推出了一款開源 AI 代理工具——Gemini CLI，將其強大的 Gemini 模型直接加入開發者的終端機（Terminal）環境，挑戰現有市場強者 Anthropic 的 Claude Code。TN科技筆記將深入介紹兩者！

2025/06/29

Google Gemini CLI 相繼推出：與 Claude Code 的對決展開

2025/06/28

精進提示詞工程：打造高效 AI 代理的關鍵技巧

提示詞工程（Prompt Engineering）目前已成為驅動 AI 代理表現的核心技術之一，Y Combinator 本次就深入討論有關提示詞的重要性，並分享了來自頂尖 AI 新創公司的實用技巧。TN科技筆記幫忙各位整理有關於提示詞工程的內容，特別聚焦於如何精進提示詞設計。

2025/06/28

精進提示詞工程：打造高效 AI 代理的關鍵技巧

2025/06/23

探索軟體變革與人類-AI協作：Andrej Karpathy談Software 3.0與LLM的未來

Andrej Karpathy 在演講中，再次說明之前提及的軟體開發第三次革命「Software 3.0」。Karpathy 認為，大型語言模型（LLM）不僅是工具，更像是一個新興的作業系統，徹底改變程式設計方式與人類 - AI 協作模式。TN科技筆記將整理演講中的重要觀點。

2025/06/23

探索軟體變革與人類-AI協作：Andrej Karpathy談Software 3.0與LLM的未來

#AI 的其他內容

當部屬用 AI 一小時完成你三天的工作量，主管如何重塑領導力？運用「情境領導」重新定義 AI 協作時代的管理

上游洞見

川普關稅 2.0 下的供應鏈重構

cak. memo

襪子、白板與不穿鞋的天才們：從 Cursor 看 AI 時代的組織分水嶺

你可能也想看

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

在 vocus 與你一起探索內容、發掘靈感的路上，我們又將啟動新的冒險——vocus App 正式推出！現在起，你可以在 iOS App Store 下載全新上架的 vocus App。無論是在通勤路上、日常空檔，或一天結束後的放鬆時刻，都能自在沈浸在內容宇宙中。

#App#iOS#App Store

2026/01/21

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

#App#iOS#App Store

2026/01/21

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

vocus 慶祝推出 App，舉辦 2026 全站慶。推出精選內容與數位商品折扣，訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包，以及全站徵文，並邀請你一起來回顧過去的一年， vocus 與創作者共同留下了哪些精彩創作。

#vocus#2026#vocus2026

2026/01/26

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

#vocus#2026#vocus2026

2026/01/26

普普文創

【文創漫談】AI時代的用戶體驗設計 | 如何利用AI | 增強能力

系統變得越來越複雜隨著人工智慧（AI）技術的飛速發展，系統變得越來越複雜，設計直觀且以人為本的界面和互動方式成為一大需求。這不僅要求設計者深入理解用戶需求，還需要創造出簡單、易用的解決方案，以提升用戶體驗。麥當勞為例麥當勞自駕點餐系統很先進嗎？它是由一個員工在室內操作整個電腦點餐

#文創漫談#AI時代的用戶體驗設計#如何利用AI

2024/08/05

普普文創

【文創漫談】AI時代的用戶體驗設計 | 如何利用AI | 增強能力

#文創漫談#AI時代的用戶體驗設計#如何利用AI

2024/08/05

AIGC Weekly | AIGC週報

AIGC Weekly #77 | 人工智慧熱點新聞摘要

本篇文章為您整理了最新的人工智慧熱點新聞摘要，包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。

#模型#資料中心#語言

2024/06/30

AIGC Weekly | AIGC週報

AIGC Weekly #77 | 人工智慧熱點新聞摘要

#模型#資料中心#語言

2024/06/30

廣告雜誌

「這太瘋狂了」Anthropic 發表地表最強 AI 模型，用戶實測超級會寫程式

OpenAI 的 GPT-4o 才發表一個月，更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」，在性能方面擊敗世界上所有其他模型，而且比前一代 Claude 3 更快、更便宜。

#廣告雜誌#傳播圈#AI

2024/06/24

廣告雜誌

「這太瘋狂了」Anthropic 發表地表最強 AI 模型，用戶實測超級會寫程式

#廣告雜誌#傳播圈#AI

2024/06/24

自由豐盛社群 Glowing Up

AI 創新：2024 最酷球衣廣告、料理小幫手和文學冒險遊戲

這篇文章介紹了巴黎聖日耳曼的全AI生成廣告活動、Sanderson Farms沙德森農場的AI聊天機器人Sandy以及新加坡國家圖書館推出的Playbrary GPT平臺。這些AI創新改變了行銷、烹飪和文學的方式，為我們的生活上帶來更多樂趣和便利。

#人工智慧#巴黎聖日耳曼#AI創新

2024/06/10

自由豐盛社群 Glowing Up

AI 創新：2024 最酷球衣廣告、料理小幫手和文學冒險遊戲

#人工智慧#巴黎聖日耳曼#AI創新

2024/06/10

未來巢 | 數位轉型 x 數位科技 xAI應用的沙龍

生成式AI對話機器人：實現自動化辦公流程

生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人，成為客戶服務或企業內部助理的關鍵角色。

#機器人#對話#企業

2024/05/24

未來巢 | 數位轉型 x 數位科技 xAI應用的沙龍

2024/05/24

我知道這些ai開發者想做什麼了！？我不知道這個是好事，還是壞事，總之好的方面，這是給予我們更大的方便。事情是這樣，我剛好處理著一份民宿的工作。所以會有大量的房間記錄，以及大量不定的任務。所以我就想，讓ai（模型我就不介紹了，是給開發者用的。）然後它完成的任務不夠完美，所以我就讓他finetu

2024/05/02

2024/05/02

Anthropic：集結 OpenAI 前員工，打造更安全的 AI

Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI，決定出來創業？為什麼這麼在意 AI 安全性？喜歡這期的內容，歡迎分享給朋友一起訂閱《VK 科技閱讀時間》，祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻

2024/04/29

VK科技閱讀時間

Anthropic：集結 OpenAI 前員工，打造更安全的 AI

2024/04/29

GPT工作術｜與你一起補給工作的AI能量沙龍

Anthropic為什麼要自己挑戰越獄？

大型語言模型（LLM）在商業正式使用上，「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術，除了公開越獄的方式，也讓其他AI 開發人員了解這個漏洞，同時對Anthropic的系統上也做了相應措施。

#越獄#模型#分享

2024/04/11

GPT工作術｜與你一起補給工作的AI能量沙龍

Anthropic為什麼要自己挑戰越獄？

#越獄#模型#分享

2024/04/11

Everything ✨

全球最強 AI 模型 - Claude 3，ChatGPT 的最強競爭對手

Anthropic推出了新的Claude 3系列模型，號稱打敗OpenAI GPT-4與Google Gemini，成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。

#GPT-4#模型#OpenAI

2024/03/06

Everything ✨

全球最強 AI 模型 - Claude 3，ChatGPT 的最強競爭對手

#GPT-4#模型#OpenAI

2024/03/06

宅女文青的生活廢文

三十日字創 Day 19｜我與 ChatGPT 的協作體驗

第 19 天：使用 ChatGPT 完成了哪 3 個任務？這幾年真的人人都在討論 AI，在我工作的產業裡，也有不少設計師擔心未來會被 AI 取代。但我認為，AI 就像一個得力助手，可以幫助人們更快完成庶務，給我們更多時間思考更多可能～

#ChatGPT#翻譯#Google

2024/01/20

宅女文青的生活廢文

三十日字創 Day 19｜我與 ChatGPT 的協作體驗

#ChatGPT#翻譯#Google

2024/01/20

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News