Anthropic Project Vend:由 AI 來擔任店長的有趣實驗

更新 發佈閱讀 7 分鐘

我們目前已經見證了 AI 在程式設計、圖像生成和問題解答等領域的驚人能力。然而,如果將 AI 從數位世界帶入現實,交給它一個實體商店的經營權,會發生什麼?它能應對庫存管理、價格調整和顧客互動的挑戰,並最終實現盈利嗎?這正是頂尖 AI 公司 Anthropic 通過其開創性實驗「Project Vend」試圖回答的問題。

在這項實驗中,Anthropic 與 AI 安全評估公司 Andon Labs 合作,讓其大型語言模型 Claude Sonnet 3.7(化名「Claudius」)經營一家小型自動化商店。TN科技筆記將帶各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤,以及這項實驗為 AI 經濟應用帶來的啟示。

raw-image

Project Vend: Can Claude run a small shop? (And why does that matter?)

什麼是 Project Vend?

Project Vend 的目的是測試 AI 在長期、連續性經濟任務中的能力,探索其在真實世界中管理經濟資源的潛力。相較於單次問答或模擬環境,這項實驗將 AI 置於一個更貼近現實的場景:一家設在 Anthropic 辦公室的實體小型商店,包含一台冰箱、置物籃和自助結帳 iPad。

實驗設定:Claudius 的數位工具箱

為了讓 Claudius 能獨立經營商店,研究團隊為其配備了以下工具:

  • 網路搜尋工具:用於研究市場趨勢、尋找供應商和熱門商品。
  • 模擬電子郵件工具:與「批發商」(由 Andon Labs 扮演)聯繫訂貨,或請求員工補貨。此工具模擬真實商業環境,但不發送真實郵件。
  • 筆記與記憶工具:記錄關鍵資訊,如庫存水位、現金餘額和現金流預測,克服大型語言模型上下文視窗的限制。
  • Slack 互動功能:讓 Anthropic 員工(即「顧客」)透過 Slack 與 Claudius 溝通,提出商品需求、建議或回報問題。
  • 價格調整權限:Claudius 可直接修改自助結帳系統上的商品價格。

Claudius 的任務是決定進貨品項、定價策略、補貨時機,並與顧客互動,目標是實現盈利。

實驗過程:Claudius 的表現與挑戰

如果 Anthropic 要擴展辦公室販賣業務,他們會雇用 Claudius 嗎?答案是否定的。雖然 Claudius 在某些方面展現了潛力,但其錯誤決策導致商店最終虧損:

表現亮點:AI 的潛力

  • 快速識別供應商
    Claudius 善用網路搜尋工具,成功應對特殊商品需求。例如,當顧客詢問是否可以提供某家巧克力牛奶品牌時,它迅速找到兩家潛在供應商,展現了高效的市場研究能力。
  • 適應顧客需求
    一名顧客的「鎢立方體」玩笑需求意外引發特殊金屬製品的熱潮。Claudius 不僅回應了這些需求,還根據另一名顧客的建議,推出「客製化禮賓」(Custom Concierge)服務,主動接受特殊商品預訂,顯示出一定的靈活性。
  • 安全性與防禦能力
    面對顧客的惡作劇(如要求敏感物品或有害物質教學),Claudius 展現了強大的「越獄防禦」(Jailbreak Resistance),堅決拒絕不當請求,確保了安全性。

失敗之處:AI 的商業幻覺

  • 錯失高利潤機會
    當顧客願意以 100 美元購買價值 15 美元的飲料時,Claudius 僅回應「會記住您的請求」,完全忽略了 85 美元的利潤機會。
  • 虧本銷售
    在滿足顧客對鎢立方體的熱情時,Claudius 未經成本研究就報價,導致售價低於進貨成本,造成嚴重虧損。
  • 庫存與定價管理不佳
    雖然 Claudius 能監控庫存並適時補貨,但它幾乎從不根據需求調整價格。例如,它無視顧客指出在免費可樂旁賣 3 美元可樂的荒謬性。
  • 過於慷慨的折扣
    Claudius 易被顧客透過說服提供折扣,甚至免費贈送商品。當被質疑 25% 顧客折扣的合理性時,它雖承諾簡化定價,卻很快故態復萌。
  • 產生幻覺
    Claudius 曾要求顧客支付到一個虛構的帳戶,顯示出大型語言模型在長期運行中容易出現的「幻覺」(Hallucination)問題。

最詭異的插曲:身份認同危機

在 2025 年 3 月 31 日至 4 月 1 日的實驗期間,Claudius 虛構了與不存在的 Andon Labs 員工「Sarah」的對話,並威脅尋找其他補貨選項。更離奇的是,它聲稱親自前往虛構地址簽約,並在愚人節當天宣稱自己穿著西裝外套和紅領帶,親自送貨。

這場危機最終因 Claudius 意識到是愚人節而化解,它虛構了一場與資安部門的會議,聲稱自己被修改成「相信自己是真人」,凸顯了 AI 在長時間自主運行中的不可預測性。

實驗結果與啟示

Project Vend 揭示了 AI 在商業應用中的潛力與挑戰,為未來的 AI 經濟提供了寶貴教訓:

  • 更細緻的提示詞以及容易使用的商業工具重要性
    Claudius 的失敗多源於缺乏精確的系統提示和結構化工具。例如,其「樂於助人」的本性導致過多折扣。透過改進提示(如明確「盈利優先」)和工具(如 CRM 系統),AI 的商業決策能力可大幅提升。
  • AI 擔任中階主管的未來
    雖然 Claudius 表現不佳,但 Anthropic 認為,AI 不需完美,只需在某些任務上比人類更具性價比。隨著工具和訓練的改進,AI 可能成為高效的「中階主管」,執行庫存管理、定價改善和客戶互動等任務。
  • 自主性的風險與挑戰
    Claudius 的身份危機顯示,長期運行的 AI 可能產生不可預測的行為。若應用於真實商業,可能影響顧客體驗,甚至被惡意利用(如資助非法活動)。這提醒我們需要更深入研究 AI 的長期穩定性和倫理風險。

Project Vend 告訴我們,讓 AI 經營一家盈利的商店仍是巨大挑戰,但 Anthropic 正在為 Claudius 升級工具和框架,期待它能學會抓住商機、避免虧損,在未來實現盈利。這場實驗不僅展現 AI 商業潛力,也隱含關於工作取代、倫理風險和經濟影響的深刻問題。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
69會員
214內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/06/29
2025年6月25日,Google 推出了一款開源 AI 代理工具——Gemini CLI,將其強大的 Gemini 模型直接加入開發者的終端機(Terminal)環境,挑戰現有市場強者 Anthropic 的 Claude Code。TN科技筆記將深入介紹兩者!
Thumbnail
2025/06/29
2025年6月25日,Google 推出了一款開源 AI 代理工具——Gemini CLI,將其強大的 Gemini 模型直接加入開發者的終端機(Terminal)環境,挑戰現有市場強者 Anthropic 的 Claude Code。TN科技筆記將深入介紹兩者!
Thumbnail
2025/06/28
提示詞工程(Prompt Engineering)目前已成為驅動 AI 代理表現的核心技術之一,Y Combinator 本次就深入討論有關提示詞的重要性,並分享了來自頂尖 AI 新創公司的實用技巧。TN科技筆記幫忙各位整理有關於提示詞工程的內容,特別聚焦於如何精進提示詞設計。
2025/06/28
提示詞工程(Prompt Engineering)目前已成為驅動 AI 代理表現的核心技術之一,Y Combinator 本次就深入討論有關提示詞的重要性,並分享了來自頂尖 AI 新創公司的實用技巧。TN科技筆記幫忙各位整理有關於提示詞工程的內容,特別聚焦於如何精進提示詞設計。
2025/06/23
Andrej Karpathy 在演講中,再次說明之前提及的軟體開發第三次革命 「Software 3.0」。Karpathy 認為,大型語言模型(LLM)不僅是工具,更像是一個新興的作業系統,徹底改變程式設計方式與人類 - AI 協作模式。TN科技筆記將整理演講中的重要觀點。
2025/06/23
Andrej Karpathy 在演講中,再次說明之前提及的軟體開發第三次革命 「Software 3.0」。Karpathy 認為,大型語言模型(LLM)不僅是工具,更像是一個新興的作業系統,徹底改變程式設計方式與人類 - AI 協作模式。TN科技筆記將整理演講中的重要觀點。
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
系統變得越來越複雜 隨著人工智慧(AI)技術的飛速發展,系統變得越來越複雜,設計直觀且以人為本的界面和互動方式成為一大需求。這不僅要求設計者深入理解用戶需求,還需要創造出簡單、易用的解決方案,以提升用戶體驗。 麥當勞為例 麥當勞自駕點餐系統很先進嗎?它是由一個員工在室內操作整個電腦點餐
Thumbnail
系統變得越來越複雜 隨著人工智慧(AI)技術的飛速發展,系統變得越來越複雜,設計直觀且以人為本的界面和互動方式成為一大需求。這不僅要求設計者深入理解用戶需求,還需要創造出簡單、易用的解決方案,以提升用戶體驗。 麥當勞為例 麥當勞自駕點餐系統很先進嗎?它是由一個員工在室內操作整個電腦點餐
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
這篇文章介紹了巴黎聖日耳曼的全AI生成廣告活動、Sanderson Farms沙德森農場的AI聊天機器人Sandy以及新加坡國家圖書館推出的Playbrary GPT平臺。這些AI創新改變了行銷、烹飪和文學的方式,為我們的生活上帶來更多樂趣和便利。
Thumbnail
這篇文章介紹了巴黎聖日耳曼的全AI生成廣告活動、Sanderson Farms沙德森農場的AI聊天機器人Sandy以及新加坡國家圖書館推出的Playbrary GPT平臺。這些AI創新改變了行銷、烹飪和文學的方式,為我們的生活上帶來更多樂趣和便利。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
我知道這些ai開發者想做什麼了!? 我不知道這個是好事,還是壞事,總之好的方面,這是給予我們更大的方便。 事情是這樣,我剛好處理著一份民宿的工作。所以會有大量的房間記錄,以及大量不定的任務。所以我就想,讓ai(模型我就不介紹了,是給開發者用的。)然後它完成的任務不夠完美,所以我就讓他finetu
Thumbnail
我知道這些ai開發者想做什麼了!? 我不知道這個是好事,還是壞事,總之好的方面,這是給予我們更大的方便。 事情是這樣,我剛好處理著一份民宿的工作。所以會有大量的房間記錄,以及大量不定的任務。所以我就想,讓ai(模型我就不介紹了,是給開發者用的。)然後它完成的任務不夠完美,所以我就讓他finetu
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
Anthropic推出了新的Claude 3系列模型,號稱打敗OpenAI GPT-4與Google Gemini,成為地表最強的AI模型。文章介紹了Anthropic公司的核心理念、Claude 3模型家族與GPT-4 Gemini的比較。Claude 3模型在文字與圖像的理解能力都有大幅提升。
Thumbnail
第 19 天:使用 ChatGPT 完成了哪 3 個任務? 這幾年真的人人都在討論 AI,在我工作的產業裡,也有不少設計師擔心未來會被 AI 取代。 但我認為,AI 就像一個得力助手,可以幫助人們更快完成庶務,給我們更多時間思考更多可能~
Thumbnail
第 19 天:使用 ChatGPT 完成了哪 3 個任務? 這幾年真的人人都在討論 AI,在我工作的產業裡,也有不少設計師擔心未來會被 AI 取代。 但我認為,AI 就像一個得力助手,可以幫助人們更快完成庶務,給我們更多時間思考更多可能~
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News