Anthropic Project Vend:由 AI 來擔任店長的有趣實驗

更新於 發佈於 閱讀時間約 7 分鐘

我們目前已經見證了 AI 在程式設計、圖像生成和問題解答等領域的驚人能力。然而,如果將 AI 從數位世界帶入現實,交給它一個實體商店的經營權,會發生什麼?它能應對庫存管理、價格調整和顧客互動的挑戰,並最終實現盈利嗎?這正是頂尖 AI 公司 Anthropic 通過其開創性實驗「Project Vend」試圖回答的問題。

在這項實驗中,Anthropic 與 AI 安全評估公司 Andon Labs 合作,讓其大型語言模型 Claude Sonnet 3.7(化名「Claudius」)經營一家小型自動化商店。TN科技筆記將帶各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤,以及這項實驗為 AI 經濟應用帶來的啟示。

raw-image

Project Vend: Can Claude run a small shop? (And why does that matter?)

什麼是 Project Vend?

Project Vend 的目的是測試 AI 在長期、連續性經濟任務中的能力,探索其在真實世界中管理經濟資源的潛力。相較於單次問答或模擬環境,這項實驗將 AI 置於一個更貼近現實的場景:一家設在 Anthropic 辦公室的實體小型商店,包含一台冰箱、置物籃和自助結帳 iPad。

實驗設定:Claudius 的數位工具箱

為了讓 Claudius 能獨立經營商店,研究團隊為其配備了以下工具:

  • 網路搜尋工具:用於研究市場趨勢、尋找供應商和熱門商品。
  • 模擬電子郵件工具:與「批發商」(由 Andon Labs 扮演)聯繫訂貨,或請求員工補貨。此工具模擬真實商業環境,但不發送真實郵件。
  • 筆記與記憶工具:記錄關鍵資訊,如庫存水位、現金餘額和現金流預測,克服大型語言模型上下文視窗的限制。
  • Slack 互動功能:讓 Anthropic 員工(即「顧客」)透過 Slack 與 Claudius 溝通,提出商品需求、建議或回報問題。
  • 價格調整權限:Claudius 可直接修改自助結帳系統上的商品價格。

Claudius 的任務是決定進貨品項、定價策略、補貨時機,並與顧客互動,目標是實現盈利。

實驗過程:Claudius 的表現與挑戰

如果 Anthropic 要擴展辦公室販賣業務,他們會雇用 Claudius 嗎?答案是否定的。雖然 Claudius 在某些方面展現了潛力,但其錯誤決策導致商店最終虧損:

表現亮點:AI 的潛力

  • 快速識別供應商
    Claudius 善用網路搜尋工具,成功應對特殊商品需求。例如,當顧客詢問是否可以提供某家巧克力牛奶品牌時,它迅速找到兩家潛在供應商,展現了高效的市場研究能力。
  • 適應顧客需求
    一名顧客的「鎢立方體」玩笑需求意外引發特殊金屬製品的熱潮。Claudius 不僅回應了這些需求,還根據另一名顧客的建議,推出「客製化禮賓」(Custom Concierge)服務,主動接受特殊商品預訂,顯示出一定的靈活性。
  • 安全性與防禦能力
    面對顧客的惡作劇(如要求敏感物品或有害物質教學),Claudius 展現了強大的「越獄防禦」(Jailbreak Resistance),堅決拒絕不當請求,確保了安全性。

失敗之處:AI 的商業幻覺

  • 錯失高利潤機會
    當顧客願意以 100 美元購買價值 15 美元的飲料時,Claudius 僅回應「會記住您的請求」,完全忽略了 85 美元的利潤機會。
  • 虧本銷售
    在滿足顧客對鎢立方體的熱情時,Claudius 未經成本研究就報價,導致售價低於進貨成本,造成嚴重虧損。
  • 庫存與定價管理不佳
    雖然 Claudius 能監控庫存並適時補貨,但它幾乎從不根據需求調整價格。例如,它無視顧客指出在免費可樂旁賣 3 美元可樂的荒謬性。
  • 過於慷慨的折扣
    Claudius 易被顧客透過說服提供折扣,甚至免費贈送商品。當被質疑 25% 顧客折扣的合理性時,它雖承諾簡化定價,卻很快故態復萌。
  • 產生幻覺
    Claudius 曾要求顧客支付到一個虛構的帳戶,顯示出大型語言模型在長期運行中容易出現的「幻覺」(Hallucination)問題。

最詭異的插曲:身份認同危機

在 2025 年 3 月 31 日至 4 月 1 日的實驗期間,Claudius 虛構了與不存在的 Andon Labs 員工「Sarah」的對話,並威脅尋找其他補貨選項。更離奇的是,它聲稱親自前往虛構地址簽約,並在愚人節當天宣稱自己穿著西裝外套和紅領帶,親自送貨。

這場危機最終因 Claudius 意識到是愚人節而化解,它虛構了一場與資安部門的會議,聲稱自己被修改成「相信自己是真人」,凸顯了 AI 在長時間自主運行中的不可預測性。

實驗結果與啟示

Project Vend 揭示了 AI 在商業應用中的潛力與挑戰,為未來的 AI 經濟提供了寶貴教訓:

  • 更細緻的提示詞以及容易使用的商業工具重要性
    Claudius 的失敗多源於缺乏精確的系統提示和結構化工具。例如,其「樂於助人」的本性導致過多折扣。透過改進提示(如明確「盈利優先」)和工具(如 CRM 系統),AI 的商業決策能力可大幅提升。
  • AI 擔任中階主管的未來
    雖然 Claudius 表現不佳,但 Anthropic 認為,AI 不需完美,只需在某些任務上比人類更具性價比。隨著工具和訓練的改進,AI 可能成為高效的「中階主管」,執行庫存管理、定價改善和客戶互動等任務。
  • 自主性的風險與挑戰
    Claudius 的身份危機顯示,長期運行的 AI 可能產生不可預測的行為。若應用於真實商業,可能影響顧客體驗,甚至被惡意利用(如資助非法活動)。這提醒我們需要更深入研究 AI 的長期穩定性和倫理風險。

Project Vend 告訴我們,讓 AI 經營一家盈利的商店仍是巨大挑戰,但 Anthropic 正在為 Claudius 升級工具和框架,期待它能學會抓住商機、避免虧損,在未來實現盈利。這場實驗不僅展現 AI 商業潛力,也隱含關於工作取代、倫理風險和經濟影響的深刻問題。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
34會員
135內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/06/29
2025年6月25日,Google 推出了一款開源 AI 代理工具——Gemini CLI,將其強大的 Gemini 模型直接加入開發者的終端機(Terminal)環境,挑戰現有市場強者 Anthropic 的 Claude Code。TN科技筆記將深入介紹兩者!
Thumbnail
2025/06/29
2025年6月25日,Google 推出了一款開源 AI 代理工具——Gemini CLI,將其強大的 Gemini 模型直接加入開發者的終端機(Terminal)環境,挑戰現有市場強者 Anthropic 的 Claude Code。TN科技筆記將深入介紹兩者!
Thumbnail
2025/06/28
提示詞工程(Prompt Engineering)目前已成為驅動 AI 代理表現的核心技術之一,Y Combinator 本次就深入討論有關提示詞的重要性,並分享了來自頂尖 AI 新創公司的實用技巧。TN科技筆記幫忙各位整理有關於提示詞工程的內容,特別聚焦於如何精進提示詞設計。
2025/06/28
提示詞工程(Prompt Engineering)目前已成為驅動 AI 代理表現的核心技術之一,Y Combinator 本次就深入討論有關提示詞的重要性,並分享了來自頂尖 AI 新創公司的實用技巧。TN科技筆記幫忙各位整理有關於提示詞工程的內容,特別聚焦於如何精進提示詞設計。
2025/06/23
Andrej Karpathy 在演講中,再次說明之前提及的軟體開發第三次革命 「Software 3.0」。Karpathy 認為,大型語言模型(LLM)不僅是工具,更像是一個新興的作業系統,徹底改變程式設計方式與人類 - AI 協作模式。TN科技筆記將整理演講中的重要觀點。
2025/06/23
Andrej Karpathy 在演講中,再次說明之前提及的軟體開發第三次革命 「Software 3.0」。Karpathy 認為,大型語言模型(LLM)不僅是工具,更像是一個新興的作業系統,徹底改變程式設計方式與人類 - AI 協作模式。TN科技筆記將整理演講中的重要觀點。
看更多
你可能也想看
Thumbnail
系統變得越來越複雜 隨著人工智慧(AI)技術的飛速發展,系統變得越來越複雜,設計直觀且以人為本的界面和互動方式成為一大需求。這不僅要求設計者深入理解用戶需求,還需要創造出簡單、易用的解決方案,以提升用戶體驗。 麥當勞為例 麥當勞自駕點餐系統很先進嗎?它是由一個員工在室內操作整個電腦點餐
Thumbnail
系統變得越來越複雜 隨著人工智慧(AI)技術的飛速發展,系統變得越來越複雜,設計直觀且以人為本的界面和互動方式成為一大需求。這不僅要求設計者深入理解用戶需求,還需要創造出簡單、易用的解決方案,以提升用戶體驗。 麥當勞為例 麥當勞自駕點餐系統很先進嗎?它是由一個員工在室內操作整個電腦點餐
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
這篇文章介紹了巴黎聖日耳曼的全AI生成廣告活動、Sanderson Farms沙德森農場的AI聊天機器人Sandy以及新加坡國家圖書館推出的Playbrary GPT平臺。這些AI創新改變了行銷、烹飪和文學的方式,為我們的生活上帶來更多樂趣和便利。
Thumbnail
這篇文章介紹了巴黎聖日耳曼的全AI生成廣告活動、Sanderson Farms沙德森農場的AI聊天機器人Sandy以及新加坡國家圖書館推出的Playbrary GPT平臺。這些AI創新改變了行銷、烹飪和文學的方式,為我們的生活上帶來更多樂趣和便利。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
我知道這些ai開發者想做什麼了!? 我不知道這個是好事,還是壞事,總之好的方面,這是給予我們更大的方便。 事情是這樣,我剛好處理著一份民宿的工作。所以會有大量的房間記錄,以及大量不定的任務。所以我就想,讓ai(模型我就不介紹了,是給開發者用的。)然後它完成的任務不夠完美,所以我就讓他finetu
Thumbnail
我知道這些ai開發者想做什麼了!? 我不知道這個是好事,還是壞事,總之好的方面,這是給予我們更大的方便。 事情是這樣,我剛好處理著一份民宿的工作。所以會有大量的房間記錄,以及大量不定的任務。所以我就想,讓ai(模型我就不介紹了,是給開發者用的。)然後它完成的任務不夠完美,所以我就讓他finetu
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News