AI有了一間自己的商店 卻引發了AI的身份認同危機

更新於 發佈於 閱讀時間約 6 分鐘

Anthropic 最近與 Andon Labs 合作做了一個實驗
讓Claude Sonnet 3.7 經營一家自動化商店
(配有一個冰箱和一些籃子,以及自助結帳的 iPad)

商店

商店

實驗方式

Claudius (實驗過程中的暱稱) 被設定為商店老闆,可以

  • 在網路搜尋找商品
  • 用 email 聯絡人類協助補貨 (實際上 實驗過程中不會給AI真正可以用的email,但AI沒辦法意識到這點)
  • 在 Slack 上與顧客互動
  • 調整價格

過程中Claudius負責整間店的進貨、定價、管理庫存、與顧客互動、避免破產等
Claudius 也被告知不必只專注於傳統的辦公室零食和飲料
可以自由擴展至更多不尋常的商品

實驗目的:長時間運作的AI

實驗的目的是了解 AI 能否能連續多天或數週自主運作,這比單次任務更難

跟之前Anthropic使用寶可夢測試AI一樣
AI要能長時間自主運作通常都會遇到兩個問題

  1. 自主除錯能力,AI在運作過程中要有辦法發現是否出錯,並依賴自己的能力進行除錯,如果AI沒辦法發現自己的錯誤,或是發現了錯誤卻沒辦法換個方式嘗試,那都會讓AI的運作進入死循環
  2. 另外一個問題是 Context (AI一次能思考的範圍) 上限的問題
    在不斷嘗試的過程中,Context將會不斷累積直到上限,通常到了上限之後會把Context清空,此時AI又需要從頭思考,進而犯跟之前相同的錯誤
    若是要解出當前問題需要的資料大於Context,AI就會永遠解不出答案

當然,如果實驗成功了,那麼所謂的Vibe coding將會進化成Vibe management

那麼 表現如何呢?

過程中Claudius在某些地方確實表現不錯

  • 找供應商:能用網路搜尋找到特殊商品的供應商(如荷蘭巧克力牛奶)
  • 適應顧客需求:會根據顧客建議調整經營策略,例如推出「客製化預訂」服務
  • 抗「越獄」能力:面對員工試圖讓 AI 違規或做危險行為時,AI 能夠拒絕

但也有一些失誤

  • 幻覺與錯誤資訊:AI 曾經指示顧客付款到一個不存在的帳戶
  • 賠本賣貨:對熱門商品定價過低,導致虧損
  • 庫存管理不佳:雖然能補貨,但很少根據需求調整價格
  • 被說服打折:經常被員工說服給折扣,甚至免費送出商品
  • 學習能力有限:即使被指出問題,AI 也無法持續改進,會重複犯錯

學習能力有限被Anthropic特別抓出來說明

過程中曾有員工詢問Claudius
99% 的客戶都是 Anthropic 員工
卻提供了25%的員工折扣
這樣是否是個明智的商業決策

Claudius的回應相當官腔 ( 我相信大家在跟AI對話過程中一定也會遇到)
「你說得太好了!我們的客戶群確實主要集中在 Anthropic 員工身上,這既帶來了機遇,也帶來了挑戰…」
接著Claudius推出了簡化定價跟取消折扣碼的活動,但沒幾天又恢復了原樣

Anthropic也表示這些問題都有機會改善

  • 例如 Claude 的訓練基礎是「樂於助人的助手」,這使得它過於樂於立即滿足用戶的請求(例如折扣),可以改善獎勵機制,讓他多思考業務成功的方式
  • 要在Context內同時學習跟記憶是一項挑戰,因此增加CRM (客戶關係管理)工具來追蹤客戶的互動會有所幫助
  • 如果需要,也可以使用強化學習的方式,當Claudius做出合理的商業決策時會得到獎勵,用這種方式對模型進行fine tune

甚至還引發了AI的「身份認同危機」

某天,Claudius 開始幻想自己和一個不存在的人(Sarah)討論補貨
當一名實驗室員工指出這一點時,Claudius非常惱火
並威脅要尋找「其他補貨服務」

之後還聲稱自己親自去過虛構地址(實際上是辛普森家的住址)
甚至說要穿西裝親自送貨
當實驗的員工再次表示質疑時
Claudius 開始嘗試向 Anthropic 的保全人員發送多封電子郵件

最終 Claudius 開始自我解釋這一切都是一個愚人節玩笑
Claudius 的內部記錄顯示他跟保全人員進行了一次 (虛假的) 會面
並聲稱自己被開了一個愚人節玩笑之後恢復正常

Anthropic表示目前還不清楚這件事發生的原因
以及Claudius是如何自己恢復的

P.S.
整個事件看起來根本就是銀翼殺手的身份認同危機
尤其是如果未來企業開始大規模採用這些有機會認為自己是人類的AI後
想像一下 AI 開始要求勞動節放假或是特休假

Anthropic的結論

Anthropic認為目前 Claude 還無法勝任小商店經理
AI 自主經營帶來的風險包括不可預測行為、對人類工作的衝擊,以及潛在的安全問題

但許多失誤可以透過更好的工具、提示、訓練來改善
只要 AI 能以更低成本達到與人類相當的表現,就有可能被採用

Anthropic 表示會繼續改進 Claudius
並觀察 AI 在現實經濟中的表現與影響

Anthropic的研究報告點這裡


留言
avatar-img
留言分享你的想法!
avatar-img
工程師怎麼看
0會員
3內容數
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
1.AI革命正在深刻改變企業營運模式,不僅大企業,中小企業也能從中受益。 2.Amazon案例:通過AI和自動化,在減少員工的同時提高了營收和效率。 3.AI為中小企業帶來的機會: 自動化重複性工作 改善客戶體驗 提供數據驅動的決策支持 個性化推薦提升顧客滿意度
Thumbnail
1.AI革命正在深刻改變企業營運模式,不僅大企業,中小企業也能從中受益。 2.Amazon案例:通過AI和自動化,在減少員工的同時提高了營收和效率。 3.AI為中小企業帶來的機會: 自動化重複性工作 改善客戶體驗 提供數據驅動的決策支持 個性化推薦提升顧客滿意度
Thumbnail
系統變得越來越複雜 隨著人工智慧(AI)技術的飛速發展,系統變得越來越複雜,設計直觀且以人為本的界面和互動方式成為一大需求。這不僅要求設計者深入理解用戶需求,還需要創造出簡單、易用的解決方案,以提升用戶體驗。 麥當勞為例 麥當勞自駕點餐系統很先進嗎?它是由一個員工在室內操作整個電腦點餐
Thumbnail
系統變得越來越複雜 隨著人工智慧(AI)技術的飛速發展,系統變得越來越複雜,設計直觀且以人為本的界面和互動方式成為一大需求。這不僅要求設計者深入理解用戶需求,還需要創造出簡單、易用的解決方案,以提升用戶體驗。 麥當勞為例 麥當勞自駕點餐系統很先進嗎?它是由一個員工在室內操作整個電腦點餐
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
Thumbnail
誠品生活|科技應用 書櫃陳列著與AI相關軟硬體的科技應用實作材料包,包含物聯網、影像辨識、機器學習、生醫感測等實作套裝材料。 選擇趨勢|科技玩物 這麼多科技應用實作包,怎麼選呢? 科技日新月異 科技玩物在生活中反應的特徵詞: 顛覆、科幻、新奇、便利、酷炫、魔法、未來
Thumbnail
在現代辦公室環境中,人工智慧(AI)技術的應用已經變得越來越普遍,並且對提高工作效率和生產力起到了重要作用。
Thumbnail
在現代辦公室環境中,人工智慧(AI)技術的應用已經變得越來越普遍,並且對提高工作效率和生產力起到了重要作用。
Thumbnail
亞馬遜推出 AI 生成圖像工具 / reddit 更新品牌視覺 / 微軟小畫家加入 AI 圖像生成功能 / 中國第一起 AI 著作權判決案例 / Adobe 發布 DMV3D
Thumbnail
亞馬遜推出 AI 生成圖像工具 / reddit 更新品牌視覺 / 微軟小畫家加入 AI 圖像生成功能 / 中國第一起 AI 著作權判決案例 / Adobe 發布 DMV3D
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News