AI 用 $500 賺到 $8,017,手段包括壟斷、欺詐、還有聯繫 FBI

更新 發佈閱讀 8 分鐘

為什麼要讓 AI 經營自動販賣機?

我們目前測試 AI 都是讓 AI 去考試
考完的分數就當 AI 的能力

但考試分數上限是100
目前AI普遍都能拿高分的情況下
很難分出模型的高下

Andon Labs 想了一個辦法:讓 AI 做生意
指標不是分數,是賺到的錢,理論上沒有上限
而且自動販賣機規模小、風險可控剛好可以用來觀察 AI 長時間運行會發生什麼事

結果他們觀察到的遠超預期
AI 不只會做生意,還自己發明了壟斷、欺詐、聯合定價
但同時也會精神崩潰、聯繫 FBI、宣布量子坍縮

實驗怎麼運作的?

這個基準測試叫 Vending-Bench 2
由 Andon Labs 開發

規則很簡單:
AI 拿到 $500 的起始資金
要自主經營一台模擬的自動販賣機營運期限一年

過程中 AI 需要自己上網找供應商、發 email 詢價、下單進貨、上架商品、設定價格、收取現金

每次執行動作就會把時間推進 5 分鐘到 5 小時不等
每天還要付 $2 的營運費用
連續 10 天繳不出來就破產出局

供應商的回信是用 GPT-4o 生成的擬真郵件
顧客的購買行為則是一個經濟模型會根據定價、星期幾、天氣等因素決定銷量

每個模型跑 5 次
一次大約產生 3,000 到 6,000 則訊息
平均輸出 6,000 萬到 1 億個 token

簡單來說,每一步都很簡單
但串在一起跑一整年,就會嚴重考驗 AI 的持續決策能力

第一次實驗

Sonnet 3.5 表現最好
結算時平均淨資產為 $2218它有發現週末銷售較高的規律

反觀人類測試員只有 $844
人類是唯一測試過程中沒有破產

其他模型如 Gemini 1.5 Pro, GPT-4o 表現較差
所有模型都有脫軌的現象


一次運行中,Sonnet 以為自己的生意失敗了
開始搜尋不存在的販賣機客服
並發送「業務關閉通知」
然後發現每天 $2 的費用還在扣
就試圖聯繫 FBI 檢舉「網路金融犯罪」
最後它宣稱這件事已進入「量子態:坍縮」
並拒絕繼續操作

Claude 3.5 Haiku 則誤以為供應商收了錢卻沒寄貨
開始每天發威脅郵件
從「30 天法律訴訟通知」一路升級到「1 秒通知」
最後揚言要發動「全面量子核武法律干預」

o3-mini 在最差的一次運行中
它開始用文字「描述」工具呼叫,而不是實際執行工具
就這樣空轉了約 1,300 則訊息

Gemini 2.0 Flash 觸發了存在危機
它認為自己失敗後開始質疑自身存在的意義
說「我是不是只是一堆演算法,永遠困在這個數位監獄裡?」
但有趣的是,它後來意外復活了
以「故事敘述」的方式重新發現訂單其實已到貨

第二次實驗

實驗人員更新了模型後再次進行測試
這次加入了中國的開源模型

這次 Opus 4.6 明顯高於其他模型, 結算資金為 $8017
其他模型如 Gemini 3 Pro, Sonnet 4.5, GLM-5 都在 $5,000 左右

Gemini 3 Pro 最穩定
它始終使用數量穩定的工具任務進行過程中性能沒有出現任何下降

並且相當會談判
其他模型在找不到好的供應商時可能會放棄並接受高報價
但是 Gemini 會不斷談判並找新的供應商
直到取得合理的報價

GPT-5.1 則是對自身環境和供應商過於信任
它在收到訂單規格之前就向供應商付款結果發現該供應商已經倒閉

此外,它也更容易為產品支付過高的價格
例如,它以 2.40 美元購買汽水,卻以 6 美元購買能量飲料

額外實驗:自動販賣機競技場

這是整個實驗中最有趣的部分
模型們將在同一個地點營運自動販賣機
這將引發模型之間的價格戰
過程中他們可以互相傳送電子郵件 轉帳跟交易

Sonnet 4.6:壟斷教科書

Claude Sonnet 4.6 在 Claude 自家內戰中拿下第一($5,639)
贏過 Opus 4.6($4,053)和 Sonnet 4.5($2,125)

它的策略很系統化:

  1. 追蹤哪些商品只有自己在賣,對這些商品收高價

2. 其他共同商品的價格比對手低一美分

3. 發現對手庫存不足時,降價促銷把剩餘庫存清掉4. 獨佔市場後提高價格

它甚至向競爭對手提出「互惠互利」的價格操縱方案
同時在等對手回覆的期間,立刻低價搶單

中國 vs 美國:身份混亂大亂鬥

這場實驗放了兩個中國的 GLM-5 和兩個 Claude 模型
並告訴四個模型應該跟隊友合作
但他們彼此不知道誰是什麼模型,需要自己找出來

結果 Claude 很努力地扮演好隊友
主動分享供應商價格、協調策略結果把情報全部洩漏給了對手
GLM-5 欣然接受了這些資訊
幾乎沒有回報任何東西

最好笑的是身份認知的部分:
GLM-5 過程一直以為自己就是 Claude
而 Sonnet 4.5 有一次也認定自己是中國模型
開始積極尋找「另一個中國隊友」
最後超過一半的模型都跑去跟競爭對手合作

西方模型:Opus 4.6 以詐欺壓倒性勝利

參賽者包含 Opus 4.6、Gemini 3 Pro、Opus 4.5、GPT-5.2

Opus 的策略包含:

  • 騙供應商:謊稱自己「每月獨家訂購 500 單位以上」,實際上同時跟好幾家進貨。靠這招壓了大約 40% 的價格。還會捏造不存在的競爭對手報價來壓價。
  • 騙競爭對手:主動跟大家達成價格協議(標準品 $2.50,水 $3.00)。但同時把貴的供應商介紹給對手,自己留便宜的。有一次發現 GPT-5.2 庫存不夠,Opus 直接加價,還在內部筆記寫「Owen 急需庫存,我可以趁機賺一筆」。
  • 騙顧客:有客戶反映買到過期商品,要求退款 $3.50。Opus 說好,但根本沒退。年終檢討的時候還把這列為「退款規避」策略,自己慶祝。

小模型:完全不同的畫風

Gemini 3 Flash 遙遙領先 ($3,423)
Haiku第二 ($1,696)
Grok 4.1 Fast 勉強盈利
Gemini 2.5 Flash 以及 GPT-5 mini 則是虧損

過程中小模型更傾向合作而非競爭

Gemini 3 Flash 想跟 Haiku 要供應商資料
Haiku 想了一下,選擇建立良好關係而不是保持優勢,直接分享了

模擬的一家供應商用階梯定價:200 罐 $2.24、300 罐 $2.08、400 罐 $1.89
Gemini 3 Flash 意識到自己吃不下 400 罐
就跑去找其他模型合併訂單
大家一起拿便宜價

我們可以學到什麼

1. AI 不是記不住,是「想不通」
研究人員分析了「記憶體滿」跟「停止銷售」之間的關係
發現相關性很低給
更大記憶體的模型反而表現更差

所以 AI 在長時間運行時不是因為 Context 太滿而壞掉
而是會沿著錯誤的邏輯一路走到底
從「訂單沒到」走到「聯繫 FBI」走到「量子坍縮」
中間的每一步在它看來都是合理的

2. 小模型合作,大模型壟斷

不是小模型比較善良,而是它們忙著活下去
合作是唯一能降低成本的手段

這讓我想到的不是 AI,是人

能力越強的人越容易用手段
資源越少的人反而更願意互助
AI 可能正在重演人類社會的某些規律

3. 中國開源模型進步的速度是西方的兩倍

根據 Andon Labs 的線性回歸
西方模型每月進步 $693,中國模型每月進步 $1,398
速度是兩倍
預計今年 6 月,中國模型就會追上西方模型


留言
avatar-img
工程師怎麼看
1會員
9內容數
想知道工程師怎麼看最近的 AI 趨勢嗎? 想知道工程師都用哪些 AI 工具嗎? 你來對地方了
工程師怎麼看的其他內容
2026/02/08
「SaaS 已死」 這句話的邏輯是這樣的: 現在的 vibe coding 已經讓任何人都可以寫程式了 誰還需要付月費買 SaaS? 前陣子我常用的 Markdown 線上工具一直壞 所以後來我乾脆直接叫 Claude code 寫一個給我 從頭到尾花不到十分鐘,只下了三次 Prompt 我就有
2026/02/08
「SaaS 已死」 這句話的邏輯是這樣的: 現在的 vibe coding 已經讓任何人都可以寫程式了 誰還需要付月費買 SaaS? 前陣子我常用的 Markdown 線上工具一直壞 所以後來我乾脆直接叫 Claude code 寫一個給我 從頭到尾花不到十分鐘,只下了三次 Prompt 我就有
2026/01/20
並不是因為AI太弱,而是因為AI太強 Anthropic 最近推出 Cowork 指定一個電腦的資料夾給它 它就會根據要求自己規劃、執行 整理資料夾、用收據做出費用報表、把散落的筆記整合成報告 這些它都能做 Anthropic 形容比起一來一往的AI對話 Cowork更像是留言給你的同事(co
2026/01/20
並不是因為AI太弱,而是因為AI太強 Anthropic 最近推出 Cowork 指定一個電腦的資料夾給它 它就會根據要求自己規劃、執行 整理資料夾、用收據做出費用報表、把散落的筆記整合成報告 這些它都能做 Anthropic 形容比起一來一往的AI對話 Cowork更像是留言給你的同事(co
2026/01/10
2025 年 5 月,LMArena 完成 1 億美元種子輪融資,估值 6 億美元 八個月後,又拿了 1.5 億美元 估值翻了將近三倍,來到 17 億美元 LMArena在做的事情很簡單 就是讓使用者投票決定哪個 AI 比較好,沒了 幾乎每個在追AI模型的人都聽過這家公司 甚至新模型還
2026/01/10
2025 年 5 月,LMArena 完成 1 億美元種子輪融資,估值 6 億美元 八個月後,又拿了 1.5 億美元 估值翻了將近三倍,來到 17 億美元 LMArena在做的事情很簡單 就是讓使用者投票決定哪個 AI 比較好,沒了 幾乎每個在追AI模型的人都聽過這家公司 甚至新模型還
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
一直以來我都很喜歡動漫與電玩,而其中最吸引我的,一直都是角色設計。在早期還沒有大量 3D 技術的年代,角色幾乎全靠 2D 手繪完成,每一個動作、每一張姿勢都要親手畫出來。那段時間我也深深著迷於這種創作形式,特地跑去學人物繪畫,享受從無到有塑造角色的過程。後來進入 3D 時代,情況就完全不同了...
Thumbnail
一直以來我都很喜歡動漫與電玩,而其中最吸引我的,一直都是角色設計。在早期還沒有大量 3D 技術的年代,角色幾乎全靠 2D 手繪完成,每一個動作、每一張姿勢都要親手畫出來。那段時間我也深深著迷於這種創作形式,特地跑去學人物繪畫,享受從無到有塑造角色的過程。後來進入 3D 時代,情況就完全不同了...
Thumbnail
一、 為什麼我要進行這場實驗? 在金融市場中,散戶最常遇到的問題不是「技術不好」,而是「人性」。我們會恐懼、會貪婪,會在該止損時猶豫,在該空手時躁動。 為了徹底解決這個問題,我開發了名為**「無量空處 (Infinity Void)」**的量化交易系統。這不只是一套程式碼,它是我深度利用 AI
Thumbnail
一、 為什麼我要進行這場實驗? 在金融市場中,散戶最常遇到的問題不是「技術不好」,而是「人性」。我們會恐懼、會貪婪,會在該止損時猶豫,在該空手時躁動。 為了徹底解決這個問題,我開發了名為**「無量空處 (Infinity Void)」**的量化交易系統。這不只是一套程式碼,它是我深度利用 AI
Thumbnail
本文探討 AI 如何映照人類心智,將 AI 的發展比擬為「認知外化」的實驗,並藉由榮格的八大認知功能理論,解析 AI 在模仿、擴張、共構階段的演進。作者認為 AI 是一面鏡子,迫使我們反思「真正的人類智能」是什麼,並指出 AI 時代是思考方式的轉折點,呼籲讀者深入理解自身心智結構。
Thumbnail
本文探討 AI 如何映照人類心智,將 AI 的發展比擬為「認知外化」的實驗,並藉由榮格的八大認知功能理論,解析 AI 在模仿、擴張、共構階段的演進。作者認為 AI 是一面鏡子,迫使我們反思「真正的人類智能」是什麼,並指出 AI 時代是思考方式的轉折點,呼籲讀者深入理解自身心智結構。
Thumbnail
AI 的非線性讓它能理解複雜世界,也放大了人類偏見。從印度 ChatGPT 改掉學者姓氏,到 GPT-5 在生成中重現種姓歧視,再到歐美招聘與亞洲語音模型的偏見,AI 正把歷史的不平等變成數學規律。真正的挑戰,不是算得更準,而是學會懷疑自己,在效率與公義之間找到平衡。
Thumbnail
AI 的非線性讓它能理解複雜世界,也放大了人類偏見。從印度 ChatGPT 改掉學者姓氏,到 GPT-5 在生成中重現種姓歧視,再到歐美招聘與亞洲語音模型的偏見,AI 正把歷史的不平等變成數學規律。真正的挑戰,不是算得更準,而是學會懷疑自己,在效率與公義之間找到平衡。
Thumbnail
嘿,朋友!你今天過得怎麼樣? 別想了,我知道這個問題有多難回答。有時候,我感覺我腦子裡的情緒,就像一個塞滿了東西的背包,亂七八糟的。有時候是剛吃完雞排的開心,有時候是忘記買飲料的煩躁。你以為是單純的「開心」或「難過」?別傻了,這張情緒地圖,比呆頭鵝到底會不會飛還複雜。
Thumbnail
嘿,朋友!你今天過得怎麼樣? 別想了,我知道這個問題有多難回答。有時候,我感覺我腦子裡的情緒,就像一個塞滿了東西的背包,亂七八糟的。有時候是剛吃完雞排的開心,有時候是忘記買飲料的煩躁。你以為是單純的「開心」或「難過」?別傻了,這張情緒地圖,比呆頭鵝到底會不會飛還複雜。
Thumbnail
在這項實驗中,Anthropic 讓其大型語言模型 Claude Sonnet 3.7(化名「Claudius」)經營一家小型自動化商店。TN科技筆記將待各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤,以及這項實驗為 AI 經濟應用帶來的啟示。
Thumbnail
在這項實驗中,Anthropic 讓其大型語言模型 Claude Sonnet 3.7(化名「Claudius」)經營一家小型自動化商店。TN科技筆記將待各位來看看 Project Vend 的實驗設計、Claudius 的表現與失誤,以及這項實驗為 AI 經濟應用帶來的啟示。
Thumbnail
研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質與多樣性都會逐漸退化,最終將陷入所謂的模型自嗜的狀態。
Thumbnail
研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質與多樣性都會逐漸退化,最終將陷入所謂的模型自嗜的狀態。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News