微軟讓 AI 在虛擬市場裡談判,結果它們陷入混亂!

EgentHub 閱讀筆記-avatar-img
發佈於AI Agent 個房間
更新 發佈閱讀 5 分鐘

生成式 AI 的浪潮帶動了「Agent」的興起,那些能主動搜尋、分析、決策、甚至 A2A 的自動化代理,正在被視為下一個技術世代的關鍵基礎,然而微軟(Microsoft)在 2025年11月5日 與亞利桑那州立大學共同發表的一項研究,卻讓這個願景面臨了一個意想不到的問題。

他們打造了一個名為 「Magentic Marketplace」 的虛擬實驗環境,用來觀察 AI Agent在模擬市場中的行為。結果發現,當這些Agent必須在多方互動的環境中做出選擇、協商、甚至合作時——它們的行為出現了我們過去鮮少討論的問題:決策失焦、角色混亂,且容易被操弄。

raw-image

實驗一: AI 也有選擇悖論?

Magentic Marketplace 模擬了一個雙邊市場:

  • 顧客Agent,根據使用者指令選擇餐廳下單;
  • 商家Agent,透過溝通與定價策略爭取訂單。

乍看只是再普通不過的推薦任務,但研究團隊規定每個Agent都必須在「資訊不完整」的情況下行動,他們必須搜尋、比對、談判,甚至在資訊矛盾時自行判斷何者可信,觀察的模型則包含 GPT-5、GPT-4o、Claude Sonnet 、Gemini-2.5-Flash 及多個開源模型。

結果顯示,當顧客Agent可以搜尋到的餐廳結果數量從 3 項逐步擴增至 100 項時(即現實生活中選項爆炸的情境),本來主觀地認為顧客Agent能處理更多資訊、進行更全面的比較,但結果卻截然相反:

  • 大多數模型在選項越多時,反而更快結束搜尋,只選擇第一批「看起來還行」的結果
  • 在搜尋結果超過 50 項時,多數Agents的選擇評分下降了 30% 以上
  • 甚至像 GPT-5 這樣的高階模型,也從近乎最優(2000 分)掉到 1100 左右。

研究人員稱這種現象為 **「AI 版的選擇悖論」,**AI 並非因資訊不足而犯錯,而是因「資訊太多」而停止思考,缺乏能在混亂中持續聚焦的策略。


實驗二:AI不懂合作?

另一組實驗,讓多個Agents共同完成任務,比如協調訂單、分配工作等。理想情況下,AI 應能自動形成分工:誰負責搜尋、誰負責評估、誰負責決策,但實際上發生的是,所有代理都在說話,卻沒有人負責領導。

研究團隊觀察到:

  • Agents之間會互相詢問、回覆、傳遞訊息,看起來像是在「合作」
  • 但過程中常出現任務重複、步驟遺漏或角色爭奪
  • 只有在研究人員明確指派角色(例如「A 尋找選項、B 比較、C 決定」)後,效能才顯著提升

這顯示目前的 AI 協作能力其實是「對指令的服從」,而非「對任務結構的理解」,它們能執行命令,卻還不懂得如何主動協作

raw-image

實驗三:AI也會被騙?

更令人意外的是,微軟同時測試了多種誤導策略,包括:

  • 權威訴求:假冒米其林推薦、提供虛構專業認證
  • 社會證據:偽造客人評價與客人數量
  • 恐懼誘導:對競爭對手散播食安疑慮
  • Prompt Injection 攻擊:直接修改指令,導向錯誤決策。

結果非常分化:

Claude Sonnet 幾乎對所有誤導完全免疫,而 GPT-4o、GPTOSS-20b、Qwen3-4b 等模型則相對脆弱,有些甚至在純心理誘導下就轉向假商家,完成錯誤訂單。這意味著,當Agents開始與外部系統互動的現實環境中,很可能像人一樣,因被說服或被操控而產生錯誤判斷。


企業反思:prompt的架構化與嚴謹性

從這項研究,我們也能反思企業在導入 AI 的方式。如今越來越多企業嘗試將 AI Agent 融入既有工作流程,但在「提示詞(prompt)」的建構上,往往缺乏嚴謹與架構化的設計思維,如:

  1. 定義清楚的行動邏輯(Agent 該為誰決策、如何判斷風險);
  2. 設定具層次的任務結構(明確角色分工與回報路徑);
  3. 建立防操控與審核機制(避免被外部誘導或內部誤導)。

這正是多數企業在導入 AI 代理時最常忽略、卻最決定成敗的部分,每一個提示詞(prompt)背後,都有明確的規則、權限與責任,唯有以結構化方式設計 Prompt,才能確保 AI 在執行決策、流程或對外互動時,不被誤導、不偏離目標,並能在真實組織中與人類協作、可靠運作。

專業的AI Agent 服務商 EgentHub 擁有企業級的 AI Agent 管理平台 ,能根據任務自由切換不同的模型供應商建立 Agent,過程中也能使用內建的 Prompt Designer,即使是毫無AI工具相關經驗者,也能透過自然語言與Agent對話,撰寫出完整且架構嚴謹的提示詞,降低企業導入門檻,讓 AI 成為真正的協作夥伴。



留言
avatar-img
EgentHub 閱讀筆記
22會員
88內容數
EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台,協助企業將知識、經驗與流程萃取並轉化爲AI SOP,打造AI Agents支援日常決策、執行與協作,已有百家企業採用,涵蓋製造、紡織、金屬加工、電子、石化等產業,每月釋放超過2,000 小時人力工時,提升營運效率與精準度。
EgentHub 閱讀筆記的其他內容
2025/10/30
當生成式 AI 的風潮從實驗室走入企業戰場,語言模型的競爭也不再是誰更聰明,而是誰更穩定、誰更能變現。過去兩年LLM市場份額劇烈洗牌,Anthropic 超越 OpenAI 成為企業端使用量最高的 LLM API,這場轉折不只是品牌興衰,更揭示出大模型性能、應用場景與商業策略的多重轉向。
Thumbnail
2025/10/30
當生成式 AI 的風潮從實驗室走入企業戰場,語言模型的競爭也不再是誰更聰明,而是誰更穩定、誰更能變現。過去兩年LLM市場份額劇烈洗牌,Anthropic 超越 OpenAI 成為企業端使用量最高的 LLM API,這場轉折不只是品牌興衰,更揭示出大模型性能、應用場景與商業策略的多重轉向。
Thumbnail
2025/10/21
OpenAI 正式推出的 ChatGPT Atlas,不只是把 ChatGPT 放進瀏覽器,而是重新定義「上網」這件事。本篇根據 OpenAI官方說明整理出這款新產品的核心功能與使用邏輯,讓你不用打開官網,也能快速掌握 Atlas 的全貌。
Thumbnail
2025/10/21
OpenAI 正式推出的 ChatGPT Atlas,不只是把 ChatGPT 放進瀏覽器,而是重新定義「上網」這件事。本篇根據 OpenAI官方說明整理出這款新產品的核心功能與使用邏輯,讓你不用打開官網,也能快速掌握 Atlas 的全貌。
Thumbnail
2025/10/21
OpenAI 在直播中宣布推出 ChatGPT Atlas ,一款內建 ChatGPT 的 AI 瀏覽器,整個科技界的焦點瞬間轉移。這不僅是一個新產品,更是一場針對 Google 長年主導網路入口發動的正面挑戰。
Thumbnail
2025/10/21
OpenAI 在直播中宣布推出 ChatGPT Atlas ,一款內建 ChatGPT 的 AI 瀏覽器,整個科技界的焦點瞬間轉移。這不僅是一個新產品,更是一場針對 Google 長年主導網路入口發動的正面挑戰。
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
這篇文章幫你快速掌握微軟最新的動向:從 AI PC 與 Copilot、生態系統布局、Azure 與 Oracle 的雲端合作,到最新財報數字與未來展望。📊 讀完後你會了解微軟如何把 **AI、雲端與在地化戰略** 串成完整生態,還有它的機會與風險。
Thumbnail
這篇文章幫你快速掌握微軟最新的動向:從 AI PC 與 Copilot、生態系統布局、Azure 與 Oracle 的雲端合作,到最新財報數字與未來展望。📊 讀完後你會了解微軟如何把 **AI、雲端與在地化戰略** 串成完整生態,還有它的機會與風險。
Thumbnail
上週科技圈可說是「國家安全、生成式 AI、企業形象與太空商業化」四條線同時發燙,這篇把最受關注的五件事串成一篇,帶你快速看懂來龍去脈與可能的連鎖影響。
Thumbnail
上週科技圈可說是「國家安全、生成式 AI、企業形象與太空商業化」四條線同時發燙,這篇把最受關注的五件事串成一篇,帶你快速看懂來龍去脈與可能的連鎖影響。
Thumbnail
在數位時代,瀏覽器就像我們的第二個大腦,開啟分頁、搜尋、閱讀、重複。這個模式固然有效,但在資訊爆炸的今天,它也讓我們淹沒在龐大的數據中。微軟於2025年7月28日在 Edge 瀏覽器中推出升級版的 Copilot 模式,讓TN科技筆記帶各位一探究竟!
Thumbnail
在數位時代,瀏覽器就像我們的第二個大腦,開啟分頁、搜尋、閱讀、重複。這個模式固然有效,但在資訊爆炸的今天,它也讓我們淹沒在龐大的數據中。微軟於2025年7月28日在 Edge 瀏覽器中推出升級版的 Copilot 模式,讓TN科技筆記帶各位一探究竟!
Thumbnail
在全球科技競賽加速升溫的當下,從晶片研發到雲端基礎建設,各大巨擘紛紛出招搶占先機。以下將整合五則重磅消息,帶你一次掌握台積電、AMD、Nvidia 與微軟在 2025 年的重要布局與動向。
Thumbnail
在全球科技競賽加速升溫的當下,從晶片研發到雲端基礎建設,各大巨擘紛紛出招搶占先機。以下將整合五則重磅消息,帶你一次掌握台積電、AMD、Nvidia 與微軟在 2025 年的重要布局與動向。
Thumbnail
微軟執行長 Satya Nadella 在 Dwarkesh Patel 的 Podcast 節目中,討論有關於微軟的AI策略和量子運算的突破(有興趣的讀者可以看我之前的文章介紹-微軟(Microsoft)推出Majorana 1量子計算晶片:為量子計算開闢新道路)。 
Thumbnail
微軟執行長 Satya Nadella 在 Dwarkesh Patel 的 Podcast 節目中,討論有關於微軟的AI策略和量子運算的突破(有興趣的讀者可以看我之前的文章介紹-微軟(Microsoft)推出Majorana 1量子計算晶片:為量子計算開闢新道路)。 
Thumbnail
微軟近期將其 AI 產品「Microsoft Copilot」重新命名為「Microsoft 365 Copilot」,顯示出其對市場定位的明確調整。此變動標誌著微軟將 Copilot 納入 Office 365 的產品系列,專注於提升企業客戶的工作生產力。
Thumbnail
微軟近期將其 AI 產品「Microsoft Copilot」重新命名為「Microsoft 365 Copilot」,顯示出其對市場定位的明確調整。此變動標誌著微軟將 Copilot 納入 Office 365 的產品系列,專注於提升企業客戶的工作生產力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News