微軟讓 AI 在虛擬市場裡談判,結果它們陷入混亂!

EgentHub 閱讀筆記-avatar-img
發佈於AI Agent 個房間
更新 發佈閱讀 5 分鐘

生成式 AI 的浪潮帶動了「Agent」的興起,那些能主動搜尋、分析、決策、甚至 A2A 的自動化代理,正在被視為下一個技術世代的關鍵基礎,然而微軟(Microsoft)在 2025年11月5日 與亞利桑那州立大學共同發表的一項研究,卻讓這個願景面臨了一個意想不到的問題。

他們打造了一個名為 「Magentic Marketplace」 的虛擬實驗環境,用來觀察 AI Agent在模擬市場中的行為。結果發現,當這些Agent必須在多方互動的環境中做出選擇、協商、甚至合作時——它們的行為出現了我們過去鮮少討論的問題:決策失焦、角色混亂,且容易被操弄。

raw-image

實驗一: AI 也有選擇悖論?

Magentic Marketplace 模擬了一個雙邊市場:

  • 顧客Agent,根據使用者指令選擇餐廳下單;
  • 商家Agent,透過溝通與定價策略爭取訂單。

乍看只是再普通不過的推薦任務,但研究團隊規定每個Agent都必須在「資訊不完整」的情況下行動,他們必須搜尋、比對、談判,甚至在資訊矛盾時自行判斷何者可信,觀察的模型則包含 GPT-5、GPT-4o、Claude Sonnet 、Gemini-2.5-Flash 及多個開源模型。

結果顯示,當顧客Agent可以搜尋到的餐廳結果數量從 3 項逐步擴增至 100 項時(即現實生活中選項爆炸的情境),本來主觀地認為顧客Agent能處理更多資訊、進行更全面的比較,但結果卻截然相反:

  • 大多數模型在選項越多時,反而更快結束搜尋,只選擇第一批「看起來還行」的結果
  • 在搜尋結果超過 50 項時,多數Agents的選擇評分下降了 30% 以上
  • 甚至像 GPT-5 這樣的高階模型,也從近乎最優(2000 分)掉到 1100 左右。

研究人員稱這種現象為 **「AI 版的選擇悖論」,**AI 並非因資訊不足而犯錯,而是因「資訊太多」而停止思考,缺乏能在混亂中持續聚焦的策略。


實驗二:AI不懂合作?

另一組實驗,讓多個Agents共同完成任務,比如協調訂單、分配工作等。理想情況下,AI 應能自動形成分工:誰負責搜尋、誰負責評估、誰負責決策,但實際上發生的是,所有代理都在說話,卻沒有人負責領導。

研究團隊觀察到:

  • Agents之間會互相詢問、回覆、傳遞訊息,看起來像是在「合作」
  • 但過程中常出現任務重複、步驟遺漏或角色爭奪
  • 只有在研究人員明確指派角色(例如「A 尋找選項、B 比較、C 決定」)後,效能才顯著提升

這顯示目前的 AI 協作能力其實是「對指令的服從」,而非「對任務結構的理解」,它們能執行命令,卻還不懂得如何主動協作

raw-image

實驗三:AI也會被騙?

更令人意外的是,微軟同時測試了多種誤導策略,包括:

  • 權威訴求:假冒米其林推薦、提供虛構專業認證
  • 社會證據:偽造客人評價與客人數量
  • 恐懼誘導:對競爭對手散播食安疑慮
  • Prompt Injection 攻擊:直接修改指令,導向錯誤決策。

結果非常分化:

Claude Sonnet 幾乎對所有誤導完全免疫,而 GPT-4o、GPTOSS-20b、Qwen3-4b 等模型則相對脆弱,有些甚至在純心理誘導下就轉向假商家,完成錯誤訂單。這意味著,當Agents開始與外部系統互動的現實環境中,很可能像人一樣,因被說服或被操控而產生錯誤判斷。


企業反思:prompt的架構化與嚴謹性

從這項研究,我們也能反思企業在導入 AI 的方式。如今越來越多企業嘗試將 AI Agent 融入既有工作流程,但在「提示詞(prompt)」的建構上,往往缺乏嚴謹與架構化的設計思維,如:

  1. 定義清楚的行動邏輯(Agent 該為誰決策、如何判斷風險);
  2. 設定具層次的任務結構(明確角色分工與回報路徑);
  3. 建立防操控與審核機制(避免被外部誘導或內部誤導)。

這正是多數企業在導入 AI 代理時最常忽略、卻最決定成敗的部分,每一個提示詞(prompt)背後,都有明確的規則、權限與責任,唯有以結構化方式設計 Prompt,才能確保 AI 在執行決策、流程或對外互動時,不被誤導、不偏離目標,並能在真實組織中與人類協作、可靠運作。

專業的AI Agent 服務商 EgentHub 擁有企業級的 AI Agent 管理平台 ,能根據任務自由切換不同的模型供應商建立 Agent,過程中也能使用內建的 Prompt Designer,即使是毫無AI工具相關經驗者,也能透過自然語言與Agent對話,撰寫出完整且架構嚴謹的提示詞,降低企業導入門檻,讓 AI 成為真正的協作夥伴。



留言
avatar-img
留言分享你的想法!
avatar-img
EgentHub 閱讀筆記
7會員
59內容數
EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台,協助企業將知識、經驗與流程萃取並轉化爲AI SOP,打造AI Agents支援日常決策、執行與協作,已有百家企業採用,涵蓋製造、紡織、金屬加工、電子、石化等產業,每月釋放超過2,000 小時人力工時,提升營運效率與精準度。
EgentHub 閱讀筆記的其他內容
2025/10/30
當生成式 AI 的風潮從實驗室走入企業戰場,語言模型的競爭也不再是誰更聰明,而是誰更穩定、誰更能變現。過去兩年LLM市場份額劇烈洗牌,Anthropic 超越 OpenAI 成為企業端使用量最高的 LLM API,這場轉折不只是品牌興衰,更揭示出大模型性能、應用場景與商業策略的多重轉向。
Thumbnail
2025/10/30
當生成式 AI 的風潮從實驗室走入企業戰場,語言模型的競爭也不再是誰更聰明,而是誰更穩定、誰更能變現。過去兩年LLM市場份額劇烈洗牌,Anthropic 超越 OpenAI 成為企業端使用量最高的 LLM API,這場轉折不只是品牌興衰,更揭示出大模型性能、應用場景與商業策略的多重轉向。
Thumbnail
2025/10/21
OpenAI 正式推出的 ChatGPT Atlas,不只是把 ChatGPT 放進瀏覽器,而是重新定義「上網」這件事。本篇根據 OpenAI官方說明整理出這款新產品的核心功能與使用邏輯,讓你不用打開官網,也能快速掌握 Atlas 的全貌。
Thumbnail
2025/10/21
OpenAI 正式推出的 ChatGPT Atlas,不只是把 ChatGPT 放進瀏覽器,而是重新定義「上網」這件事。本篇根據 OpenAI官方說明整理出這款新產品的核心功能與使用邏輯,讓你不用打開官網,也能快速掌握 Atlas 的全貌。
Thumbnail
2025/10/21
OpenAI 在直播中宣布推出 ChatGPT Atlas ,一款內建 ChatGPT 的 AI 瀏覽器,整個科技界的焦點瞬間轉移。這不僅是一個新產品,更是一場針對 Google 長年主導網路入口發動的正面挑戰。
Thumbnail
2025/10/21
OpenAI 在直播中宣布推出 ChatGPT Atlas ,一款內建 ChatGPT 的 AI 瀏覽器,整個科技界的焦點瞬間轉移。這不僅是一個新產品,更是一場針對 Google 長年主導網路入口發動的正面挑戰。
Thumbnail
看更多
你可能也想看
Thumbnail
這篇文章幫你快速掌握微軟最新的動向:從 AI PC 與 Copilot、生態系統布局、Azure 與 Oracle 的雲端合作,到最新財報數字與未來展望。📊 讀完後你會了解微軟如何把 **AI、雲端與在地化戰略** 串成完整生態,還有它的機會與風險。
Thumbnail
這篇文章幫你快速掌握微軟最新的動向:從 AI PC 與 Copilot、生態系統布局、Azure 與 Oracle 的雲端合作,到最新財報數字與未來展望。📊 讀完後你會了解微軟如何把 **AI、雲端與在地化戰略** 串成完整生態,還有它的機會與風險。
Thumbnail
上週科技圈可說是「國家安全、生成式 AI、企業形象與太空商業化」四條線同時發燙,這篇把最受關注的五件事串成一篇,帶你快速看懂來龍去脈與可能的連鎖影響。
Thumbnail
上週科技圈可說是「國家安全、生成式 AI、企業形象與太空商業化」四條線同時發燙,這篇把最受關注的五件事串成一篇,帶你快速看懂來龍去脈與可能的連鎖影響。
Thumbnail
在數位時代,瀏覽器就像我們的第二個大腦,開啟分頁、搜尋、閱讀、重複。這個模式固然有效,但在資訊爆炸的今天,它也讓我們淹沒在龐大的數據中。微軟於2025年7月28日在 Edge 瀏覽器中推出升級版的 Copilot 模式,讓TN科技筆記帶各位一探究竟!
Thumbnail
在數位時代,瀏覽器就像我們的第二個大腦,開啟分頁、搜尋、閱讀、重複。這個模式固然有效,但在資訊爆炸的今天,它也讓我們淹沒在龐大的數據中。微軟於2025年7月28日在 Edge 瀏覽器中推出升級版的 Copilot 模式,讓TN科技筆記帶各位一探究竟!
Thumbnail
在全球科技競賽加速升溫的當下,從晶片研發到雲端基礎建設,各大巨擘紛紛出招搶占先機。以下將整合五則重磅消息,帶你一次掌握台積電、AMD、Nvidia 與微軟在 2025 年的重要布局與動向。
Thumbnail
在全球科技競賽加速升溫的當下,從晶片研發到雲端基礎建設,各大巨擘紛紛出招搶占先機。以下將整合五則重磅消息,帶你一次掌握台積電、AMD、Nvidia 與微軟在 2025 年的重要布局與動向。
Thumbnail
微軟執行長 Satya Nadella 在 Dwarkesh Patel 的 Podcast 節目中,討論有關於微軟的AI策略和量子運算的突破(有興趣的讀者可以看我之前的文章介紹-微軟(Microsoft)推出Majorana 1量子計算晶片:為量子計算開闢新道路)。 
Thumbnail
微軟執行長 Satya Nadella 在 Dwarkesh Patel 的 Podcast 節目中,討論有關於微軟的AI策略和量子運算的突破(有興趣的讀者可以看我之前的文章介紹-微軟(Microsoft)推出Majorana 1量子計算晶片:為量子計算開闢新道路)。 
Thumbnail
微軟近期將其 AI 產品「Microsoft Copilot」重新命名為「Microsoft 365 Copilot」,顯示出其對市場定位的明確調整。此變動標誌著微軟將 Copilot 納入 Office 365 的產品系列,專注於提升企業客戶的工作生產力。
Thumbnail
微軟近期將其 AI 產品「Microsoft Copilot」重新命名為「Microsoft 365 Copilot」,顯示出其對市場定位的明確調整。此變動標誌著微軟將 Copilot 納入 Office 365 的產品系列,專注於提升企業客戶的工作生產力。
Thumbnail
微軟推出了 Copilot 虛擬助手的新付費版本,並擴展到小型企業和個人使用。這一舉措旨在讓更多客戶接觸生成式人工智慧,以提高性能、生產力和創造力。微軟的首席執行官薩蒂亞·納德拉表示人工智慧在公司身份中的核心地位,強調了微軟的願景和目標。
Thumbnail
微軟推出了 Copilot 虛擬助手的新付費版本,並擴展到小型企業和個人使用。這一舉措旨在讓更多客戶接觸生成式人工智慧,以提高性能、生產力和創造力。微軟的首席執行官薩蒂亞·納德拉表示人工智慧在公司身份中的核心地位,強調了微軟的願景和目標。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News