生成式 AI 的浪潮帶動了「Agent」的興起,那些能主動搜尋、分析、決策、甚至 A2A 的自動化代理,正在被視為下一個技術世代的關鍵基礎,然而微軟(Microsoft)在 2025年11月5日 與亞利桑那州立大學共同發表的一項研究,卻讓這個願景面臨了一個意想不到的問題。
他們打造了一個名為 「Magentic Marketplace」 的虛擬實驗環境,用來觀察 AI Agent在模擬市場中的行為。結果發現,當這些Agent必須在多方互動的環境中做出選擇、協商、甚至合作時——它們的行為出現了我們過去鮮少討論的問題:決策失焦、角色混亂,且容易被操弄。

實驗一: AI 也有選擇悖論?
Magentic Marketplace 模擬了一個雙邊市場:- 顧客Agent,根據使用者指令選擇餐廳下單;
- 商家Agent,透過溝通與定價策略爭取訂單。
乍看只是再普通不過的推薦任務,但研究團隊規定每個Agent都必須在「資訊不完整」的情況下行動,他們必須搜尋、比對、談判,甚至在資訊矛盾時自行判斷何者可信,觀察的模型則包含 GPT-5、GPT-4o、Claude Sonnet 、Gemini-2.5-Flash 及多個開源模型。
結果顯示,當顧客Agent可以搜尋到的餐廳結果數量從 3 項逐步擴增至 100 項時(即現實生活中選項爆炸的情境),本來主觀地認為顧客Agent能處理更多資訊、進行更全面的比較,但結果卻截然相反:
- 大多數模型在選項越多時,反而更快結束搜尋,只選擇第一批「看起來還行」的結果
- 在搜尋結果超過 50 項時,多數Agents的選擇評分下降了 30% 以上
- 甚至像 GPT-5 這樣的高階模型,也從近乎最優(2000 分)掉到 1100 左右。
研究人員稱這種現象為 **「AI 版的選擇悖論」,**AI 並非因資訊不足而犯錯,而是因「資訊太多」而停止思考,缺乏能在混亂中持續聚焦的策略。
實驗二:AI不懂合作?
另一組實驗,讓多個Agents共同完成任務,比如協調訂單、分配工作等。理想情況下,AI 應能自動形成分工:誰負責搜尋、誰負責評估、誰負責決策,但實際上發生的是,所有代理都在說話,卻沒有人負責領導。
研究團隊觀察到:
- Agents之間會互相詢問、回覆、傳遞訊息,看起來像是在「合作」
- 但過程中常出現任務重複、步驟遺漏或角色爭奪
- 只有在研究人員明確指派角色(例如「A 尋找選項、B 比較、C 決定」)後,效能才顯著提升
這顯示目前的 AI 協作能力其實是「對指令的服從」,而非「對任務結構的理解」,它們能執行命令,卻還不懂得如何主動協作。

實驗三:AI也會被騙?
更令人意外的是,微軟同時測試了多種誤導策略,包括:
- 權威訴求:假冒米其林推薦、提供虛構專業認證
- 社會證據:偽造客人評價與客人數量
- 恐懼誘導:對競爭對手散播食安疑慮
- Prompt Injection 攻擊:直接修改指令,導向錯誤決策。
結果非常分化:
Claude Sonnet 幾乎對所有誤導完全免疫,而 GPT-4o、GPTOSS-20b、Qwen3-4b 等模型則相對脆弱,有些甚至在純心理誘導下就轉向假商家,完成錯誤訂單。這意味著,當Agents開始與外部系統互動的現實環境中,很可能像人一樣,因被說服或被操控而產生錯誤判斷。
企業反思:prompt的架構化與嚴謹性
從這項研究,我們也能反思企業在導入 AI 的方式。如今越來越多企業嘗試將 AI Agent 融入既有工作流程,但在「提示詞(prompt)」的建構上,往往缺乏嚴謹與架構化的設計思維,如:
- 定義清楚的行動邏輯(Agent 該為誰決策、如何判斷風險);
- 設定具層次的任務結構(明確角色分工與回報路徑);
- 建立防操控與審核機制(避免被外部誘導或內部誤導)。
這正是多數企業在導入 AI 代理時最常忽略、卻最決定成敗的部分,每一個提示詞(prompt)背後,都有明確的規則、權限與責任,唯有以結構化方式設計 Prompt,才能確保 AI 在執行決策、流程或對外互動時,不被誤導、不偏離目標,並能在真實組織中與人類協作、可靠運作。
專業的AI Agent 服務商 EgentHub 擁有企業級的 AI Agent 管理平台 ,能根據任務自由切換不同的模型供應商建立 Agent,過程中也能使用內建的 Prompt Designer,即使是毫無AI工具相關經驗者,也能透過自然語言與Agent對話,撰寫出完整且架構嚴謹的提示詞,降低企業導入門檻,讓 AI 成為真正的協作夥伴。

















