在生成式 AI 普及的今天,我們已經習慣讓 AI 幫忙寫草稿、整理重點或是進行簡單的問答。然而,當我們需要進行真正具備商業價值或學術嚴謹度的「深度研究」(Deep Research)時,單一 AI 模型的局限性往往會暴露無遺。你可能遇過這樣的情況:AI 給出了一份看似完美的報告,但仔細一查,引用的數據來源不明,甚至出現了邏輯上的盲點與幻覺;又或者,它只採用了單一視角,缺乏對複雜議題的全面剖析。
為了解決這個核心難題,微軟在 2026 年 3 月底為 Microsoft 365 Copilot 的 Researcher 功能引入「多模型協作智慧」(Multi-model intelligence)。微軟跳脫了過去單純追求單一模型參數變大的思維,轉向讓多個頂尖 AI 模型(如 OpenAI 與 Anthropic 的模型)在同一個任務中分工合作。Critique 與 Council 功能如何解決現有 AI 應用的缺陷
Critique 機制:生成與審核的專業分工
在過去的 AI 研究工作流中,我們通常依賴一個單一模型來處理所有的環節:從理解問題、規劃搜尋策略、抓取資料、進行語意合成,到最終的撰寫與排版。這種「球員兼裁判」的模式讓模型很難在全力生成內容的同時,客觀地檢視自己是否遺漏了關鍵資訊,或是引用的資料是否足夠可靠。
微軟提出的 Critique 架構,採用了學術界與專業研究機構中常見的「同行評審(Peer Review)」概念。這個系統將職責拆分給兩位不同的 AI 夥伴:
- 生成者(Generator):專注於深度的資料探索與結構化的內容合成,負責產出初始的草稿。
- 審核者(Reviewer):不負責寫作,而是專心驗證草稿中的每一個主張,並強化整體的邏輯與呈現。
為了確保審核的品質,微軟為 Critique 建立了一套「基於準則的評估(Rubric-based evaluation)」系統。審核者會從以下三個維度對報告進行檢視:
- 來源可靠性評估(Source Reliability Assessment):審核者會嚴格檢視生成者所使用的資料來源。它會優先選擇具備權威性、領域專業且可驗證的證據,剔除那些來源不明或可信度低的資訊。
- 報告完整性(Report Completeness):審核者會對照使用者的原始需求,檢查最終報告是否全面回答了所有問題,並評估是否提供了具備獨特價值的深刻見解,避免報告流於表面。
- 嚴格的證據溯源要求(Strict Evidence Grounding Enforcement):這是建立信任的最關鍵一步。審核者會執行極度保守的溯源標準,要求報告中的每一個關鍵主張都必須精準綁定到可靠的資料來源,並附上清晰的引用標籤。這極大程度地壓制了 AI 幻覺的發生機率。
突破效能天花板:DRACO 測試成績
為了證明 Critique 架構的有效性,微軟採用了具挑戰性的 DRACO 基準測試(Deep Research Accuracy, Completeness, and Objectivity)。這項測試包含了橫跨醫學、科技、法律等 10 個領域的 100 個複雜研究任務,這些任務皆源自真實世界中大規模研究系統的使用情境。
在評估標準上,微軟採用了OpenAI 的 GPT-5.2 來進行評分,並確保了評估配置的完全對等。測試結果顯示了驚人的效能提升:
- 綜合表現超越同儕:與原本使用 Claude Opus 4.6 模型的 Perplexity Deep Research 相比,搭載 Critique 的 Researcher 在總分上大幅提升(幅度達 13.88%),成為目前該測試中的最佳系統。
- 三大維度顯著成長:與微軟自家單一模型的 Researcher 相比,Critique 在「分析的廣度與深度」上的進步最為巨大;其次是「呈現品質」與「事實準確性」。所有維度的提升在統計學上皆具備極高的顯著性。
- 跨領域的穩定性:在 DRACO 涵蓋的 10 個領域中,Critique 在其中 8 個領域都獲得了顯著的進步。僅有在學術(Academic)與大海撈針(Needle-in-a-Haystack)這兩個本身變異數極大的領域中,才沒有呈現統計學上的顯著差異。

Introducing multi-model intelligence in Researcher
Council 模式:為決策者打造的 AI「多邊會談」
如果說 Critique 是追求嚴謹與正確,那麼 Council 模式則是為了激發多元觀點與深層洞察。在處理複雜的商業決策或市場預測時,往往沒有絕對的標準答案。面對同一個議題,不同的 AI 模型因為其訓練資料集的權重、偏好的推理邏輯以及對齊策略的差異,會給出截然不同的解讀。微軟的 Council 模式正是利用了這種模型間的多樣性。
當你在 Researcher 中選擇 Council 模式時,系統會同時啟動一個 Anthropic 模型與一個 OpenAI 模型。這兩個模型會各自獨立作業,產出兩份完整的深度報告。接著,系統會引入一個專門的裁判模型,負責閱讀這兩份報告,並生成一份「總結摘要」。
這份總結摘要會為讀者梳理出幾個關鍵重點:
- 共識點:兩大頂尖模型都認同的趨勢與事實,這通常代表了該議題中確定性最高的核心資訊。
- 分歧點:模型之間在數據解讀、框架設定或嚴重性評估上的差異。這些分歧往往是決策者最需要深入探究的灰色地帶或潛在風險。
- 獨特洞見:明確標示出各模型所挖掘到的獨有資訊或特殊觀點。
目前 Critique 與 Council 功能已在微軟的 Frontier 計畫中提供,Critique 更將成為系統預設的「Auto」體驗。
TN科技筆記的觀點
過去幾年,各家大廠都在拚命提升單一模型的參數規模,試圖打造一個全知全能的超級大腦。但解決複雜問題的方式,從來都不是靠一個絕頂聰明的人單打獨鬥,而是依賴團隊分工、嚴格審查與激烈的辯論。微軟這次將「Actor-Critic(執行者-評論者)」架構與「多元觀點並存」的邏輯內建到消費級產品中,它利用了不同模型訓練資料與對齊策略的差異性來互相截長補短。這種將多個模型組合為「複合型 AI 系統」的做法,或許將是未來幾年推升 AI 能力天花板的主要路徑之一。
然而,這種多模型架構也伴隨著不可忽視的算力挑戰。最直接的衝擊是運算成本與環境影響。無論是 Critique 還是 Council,都意味著需要同時調用兩個以上的頂級模型,且審查與來回修改的過程將大幅增加 Token 的消耗,這對於微軟基礎設施的算力負擔將是一大考驗。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)

















