方格子 vocus

微軟 Copilot Researcher：Critique 與 Council 雙架構如何重塑知識工作流？

2026/04/03 更新2026/04/03 發佈閱讀 8 分鐘

在生成式 AI 普及的今天，我們已經習慣讓 AI 幫忙寫草稿、整理重點或是進行簡單的問答。然而，當我們需要進行真正具備商業價值或學術嚴謹度的「深度研究」（Deep Research）時，單一 AI 模型的局限性往往會暴露無遺。你可能遇過這樣的情況：AI 給出了一份看似完美的報告，但仔細一查，引用的數據來源不明，甚至出現了邏輯上的盲點與幻覺；又或者，它只採用了單一視角，缺乏對複雜議題的全面剖析。

為了解決這個核心難題，微軟在 2026 年 3 月底為 Microsoft 365 Copilot 的 Researcher 功能引入「多模型協作智慧」（Multi-model intelligence）。微軟跳脫了過去單純追求單一模型參數變大的思維，轉向讓多個頂尖 AI 模型（如 OpenAI 與 Anthropic 的模型）在同一個任務中分工合作。

Critique 與 Council 功能如何解決現有 AI 應用的缺陷

Critique 機制：生成與審核的專業分工

在過去的 AI 研究工作流中，我們通常依賴一個單一模型來處理所有的環節：從理解問題、規劃搜尋策略、抓取資料、進行語意合成，到最終的撰寫與排版。這種「球員兼裁判」的模式讓模型很難在全力生成內容的同時，客觀地檢視自己是否遺漏了關鍵資訊，或是引用的資料是否足夠可靠。

微軟提出的 Critique 架構，採用了學術界與專業研究機構中常見的「同行評審（Peer Review）」概念。這個系統將職責拆分給兩位不同的 AI 夥伴：

生成者（Generator）：專注於深度的資料探索與結構化的內容合成，負責產出初始的草稿。
審核者（Reviewer）：不負責寫作，而是專心驗證草稿中的每一個主張，並強化整體的邏輯與呈現。

為了確保審核的品質，微軟為 Critique 建立了一套「基於準則的評估（Rubric-based evaluation）」系統。審核者會從以下三個維度對報告進行檢視：

來源可靠性評估（Source Reliability Assessment）：審核者會嚴格檢視生成者所使用的資料來源。它會優先選擇具備權威性、領域專業且可驗證的證據，剔除那些來源不明或可信度低的資訊。
報告完整性（Report Completeness）：審核者會對照使用者的原始需求，檢查最終報告是否全面回答了所有問題，並評估是否提供了具備獨特價值的深刻見解，避免報告流於表面。
嚴格的證據溯源要求（Strict Evidence Grounding Enforcement）：這是建立信任的最關鍵一步。審核者會執行極度保守的溯源標準，要求報告中的每一個關鍵主張都必須精準綁定到可靠的資料來源，並附上清晰的引用標籤。這極大程度地壓制了 AI 幻覺的發生機率。

突破效能天花板：DRACO 測試成績

為了證明 Critique 架構的有效性，微軟採用了具挑戰性的 DRACO 基準測試（Deep Research Accuracy, Completeness, and Objectivity）。這項測試包含了橫跨醫學、科技、法律等 10 個領域的 100 個複雜研究任務，這些任務皆源自真實世界中大規模研究系統的使用情境。

在評估標準上，微軟採用了OpenAI 的 GPT-5.2 來進行評分，並確保了評估配置的完全對等。測試結果顯示了驚人的效能提升：

綜合表現超越同儕：與原本使用 Claude Opus 4.6 模型的 Perplexity Deep Research 相比，搭載 Critique 的 Researcher 在總分上大幅提升（幅度達 13.88%），成為目前該測試中的最佳系統。
三大維度顯著成長：與微軟自家單一模型的 Researcher 相比，Critique 在「分析的廣度與深度」上的進步最為巨大；其次是「呈現品質」與「事實準確性」。所有維度的提升在統計學上皆具備極高的顯著性。
跨領域的穩定性：在 DRACO 涵蓋的 10 個領域中，Critique 在其中 8 個領域都獲得了顯著的進步。僅有在學術（Academic）與大海撈針（Needle-in-a-Haystack）這兩個本身變異數極大的領域中，才沒有呈現統計學上的顯著差異。

Introducing multi-model intelligence in Researcher

Council 模式：為決策者打造的 AI「多邊會談」

如果說 Critique 是追求嚴謹與正確，那麼 Council 模式則是為了激發多元觀點與深層洞察。在處理複雜的商業決策或市場預測時，往往沒有絕對的標準答案。面對同一個議題，不同的 AI 模型因為其訓練資料集的權重、偏好的推理邏輯以及對齊策略的差異，會給出截然不同的解讀。微軟的 Council 模式正是利用了這種模型間的多樣性。

當你在 Researcher 中選擇 Council 模式時，系統會同時啟動一個 Anthropic 模型與一個 OpenAI 模型。這兩個模型會各自獨立作業，產出兩份完整的深度報告。接著，系統會引入一個專門的裁判模型，負責閱讀這兩份報告，並生成一份「總結摘要」。

這份總結摘要會為讀者梳理出幾個關鍵重點：

共識點：兩大頂尖模型都認同的趨勢與事實，這通常代表了該議題中確定性最高的核心資訊。
分歧點：模型之間在數據解讀、框架設定或嚴重性評估上的差異。這些分歧往往是決策者最需要深入探究的灰色地帶或潛在風險。
獨特洞見：明確標示出各模型所挖掘到的獨有資訊或特殊觀點。

目前 Critique 與 Council 功能已在微軟的 Frontier 計畫中提供，Critique 更將成為系統預設的「Auto」體驗。

TN科技筆記的觀點

過去幾年，各家大廠都在拚命提升單一模型的參數規模，試圖打造一個全知全能的超級大腦。但解決複雜問題的方式，從來都不是靠一個絕頂聰明的人單打獨鬥，而是依賴團隊分工、嚴格審查與激烈的辯論。微軟這次將「Actor-Critic（執行者-評論者）」架構與「多元觀點並存」的邏輯內建到消費級產品中，它利用了不同模型訓練資料與對齊策略的差異性來互相截長補短。這種將多個模型組合為「複合型 AI 系統」的做法，或許將是未來幾年推升 AI 能力天花板的主要路徑之一。

然而，這種多模型架構也伴隨著不可忽視的算力挑戰。最直接的衝擊是運算成本與環境影響。無論是 Critique 還是 Council，都意味著需要同時調用兩個以上的頂級模型，且審查與來回修改的過程將大幅增加 Token 的消耗，這對於微軟基礎設施的算力負擔將是一大考驗。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

72會員

241內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2026/04/01

Andrej Karpathy 訪談：從自動化研究到 AI Agent，工程師與科技產業的未來走向

Andrej Karpathy 分享他如何利用 AI Agent 改變開發模式。本文深入解析 AutoResearch 自動化研究、軟體開發職缺趨勢、開源模型價值，以及 AI 能力參差不齊帶來的挑戰。

2026/04/01

Andrej Karpathy 訪談：從自動化研究到 AI Agent，工程師與科技產業的未來走向

2026/03/30

NVIDIA 的 KVTC 技術，如何打破 KV Cache 儲存瓶頸

大型語言模型推理遇到記憶體瓶頸怎麼辦？NVIDIA 提出的 KVTC 技術，將多媒體壓縮思維帶入 AI，成功把 KV Cache 記憶體消耗縮減 20 倍，大幅降低雲端推論成本，完美保留長文本與推理能力！

2026/03/30

NVIDIA 的 KVTC 技術，如何打破 KV Cache 儲存瓶頸

2026/03/27

Google TurboQuant ：大模型 KV Cache 壓縮極限與記憶體產業的傑文斯悖論

解析 Google 提出的 TurboQuant 論文這項讓記憶體需求大減的技術，為何反而可能引發記憶體類股的傑文斯悖論，帶動未來記憶體需求暴增。

2026/03/27

Google TurboQuant ：大模型 KV Cache 壓縮極限與記憶體產業的傑文斯悖論

解析 Google 提出的 TurboQuant 論文這項讓記憶體需求大減的技術，為何反而可能引發記憶體類股的傑文斯悖論，帶動未來記憶體需求暴增。

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11