vocus logo

方格子 vocus

微軟 Copilot Researcher:Critique 與 Council 雙架構如何重塑知識工作流?

更新 發佈閱讀 8 分鐘

在生成式 AI 普及的今天,我們已經習慣讓 AI 幫忙寫草稿、整理重點或是進行簡單的問答。然而,當我們需要進行真正具備商業價值或學術嚴謹度的「深度研究」(Deep Research)時,單一 AI 模型的局限性往往會暴露無遺。你可能遇過這樣的情況:AI 給出了一份看似完美的報告,但仔細一查,引用的數據來源不明,甚至出現了邏輯上的盲點與幻覺;又或者,它只採用了單一視角,缺乏對複雜議題的全面剖析。

為了解決這個核心難題,微軟在 2026 年 3 月底為 Microsoft 365 Copilot 的 Researcher 功能引入「多模型協作智慧」(Multi-model intelligence)。微軟跳脫了過去單純追求單一模型參數變大的思維,轉向讓多個頂尖 AI 模型(如 OpenAI 與 Anthropic 的模型)在同一個任務中分工合作。

Critique 與 Council 功能如何解決現有 AI 應用的缺陷

Critique 機制:生成與審核的專業分工

在過去的 AI 研究工作流中,我們通常依賴一個單一模型來處理所有的環節:從理解問題、規劃搜尋策略、抓取資料、進行語意合成,到最終的撰寫與排版。這種「球員兼裁判」的模式讓模型很難在全力生成內容的同時,客觀地檢視自己是否遺漏了關鍵資訊,或是引用的資料是否足夠可靠。

微軟提出的 Critique 架構,採用了學術界與專業研究機構中常見的「同行評審(Peer Review)」概念。這個系統將職責拆分給兩位不同的 AI 夥伴:

  1. 生成者(Generator):專注於深度的資料探索與結構化的內容合成,負責產出初始的草稿。
  2. 審核者(Reviewer):不負責寫作,而是專心驗證草稿中的每一個主張,並強化整體的邏輯與呈現。

為了確保審核的品質,微軟為 Critique 建立了一套「基於準則的評估(Rubric-based evaluation)」系統。審核者會從以下三個維度對報告進行檢視:

  • 來源可靠性評估(Source Reliability Assessment):審核者會嚴格檢視生成者所使用的資料來源。它會優先選擇具備權威性、領域專業且可驗證的證據,剔除那些來源不明或可信度低的資訊。
  • 報告完整性(Report Completeness):審核者會對照使用者的原始需求,檢查最終報告是否全面回答了所有問題,並評估是否提供了具備獨特價值的深刻見解,避免報告流於表面。
  • 嚴格的證據溯源要求(Strict Evidence Grounding Enforcement):這是建立信任的最關鍵一步。審核者會執行極度保守的溯源標準,要求報告中的每一個關鍵主張都必須精準綁定到可靠的資料來源,並附上清晰的引用標籤。這極大程度地壓制了 AI 幻覺的發生機率。

突破效能天花板:DRACO 測試成績

為了證明 Critique 架構的有效性,微軟採用了具挑戰性的 DRACO 基準測試(Deep Research Accuracy, Completeness, and Objectivity)。這項測試包含了橫跨醫學、科技、法律等 10 個領域的 100 個複雜研究任務,這些任務皆源自真實世界中大規模研究系統的使用情境。

在評估標準上,微軟採用了OpenAI 的 GPT-5.2 來進行評分,並確保了評估配置的完全對等。測試結果顯示了驚人的效能提升:

  • 綜合表現超越同儕:與原本使用 Claude Opus 4.6 模型的 Perplexity Deep Research 相比,搭載 Critique 的 Researcher 在總分上大幅提升(幅度達 13.88%),成為目前該測試中的最佳系統。
  • 三大維度顯著成長:與微軟自家單一模型的 Researcher 相比,Critique 在「分析的廣度與深度」上的進步最為巨大;其次是「呈現品質」與「事實準確性」。所有維度的提升在統計學上皆具備極高的顯著性。
  • 跨領域的穩定性:在 DRACO 涵蓋的 10 個領域中,Critique 在其中 8 個領域都獲得了顯著的進步。僅有在學術(Academic)與大海撈針(Needle-in-a-Haystack)這兩個本身變異數極大的領域中,才沒有呈現統計學上的顯著差異。
vocus|新世代的創作平台

Introducing multi-model intelligence in Researcher

Council 模式:為決策者打造的 AI「多邊會談」

如果說 Critique 是追求嚴謹與正確,那麼 Council 模式則是為了激發多元觀點與深層洞察。在處理複雜的商業決策或市場預測時,往往沒有絕對的標準答案。面對同一個議題,不同的 AI 模型因為其訓練資料集的權重、偏好的推理邏輯以及對齊策略的差異,會給出截然不同的解讀。微軟的 Council 模式正是利用了這種模型間的多樣性。

當你在 Researcher 中選擇 Council 模式時,系統會同時啟動一個 Anthropic 模型與一個 OpenAI 模型。這兩個模型會各自獨立作業,產出兩份完整的深度報告。接著,系統會引入一個專門的裁判模型,負責閱讀這兩份報告,並生成一份「總結摘要」。

這份總結摘要會為讀者梳理出幾個關鍵重點:

  • 共識點:兩大頂尖模型都認同的趨勢與事實,這通常代表了該議題中確定性最高的核心資訊。
  • 分歧點:模型之間在數據解讀、框架設定或嚴重性評估上的差異。這些分歧往往是決策者最需要深入探究的灰色地帶或潛在風險。
  • 獨特洞見:明確標示出各模型所挖掘到的獨有資訊或特殊觀點。

目前 Critique 與 Council 功能已在微軟的 Frontier 計畫中提供,Critique 更將成為系統預設的「Auto」體驗。

TN科技筆記的觀點

過去幾年,各家大廠都在拚命提升單一模型的參數規模,試圖打造一個全知全能的超級大腦。但解決複雜問題的方式,從來都不是靠一個絕頂聰明的人單打獨鬥,而是依賴團隊分工、嚴格審查與激烈的辯論。微軟這次將「Actor-Critic(執行者-評論者)」架構與「多元觀點並存」的邏輯內建到消費級產品中,它利用了不同模型訓練資料與對齊策略的差異性來互相截長補短。這種將多個模型組合為「複合型 AI 系統」的做法,或許將是未來幾年推升 AI 能力天花板的主要路徑之一。

然而,這種多模型架構也伴隨著不可忽視的算力挑戰。最直接的衝擊是運算成本與環境影響。無論是 Critique 還是 Council,都意味著需要同時調用兩個以上的頂級模型,且審查與來回修改的過程將大幅增加 Token 的消耗,這對於微軟基礎設施的算力負擔將是一大考驗。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
72會員
241內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2026/04/01
Andrej Karpathy 分享他如何利用 AI Agent 改變開發模式。本文深入解析 AutoResearch 自動化研究、軟體開發職缺趨勢、開源模型價值,以及 AI 能力參差不齊帶來的挑戰。
2026/04/01
Andrej Karpathy 分享他如何利用 AI Agent 改變開發模式。本文深入解析 AutoResearch 自動化研究、軟體開發職缺趨勢、開源模型價值,以及 AI 能力參差不齊帶來的挑戰。
2026/03/30
大型語言模型推理遇到記憶體瓶頸怎麼辦?NVIDIA 提出的 KVTC 技術,將多媒體壓縮思維帶入 AI,成功把 KV Cache 記憶體消耗縮減 20 倍,大幅降低雲端推論成本,完美保留長文本與推理能力!
2026/03/30
大型語言模型推理遇到記憶體瓶頸怎麼辦?NVIDIA 提出的 KVTC 技術,將多媒體壓縮思維帶入 AI,成功把 KV Cache 記憶體消耗縮減 20 倍,大幅降低雲端推論成本,完美保留長文本與推理能力!
2026/03/27
解析 Google 提出的 TurboQuant 論文這項讓記憶體需求大減的技術,為何反而可能引發記憶體類股的傑文斯悖論,帶動未來記憶體需求暴增。
2026/03/27
解析 Google 提出的 TurboQuant 論文這項讓記憶體需求大減的技術,為何反而可能引發記憶體類股的傑文斯悖論,帶動未來記憶體需求暴增。
看更多
你可能也想看
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
大家好,我是小編六爺,週一早上叫醒你的,是夢想還是帳單呢? 但你可知道:現在選在AI賽道上創業的,很可能某天忽然把你「砸」醒的,是天外飛來好幾億美金的支票? 我們來看看這則新聞 「Meta 擬斥數十億美元投資一家主導 AI 數據市場的新創公司」
Thumbnail
大家好,我是小編六爺,週一早上叫醒你的,是夢想還是帳單呢? 但你可知道:現在選在AI賽道上創業的,很可能某天忽然把你「砸」醒的,是天外飛來好幾億美金的支票? 我們來看看這則新聞 「Meta 擬斥數十億美元投資一家主導 AI 數據市場的新創公司」
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
1. 業務項目 Innodata Inc.(納斯達克:INOD)是一家總部位於美國新澤西州Ridgefield Park的全球數據工程公司,成立於1988年,擁有超過5,000名員工,業務遍及美國、英國、荷蘭、加拿大、印度、菲律賓等地。公司專注於提供數據處理、技術和諮詢服務,幫助客戶創建、管理和分
Thumbnail
1. 業務項目 Innodata Inc.(納斯達克:INOD)是一家總部位於美國新澤西州Ridgefield Park的全球數據工程公司,成立於1988年,擁有超過5,000名員工,業務遍及美國、英國、荷蘭、加拿大、印度、菲律賓等地。公司專注於提供數據處理、技術和諮詢服務,幫助客戶創建、管理和分
Thumbnail
「QuitGPT」運動近期在社群媒體快速擴散,呼籲使用者退訂ChatGPT,理由包括OpenAI高層政治捐款、AI技術被ICE使用,以及與美國政府合作的爭議。隨著好萊塢明星與學界人士加入,抵制聲浪看似聲勢浩大。但在美國政治文化中,企業政治獻金、政府採用科技公司工具與明星表態其實相當常見。
Thumbnail
「QuitGPT」運動近期在社群媒體快速擴散,呼籲使用者退訂ChatGPT,理由包括OpenAI高層政治捐款、AI技術被ICE使用,以及與美國政府合作的爭議。隨著好萊塢明星與學界人士加入,抵制聲浪看似聲勢浩大。但在美國政治文化中,企業政治獻金、政府採用科技公司工具與明星表態其實相當常見。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News