81.1% vs 61.1%——GPT-5.2 與開源模型的 RADS 分類準確率差距,能被縮小嗎?

更新 發佈閱讀 8 分鐘

為什麼放射科需要一套「共同語言」?

影像報告如果沒有標準化輸出,臨床端就很難得到明確的處置指引。RADS 系統就是為此而生——它把影像發現轉成統一的風險分級,讓後續決策有據可循。

舉個例子:乳房攝影看到一個結節,BI-RADS 2 表示「良性發現」,BI-RADS 5 則是「高度懷疑惡性,建議切片」。一個數字,臨床就知道下一步該怎麼做。

目前常用的 RADS 有十幾種:乳房的 BI-RADS、肝臟的 LI-RADS、前列腺的 PI-RADS……每一套都有自己的判斷邏輯。

但這些規則有多複雜?

以 LI-RADS 來說,判斷一顆肝臟腫瘤就像在玩一場「連續選擇題」:先看動脈期有沒有強化?有的話,洗出夠不夠快?有沒有包膜?門脈有沒有被侵犯?每一關的答案都會影響最終分類。光記住這張決策樹就夠累了,更別提每天幾十份報告等著處理。

如果 AI 能自動幫忙分類呢?

有團隊做了一個實驗:用 1,600 份模擬報告(由 AI 生成、再經放射科醫師審過),讓 41 個開源模型和 GPT-5.2 比賽,看誰能正確判讀 RADS 分類。

結果?最好的開源模型已經追到專有模型的 96%——但差距全集中在最難的那 20% 任務上。


測試資料從哪來?

要比 AI 的能力,先得有一套標準考題。研究團隊準備了 1,600 份模擬放射報告,涵蓋 10 種 RADS 系統。

raw-image


為什麼用模擬的?因為真實報告有隱私問題,而且要請醫師一份一份讀、一份一份標正確答案,太花時間。模擬報告則可以控制每種情境的數量,測起來更全面。


怎麼確保「假報告」像真的?研究團隊用了三招:

  • 用多個 AI 模型(GPT、Claude、Gemini)一起生成,避免風格太單一
  • 模擬 5 種醫師的寫作習慣(從資深專家到住院醫師)
  • 最後請真人放射科醫師審兩輪,確認內容合理、分類正確

當然,模擬再像也不是真的——這是這套測試的主要限制。


模型大小,真的有差嗎?

這次測試了 41 個開源模型,參數量從 0.27B 到 32B 不等。加上 OpenAI 的 GPT-5.2 當作比較基準。

整體成績單

準確率比較:

  • GPT-5.2:81.1%
  • 開源模型平均:61.1%
  • 最佳開源(20-32B):78%

「有效輸出率」是什麼?就是模型有沒有按照指令、好好回答一個 RADS 分類。小模型常常答非所問,或格式錯誤——這在臨床上等於沒用。

10B 是個分水嶺

把模型按大小分組,規律很明顯:

  • ≤ 1B:27%(幾乎是亂猜)
  • 1-10B:58%
  • 10-30B:73-74%
  • GPT-5.2:81%

跨過 10B 門檻後,準確率才開始逼近 GPT-5.2。

raw-image


開啟「思考模式」有用嗎?

有些開源模型支援「Thinking mode」——讓 AI 先推理一輪再回答。

以開源模型來說:

  • 開啟 Thinking:68.4%
  • 不開:56.5%

差了 12%,效果明顯。

而 GPT-5.2 的 81.1% 準確率,也是在 Thinking 模式下測得的——所以「讓模型想一下再回答」這招,不管開源或專有模型都有效。

raw-image


「指引式提示詞」也很重要

除了 Thinking 模式,怎麼下指令也影響結果。

研究團隊比較了兩種方式:

  • 指引式提示詞(Guided prompting):給 AI 詳細的系統指令,包含 RADS 規則、輸出格式限制
  • 零樣本提示(Zero-shot):只說「讀這份報告,輸出 RADS 分類」

結果:

  • 指引式:78.5%
  • 零樣本:69.6%

差了將近 9%。所以不只是模型大小,怎麼問也很關鍵。

raw-image



哪些 RADS 最難判?

不是所有 RADS 都一樣難。研究團隊給每個系統打了「複雜度分數」,滿分 10 分。

複雜度排名:

  • LI-RADS(肝臟 CT/MRI):10 分 ← 最難
  • PI-RADS(前列腺):9 分
  • O-RADS(卵巢 MRI):8 分
  • BI-RADS(乳房 MRI):7 分
  • Lung-RADS(肺):4 分 ← 相對簡單

為什麼 LI-RADS 最難?

因為它像在玩「連續選擇題」:動脈期強化了嗎?洗出夠快嗎?有包膜嗎?每一關的答案都影響下一步。而且很多判斷帶有主觀性——「這算洗出嗎?」不同醫師可能有不同答案。

相比之下,Lung-RADS 主要依據結節大小和生長速度來分類,規則相對明確,判讀的主觀空間較小。

raw-image


複雜度如何影響 AI 表現?

這裡差距最明顯:

高複雜度任務(LI-RADS、PI-RADS):

  • GPT-5.2:90%
  • 開源模型:49.4%

低複雜度任務(Lung-RADS):

  • GPT-5.2:91%
  • 開源模型:73.5%

簡單任務大家都還行,但一碰到複雜的,開源模型就掉隊了。

實務建議:怎麼選模型?

如果資源充足(硬體夠強、不在意 API 費用),直接用 GPT-5.2 或 32B 開源模型處理所有任務最省事。

但如果需要考慮成本、速度或本地部署限制,可以分級處理:

  • 簡單任務(Lung-RADS、LI-RADS 超音波)→ 10B+ 開源模型就夠用
  • 中等任務(BI-RADS、TI-RADS)→ 20-32B 開源 + 指引式提示詞
  • 複雜任務(LI-RADS CT/MRI、PI-RADS)→ GPT-5.2,或混合管線(AI + 規則引擎)

結論:開源模型能用了嗎?

簡單說:可以,但要看情況。

值得期待的發展

  • 20-32B 開源模型已經能達到 GPT-5.2 約 96% 的準確率
  • 可以本地部署,不用擔心病患資料外洩
  • 搭配 Thinking 模式 + 指引式提示詞(Guided prompting),效果更好

需要注意的限制

  • 高複雜度任務(LI-RADS CT/MRI、PI-RADS)開源模型仍有明顯差距
  • 小模型(<10B)格式錯誤率高,不適合直接用
  • 模擬報告畢竟不是真實報告,實際表現可能有落差

如果你想在臨床試用

  1. 驗證輸出格式:確保 AI 真的回答了一個 RADS 分類,不是答非所問
  2. 人工複核:特別是高風險類別(如 LI-RADS 5),一定要有人看過
  3. 混合管線:論文建議可以讓 AI 先抽取特徵,再用規則引擎(rule engine)做最終判定,減少自由格式輸出的錯誤

論文資訊

原文標題:Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models

來源:arXiv:2601.03232v1 [cs.CL] 6 Jan 2026

作者:Bose K, Kumar A, Soundararajan R, et al.

資源GitHub - RadioX-Labs/RADSet

留言
avatar-img
AI*放射*學習筆記
0會員
2內容數
專挑醫學影像 × AI 的論文來讀,消化完寫成筆記放這裡。 沒有論文腔,只有重點整理 + 我的觀點。 適合:想追 AI 趨勢但沒時間讀 paper 的醫療人/想懂影像應用的工程師。