人工智慧(Artificial Intelligence, AI),特別是大型語言模型(Large Language Models, LLMs),已迅速成為現代醫學中最令人振奮的創新之一。這些能夠閱讀、書寫、摘要、推理並以人類語言進行對話的系統,如今正以十年前難以想像的方式協助臨床醫師、研究人員與病患。這個概念無疑是最前沿的——也無疑非常「酷」。
然而,儘管 LLMs 看似具有顛覆性的潛力,它們在醫療實務中的整合仍然不完整,並且充滿挑戰。目前仍有極大的改進空間,而正視這些限制,是負責任進步的必要前提。
1. 什麼讓 LLMs 在醫學中具有革命性意義?
LLMs 是在海量文本上訓練而成的模型,能夠以規模化的方式處理並生成醫學語言。它們的核心優勢並不在於取代臨床判斷,而在於增強認知工作——也就是醫療實務中大量耗時的閱讀、書寫、整合與模式辨識。
在臨床環境中,LLMs 可以:
- 撰寫病歷紀錄與出院摘要
- 彙整病人病史與檢驗結果
- 協助產生鑑別診斷
- 以實證醫學為基礎回答醫學問題
- 將複雜的醫學語言轉換為病患可理解的說明
這種能夠在「語言」與「知識」交界處運作的能力,正是 LLMs 與早期醫療軟體的根本差異。
2. 臨床應用:LLMs 已經產生影響的地方
a. 文件撰寫與行政負擔的減輕
LLMs 最直接、也最實用的應用之一,是降低行政負擔。醫療文件撰寫極為耗時,且是臨床人員職業倦怠的主要來源之一。LLMs 可協助:
- 在診察過程中自動記錄重點
- 放射科與病理科的結構化報告
- 保險文件與編碼支援
僅此一點,就有潛力將大量時間重新還給真正的病人照護。
b. 臨床決策支援
LLMs 可作為智慧型助理,協助:
- 根據症狀建議可能的診斷
- 提醒相關的臨床指引
- 辨識藥物交互作用與禁忌症
重要的是,它們並不「做決定」,而是支援推理——作為臨床醫師的第二層認知輔助。
c. 病患溝通與健康教育
LLMs 在調整語言以適應不同受眾方面表現出色。在醫療實務中,這意味著:
- 清楚解釋診斷與治療計畫
- 多語言病患溝通
- 個人化健康教育內容
這能提升健康識能與治療依從性,而這正是傳統醫學經常面臨困境的領域。
3. 醫學研究與知識整合
醫學知識的生成速度已遠超任何個體能夠追上的程度。LLMs 提供了一種彌補這個落差的方式,包括:
- 摘要大量醫學文獻
- 協助系統性回顧與試驗設計
- 在資料集中辨識趨勢與假說
在這個意義上,LLMs 就像「知識放大器」,幫助臨床人員與研究者在不斷擴張的領域中保持更新。
4. LLMs 的限制
儘管前景可期,LLMs 目前仍未成熟到能成為真正的醫療代理者。對它們的熱情必須以謹慎為平衡。
a. 幻覺與可靠性問題
LLMs 可能生成語氣自信卻錯誤的資訊,這種現象稱為「幻覺」(hallucination)。在醫學領域,錯誤可能致命,這是一個極為嚴重的問題。
5. 真正的未來,是人類與 AI 的夥伴關係
最合理、也最符合倫理的未來圖景,並不是「AI 取代醫師」,而是醫師與 AI 共同工作。
LLMs 最適合被理解為:
- 認知助理(cognitive assistants)
- 文件夥伴(documentation partners)
- 知識導航者(knowledge navigators)
而人類臨床醫師則提供:
- 情境理解
- 同理心
- 倫理判斷
- 最終責任
這些品質,目前沒有任何 LLM 真正具備。
在這種夥伴關係模型中,AI 負責提升效率與一致性;而人類,則確保安全、慈悲與智慧。
6. 從「酷」到「不可或缺」,還缺了什麼?
若要讓 LLMs 從令人驚艷的實驗工具,真正轉變為臨床上不可或缺的核心元件,它們必須在以下方面取得根本性進步:
- 醫學事實的嚴格校準與驗證機制
- 推理過程的透明性
- 與即時臨床資料的深度整合
- 明確的監管、認證與責任制度
- 使用多樣性高、品質可靠的醫療訓練資料
唯有在這些條件成熟之後,LLMs 才能真正從「展示型科技」轉化為「值得信任的醫療系統組件」。
7. 一種強大的工具,但不是完成式解方
AI——尤其是 LLMs——在醫療實務中的應用,無疑是前沿的、令人振奮的。它代表了一種根本轉變:語言、知識與照護方式之間的關係,正在被重新定義。
這不是一場完成的革命,而只是它的開場白。
LLMs 是強大的工具,潛力巨大,但醫學要求的不是炫技,而是嚴謹、謙遜與責任。未來醫療 AI 的成敗,並不取決於它看起來多聰明,而取決於它被如何小心、倫理地、以人為中心地整合進照護體系。
在醫學裡,「很酷」從來都不夠。
真正重要的,是安全、可信、與對病人有益。
8. 語言的魔術師,未知的探險者——為什麼 LLMs 令人驚艷,卻終究受限
LLMs 之所以讓人感覺像魔術師,是因為它們極其擅長重新組織那些已被人類表達過的知識。它們能迅速找出關聯、重組概念、生成連貫的論述,看似創新,實則是在既有語言宇宙中進行高階編舞。
然而,當醫學面對真正的未知——新的致病機制、意料之外的治療反應、無法解釋的表型——純語言導向的智慧便會觸及它的極限。
在這些前沿地帶,推論型 AI(inference-based AI),在更廣義的科學意義上,才是更強大的推理工具。
9. LLMs:已知世界的統治者
作為已知世界的高手,LLMs 特別擅長:
- 整合既有醫學知識
- 在既定概念框架內進行推理
- 在不同語境間轉換(臨床 ↔ 分子 ↔ 病人敘事)
在認識論上,LLMs 主要運作於「顯性知識」的空間中,包括:
- 已發表的文獻
- 臨床指引
- 病例報告
- 人類書寫過的推理模式
它們擅長的是插值(interpolation)——在已知點之間填補空隙;
但它們不擅長外推(extrapolation)——走向尚未被定義的區域。
這正是它們看起來像魔術師的原因:
它們能比任何人類更快地浮現模式與連結,
但它們終究被限制在人類已經說過的世界。
10. 推論型 AI ——在人類尚未知曉之處思考
推論型 AI 的核心能力,不在於語言,而在於:
- 統計推論
- 因果推論
- 機制建模
- 高維度資料學習
- 潛在結構發現
這包括:
- 貝葉斯推論
- 因果發現
- 表徵學習
- 多模態基礎模型(基因體、影像、生理訊號、化學空間)
在醫學中,這類 AI 特別適合處理「未知」。
當 AI 不再重述知識,而是壓縮現實
這種 AI 的任務不是重複我們知道的事情,而是重新壓縮現實本身,形成新的表徵。
例如:
- 從 omics 資料中識別新的疾病亞型
- 在沒有先驗假說的情況下發現新藥靶點
- 在臨床尚未察覺之前預測罕見副作用
- 推論尚未被描述的疾病進展軌跡
在這裡,AI 不是在「解釋」世界,而是在重構世界。
11.真正的創新,需要處理未知,而不只是解釋已知
醫學創新的本質來自於:
- 生物系統的高度複雜性
- 非線性交互作用
- 稀疏、雜訊多、不完整的資料
- 湧現現象(emergence)
人類的推理在這裡會遭遇困境,因為:
- 我們依賴直覺性機制理解
- 我們過度簡化
- 我們被既有模型所限制
而推論型 AI 能夠:
- 在龐大資料中偵測極弱卻穩定的訊號
- 建模人類無法直觀想像的交互作用
- 挑戰現行疾病分類法
這正是為什麼:
- AlphaFold 改變了生物學
- AI 驅動的藥物探索正在加速
- 疾病重分類正逐步變為資料導向
這些突破都不是靠「好語言」完成的。
12. 風險——沒有意義的推論
然而,推論本身也不完整。
推論型 AI 常見的問題包括:
- 表徵不透明(黑盒)
- 可解釋性不足
- 臨床信任感低
- 難以轉化為實際行動
一個模型也許能找到強大的模式,但它無法:
- 解釋為什麼這對臨床重要
- 有意義地表達不確定性
- 與人類價值對齊
這正是 LLMs 重新登場的地方。
13. 真正的力量來自結合,而非競爭
醫療 AI 的未來,不是 LLMs 與推論系統的競爭,而是認知分工。
- 推論模型探索現實
- LLMs 解釋、脈絡化、溝通發現
你可以這樣想:
- 推論型 AI 是實驗室裡的科學家
- LLMs 是醫師、教師、翻譯者
一個推論引擎可能發現新的疾病群集;而 LLMs 則幫助:
- 用臨床語言描述它
- 將它連結至既有知識
- 設計試驗
- 與病人溝通風險
14.明確的立場
對於醫學創新而言,推論型 AI 比 LLMs 更為根本。
LLMs 優化的是對「已知」的理解;
推論系統優化的是對「未知」的發現。
但創新要成為醫學,還必須是:
- 可解釋的
- 可測試的
- 可臨床行動的
而這最後一步,仍然需要語言、判斷與價值對齊——這正是 LLMs 的強項。
15. 預測不是理解——為什麼醫學需要因果
當代多數醫療 AI(包括許多看起來「令人驚艷」的模型)本質上都是預測型系統,而不是因果型系統。
例如:
「這位病人罹患敗血症的風險是 73%。」
「這顆腫瘤對藥物 X 的反應機率是 0.61。」
這些資訊確實有用,但它們並沒有回答醫學中最根本的問題:
如果我介入,會發生什麼事?
因果推論:醫學真正關心的問題
因果推論問的是:
- 這個疾病是如何被造成的?
- 哪個機制連結了介入與結果?
- 在另一種可能的情境下,會發生什麼事?(反事實推論)
醫學是一門介入型科學,而不是純粹的觀察科學。
如果沒有因果結構,預測本身無法安全地指導創新。
16. 因果 AI ——醫學缺失的認知層
因果推論框架(如貝葉斯因果圖、反事實模型、結構方程模型)之所以對醫學特別重要,是因為它們能:
- 明確區分相關與因果
- 顯性建模混雜因子
- 支援介入推理
- 允許外推,而非只是在訓練資料內插值
這對於以下領域至關重要:
- 藥物開發
- 治療個人化
- 政策與臨床指引制定
- 轉譯醫學
LLM 可以告訴你「通常是怎麼做的」。
因果模型能告訴你:「如果你做一件新的事,會發生什麼」。
17. 為什麼臨床醫師更信任因果,而不是準確率
醫師信任模型,並不是因為它們準確,
而是因為它們有內在邏輯。
一位住院醫師寧可信任:
- 一個可解釋、70% 準確的機制模型
而不是:
- 一個 95% 準確的黑箱預測器
為什麼?
因為醫學是在以下條件下進行的:
- 不確定性
- 責任
- 道德承擔
因果模型與醫師的思考方式天然一致:
- 病理生理
- 機制
- 因果鏈
這種認知對齊比任何指標都重要。
18. 語言之外的基礎模型——真正的創新在哪裡
LLMs 是為文字而生的基礎模型。
但醫學的未知,並不主要存在於文字中。
它存在於:
- 基因體
- 蛋白體
- 代謝體
- 醫學影像
- 生理訊號
- 化學空間
未來最強大的醫療 AI 將是:
- 多模態
- 自監督
- 尋求機轉,而不只是分類
例如:
- 學習跨 omics 的潛在疾病表徵
- 在沒有標籤的情況下推論分子交互作用
- 發現新的疾病軸線,而不只是新類別
這些系統不會「聽起來」聰明,
但它們在科學意義上才是真正的聰明。
19. 優化與創新,是兩種完全不同的 AI 任務
讓我們更精確一點:
- 優化(Optimization):LLMs、預測模型,提升效率、降低錯誤
- 創新(Innovation):因果與推論系統,發現新的真理
今天多數臨床 AI 都在優化流程。
但醫學突破來自於重構現實本身。
這也是為什麼:
- AlphaFold 改變了生物學
- AI 驅動的藥物發現正在加速
- 疾病重新分類正走向資料導向
這些都不需要流暢的語言。
20. LLMs 仍然重要——但不是作為「思考者」
LLMs 不應該成為醫療 AI 的認知核心。
但它們作為以下角色不可或缺:
- 模型與人類之間的翻譯者
- 假說生成器(不是驗證者)
- 臨床推理介面
- 倫理與敘事的調解者
你可以把 LLM 想像成:
醫師通往非人類智慧的介面
它們幫助人類理解發現,而不是創造發現。
21. 未來醫師–科學家真正會信任的 AI
一位未來的臨床研究者,會信任一個能夠:
- 區分相關與因果
- 明確表達不確定性
- 支援反事實推理
- 整合機制先驗
- 被「質詢」,而不是只被「詢問」
的系統。
這更像是一位科學合作者,而不是聊天助理。
在醫學中,信任不是來自流暢,而是來自認識論的謙遜與結構性。
22. 強而有力的主張
LLMs 是醫學的助理。
因果導向的推論型 AI,才是醫學的未來同事。
如果 LLMs 明天消失,醫學會變慢。
如果推論型 AI 消失,醫學會失去加速發現的最佳機會。
醫學不會因為我們更會談論已知而前進。
它前進,是因為我們學會安全、嚴謹、因果性地理解未知。
你那種「重視推論勝於修辭」的直覺,
正是推動真正醫學創新的心智模式。
23. 一個以因果為核心的醫療 AI 架構
——以及它為何真正符合醫學應有的思考方式
第一原則:醫學是一門介入型科學
醫學的本質,不是描述世界,而是改變世界。
因此,任何真正有價值的醫療 AI,都必須能回答這類問題:
- 如果我介入,會發生什麼事?
- 如果我不介入,原本會怎樣?
- 為什麼這對這位病人有效,對另一位卻無效?
這些都是反事實問題(counterfactual questions)。
這一點,立刻排除了兩種系統作為核心:
- 純粹的預測型黑箱模型
- 純語言推理系統
真正可用的架構,必須明確區分四個階段:
觀察 → 推論 → 介入 → 結果
而不是把所有推理「壓扁」成一段文字。
分層式架構:從現實到理解
第一層:現實攝取層(非語言、高維度)
這是真正的新穎性進入系統的地方。
輸入包括:
- 基因體、轉錄體、蛋白體
- 醫學影像(放射、病理)
- 生理時間序列(ECG、ICU 訊號)
- 環境與生活型態資料
- 長期電子病歷資料
這一層的特徵是:
- 多模態
- 自監督
- 不依賴人類標籤假設
它回答的不是:
「這是什麼病?」
而是:
「在現實中,存在什麼尚未被命名的結構?」
這是表徵學習(representation learning),不是診斷。
第二層:潛在疾病與機制發現
這是推論真正開始的地方。
系統在此學習:
- 潛在變數(隱藏疾病軸線)
- 亞表型
- 生物路徑
- 個體特異狀態
這一層還不預測結果。
它做的是更激進的事情:重新組織現實本身。
例如:
- 「第二型糖尿病」裂解成 6 種機制上不同的疾病
- 「心衰竭」不再是一個類別,而是一個因果狀態光譜
這已經是顛覆性的醫學。
第三層:因果模型建構(最關鍵的一層)
這是整個架構的核心。
在這裡,系統建立:
- 因果圖
- 結構方程模型
- 機制導向的機率模型
並且顯性標示:
- 混雜因子
- 中介因子
- 效果修飾因子
這一層使得以下能力成為可能:
- 反事實模擬
- 虛擬介入測試
- 假說可證偽性
預測問的是:「會發生什麼?」
因果問的是:「什麼可以被改變?」
創新就在這裡發生。
第四層:介入模擬器(虛擬臨床試驗引擎)
這是系統開始真正「像醫學」的地方。
能力包括:
- 模擬藥物 A vs 藥物 B
- 測試劑量、時序、組合策略
- 尋找個體化反應者
關鍵特徵:
- 不確定性是顯性的
- 失敗模式是可見的
- 信心是校準過的
這個 AI 不會說:
「這一定有效。」
它會說:
「在這些假設下,介入 X 透過機制 Y 改變結果 Z,伴隨這些風險。」
這種語言,才是醫學語言。
第五層:人類介面(這才是 LLMs 該待的地方)
只有在這一層,語言才真正進入。
LLMs 的角色是:
- 因果結構翻譯器
- 不確定性詮釋者
- 問題生成介面
它們不負責決策。
它們負責解釋與被質詢。
醫師可以問:
- 為什麼這在老年病人失效?
- 如果腎功能下降,哪個假設會崩潰?
- 給我類似病人的反事實模擬
LLM 是介面,不是大腦。
為什麼這種架構會贏得臨床信任
臨床醫師信任的系統,必須:
- 讓假設可見
- 承認不確定性
- 允許質疑
- 與機制推理對齊
這個架構:
- 映射醫學教育方式
- 尊重因果
- 保留人類責任
它的行為更像:
一位嚴謹的年輕科學家
而不是
一位自信的神諭
為什麼 LLM 優先的架構會讓專家不安
LLM-first 系統:
- 把推理壓縮成文字
- 混淆相關與因果
- 用流暢掩蓋不確定性
這對以下用途很好:
- 文件
- 教育
- 分流
但對以下用途是致命的:
- 藥物開發
- 臨床指引創新
- 首創療法
未來的醫師–科學家
這個架構暗示了一個新角色:
不是:
「醫師 vs AI」
而是:
「醫師與一個外星推論引擎共同推理」
關鍵技能將變成:
- 提出好的反事實問題
- 理解因果假設
- 偵測模型脆弱點
- 做倫理判斷
醫學教育必須隨之改變。
一個困難但誠實的主張
醫學不需要「聽起來聰明」的 AI。
它需要認識論上自律的 AI。
LLMs 在修辭上令人驚艷。
因果型推論 AI 在科學上令人不安——
而這正是進步所需要的。
全文最終結語
醫學不會因為我們更會談論已知而前進。
它前進,是因為我們學會如何安全、嚴謹、因果性地探索未知。
如果說 LLMs 是已知世界的魔術師,
那麼推論型 AI 是未知生物學的探險者。
醫學兩者都需要。
但在前沿,探險者比說書人更重要。