實證醫學工作流
實證醫學 (evidence-based medicine, EBM) 已經發展多年,方法學趨向成熟,但當實證醫學遇到 AI 會碰出什麼火花?
生成式 AI
藉由大語言模型 (LLM) 生成文字、圖片、影片等可經由人類識別的資訊,從 2024 年起,已經進入生成式 AI 的時代。
實證與生成式 AI 的結合
對話機器人 (ChatBot)
- 通用型機器人:使用者輸入提詞 (prompt) 生成符合使用者需求的回覆。
請以熟悉實證醫學的醫療人員角度,將臨床問題 [兒童重症病人,接受 chlorohexidine 洗澡,可以降低加護病房感染風險嗎?] 改寫為 PICO-T,並根據 PICO 擬定用於檢索 PubMed 的關鍵字串。
關鍵字串必須包括:
1. 加上系統性綜論篩選器:systematic [sb]。
2. 利用布林邏輯合併 PICO 的對應關鍵字。
3. 混合使用自然語言及 MeSH 名詞。 - 自訂機器人 (custom bot):預設提詞,可引導使用者逐步完成任務。
對於敗血症病人,延長抗生素輸注時間,可以降低死亡率或縮短住院天數嗎? - 檢索 PubMed
- 根據相關性取回文獻
- 利用機器學習 (ML) 模型挑選文獻
- 對話機器人用於文獻評讀的正確性:
- 嚴格評讀 (critical appraisal) 並不是一個單純的流程,雖然原理相同,隨著評讀工具的設計、評比的流程,主觀、客觀判斷比例,都會影響到最終的評讀結果,連經過訓練的 Cochrane 研究團隊評的都不一樣了。
對話機器人的困境
- 實在不太受控:提詞工程有極限,不要盲目相信提詞可以克服一切,網路上常常有釣魚式標題 (clickbait),例如:用這 10 個提詞,讓你的 AI 變聰明。
- 已經被加上許多限制:避免人類誤用、依賴。隨著對 AI 監管的聲音越大,使用者開始發現,生成式 AI 的回覆內容出現刻板 (stereotype) 的狀況,更不用說一直都存在的諂媚 (sycophancy)。
- 不同面向的解決方案:程式與 AI,是時候到了該思考的時候,面對容錯率非常低的醫療照護,適合跟生成式 AI 無窮止盡的抽盲盒嗎?人類到底要扮演什麼角色?每個人都會說要"負責任的使用 AI"要怎麼負責?看得出來有負責嗎?
- 實證醫學是科學的一環,應該是透明、可驗證的步驟,且經過人類核實。但面對直接複製貼上未經"核實"的內容,到底有多少風險?以程式為主的 AI,經過程式調用必要的 AI,不需要 AI 時,由程式接手,人類按照程式流程,核實 AI 內容,可能是較可行的做法。
慧實證
一個以程式為主、AI 為輔,人類操作的實證醫學工作流解決方案,分為:
深度檢索
- 將自然語言撰寫的臨床問題改寫為 PICO。
- AI 根據臨床問題判斷類型。
- 比對 MeSH 資料庫取回關鍵字。
- 擬定 PubMed 關鍵字串。
- 檢索 PubMed 取回資料。
- 由使用者選擇適當資料產出摘要報告。
文獻評讀
- 由使用者提供評讀文獻。
- AI 根據評讀工具邏輯逐項評讀。
- 產生評讀結果,並由使用者核實。
- 由使用者填具核實內容,並可針對特定評讀項目重新評讀。
證據品質評比
- 由使用者提供文獻資料,經過 AI 檢查證據品質評比必要項目。
- 由使用者提供不精確性 (imprecision) 判斷標準。
- AI 進行證據品質評比,再由人類核實。
由熟悉實證醫學手法的醫療人員設計,減少通用型對話機器人的不可控、幻覺,具有可驗證的流程,讓使用者核實,而非盲目的引用 (複製貼上)。






