AI醫療革命：GPT-4與未來

Peter Lee, Carey Goldberg, Isaac Kohane, Sebastien Bubeck 2023 天下文化

分類：論說--實用

★★★☆☆

一句話

本書介紹生成式AI有徹底改變醫學和健康保健領域遊戲規則的能力，但也有未知的風險，需要更多的研究和監督。

重要字句

生成式模型(generative models)：可以依據收到的輸入與文本生成虛構與非虛構的資料，譬如文字、圖像、演講與音樂。

(以下非本書內容) 生成式AI模型不同於分辨式模型，不需要使用有標注標籤的資料來訓練分類，它可以運用大量沒有標注標籤的資料，以機器學習的方式讓電腦程式自主產生資料與辨認出隱藏於資料中的訊息。透過強大GPU的運算能力和大量的資料，就可以訓練大型的複雜模型。

現今已有十多家公司將生成式模型用於多種生物醫學作業上，如審查出版品、依據臨床診療紀錄來評鑑照護品質、將病人和最新的臨床實驗配對、促進醫病互動、做醫療病歷紀錄等等。

目前AI在醫療領域還是需要人類參與醫療決策過程，現有的法規、機制和監管程序還難以令人安心地讓Large Language Model自主做出決策。

摘要

醫學領域的挑戰

不斷上升的醫療成本。

醫療資源分配不均。

人口老化造成的醫療人力短缺和醫護人員過勞。

文書作業負擔：不斷更新的臨床指引、官僚文書作業、保險申請、事前審查。

研究。

醫療疏失。

GPT-4能改善的醫療服務

資訊：提供醫學知識和回答醫學問題。甚至能透過病歷和症狀診斷出極為罕見的疾病。

自然語言生成技術(nature language generation)，從文獻或病歷生成摘要。

自然語言理解技術(nature language understanding techniques)，進行文件記錄，溝通。

自然語言互動技術(nature language interaction techniques) 創建教育材料。

GPT-4的特色

可以持續追蹤掌握對話上下文的脈絡。

提供有邏輯的答案並創造對話。

解決邏輯和數學問題。

根據需要(指令)編寫電腦程式。

對數據進行解碼。

閱讀文章和論文之後總結並討論。

進行各種翻譯。

以任何風格和各種程度的文字撰寫摘要。

善於進行自我檢查(可啟動第二個GTP-4來檢驗幻覺對話)和檢查人類的工作。

GPT-4的限制

幻覺，也就是杜撰編造資訊(非本書內容：不預警地輸出和來源內容無關或不可信的數據)，目前還不知確切原因，而且追問後它會傾向更深入地合理化自己的答案，假設自己是對的。因為這個問題，在醫療環境下，我們必須在相信GPT-4的同時，永遠都要再次驗證其答案。

有時在相同提示的情況下也會選擇不同的回應。

缺乏長期記憶，當對話結束時整段對話都會被「遺忘」。

目前無法處理過長的文本。

決策可能帶有存在資料庫中的「偏見」。

目前在醫療場域的使用沒有任何指引或規範。

機器學習

GPT-4不同於人類藉由相互交流和與世界互動來取得新知，它必須離線收集大量的數據建立模型，他將不會主動學習到停機訓練時間之後的任何新知和內容。GPT-4的神經網絡基本單位非常簡單，它的複雜性來自巨大的規模，GPT-4的數學運算、對話、推理等能力是在其神經網絡成長的過程中自然浮現的，所以它的能力和限制讓人類如此難以理解。

如果你擁有一個「盒中大腦」(brain in the box)，他知道醫學領域中幾乎所有的知識，你會如何使用它？

GPT-4是否有人性？

GPT-4在翻譯時能掌握對話的整體脈絡以及文化背景，而非以往Google翻譯的單純直譯。而且GPT-4似乎對「知情同意」等倫理概念、資訊的透明公開、個體責任、多樣性、共同合作、邏輯和尊重他人等概念都有所了解。同時它也能例如分析詮釋詩句並藉由綜合各個抽象概念來闡述原創觀點。它能透過你的提示改變回答的長短、解讀對話的氛圍而調整語氣，讓醫療保健應用的使用者感到產生「共鳴」的能力。

GPT-4能揣摩病人的心理狀態

GPT-4是否能真正理解它所讀所寫的內容？

反方認為大多數的AI研究人員和神經認知科學家認為GPT-4只是一隻「隨機鸚鵡」，認為他只是運用大量數據來推斷最有可能的回覆，不代表產生真正的智慧。但儘管缺乏體感的體驗，GPT-4還是能對現實物理世界的常識理解和推理，對各種涉及道德情境的問題也能給出合乎道德規範的答案，甚至對真實世界的虛擬情境做出「信念歸因」(belief attribution，指如何理解和推斷他人的信念和看法)的推論。

但要證明這一點相當困難，因為我們只能用語言來測試GPT-4，而語言本身不足以反映和呈現完整的理解和思考。作者認為也許GPT-4擁有我們還不清楚的某種「理解」和「思考」能力。

GTP-4對道德問題也能侃侃而談

甚至不輕易回答對錯

GPT-4可能是一隻「隨機鸚鵡」，但如果是這樣，也許最大的問題是難道人類自己不是嗎？

我們如果把人視為是一種行為系統，它其實是相當簡單的，表面上我們的行為很複雜，那主要是因為我們所處的環境很複雜。--諾貝爾獎得主Herbert Simon

GPT-4展現的邏輯推理

評鑑和測試GPT-4是否能安全使用的方法

實驗法：例如找一群體重過重的病人來測試AI提供減肥方法的效果(目前美國FDA已經採納並批准五百多種AI協助的設備)。侷限：實驗結果可能不適用於條件不同於原始群體的新病人；無法確定它是否了解病人的偏好、價值觀、風險承受能力和偏見。

實習醫生：GPT-4能在USMLE醫師執照考試中正確回答超過90%的問題。侷限：在醫師訓練過程中，我們假設所有人都有相似的常識和共同價值體系來做出日常決策。但沒有機制能保證GPT-4能在臨床環境中像大多數有良心的人一樣做出選擇與判斷，頂多只能說是通過人類語言表達的極不完善和有偏見的篩檢程式。

病人使用GTP-4得到的幫助

全球估計約有一半的人缺乏適當的醫療保健資源，他們是使用AI醫療可以獲益最大的群體，以科技補足當地非常稀少的資源，也就是醫護人員。AI的可貴之處在於它提供的健康資訊讓僅僅識字的人也能閱讀，或是針對不同文化、教育程度與語言進行調整，並具有互動性。

GTP-4可以輔助病人決策，幫助病人「知情選擇」，可以提供各醫療單位的收費價格和服務項目等資訊，減少不必要的轉介成本和浪費。

改善病人對自己檢驗檢查報告的理解。

可能可以用於心理健康和心理治療。

用GPT-4減少醫療疏失

GPT-4可用簡單的數學術語來建構靜脈速率注射問題的解答方式，也能回答關於疾病或藥物可能的交互作用的基本問題。你可以要求GPT-4使用任何你喜歡的API(應用程式介面)來撰寫程式或使用常見的應用程式(如excel)進行計算。但問題仍在於因為我們不理解GPT-4在數學、程式撰寫和推理方面的能力來源，因此無法很好地理解它何時、為什麼以及如何出錯或失敗。

減少GPT-4醫療錯誤的方法

使用第二個GPT-4對話或人類來檢查工作或評估是否需要改善。

要求GPT-4顯示工作過程(show its work)

GPT-4減少文書作業的能力

根據2016年的一項研究，醫生平均花費51%的工作時間在電子病歷和辦公桌工作上。

文書工作是重要的，醫療紀錄有助於改進醫療品質、減少治療錯誤、維護醫療院所的財務穩定性(理賠、匯款、保險)、確保醫院遵守政府規範。

協助填寫入院就診基本資料。

將醫師問診的對話打入提示可以根據所需格式(如SOAP)撰寫臨床診療紀錄。

識別疾病代碼(如ICD-10)以便於申請理賠。

撰寫就診後摘要與衛教內容。

依法規或保險條件完成藥物的事前審查計畫。

GPT-4能理解評鑑系統並給出具體建議，幫助醫療人員改善。

GPT-4對醫學研究的幫助

簡化臨床試驗批准的官僚流程。

設計和執行臨床實驗，透過分析電子病歷減少招募受試者的時間，並協助分析收集資料。

簡化專業術語，讓實驗參與者更好地理解實驗的目標、風險和利益。

解析相關研究中的大量文獻，結構化整合論文、臨床報告等大量資料。

協助論文書寫的文句和格式合於出版刊物的要求。

結合生物醫學知識進行基礎研究。

如何安全、合乎人類的價值觀和倫理規範地使用

對新技術的監管通常大幅落後於發明，目前經過批准的AI系統都只能執行非常狹窄的功能。

必須能避免偏見和保護隱私，首要是確認數據從何而來，是否可靠，資料是不是能平衡反應所有的病人群體。

GTP-4已能察覺並消除偏見

現階段直接影響病患的應用應該有強制性人工審查。

如何平衡創新、個人利益和社會利益。

如何確保其公平性和透明度，尤其在我們不了解它的運作機制之下。

短評

本書列舉AI能做到的事，令身為醫師的我膽戰心驚。人們常常說電腦或AI不能取代人類的原因，例如缺乏同理心、不能思考、沒有感情、無法根據狀況提供個體化的答案、會出錯當機等等，這些缺陷在新發展的AI已經大幅減少。何況其實在人類醫師身上也會見到上述種種缺失。我們真的能掌握如此強大的「工具」嗎？就拿導航來說，我現在開車重度依賴導航，根本想不起來以前是怎麼用紙本地圖到達目的地的，這會不會是一種程式對我們的「控制」，它指揮所有車流的導向而達成交通順暢的目標算不算是一種「思考」。

當然對人的「意識」和「思想」究竟為何，這個終極問題我們無法回答，也不是這本書的目的。但透過作者親身使用AI於各種醫療情境，對醫學發展的幫助是明顯可期的，只是在可見的未來醫療過程似乎還需要人的參與，看來我還不會太快失業XD