為什麼要做這個研究？

NEJM AI刊登重磅研究，大型語言模型在腫瘤知識上的效能驗證。

韓駿逸（Michael）

發佈於AI 醫學研究分享

2024/04/28 更新2024/04/28 發佈閱讀 3 分鐘

運用網路上的資訊訓練大型語言模型是一個重要方法，然而對於資訊正確性十分重要的醫學領域，大型語言的知識來源是否正確，是非常重要的一件事。因此，這篇重磅級的研究，著眼於探討不同醫學主題中，大型語言模型對於知識所顯現的性能差異。

這篇研究顯示

1. 這些LLMs的訓練知識，主要來自網路上的數據庫。

2. 這些模型在基礎主題（癌症生物學、醫學物理學和醫學統計學）上展示出比臨床腫瘤學更高的準確性，除了LLaMA 65B之外。

3. 目前的大型語言模型具有一定程度的不準確性。而共同的源頭，指向了訓練集中包含了醫學上「不準確的資訊」。

4. 若以選擇題考試驗證大型語言模型的效能，「這些模型在目前的形式中未能達到人類專家所展示的表現水平，但它們仍然提供了有價值的建議，可以補充現有的護理措施」。

個人淺見：

1. 應用到醫學領域時，應該針對模型進行專業領域的fine tune。

2. 同時應該提供醫學領域專家在使用時，能夠同步查詢到原文以進行佐證依據。

3. 大型語言模型的語文能力即便流程，但是在自動生成過程中，仍然會因為內文的資訊缺乏，而自行補充不正確的資料（俗稱幻覺）。

4. 幻覺問題是 AI 領域研究者或者實踐者應該要重視的議題，除了可以用RAG的方式進行處理之外，更重要的是，如何運用UI/UX介面設計工具協助使用者進行檢視，並且有效地使用。

為什麼要做這個研究？

隨著AI的普及和進步，越來越多的醫療專業人士使用AI工具協助，特別是大型語言模型（LLMs），以快速地獲取醫學資訊並輔助臨床決策。在臨床腫瘤學領域，由於需要不斷更新的臨床試驗數據，這些模型的應用則更為重要。因此，這篇學術論文針對大型語言模型在臨床腫瘤學應用時的比較評估。該研究主要探討了大型語言模型（LLMs）在解決腫瘤學問題上的效能，並對不同的模型進行了系統的比較與分析。尤其是針對腫瘤學領域中的幾種主流LLMs進行評估，包括GPT-3.5、GPT-4、PaLM 2、Claude-v1和LLaMA 1，並對它們在解決2044個腫瘤學問題上的表現進行比較。

這個研究怎麼發展

這篇研究的設計包括對五種公開的LLMs進行綜合評估。這些LLM被獨立測試，每個模型都需要回答一套由腫瘤學、手術腫瘤學、放射腫瘤學、醫學統計、醫學物理學和癌症生物學等領域組成的2044個問題。

在研究的方法中，每個模型的提示（Prompt）都獨立呈現，並重複三次以評估輸出的一致性。此外，模型性能還與新開發的驗證問題集進行了對比，以消除訓練數據重疊的風險。

這篇研究的亮點

這篇研究不僅揭示了不同LLMs在腫瘤學問題解答上的性能差異，還發現了這些模型在處理不同臨床腫瘤學子領域問題時的表現不一。
研究結果顯示，相對於人類基準（2013和2014年的考試結果），GPT-4是唯一一個表現超過第50百分位的模型。
該研究還探討了增強模型回答信心的策略，例如模型選擇、提示重複和信心自評等，這些策略有助於醫療專業人員和患者更有效地利用LLMs。
本研究的成果不僅提供了LLMs在臨床腫瘤學應用中的實證支持，也為進一步的研究和發展指明了方向。

文章來源：NEJM AI:Comparative Evaluation of LLMs in Clinical Oncology

M-Insight：AI科技創新AI 醫學研究分享

留言

留言分享你的想法！

M-Insight：AI科技創新

18會員

24內容數

M-Insight : AI科技創新分享有關人工智慧對於產業與企業的實務應用、研究成果、產業情報等資訊，歡迎人工智慧、醫藥生技、科技管理領域的同好、專家學者、醫師、研究人員與業界朋友一同參與交流。

M-Insight：AI科技創新的其他內容

2024/06/22

科技突破：幹細胞療法為1型糖尿病患者帶來治癒新希望

Vertex Pharmaceuticals Incorporated公佈其用於治療1型糖尿病患者的幹細胞衍生胰島細胞療法VX-880在臨床試驗中的最新數據，顯示療效與此前報告一致。

2024/06/22

科技突破：幹細胞療法為1型糖尿病患者帶來治癒新希望

Vertex Pharmaceuticals Incorporated公佈其用於治療1型糖尿病患者的幹細胞衍生胰島細胞療法VX-880在臨床試驗中的最新數據，顯示療效與此前報告一致。

2024/03/14

人工智慧推斷糖尿病駕駛血糖低，改善行車安全

本篇文章分享在NEJM上的重磅研究，利用AI技術從生物醫學訊號中推斷糖尿病患者在駕駛時的低血糖狀態。該研究填補了低血糖即時監測的缺口，提出了非侵入性的低血糖檢測解決方案。透過分析駕駛行為和視線/頭部運動數據，提取特徵並開發機器學習模型，成功偵測低血糖狀態。研究結果具有非常重要的醫療和交通安全意義。

2024/03/14

人工智慧推斷糖尿病駕駛血糖低，改善行車安全

2024/03/10

AI/ML SaMD 軟體醫材的全球競爭態勢

近年來，人工智能與機器學習（AI/ML）技術快速發展，醫療設備數量呈現明顯增長趨勢。本文根據世界衛生組織國際臨床試驗註冊平臺（ICTRP）的臨床試驗數據進行全面分析，瞭解AI/ML SaMD的發展趨勢及地理分佈特徵，並強調了國際合作臨床試驗的必要性。

2024/03/10

AI/ML SaMD 軟體醫材的全球競爭態勢

看更多

你可能也想看

小芝女看天下

用文字創造旅行基金：我的蝦皮分潤計畫體驗

蝦皮分潤計畫讓我在分享旅遊文章時，也能透過推薦好物累積被動收入，貼補旅行基金。這篇文章，除了介紹計畫的操作亮點與心得，也分享我最常應用的案例：「旅行必備小物 TOP5」，包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋，幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你，千萬別錯過！

#出國旅行必備小物#旅行必備清單#長途旅行行李怎麼帶

2025/09/13