NEJM AI刊登重磅研究,大型語言模型在腫瘤知識上的效能驗證。

更新於 發佈於 閱讀時間約 3 分鐘
raw-image
raw-image


運用網路上的資訊訓練大型語言模型是一個重要方法,然而對於資訊正確性十分重要的醫學領域,大型語言的知識來源是否正確,是非常重要的一件事。因此,這篇重磅級的研究,著眼於探討不同醫學主題中,大型語言模型對於知識所顯現的性能差異。


這篇研究顯示

1. 這些LLMs的訓練知識,主要來自網路上的數據庫。

2. 這些模型在基礎主題 (癌症生物學、醫學物理學和醫學統計學)上展示出比臨床腫瘤學更高的準確性,除了LLaMA 65B之外。

3. 目前的大型語言模型具有一定程度的不準確性。而共同的源頭,指向了訓練集中包含了醫學上「不準確的資訊」。

4. 若以選擇題考試驗證大型語言模型的效能,「這些模型在目前的形式中未能達到人類專家所展示的表現水平,但它們仍然提供了有價值的建議,可以補充現有的護理措施」。


個人淺見:

1. 應用到醫學領域時,應該針對模型進行專業領域的fine tune。

2. 同時應該提供醫學領域專家在使用時,能夠同步查詢到原文以進行佐證依據。

3. 大型語言模型的語文能力即便流程,但是在自動生成過程中,仍然會因為內文的資訊 缺乏,而自行補充不正確的資料(俗稱幻覺)。

4. 幻覺問題是 AI 領域研究者或者實踐者應該要重視的議題,除了可以用RAG的方式進行處理之外,更重要的是,如何運用UI/UX介面設計工具協助使用者進行檢視,並且有效地使用。


為什麼要做這個研究?

隨著AI的普及和進步,越來越多的醫療專業人士使用AI工具協助,特別是大型語言模型(LLMs),以快速地獲取醫學資訊並輔助臨床決策。在臨床腫瘤學領域,由於需要不斷更新的臨床試驗數據,這些模型的應用則更為重要。因此,這篇學術論文針對大型語言模型在臨床腫瘤學應用時的比較評估。該研究主要探討了大型語言模型(LLMs)在解決腫瘤學問題上的效能,並對不同的模型進行了系統的比較與分析。尤其是針對腫瘤學領域中的幾種主流LLMs進行評估,包括GPT-3.5、GPT-4、PaLM 2、Claude-v1和LLaMA 1,並對它們在解決2044個腫瘤學問題上的表現進行比較。



這個研究怎麼發展

這篇研究的設計包括對五種公開的LLMs進行綜合評估。這些LLM被獨立測試,每個模型都需要回答一套由腫瘤學、手術腫瘤學、放射腫瘤學、醫學統計、醫學物理學和癌症生物學等領域組成的2044個問題。

在研究的方法中,每個模型的提示(Prompt)都獨立呈現,並重複三次以評估輸出的一致性。此外,模型性能還與新開發的驗證問題集進行了對比,以消除訓練數據重疊的風險。



這篇研究的亮點

  1. 這篇研究不僅揭示了不同LLMs在腫瘤學問題解答上的性能差異,還發現了這些模型在處理不同臨床腫瘤學子領域問題時的表現不一。
  2. 研究結果顯示,相對於人類基準(2013和2014年的考試結果),GPT-4是唯一一個表現超過第50百分位的模型。
  3. 該研究還探討了增強模型回答信心的策略,例如模型選擇、提示重複和信心自評等,這些策略有助於醫療專業人員和患者更有效地利用LLMs。
  4. 本研究的成果不僅提供了LLMs在臨床腫瘤學應用中的實證支持,也為進一步的研究和發展指明了方向。


文章來源:NEJM AI:Comparative Evaluation of LLMs in Clinical Oncology


留言
avatar-img
留言分享你的想法!
avatar-img
M-Insight:AI科技創新
18會員
24內容數
M-Insight : AI科技創新 分享有關人工智慧對於產業與企業的實務應用、研究成果、產業情報等資訊,歡迎人工智慧、醫藥生技、科技管理領域的同好、專家學者、醫師、研究人員與業界朋友一同參與交流。
2024/06/22
Vertex Pharmaceuticals Incorporated公佈其用於治療1型糖尿病患者的幹細胞衍生胰島細胞療法VX-880在臨床試驗中的最新數據,顯示療效與此前報告一致。
Thumbnail
2024/06/22
Vertex Pharmaceuticals Incorporated公佈其用於治療1型糖尿病患者的幹細胞衍生胰島細胞療法VX-880在臨床試驗中的最新數據,顯示療效與此前報告一致。
Thumbnail
2024/03/14
本篇文章分享在NEJM上的重磅研究,利用AI技術從生物醫學訊號中推斷糖尿病患者在駕駛時的低血糖狀態。該研究填補了低血糖即時監測的缺口,提出了非侵入性的低血糖檢測解決方案。透過分析駕駛行為和視線/頭部運動數據,提取特徵並開發機器學習模型,成功偵測低血糖狀態。研究結果具有非常重要的醫療和交通安全意義。
Thumbnail
2024/03/14
本篇文章分享在NEJM上的重磅研究,利用AI技術從生物醫學訊號中推斷糖尿病患者在駕駛時的低血糖狀態。該研究填補了低血糖即時監測的缺口,提出了非侵入性的低血糖檢測解決方案。透過分析駕駛行為和視線/頭部運動數據,提取特徵並開發機器學習模型,成功偵測低血糖狀態。研究結果具有非常重要的醫療和交通安全意義。
Thumbnail
2024/03/10
近年來,人工智能與機器學習(AI/ML)技術快速發展,醫療設備數量呈現明顯增長趨勢。本文根據世界衛生組織國際臨床試驗註冊平臺(ICTRP)的臨床試驗數據進行全面分析,瞭解AI/ML SaMD的發展趨勢及地理分佈特徵,並強調了國際合作臨床試驗的必要性。
Thumbnail
2024/03/10
近年來,人工智能與機器學習(AI/ML)技術快速發展,醫療設備數量呈現明顯增長趨勢。本文根據世界衛生組織國際臨床試驗註冊平臺(ICTRP)的臨床試驗數據進行全面分析,瞭解AI/ML SaMD的發展趨勢及地理分佈特徵,並強調了國際合作臨床試驗的必要性。
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
這篇研究探討了不同醫學主題中,大型語言模型對於知識的性能差異,特別是針對腫瘤學領域的幾種主流LLMs進行評估。研究表明,大型語言模型在基礎主題上展示出比臨床腫瘤學更高的準確性,但模型仍具有一定程度的不準確性。研究結果為醫療專業人員和患者更有效地利用LLMs提供了實證支持。
Thumbnail
這篇研究探討了不同醫學主題中,大型語言模型對於知識的性能差異,特別是針對腫瘤學領域的幾種主流LLMs進行評估。研究表明,大型語言模型在基礎主題上展示出比臨床腫瘤學更高的準確性,但模型仍具有一定程度的不準確性。研究結果為醫療專業人員和患者更有效地利用LLMs提供了實證支持。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News