NEJM AI刊登重磅研究,大型語言模型在腫瘤知識上的效能驗證。

更新於 發佈於 閱讀時間約 3 分鐘
raw-image
raw-image


運用網路上的資訊訓練大型語言模型是一個重要方法,然而對於資訊正確性十分重要的醫學領域,大型語言的知識來源是否正確,是非常重要的一件事。因此,這篇重磅級的研究,著眼於探討不同醫學主題中,大型語言模型對於知識所顯現的性能差異。


這篇研究顯示

1. 這些LLMs的訓練知識,主要來自網路上的數據庫。

2. 這些模型在基礎主題 (癌症生物學、醫學物理學和醫學統計學)上展示出比臨床腫瘤學更高的準確性,除了LLaMA 65B之外。

3. 目前的大型語言模型具有一定程度的不準確性。而共同的源頭,指向了訓練集中包含了醫學上「不準確的資訊」。

4. 若以選擇題考試驗證大型語言模型的效能,「這些模型在目前的形式中未能達到人類專家所展示的表現水平,但它們仍然提供了有價值的建議,可以補充現有的護理措施」。


個人淺見:

1. 應用到醫學領域時,應該針對模型進行專業領域的fine tune。

2. 同時應該提供醫學領域專家在使用時,能夠同步查詢到原文以進行佐證依據。

3. 大型語言模型的語文能力即便流程,但是在自動生成過程中,仍然會因為內文的資訊 缺乏,而自行補充不正確的資料(俗稱幻覺)。

4. 幻覺問題是 AI 領域研究者或者實踐者應該要重視的議題,除了可以用RAG的方式進行處理之外,更重要的是,如何運用UI/UX介面設計工具協助使用者進行檢視,並且有效地使用。


為什麼要做這個研究?

隨著AI的普及和進步,越來越多的醫療專業人士使用AI工具協助,特別是大型語言模型(LLMs),以快速地獲取醫學資訊並輔助臨床決策。在臨床腫瘤學領域,由於需要不斷更新的臨床試驗數據,這些模型的應用則更為重要。因此,這篇學術論文針對大型語言模型在臨床腫瘤學應用時的比較評估。該研究主要探討了大型語言模型(LLMs)在解決腫瘤學問題上的效能,並對不同的模型進行了系統的比較與分析。尤其是針對腫瘤學領域中的幾種主流LLMs進行評估,包括GPT-3.5、GPT-4、PaLM 2、Claude-v1和LLaMA 1,並對它們在解決2044個腫瘤學問題上的表現進行比較。



這個研究怎麼發展

這篇研究的設計包括對五種公開的LLMs進行綜合評估。這些LLM被獨立測試,每個模型都需要回答一套由腫瘤學、手術腫瘤學、放射腫瘤學、醫學統計、醫學物理學和癌症生物學等領域組成的2044個問題。

在研究的方法中,每個模型的提示(Prompt)都獨立呈現,並重複三次以評估輸出的一致性。此外,模型性能還與新開發的驗證問題集進行了對比,以消除訓練數據重疊的風險。



這篇研究的亮點

  1. 這篇研究不僅揭示了不同LLMs在腫瘤學問題解答上的性能差異,還發現了這些模型在處理不同臨床腫瘤學子領域問題時的表現不一。
  2. 研究結果顯示,相對於人類基準(2013和2014年的考試結果),GPT-4是唯一一個表現超過第50百分位的模型。
  3. 該研究還探討了增強模型回答信心的策略,例如模型選擇、提示重複和信心自評等,這些策略有助於醫療專業人員和患者更有效地利用LLMs。
  4. 本研究的成果不僅提供了LLMs在臨床腫瘤學應用中的實證支持,也為進一步的研究和發展指明了方向。


文章來源:NEJM AI:Comparative Evaluation of LLMs in Clinical Oncology


M-Insight : AI科技創新 分享有關人工智慧對於產業與企業的實務應用、研究成果、產業情報等資訊,歡迎人工智慧、醫藥生技、科技管理領域的同好、專家學者、醫師、研究人員與業界朋友一同參與交流。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
本篇文章分享在NEJM上的重磅研究,利用AI技術從生物醫學訊號中推斷糖尿病患者在駕駛時的低血糖狀態。該研究填補了低血糖即時監測的缺口,提出了非侵入性的低血糖檢測解決方案。透過分析駕駛行為和視線/頭部運動數據,提取特徵並開發機器學習模型,成功偵測低血糖狀態。研究結果具有非常重要的醫療和交通安全意義。
近年來,人工智能與機器學習(AI/ML)技術快速發展,醫療設備數量呈現明顯增長趨勢。本文根據世界衛生組織國際臨床試驗註冊平臺(ICTRP)的臨床試驗數據進行全面分析,瞭解AI/ML SaMD的發展趨勢及地理分佈特徵,並強調了國際合作臨床試驗的必要性。
多模態資料與模型目前在人工智慧領域是主流話題之一。多模態對於醫學研究之所以重要,是因為它能夠提供疾病的全面觀點,從來自不同來源和類型的數據(如醫學影像、文字病歷、臨床數據與生理訊號等)結合起來,使得醫學偵測與診斷更加準確和全面。
這份研究分享了使用AI進行醫療研究的流程,介紹了三角纖維軟骨複合體(TFCC)的定位、重要性,以及如何應用MRI和AI協助進行影像判讀進而降低患者痛楚。研究使用兩種卷積神經網絡進行深度學習模型的設計與訓練以預測TFCC損傷的機率。最後得出結論MRNet 框架較能夠檢測TFCC損傷並協助醫師準確診斷。
本篇文章主要介紹一位菲律賓學者對使用大型語言模型產生文章的想法,說明如何利用AI技術進行學術寫作,以及提示工程的重要性。文中介紹了許多在醫學領域的應用以及學術寫作中的多種提示類型。文章還提到了。本文將會給讀者帶來對AI在學術寫作領域的啟發。
本文章介紹了Nature期刊中關於蛋白質序列的深度學習模型以及未來應用的重要性。蛋白質設計的應用從生物醫學到環境科學等各個領域解決問題方面具有巨大潛力。
本篇文章分享在NEJM上的重磅研究,利用AI技術從生物醫學訊號中推斷糖尿病患者在駕駛時的低血糖狀態。該研究填補了低血糖即時監測的缺口,提出了非侵入性的低血糖檢測解決方案。透過分析駕駛行為和視線/頭部運動數據,提取特徵並開發機器學習模型,成功偵測低血糖狀態。研究結果具有非常重要的醫療和交通安全意義。
近年來,人工智能與機器學習(AI/ML)技術快速發展,醫療設備數量呈現明顯增長趨勢。本文根據世界衛生組織國際臨床試驗註冊平臺(ICTRP)的臨床試驗數據進行全面分析,瞭解AI/ML SaMD的發展趨勢及地理分佈特徵,並強調了國際合作臨床試驗的必要性。
多模態資料與模型目前在人工智慧領域是主流話題之一。多模態對於醫學研究之所以重要,是因為它能夠提供疾病的全面觀點,從來自不同來源和類型的數據(如醫學影像、文字病歷、臨床數據與生理訊號等)結合起來,使得醫學偵測與診斷更加準確和全面。
這份研究分享了使用AI進行醫療研究的流程,介紹了三角纖維軟骨複合體(TFCC)的定位、重要性,以及如何應用MRI和AI協助進行影像判讀進而降低患者痛楚。研究使用兩種卷積神經網絡進行深度學習模型的設計與訓練以預測TFCC損傷的機率。最後得出結論MRNet 框架較能夠檢測TFCC損傷並協助醫師準確診斷。
本篇文章主要介紹一位菲律賓學者對使用大型語言模型產生文章的想法,說明如何利用AI技術進行學術寫作,以及提示工程的重要性。文中介紹了許多在醫學領域的應用以及學術寫作中的多種提示類型。文章還提到了。本文將會給讀者帶來對AI在學術寫作領域的啟發。
本文章介紹了Nature期刊中關於蛋白質序列的深度學習模型以及未來應用的重要性。蛋白質設計的應用從生物醫學到環境科學等各個領域解決問題方面具有巨大潛力。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章介紹瞭如何利用AI論文工具來提高研究生的論文閱讀效率以及寫作效率。透過Connected Papers、Scispace和Immersive Translate等AI工具,可以進行文獻回顧、段落摘要生成、Paraphrasing、APA格式生成以及論文對照翻譯
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章介紹瞭如何利用AI論文工具來提高研究生的論文閱讀效率以及寫作效率。透過Connected Papers、Scispace和Immersive Translate等AI工具,可以進行文獻回顧、段落摘要生成、Paraphrasing、APA格式生成以及論文對照翻譯
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大