運用網路上的資訊訓練大型語言模型是一個重要方法,然而對於資訊正確性十分重要的醫學領域,大型語言的知識來源是否正確,是非常重要的一件事。因此,這篇重磅級的研究,著眼於探討不同醫學主題中,大型語言模型對於知識所顯現的性能差異。
這篇研究顯示
1. 這些LLMs的訓練知識,主要來自網路上的數據庫。
2. 這些模型在基礎主題 (癌症生物學、醫學物理學和醫學統計學)上展示出比臨床腫瘤學更高的準確性,除了LLaMA 65B之外。
3. 目前的大型語言模型具有一定程度的不準確性。而共同的源頭,指向了訓練集中包含了醫學上「不準確的資訊」。
4. 若以選擇題考試驗證大型語言模型的效能,「這些模型在目前的形式中未能達到人類專家所展示的表現水平,但它們仍然提供了有價值的建議,可以補充現有的護理措施」。
個人淺見:
1. 應用到醫學領域時,應該針對模型進行專業領域的fine tune。
2. 同時應該提供醫學領域專家在使用時,能夠同步查詢到原文以進行佐證依據。
3. 大型語言模型的語文能力即便流程,但是在自動生成過程中,仍然會因為內文的資訊 缺乏,而自行補充不正確的資料(俗稱幻覺)。
4. 幻覺問題是 AI 領域研究者或者實踐者應該要重視的議題,除了可以用RAG的方式進行處理之外,更重要的是,如何運用UI/UX介面設計工具協助使用者進行檢視,並且有效地使用。
隨著AI的普及和進步,越來越多的醫療專業人士使用AI工具協助,特別是大型語言模型(LLMs),以快速地獲取醫學資訊並輔助臨床決策。在臨床腫瘤學領域,由於需要不斷更新的臨床試驗數據,這些模型的應用則更為重要。因此,這篇學術論文針對大型語言模型在臨床腫瘤學應用時的比較評估。該研究主要探討了大型語言模型(LLMs)在解決腫瘤學問題上的效能,並對不同的模型進行了系統的比較與分析。尤其是針對腫瘤學領域中的幾種主流LLMs進行評估,包括GPT-3.5、GPT-4、PaLM 2、Claude-v1和LLaMA 1,並對它們在解決2044個腫瘤學問題上的表現進行比較。
這個研究怎麼發展
這篇研究的設計包括對五種公開的LLMs進行綜合評估。這些LLM被獨立測試,每個模型都需要回答一套由腫瘤學、手術腫瘤學、放射腫瘤學、醫學統計、醫學物理學和癌症生物學等領域組成的2044個問題。
在研究的方法中,每個模型的提示(Prompt)都獨立呈現,並重複三次以評估輸出的一致性。此外,模型性能還與新開發的驗證問題集進行了對比,以消除訓練數據重疊的風險。
這篇研究的亮點
文章來源:NEJM AI:Comparative Evaluation of LLMs in Clinical Oncology