📝📝:大型語言模型如何應用在神經科學的研究?|倫敦大學學院:經過訓練後的模型,準確率遠高過人類專家

更新於 2024/11/29閱讀時間約 4 分鐘
raw-image




本文翻譯自《Nature Human Behaviour》的研究《Large language models surpass human experts in predicting neuroscience results》由倫敦大學學院(University College London)實驗心理學(Department of Experimental Psychology)的研究團隊 Xiaoliang Luo, Akilles Rechardt, Guangzhi Sun 等人所主持的研究項目。




科學發展中的挑戰

隨著科學文獻的指數增長,研究人員面臨巨大的資訊整合挑戰。

在神經科學(neuroscience)等跨學科領域,研究成果往往分散於大量資料中,而每篇文章的研究方法和結論可能不一致,甚至存在噪音。這對於人類專家來說,是一個超出資訊處理能力的難題。

為解決這些問題,研究者開始利用大規模語言模型(LLMs)來輔助科學預測和發現。這些模型具備從海量數據中提取模式並預測新結果的能力,或能為未來的科學探索提供重要助力。




研究方法:打造神經科學的前瞻性基準

為了檢驗LLMs在科學預測上的能力,研究者開發了一套名為 BrainBench 的評估系統。

該系統專注於測試模型是否能準確預測神經科學研究結果,並將其表現與人類專家進行對比。BrainBench的核心任務是提供一個修訂版與原始研究摘要,讓測試者選擇哪一個更可能反映真實的研究結果。

此基準主要測試模型在五個神經科學領域中的表現:

  1. 行為與認知(Behavioral/Cognitive)
  2. 系統與迴路(Systems/Circuits)
  3. 疾病神經生物學(Neurobiology of Disease)
  4. 細胞與分子(Cellular/Molecular)
  5. 發展與可塑性(Development/Plasticity/Repair)


此基準主要測試模型在五個神經科學領域中的表現。來源:本研究

此基準主要測試模型在五個神經科學領域中的表現。來源:本研究




關鍵結果:LLMs 的超越性表現

在測試中,大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。更重要的是,經過神經科學專業調適的模型(例如 BrainGPT),表現進一步提升。

以下為 LLMs 表現優越的原因分析:

  1. 資訊整合能力強:LLMs能有效整合摘要中的背景、方法和結論等資訊,而不僅依賴局部結果。
  2. 預測準確性與信心一致:當模型對其判斷有較高信心時,正確率也更高,顯示其信心校準良好。
  3. 未受數據記憶限制:研究顯示,LLMs並非基於記憶而進行選擇,而是從神經科學資料中學習到更廣泛的模式。


大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。來源:本研究

大規模語言模型的平均正確率達到 81.4%,明顯高於人類專家的 63.4%。來源:本研究




模型優化:從一般到專業

為了提升LLMs在神經科學的應用能力,研究者採用了 LoRA(低秩適應) 方法,進行專業知識調適。通過在數百萬字的神經科學文獻上進行微調,研究團隊將LLMs轉化為更加專業化的工具——BrainGPT。

調適後模型的主要進步:

  • 在 BrainBench 測試中的正確率提升了約 3%。
  • 模型在理解專業術語與方法學上的能力顯著增強。




挑戰與展望

儘管LLMs展現出強大的預測能力,研究者仍需考量潛在風險:

  1. 過度依賴模型:若研究人員完全依賴模型預測,可能忽略突破性實驗的機會。
  2. 科學倫理與透明性:模型的訓練數據和權重應保持公開,以促進再現性與公平性。


展望未來,LLMs可以:

  • 作為科學研究的輔助工具,指導實驗設計。
  • 成為探索未知領域的重要夥伴,幫助解答跨學科問題。




本研究的突破在於首次系統性地驗證LLMs在神經科學領域的前瞻性應用能力。隨著技術的進步,我們可以期待這些模型成為推動科學發現的新引擎,為知識密集型領域帶來前所未有的效率與可能性。



avatar-img
95會員
212內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
社會人的哲學沉思 的其他內容
中國政府在人民幣上所採用的翻譯技術,拼音只是個形式,更重要的是權力的展現。人民幣的英文翻譯並非針對外國遊客,而只是為了讓中國人用得「舒服」。
研究發現,參與者認為 AI 生成的詩為人類作品的機率,比真正人類作品還要高。開始出現「比人更像人」的現象
有感覺得出來導演(鍾孟宏)想要還原歷史的「真相」。但是,透過小莫(白色恐怖受害者的遺族),將過去所有的關係人串起來,其實真的稍嫌牽強。
2/5餘燼
隨著科技的進步,我們正在目睹一項長久以來被視為基本的技能逐漸被淡化 — — 寫作。根據美國技術作家 Paul Graham的觀察,他預測:未來會形成「會寫作」和「不會寫作」的社會
因為 Spotify 的推薦機制,當代歌曲的副歌都有往前的現象;甚至,現在歌曲的時長也正在縮短。
本篇整理導演針對《懼裂》電影的重要象徵以及隱喻,Coralie 解釋,包括:為什麼走廊是橘色的?浴室的象徵是什麼?怪物代表個人的解放嗎?結尾的清掃車是必要的嗎?
4/5懼裂
中國政府在人民幣上所採用的翻譯技術,拼音只是個形式,更重要的是權力的展現。人民幣的英文翻譯並非針對外國遊客,而只是為了讓中國人用得「舒服」。
研究發現,參與者認為 AI 生成的詩為人類作品的機率,比真正人類作品還要高。開始出現「比人更像人」的現象
有感覺得出來導演(鍾孟宏)想要還原歷史的「真相」。但是,透過小莫(白色恐怖受害者的遺族),將過去所有的關係人串起來,其實真的稍嫌牽強。
2/5餘燼
隨著科技的進步,我們正在目睹一項長久以來被視為基本的技能逐漸被淡化 — — 寫作。根據美國技術作家 Paul Graham的觀察,他預測:未來會形成「會寫作」和「不會寫作」的社會
因為 Spotify 的推薦機制,當代歌曲的副歌都有往前的現象;甚至,現在歌曲的時長也正在縮短。
本篇整理導演針對《懼裂》電影的重要象徵以及隱喻,Coralie 解釋,包括:為什麼走廊是橘色的?浴室的象徵是什麼?怪物代表個人的解放嗎?結尾的清掃車是必要的嗎?
4/5懼裂
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
最近發表在《科學》雜誌上的一項研究認為,目前最先進的法學碩士(如 ChatGPT)可以使一個人在數百種職業中平均完成 14% 的任務時速度提高至少 50%,同時保持甚至提高品質。當考慮在法學碩士基礎上添加其他軟體來適應特定任務時,每個職業可能同樣受益的任務的平均份額躍升至 46%。 這些數字如何尋
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
最近發表在《科學》雜誌上的一項研究認為,目前最先進的法學碩士(如 ChatGPT)可以使一個人在數百種職業中平均完成 14% 的任務時速度提高至少 50%,同時保持甚至提高品質。當考慮在法學碩士基礎上添加其他軟體來適應特定任務時,每個職業可能同樣受益的任務的平均份額躍升至 46%。 這些數字如何尋
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。