📝📝：大型語言模型如何應用在神經科學的研究？｜倫敦大學學院：經過訓練後的模型，準確率遠高過人類專家

2024/11/29 更新2024/11/29 發佈閱讀 4 分鐘

本文翻譯自《Nature Human Behaviour》的研究《Large language models surpass human experts in predicting neuroscience results》由倫敦大學學院（University College London）實驗心理學（Department of Experimental Psychology）的研究團隊 Xiaoliang Luo, Akilles Rechardt, Guangzhi Sun 等人所主持的研究項目。

科學發展中的挑戰

隨著科學文獻的指數增長，研究人員面臨巨大的資訊整合挑戰。

在神經科學（neuroscience）等跨學科領域，研究成果往往分散於大量資料中，而每篇文章的研究方法和結論可能不一致，甚至存在噪音。這對於人類專家來說，是一個超出資訊處理能力的難題。

為解決這些問題，研究者開始利用大規模語言模型（LLMs）來輔助科學預測和發現。這些模型具備從海量數據中提取模式並預測新結果的能力，或能為未來的科學探索提供重要助力。

研究方法：打造神經科學的前瞻性基準

為了檢驗LLMs在科學預測上的能力，研究者開發了一套名為 BrainBench 的評估系統。

該系統專注於測試模型是否能準確預測神經科學研究結果，並將其表現與人類專家進行對比。BrainBench的核心任務是提供一個修訂版與原始研究摘要，讓測試者選擇哪一個更可能反映真實的研究結果。

此基準主要測試模型在五個神經科學領域中的表現：

行為與認知（Behavioral/Cognitive）
系統與迴路（Systems/Circuits）
疾病神經生物學（Neurobiology of Disease）
細胞與分子（Cellular/Molecular）
發展與可塑性（Development/Plasticity/Repair）

此基準主要測試模型在五個神經科學領域中的表現。來源：本研究

關鍵結果：LLMs 的超越性表現

在測試中，大規模語言模型的平均正確率達到 81.4%，明顯高於人類專家的 63.4%。更重要的是，經過神經科學專業調適的模型（例如 BrainGPT），表現進一步提升。

以下為 LLMs 表現優越的原因分析：

資訊整合能力強：LLMs能有效整合摘要中的背景、方法和結論等資訊，而不僅依賴局部結果。
預測準確性與信心一致：當模型對其判斷有較高信心時，正確率也更高，顯示其信心校準良好。
未受數據記憶限制：研究顯示，LLMs並非基於記憶而進行選擇，而是從神經科學資料中學習到更廣泛的模式。

大規模語言模型的平均正確率達到 81.4%，明顯高於人類專家的 63.4%。來源：本研究

模型優化：從一般到專業

為了提升LLMs在神經科學的應用能力，研究者採用了 LoRA（低秩適應）方法，進行專業知識調適。通過在數百萬字的神經科學文獻上進行微調，研究團隊將LLMs轉化為更加專業化的工具——BrainGPT。

調適後模型的主要進步：

在 BrainBench 測試中的正確率提升了約 3%。
模型在理解專業術語與方法學上的能力顯著增強。

挑戰與展望

儘管LLMs展現出強大的預測能力，研究者仍需考量潛在風險：

過度依賴模型：若研究人員完全依賴模型預測，可能忽略突破性實驗的機會。
科學倫理與透明性：模型的訓練數據和權重應保持公開，以促進再現性與公平性。

展望未來，LLMs可以：

作為科學研究的輔助工具，指導實驗設計。
成為探索未知領域的重要夥伴，幫助解答跨學科問題。

本研究的突破在於首次系統性地驗證LLMs在神經科學領域的前瞻性應用能力。隨著技術的進步，我們可以期待這些模型成為推動科學發現的新引擎，為知識密集型領域帶來前所未有的效率與可能性。

留言

社會人的哲學沉思

187會員

340內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

社會人的哲學沉思的其他內容

2025/04/25

📝📝：AI 正處於危險的幻覺｜認知科學家 Guillaume Thierry：我們需要停止人性化 AI

大型語言模型以自然的節奏說話，表達好奇心，甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實：這些 AI 系統根本不具備這些人類特質。

2025/04/25

📝📝：AI 正處於危險的幻覺｜認知科學家 Guillaume Thierry：我們需要停止人性化 AI

2025/04/22

📝📝：馬來人、爪哇人、菲律賓人都很懶惰？｜「懶惰」的迷思隨著殖民政策延續至今的東南亞

「懶惰原住民」（the Lazy Native）的迷思並非自然形成，而是殖民當局帶著明確的意識形態意圖精心打造的。

2025/04/22

📝📝：馬來人、爪哇人、菲律賓人都很懶惰？｜「懶惰」的迷思隨著殖民政策延續至今的東南亞

「懶惰原住民」（the Lazy Native）的迷思並非自然形成，而是殖民當局帶著明確的意識形態意圖精心打造的。

2025/04/18

📝📝：未來的人類不再意識到 AI 的存在｜科技思想家 Kevin Kelly 對技術、AI 及其未來影響的見解

KK 指出，AI 的長期影響將超過電力與火的發明，但這個變革需要數百年來逐步展現。

2025/04/18

📝📝：未來的人類不再意識到 AI 的存在｜科技思想家 Kevin Kelly 對技術、AI 及其未來影響的見解

KK 指出，AI 的長期影響將超過電力與火的發明，但這個變革需要數百年來逐步展現。

看更多

你可能也想看

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜上篇】首波新成員登場！5 題靈魂拷問，直擊「個人主題專家」的創作後台🔥

vocus 最具指標性的創作者社群──「野格團」， 2026 年春季，這支充滿專業、熱情的團隊再次擴編，迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇，他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜上篇】首波新成員登場！5 題靈魂拷問，直擊「個人主題專家」的創作後台🔥

#創作#創作者推薦#靈感

2026/03/25

二流旅者 Second-rate Hiker

Andrej Karpathy LLMs 筆記

這篇文章提供了關於大型語言模型 (LLMs) 訓練和使用的深入綜述，涵蓋數據收集、標註、訓練的三個階段，以及模型幻覺、中間結果和參數知識等議題。此外，文章還探討了不同訓練方法 (如 SFT 和 RL) 的優缺點，並提出使用LLMs的建議，展望了未來LLMs的多模態應用和任務代理能力。

#方格新手#OpenAI#DeepSeek

2025/02/20

二流旅者 Second-rate Hiker

Andrej Karpathy LLMs 筆記

#方格新手#OpenAI#DeepSeek

2025/02/20

甘果的沙龍

使用巨量資料及類神經網路進行字元辨識的應用與訓練技巧

類神經網路在圖形辨識應用中需要大量資料進行訓練，並常透過分批訓練來優化模型。本文介紹如何使用「MNIST」資料庫進行手寫數字辨識，並透過「資料分批」來有效處理訓練資料。最終，分批訓練的手法能夠提升模型的辨識能力，實現持續學習。

#類神經網路#人工智慧#PyTorch

2024/12/21

甘果的沙龍

使用巨量資料及類神經網路進行字元辨識的應用與訓練技巧

#類神經網路#人工智慧#PyTorch

2024/12/21

社會人的哲學沉思

📝📝：大型語言模型如何應用在神經科學的研究？｜倫敦大學學院：經過訓練後的模型，準確率遠高過人類專家

在測試中，大規模語言模型的平均正確率達到 81.4%，明顯高於人類專家的 63.4%。更重要的是，經過神經科學專業調適的模型（例如 BrainGPT），表現進一步提升。

#ChatGPT#科學#模型

2024/11/29

社會人的哲學沉思

📝📝：大型語言模型如何應用在神經科學的研究？｜倫敦大學學院：經過訓練後的模型，準確率遠高過人類專家

#ChatGPT#科學#模型

2024/11/29

A.H.科普(pScience)

不妙? AI打敗了神經科學家

倫敦大學學院（UCL）心理學與語言科學研究人員，2024年11月27日發表在《自然人類行為》的研究顯示，大型語言模型在預測神經科學結果方面超越了人類專家。

2024/11/28

2024/11/28

本文介紹大型語言模型（LLM）的基礎概念和當前主流模型，包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力，LLM的發展將持續影響人類的交流和資訊處理方式。

2024/10/10

2024/10/10

自然語言處理 (NLP) 與神經語言程式學 (NLP) 是什麼？前者為使機器理解人類語言，後者則研究如何透過了解大腦運作，使用語言改變人類的思考與行為。本文簡短探討了神經語言程式學的基礎、方法、及應用，以及提出一些疑問與反思。

2024/09/06

2024/09/06

[AI小學堂(5)]大型語言模型LLM是怎麼一回事?

ChatGPT背後的技術大型語言模型是否與我們前面介紹的神經網路相同呢? 答案是不同的，這也是我們想要進一步探討了解的課題。今天會先解釋什麼是語言模型，想要做到的是哪些事情。

#AI#DeepLearning#ChatGPT

2023/08/27

技術PM路易斯的沙龍

[AI小學堂(5)]大型語言模型LLM是怎麼一回事?

#AI#DeepLearning#ChatGPT

2023/08/27

Ted Chen的沙龍

生成式 AI 之大模型的特殊現象

本文探討了大型語言模型中的特殊現象，包括頓悟現象，大模型的隱藏知識引導，以及模型越大對某些問題的理解越偏離的U型曲線。文章強調，當模型不夠理想時，我們需要更好地引導模型或了解問題的本質，而非只是增加模型的大小。

2023/06/16

2023/06/16

藉由Michal Kosinski教授所撰寫的研究論文中針對大型語言模型(LLMs)中出現人類獨有的心智理論現象，延續討論上篇文章中我所提出「人工智慧與人之間的差異？意識？」一問；並思考我們與AI的距離：當「我思故我在」不僅僅用在人類身上時，我們還有什麼是身為人獨有的特質？

2023/04/01

2023/04/01

機器學習模型革新 AI翻譯品質再次向前邁進

Google 一直致力於透過機器學習改善自家翻譯系統的準確度，利用人工智慧的力量提升機器翻譯品質，並於今年八月發表新機器學習模型 Universal Transformer。隨著機器學習模型不斷演進，AI 處理翻譯時的邏輯和策略也與真人譯者越來越相似。原文連結

#翻譯#翻譯所#翻譯新知

2022/02/02

臺師大翻譯所 NTNU GITI的沙龍

機器學習模型革新 AI翻譯品質再次向前邁進

#翻譯#翻譯所#翻譯新知

2022/02/02

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News