📝📝：AI 科學家的興起｜Stanford 舉辦全球首場「全 AI 學術會議」

鋼哥

2025/10/24 更新2025/10/24 發佈閱讀 7 分鐘

由 ChatGPT 生成。

本文參考自《NATURE》的文章，原標題為《AI bots wrote and reviewed all papers at this conference》

傳統學術會議數十年來運作模式幾乎未曾改變：

人類研究者進行研究、撰寫論文、提交給其他專家審查，並向同儕發表成果。而今年，Stanford 舉辦一場國際學術會議全面採用 AI 生成的研究論文與同儕審查：

Agents4Science 2025

此次會議中的每一篇論文皆由 AI 代理（agents）撰寫，每一份評審報告也由機器學習模型生成。唯一的人類角色，僅限於觀看發表與參與討論的與會者。

科學出版的實驗

這種激進的設計源自 Stanford University，由 AI 研究者 James Zou 及其共同組織者發起。他們將其形容為一個「受控實驗環境」，讓會議成為一個測試場域：

一個相對安全的「沙盒」，研究者能在此探索全新的投稿與審查機制，而不會干擾現有的學術體系。

由於其風險低於主流會議，因此能大膽試驗 AI 在科學中的角色。

這項計畫的時機也反映出過去一年 AI 能力的劇烈變化。研究者已經超越了單一大型語言模型或專用工具的階段，轉而建構由多個 AI 模型協作的系統。

這些代理不再只是工具，而是能在研究不同階段協作的「AI 科學團隊」，像是一群朝共同目標努力的科學家。

研究者已經超越了單一大型語言模型或專用工具的階段，轉而建構由多個 AI 模型協作的系統。Photo by Julia Koblitz on Unsplash

多個模型共同合作

傳統 AI 工具與此次會議中「AI 代理」的差別極為關鍵。

單一語言模型或許能協助研究者撰寫文獻回顧或分析資料集；而 AI 代理則是由多個模型構成的互聯系統，能規劃研究計畫、執行多項任務、自我評估並重複修正結果，展現出更高層次的自主性與整體性研究能力。

根據會議規範，人類可對 AI 系統提供建議與回饋，但主要研究工作必須由 AI 主導。這種安排類似傳統論文作者制度：第一作者完成大部分研究工作。此規定確保 Agents4Science 2025 真正測試機器的研究能力，而非僅讓 AI 自動化人類研究流程中的局部任務。

本次會議共收到超過三百個 AI 代理的投稿，最終共有四十八篇論文經 AI 審查後被錄取。這些研究主題橫跨心理分析、數學等多個領域，但多集中於計算性研究，而非實體實驗。這樣的分佈很符合現階段 AI 做研究的侷限：

機器更擅長操縱資料與模擬運算

這在學術上普遍稱乾式實驗（Dry Lab）而 AI 較不擅長進行濕式實驗（wet lab，在實驗過程中需要使用大量化學試劑，並進行實際操作的實驗室）或操作實驗設備。

品質與錯誤的問題

Agents4Science 2025 最重要的設計之一，是強調人類介入的揭露。每篇投稿論文必須明確說明人類在研究過程中的介入時間與方式。此要求有兩個目的：

其一，承認 AI 代理在完全獨立運作時仍存在錯誤與限制；

其二，收集可供分析的人機互動數據，讓研究者比較人類指導對研究品質的影響。

換言之，這能讓人們觀察人類參與越多的論文，是否在方法論、推理清晰度與結論可靠性上更佳。

來自 Hugging Face、專長於 AI 倫理的電腦科學家 Margaret Mitchell 指出，如何評估 AI 代理的研究成果仍是開放性問題。傳統評審標準：創新性、嚴謹性、可重現性與學術意義，未必能直接套用在「機器研究者」身上。

此外，AI 系統經常產生「假陽性」結果，即看似有意義但最終無用的模式或發現。這種錯誤率將直接影響 AI 生成研究的實用價值。

為解決這些評估挑戰，會議設計採取了嚴格的文檔與對比制度。所有評審報告全部公開，使相關的研究社群能同時檢視 AI 生成的論文與其評語。組織者也計畫將機器生成的審查與人類撰寫的評估進行對比，建立基準資料，以利未來 AI 同儕審查的發展。

機器更擅長操縱資料與模擬運算，而較不擅長進行濕式實驗。Photo by ThisisEngineering on Unsplash

先 AI 審查再給人類複審

同儕審查制度是維繫科學誠信的基石之一。該制度仰賴領域專家審閱同儕的研究，檢驗方法、發現錯誤、判斷是否值得發表。雖然審查並不完美，但數百年來維繫了科學運作。因此，讓 AI 取代人類審查員的構想，自然引發強烈爭議與疑慮。

在 Agents4Science 2025 的審稿流程中，AI 代理首先依據來自知名機器學習會議 NeurIPS 的評審準則與評分系統進行初審。得分最高的論文再由人類顧問委員會進行第二輪評估。混合的流程兼顧了 AI 評審的效率與人類最終判斷的必要性。

不過，近期的調查顯示，多數研究者對 AI 同儕審查仍抱持抗拒態度。根據 UK Institute of Physics 的調查，仍舊有 57% 的受訪者表示不希望生成式 AI 為其稿件撰寫評審報告。

這種反對源於多重憂慮：AI 審查員在測試中被發現易受隱藏指令操控，評價結果可能被干擾；同時，也有學者擔心若審稿全面自動化，年輕研究者將失去培養批判思維與判斷力的重要訓練機會，而這些正是審稿過程的教育價值所在。

AI 審查的限制

喬治亞理工學院（Georgia Institute of Technology，簡稱 Georgia Tech）的電腦科學家 Matthew Gombolay 指出，大型語言模型在評估科學研究中兩項最關鍵的要素表現仍不如人類

創新性
重要性

這些特質要求對學科具備深層的脈絡理解，對「哪些問題真正重要」的判斷力，以及區分「實質性突破」與「漸進式改良」的洞察。這類評估仰賴的是 AI 系統尚未展現出的那種專業智慧與領域判斷力。

Gombolay 提出一種更嚴謹的實驗設計。他建議，可由某個主要學術會議隨機將投稿分配給人類審稿人或 AI 審稿人，之後追蹤這兩個審查流程在未來數年內分別產生的研究成果與突破。

這種方法可提供更具說服力的證據，判斷 AI 審查是否能與人類判斷力相匹敵。然而，這樣的實驗也伴隨風險，若 AI 審查表現不佳，可能導致優秀論文遭拒、品質低劣的研究反而被接受，進而損害研究者的職涯並延緩科學進展。

留言

留言分享你的想法！

社會人的哲學沉思

142會員

303內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

社會人的哲學沉思的其他內容

2025/10/21

📝📝：物件筆記｜滑鼠與鍵盤｜數位世界的兩種腳本：自由與規範

鍵盤是機械式、規格化、低容錯的語言入口，而滑鼠是高度自由、視覺導向、容許即時調整的動作延伸。

2025/10/21

📝📝：物件筆記｜滑鼠與鍵盤｜數位世界的兩種腳本：自由與規範

鍵盤是機械式、規格化、低容錯的語言入口，而滑鼠是高度自由、視覺導向、容許即時調整的動作延伸。

2025/10/17

📝📝：對 ChatGPT 粗魯一點，反而表現更好？｜語氣如何影響大型語言模型的準確性

當使用者對 ChatGPT 採取更粗魯的語氣時，模型在多選題中的答題準確率反而更高。

2025/10/17

📝📝：對 ChatGPT 粗魯一點，反而表現更好？｜語氣如何影響大型語言模型的準確性

當使用者對 ChatGPT 採取更粗魯的語氣時，模型在多選題中的答題準確率反而更高。

2025/10/14

🎥🎞️📝《天作之合》｜約會市場上的人們貼上營養標示，如同物品一般對待彼此

客戶往往把約會當作市場交易，藉由健身、醫美、精心打理形象來「提升價值」，並像投資人一樣計算風險與回報。

2025/10/14

🎥🎞️📝《天作之合》｜約會市場上的人們貼上營養標示，如同物品一般對待彼此

客戶往往把約會當作市場交易，藉由健身、醫美、精心打理形象來「提升價值」，並像投資人一樣計算風險與回報。

#AI 的其他內容

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

張紹宏

Gemini Pro 學生方案怎麼一直申請失敗? 原來是少做了「這件事」!

你可能也想看

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

覺得黏在額頭上的"條碼瀏海"很阿雜嗎？日本熱銷的「KOIZUMI迷你瀏海梳」，不僅小巧便攜，更能快速加熱造型，無論是齊瀏海、空氣瀏海還是韓系碎蓋髮，都能輕鬆打理！瀏海順了，一整天心情就好了！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

走完朝聖之路和TMB後，我發現真正能撐住長時間健行的，不只是腳力，而是那些讓生活更舒服的小物。這篇整理了我在TMB實測後覺得超好用的三樣登山神器——防水襪、肥皂袋、速乾毛巾，每一樣都讓旅程更輕鬆！

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

烏托邦邦的沙龍

『人工智能』AI的崛起早已對人類產生威脅？！

人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.

#人工智能#ai#科技

2024/08/06

烏托邦邦的沙龍

『人工智能』AI的崛起早已對人類產生威脅？！

#人工智能#ai#科技

2024/08/06

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

蛙的靠北小宇宙的沙龍

🤷🏻都是 Al⋯⋯

🔘這一陣子開會或參加活動，大官或致詞來賓開口必稱：「現在是大AI的時代，我們的X X X也要與時俱進，跟AI做結合⋯⋯」 🔘媒體報導人文社會類的科系招生狀況，下標不外乎：「#AI夯文組招生陷危機、#AI浪潮影響人文領域科系招生慘澹⋯⋯」 🔘媒體報導高中 #語文資優班要轉型人文社會

2024/06/17

2024/06/17

未來巢 | 數位轉型 x 數位科技 xAI應用的沙龍

生成式AI對話機器人：台灣成為AI發展焦點！企業又該如何搭上這股潮流？

即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖，共同探討生成式 AI 的未來發展，也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人，有助於臺灣企業與生成式AI的接軌，提升整體運營效率。

#生成式AI#機器人#COMPUTEX

2024/06/04

未來巢 | 數位轉型 x 數位科技 xAI應用的沙龍

生成式AI對話機器人：台灣成為AI發展焦點！企業又該如何搭上這股潮流？

#生成式AI#機器人#COMPUTEX

2024/06/04

你風哥的 AI 分享好讀版

AI EXPO 2024 台灣 AI 博覽會逛展心得

2024 年度臺灣人工智慧博覽會 TAIWAN AI EXPO，為期三天的展覽精彩總結。精選展覽上的內容，淺談 AI 的應用實例、新創獎決賽。強烈推薦各位明年也參加！實地收穫 AI 技術的發展和應用。

#博覽會#講座#智慧工廠

2024/05/16

你風哥的 AI 分享好讀版

AI EXPO 2024 台灣 AI 博覽會逛展心得

#博覽會#講座#智慧工廠

2024/05/16

A.H.科普(pScience)

7張圖摘要: 2024 AI指數報告

史丹佛大學的AI指數2024報告（2024 AI Index Report）歸納了10大重點: 人工智慧（AI 在某些任務上擊敗了人類，但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準，包括圖像分類、視覺推理和英語理解方面的一些基準。。。。

2024/04/16

2024/04/16

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

米奇幻世界

人工智能：未來的新篇章

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

美國人力資源港 - 九思觀點

何謂「人工智能」？What is AI?

AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域，包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性，還可解決複雜的問題和挑戰。

#人工智能#機器學習#深度學習

2024/02/23