
由 ChatGPT 生成。
本文參考自《NATURE》的文章,原標題為《AI bots wrote and reviewed all papers at this conference》
傳統學術會議數十年來運作模式幾乎未曾改變:
人類研究者進行研究、撰寫論文、提交給其他專家審查,並向同儕發表成果。而今年,Stanford 舉辦一場國際學術會議全面採用 AI 生成的研究論文與同儕審查:
Agents4Science 2025
此次會議中的每一篇論文皆由 AI 代理(agents)撰寫,每一份評審報告也由機器學習模型生成。唯一的人類角色,僅限於觀看發表與參與討論的與會者。
科學出版的實驗
這種激進的設計源自 Stanford University,由 AI 研究者 James Zou 及其共同組織者發起。他們將其形容為一個「受控實驗環境」,讓會議成為一個測試場域:
一個相對安全的「沙盒」,研究者能在此探索全新的投稿與審查機制,而不會干擾現有的學術體系。
由於其風險低於主流會議,因此能大膽試驗 AI 在科學中的角色。
這項計畫的時機也反映出過去一年 AI 能力的劇烈變化。研究者已經超越了單一大型語言模型或專用工具的階段,轉而建構由多個 AI 模型協作的系統。
這些代理不再只是工具,而是能在研究不同階段協作的「AI 科學團隊」,像是一群朝共同目標努力的科學家。

研究者已經超越了單一大型語言模型或專用工具的階段,轉而建構由多個 AI 模型協作的系統。Photo by Julia Koblitz on Unsplash
多個模型共同合作
傳統 AI 工具與此次會議中「AI 代理」的差別極為關鍵。
單一語言模型或許能協助研究者撰寫文獻回顧或分析資料集;而 AI 代理則是由多個模型構成的互聯系統,能規劃研究計畫、執行多項任務、自我評估並重複修正結果,展現出更高層次的自主性與整體性研究能力。
根據會議規範,人類可對 AI 系統提供建議與回饋,但主要研究工作必須由 AI 主導。這種安排類似傳統論文作者制度:第一作者完成大部分研究工作。此規定確保 Agents4Science 2025 真正測試機器的研究能力,而非僅讓 AI 自動化人類研究流程中的局部任務。
本次會議共收到超過三百個 AI 代理的投稿,最終共有四十八篇論文經 AI 審查後被錄取。這些研究主題橫跨心理分析、數學等多個領域,但多集中於計算性研究,而非實體實驗。這樣的分佈很符合現階段 AI 做研究的侷限:
機器更擅長操縱資料與模擬運算
這在學術上普遍稱乾式實驗(Dry Lab)而 AI 較不擅長進行濕式實驗(wet lab,在實驗過程中需要使用大量化學試劑,並進行實際操作的實驗室)或操作實驗設備。
品質與錯誤的問題
Agents4Science 2025 最重要的設計之一,是強調人類介入的揭露。每篇投稿論文必須明確說明人類在研究過程中的介入時間與方式。此要求有兩個目的:
其一,承認 AI 代理在完全獨立運作時仍存在錯誤與限制;
其二,收集可供分析的人機互動數據,讓研究者比較人類指導對研究品質的影響。
換言之,這能讓人們觀察人類參與越多的論文,是否在方法論、推理清晰度與結論可靠性上更佳。
來自 Hugging Face、專長於 AI 倫理的電腦科學家 Margaret Mitchell 指出,如何評估 AI 代理的研究成果仍是開放性問題。傳統評審標準:創新性、嚴謹性、可重現性與學術意義,未必能直接套用在「機器研究者」身上。
此外,AI 系統經常產生「假陽性」結果,即看似有意義但最終無用的模式或發現。這種錯誤率將直接影響 AI 生成研究的實用價值。
為解決這些評估挑戰,會議設計採取了嚴格的文檔與對比制度。所有評審報告全部公開,使相關的研究社群能同時檢視 AI 生成的論文與其評語。組織者也計畫將機器生成的審查與人類撰寫的評估進行對比,建立基準資料,以利未來 AI 同儕審查的發展。

機器更擅長操縱資料與模擬運算,而較不擅長進行濕式實驗。Photo by ThisisEngineering on Unsplash
先 AI 審查再給人類複審
同儕審查制度是維繫科學誠信的基石之一。該制度仰賴領域專家審閱同儕的研究,檢驗方法、發現錯誤、判斷是否值得發表。雖然審查並不完美,但數百年來維繫了科學運作。因此,讓 AI 取代人類審查員的構想,自然引發強烈爭議與疑慮。
在 Agents4Science 2025 的審稿流程中,AI 代理首先依據來自知名機器學習會議 NeurIPS 的評審準則與評分系統進行初審。得分最高的論文再由人類顧問委員會進行第二輪評估。混合的流程兼顧了 AI 評審的效率與人類最終判斷的必要性。
不過,近期的調查顯示,多數研究者對 AI 同儕審查仍抱持抗拒態度。根據 UK Institute of Physics 的調查,仍舊有 57% 的受訪者表示不希望生成式 AI 為其稿件撰寫評審報告。
這種反對源於多重憂慮:AI 審查員在測試中被發現易受隱藏指令操控,評價結果可能被干擾;同時,也有學者擔心若審稿全面自動化,年輕研究者將失去培養批判思維與判斷力的重要訓練機會,而這些正是審稿過程的教育價值所在。
AI 審查的限制
喬治亞理工學院(Georgia Institute of Technology,簡稱 Georgia Tech)的電腦科學家 Matthew Gombolay 指出,大型語言模型在評估科學研究中兩項最關鍵的要素表現仍不如人類
- 創新性
- 重要性
這些特質要求對學科具備深層的脈絡理解,對「哪些問題真正重要」的判斷力,以及區分「實質性突破」與「漸進式改良」的洞察。這類評估仰賴的是 AI 系統尚未展現出的那種專業智慧與領域判斷力。
Gombolay 提出一種更嚴謹的實驗設計。他建議,可由某個主要學術會議隨機將投稿分配給人類審稿人或 AI 審稿人,之後追蹤這兩個審查流程在未來數年內分別產生的研究成果與突破。
這種方法可提供更具說服力的證據,判斷 AI 審查是否能與人類判斷力相匹敵。然而,這樣的實驗也伴隨風險,若 AI 審查表現不佳,可能導致優秀論文遭拒、品質低劣的研究反而被接受,進而損害研究者的職涯並延緩科學進展。




















