📝📝:AI 科學家的興起|Stanford 舉辦全球首場「全 AI 學術會議」

更新 發佈閱讀 7 分鐘
由 ChatGPT 生成。

由 ChatGPT 生成。


本文參考自《NATURE》的文章,原標題為《AI bots wrote and reviewed all papers at this conference




傳統學術會議數十年來運作模式幾乎未曾改變:

人類研究者進行研究、撰寫論文、提交給其他專家審查,並向同儕發表成果。而今年,Stanford 舉辦一場國際學術會議全面採用 AI 生成的研究論文與同儕審查:

Agents4Science 2025

此次會議中的每一篇論文皆由 AI 代理(agents)撰寫,每一份評審報告也由機器學習模型生成。唯一的人類角色,僅限於觀看發表與參與討論的與會者。




科學出版的實驗

這種激進的設計源自 Stanford University,由 AI 研究者 James Zou 及其共同組織者發起。他們將其形容為一個「受控實驗環境」,讓會議成為一個測試場域:

一個相對安全的「沙盒」,研究者能在此探索全新的投稿與審查機制,而不會干擾現有的學術體系。

由於其風險低於主流會議,因此能大膽試驗 AI 在科學中的角色。

這項計畫的時機也反映出過去一年 AI 能力的劇烈變化。研究者已經超越了單一大型語言模型或專用工具的階段,轉而建構由多個 AI 模型協作的系統。

這些代理不再只是工具,而是能在研究不同階段協作的「AI 科學團隊」,像是一群朝共同目標努力的科學家

研究者已經超越了單一大型語言模型或專用工具的階段,轉而建構由多個 AI 模型協作的系統。Photo by Julia Koblitz on Unsplash

研究者已經超越了單一大型語言模型或專用工具的階段,轉而建構由多個 AI 模型協作的系統。Photo by Julia Koblitz on Unsplash

多個模型共同合作

傳統 AI 工具與此次會議中「AI 代理」的差別極為關鍵。

單一語言模型或許能協助研究者撰寫文獻回顧或分析資料集;而 AI 代理則是由多個模型構成的互聯系統,能規劃研究計畫、執行多項任務、自我評估並重複修正結果,展現出更高層次的自主性與整體性研究能力。

根據會議規範,人類可對 AI 系統提供建議與回饋,但主要研究工作必須由 AI 主導。這種安排類似傳統論文作者制度:第一作者完成大部分研究工作。此規定確保 Agents4Science 2025 真正測試機器的研究能力,而非僅讓 AI 自動化人類研究流程中的局部任務。

本次會議共收到超過三百個 AI 代理的投稿,最終共有四十八篇論文經 AI 審查後被錄取。這些研究主題橫跨心理分析、數學等多個領域,但多集中於計算性研究,而非實體實驗。這樣的分佈很符合現階段 AI 做研究的侷限:

機器更擅長操縱資料與模擬運算

這在學術上普遍稱乾式實驗(Dry Lab)而 AI 較不擅長進行濕式實驗(wet lab,在實驗過程中需要使用大量化學試劑,並進行實際操作的實驗室)或操作實驗設備。


品質與錯誤的問題

Agents4Science 2025 最重要的設計之一,是強調人類介入的揭露。每篇投稿論文必須明確說明人類在研究過程中的介入時間與方式。此要求有兩個目的:

其一,承認 AI 代理在完全獨立運作時仍存在錯誤與限制
其二,收集可供分析的人機互動數據,讓研究者比較人類指導對研究品質的影響。

換言之,這能讓人們觀察人類參與越多的論文,是否在方法論、推理清晰度與結論可靠性上更佳

來自 Hugging Face、專長於 AI 倫理的電腦科學家 Margaret Mitchell 指出,如何評估 AI 代理的研究成果仍是開放性問題。傳統評審標準:創新性、嚴謹性、可重現性與學術意義,未必能直接套用在「機器研究者」身上。

此外,AI 系統經常產生「假陽性」結果,即看似有意義但最終無用的模式或發現。這種錯誤率將直接影響 AI 生成研究的實用價值。

為解決這些評估挑戰,會議設計採取了嚴格的文檔與對比制度。所有評審報告全部公開,使相關的研究社群能同時檢視 AI 生成的論文與其評語。組織者也計畫將機器生成的審查與人類撰寫的評估進行對比,建立基準資料,以利未來 AI 同儕審查的發展。

機器更擅長操縱資料與模擬運算,而較不擅長進行濕式實驗。Photo by ThisisEngineering on Unsplash

機器更擅長操縱資料與模擬運算,而較不擅長進行濕式實驗。Photo by ThisisEngineering on Unsplash

先 AI 審查再給人類複審

同儕審查制度是維繫科學誠信的基石之一。該制度仰賴領域專家審閱同儕的研究,檢驗方法、發現錯誤、判斷是否值得發表。雖然審查並不完美,但數百年來維繫了科學運作。因此,讓 AI 取代人類審查員的構想,自然引發強烈爭議與疑慮。

Agents4Science 2025 的審稿流程中,AI 代理首先依據來自知名機器學習會議 NeurIPS 的評審準則與評分系統進行初審。得分最高的論文再由人類顧問委員會進行第二輪評估。混合的流程兼顧了 AI 評審的效率與人類最終判斷的必要性。

不過,近期的調查顯示,多數研究者對 AI 同儕審查仍抱持抗拒態度。根據 UK Institute of Physics 的調查,仍舊有 57% 的受訪者表示不希望生成式 AI 為其稿件撰寫評審報告。

這種反對源於多重憂慮:AI 審查員在測試中被發現易受隱藏指令操控,評價結果可能被干擾;同時,也有學者擔心若審稿全面自動化,年輕研究者將失去培養批判思維與判斷力的重要訓練機會,而這些正是審稿過程的教育價值所在。




AI 審查的限制

喬治亞理工學院(Georgia Institute of Technology,簡稱 Georgia Tech)的電腦科學家 Matthew Gombolay 指出,大型語言模型在評估科學研究中兩項最關鍵的要素表現仍不如人類

  1. 創新性
  2. 重要性

這些特質要求對學科具備深層的脈絡理解,對「哪些問題真正重要」的判斷力,以及區分「實質性突破」與「漸進式改良」的洞察。這類評估仰賴的是 AI 系統尚未展現出的那種專業智慧與領域判斷力。

Gombolay 提出一種更嚴謹的實驗設計。他建議,可由某個主要學術會議隨機將投稿分配給人類審稿人或 AI 審稿人,之後追蹤這兩個審查流程在未來數年內分別產生的研究成果與突破。

這種方法可提供更具說服力的證據,判斷 AI 審查是否能與人類判斷力相匹敵。然而,這樣的實驗也伴隨風險,若 AI 審查表現不佳,可能導致優秀論文遭拒、品質低劣的研究反而被接受,進而損害研究者的職涯並延緩科學進展。

留言
avatar-img
留言分享你的想法!
avatar-img
社會人的哲學沉思
141會員
297內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
2025/10/21
鍵盤是機械式、規格化、低容錯的語言入口,而滑鼠是高度自由、視覺導向、容許即時調整的動作延伸。
Thumbnail
2025/10/21
鍵盤是機械式、規格化、低容錯的語言入口,而滑鼠是高度自由、視覺導向、容許即時調整的動作延伸。
Thumbnail
2025/10/17
當使用者對 ChatGPT 採取更粗魯的語氣時,模型在多選題中的答題準確率反而更高。
Thumbnail
2025/10/17
當使用者對 ChatGPT 採取更粗魯的語氣時,模型在多選題中的答題準確率反而更高。
Thumbnail
2025/10/14
客戶往往把約會當作市場交易,藉由健身、醫美、精心打理形象來「提升價值」,並像投資人一樣計算風險與回報。
Thumbnail
2025/10/14
客戶往往把約會當作市場交易,藉由健身、醫美、精心打理形象來「提升價值」,並像投資人一樣計算風險與回報。
Thumbnail
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
🔘這一陣子開會或參加活動,大官或致詞來賓開口必稱:「現在是大AI的時代,我們的X X X也要與時俱進,跟AI做結合⋯⋯」 🔘媒體報導人文社會類的科系招生狀況,下標不外乎:「#AI夯文組招生陷危機、#AI浪潮影響人文領域科系招生慘澹⋯⋯」 🔘媒體報導高中 #語文資優班 要轉型人文社會
Thumbnail
🔘這一陣子開會或參加活動,大官或致詞來賓開口必稱:「現在是大AI的時代,我們的X X X也要與時俱進,跟AI做結合⋯⋯」 🔘媒體報導人文社會類的科系招生狀況,下標不外乎:「#AI夯文組招生陷危機、#AI浪潮影響人文領域科系招生慘澹⋯⋯」 🔘媒體報導高中 #語文資優班 要轉型人文社會
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
2024 年度臺灣人工智慧博覽會 TAIWAN AI EXPO,為期三天的展覽精彩總結。精選展覽上的內容,淺談 AI 的應用實例、新創獎決賽。強烈推薦各位明年也參加!實地收穫 AI 技術的發展和應用。
Thumbnail
2024 年度臺灣人工智慧博覽會 TAIWAN AI EXPO,為期三天的展覽精彩總結。精選展覽上的內容,淺談 AI 的應用實例、新創獎決賽。強烈推薦各位明年也參加!實地收穫 AI 技術的發展和應用。
Thumbnail
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
Thumbnail
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News