2024-12-04|閱讀時間 ‧ 約 7 分鐘

科學家AI抱抱 II: 餵食資料集

raw-image

《自然》具體說明了AI機器人如何改變科學家的生活,劍橋大學在同一天(2024年12月2日)發布的新聞中指出: 「新的資料集將訓練AI模型,像科學家一樣思考[2]。新聞的副標是:

關於血液如何流經動脈,爆炸的恆星可以告訴我們什麼?或是細菌在海洋各層如何混合的情況下游動?包括劍橋大學在內的研究人員合作,在訓練人工智慧模型以尋找和使用領域之間可轉移的知識來推動科學發現方面取得了里程碑式的進展。

一項名為Polymathic AI的計畫使用了為ChatGPT或谷歌Gemini等大型語言模型提供支持的技術。但是,不同的是,該專案的模型並非訓練文本,而是使用來自天體物理學、生物學、聲學、化學、流體動力學等領域的科學資料集進行學習,基本上為模型提供了跨學科的科學知識。

Polymathic AI專案由來自Simons基金會及Flatiron研究所、紐約大學、劍橋大學、普林斯頓大學、法國國家科學研究中心和勞倫斯伯克利國家實驗室的合作,向大眾發布了兩個開源訓練資料集,大小高達115TB。資料集整合來自數十來源,供科學界訓練AI模型,並實現新的科學發現。相較之下,GPT-3使用45TB的未壓縮、未格式化文字所進行的訓練,過濾後最終約為0.5TB。

完整的資料集可在託管AI模型和資料集的平台HuggingFace 上免費下載。Polymathic AI 團隊在NeurIPS機器學習會議上發表的兩篇海報中提供了有關資料集的更多資訊,該會議將於本月(10~15)在加拿大溫哥華舉行。 

"正如ChatGPT等LLM學習使用跨語言的通用語法結構一樣,這些新的科學基礎模型可能會揭示我們以前從未註意到的跨學科的深層聯繫,

劍橋大學天文學研究所的劍橋團隊負責人邁爾斯·克蘭默博士說。

我們可能會發現人類看不到的模式,因為沒有人既擁有如此廣泛的科學知識,又具有將其壓縮到單一框架中的能力。”

機器學習等AI工具在科學研究中越來越普遍,並在今年的兩項諾貝爾獎中獲得認可。儘管如此,此類工具通常是針對特定應用程式專門建立的,並使用該領域的資料進行訓練。相反,Polymathic AI計畫的目標是開發真正博學的模型,就像專業知識跨越多個領域的人一樣。該計畫的團隊體現了知識的多樣性,包括物理學家、天文物理學家、數學家、電腦科學家和神經科學家。兩個新的訓練資料集集合中的第一個集合稱為The Well,另一個資料集被稱為“多模態宇宙”(The Multimodal Universe)。

  1. The Well:用於機器學習的各種物理類比的大規模集合: 基於機器學習(ML)的代理模型為研究人員提供了強大的工具,用於加速基於類比的工作流程。...The Well 彙集了領域科學家和數值軟體開發人員,在16個數據集中提供 15TB 的數據,涵蓋生物系統、流體動力學、聲學散射以及銀河系外流體或超新星爆炸的磁流體動力學類比等不同領域。
  2. 多模態宇宙:使用100TB的天文科學資料集實現大規模機器學習: 提出了“多模態宇宙”,這是一個科學天文數據的大規模多模態資料集,專為促進機器學習研究而編譯。總體而言,多模態宇宙包含數億次天文觀測,構成了100TB的多通道和高光譜圖像、光譜、多變數時間序列,以及各種相關的科學測量和後設資料 (metadata)。此外,還包括一系列代表天體物理學機器學習方法標準實踐的基準任務。這個龐大的資料集,將使專門針對科學應用的大型多模態模型的開發成為可能。
到目前為止,還沒有一個涵蓋如此廣泛領域的科學品質資料集,…這些資料集首次為真正的通才科學基礎模型打開了大門。我們可能會發現哪些新的科學原理?我們即將找到答案,這真是令人難以置信的興奮。

當劍橋天文研究所的劍橋團隊負責人,亦是應用數學和理論物理系成員 Miles Cranmer 如是說時,不知為何,A.H.也跟著興奮起來。。。

到底,AI會像20年前一樣走向泡沫化?

還是,就此開啟科學新里程碑?

好奇好奇好奇!!!

先用了再說!

記得看: 科學家AI抱抱 I: ChatGPT 兩歲後 喔!


[1] Lenharo, M. ChatGPT turns two: how the AI chatbot has changed scientists’ lives. Nature News. Dec. 2. 2024

[2] University of Cambridge News: New datasets will train AI models to think like scientists. Dec. 2. 2024

分享至
成為作者繼續創作的動力吧!
A.H. 在《科學月刊》、台大科學教育發展中心【CASE 報科學】、國立自然科學博物館科普寫作網路平台、PanSci 泛科學等均有科普文章刊登。我愛科學「無聊的魅力」,你愛科普「誘發的創例」,就讓我們一齊協力每日給右腦一點小激勵: https://vocus.cc/user/@AH_pScience
© 2024 vocus All rights reserved.