在《自然》具體說明了AI機器人如何改變科學家的生活,劍橋大學在同一天(2024年12月2日)發布的新聞中指出: 「新的資料集將訓練AI模型,像科學家一樣思考」[2]。新聞的副標是:
關於血液如何流經動脈,爆炸的恆星可以告訴我們什麼?或是細菌在海洋各層如何混合的情況下游動?包括劍橋大學在內的研究人員合作,在訓練人工智慧模型以尋找和使用領域之間可轉移的知識來推動科學發現方面取得了里程碑式的進展。
一項名為Polymathic AI的計畫使用了為ChatGPT或谷歌Gemini等大型語言模型提供支持的技術。但是,不同的是,該專案的模型並非訓練文本,而是使用來自天體物理學、生物學、聲學、化學、流體動力學等領域的科學資料集進行學習,基本上為模型提供了跨學科的科學知識。
Polymathic AI專案由來自Simons基金會及Flatiron研究所、紐約大學、劍橋大學、普林斯頓大學、法國國家科學研究中心和勞倫斯伯克利國家實驗室的合作,向大眾發布了兩個開源訓練資料集,大小高達115TB。資料集整合來自數十來源,供科學界訓練AI模型,並實現新的科學發現。相較之下,GPT-3使用45TB的未壓縮、未格式化文字所進行的訓練,過濾後最終約為0.5TB。
完整的資料集可在託管AI模型和資料集的平台HuggingFace 上免費下載。Polymathic AI 團隊在NeurIPS機器學習會議上發表的兩篇海報中提供了有關資料集的更多資訊,該會議將於本月(10~15)在加拿大溫哥華舉行。
"正如ChatGPT等LLM學習使用跨語言的通用語法結構一樣,這些新的科學基礎模型可能會揭示我們以前從未註意到的跨學科的深層聯繫,
劍橋大學天文學研究所的劍橋團隊負責人邁爾斯·克蘭默博士說。
我們可能會發現人類看不到的模式,因為沒有人既擁有如此廣泛的科學知識,又具有將其壓縮到單一框架中的能力。”
機器學習等AI工具在科學研究中越來越普遍,並在今年的兩項諾貝爾獎中獲得認可。儘管如此,此類工具通常是針對特定應用程式專門建立的,並使用該領域的資料進行訓練。相反,Polymathic AI計畫的目標是開發真正博學的模型,就像專業知識跨越多個領域的人一樣。該計畫的團隊體現了知識的多樣性,包括物理學家、天文物理學家、數學家、電腦科學家和神經科學家。兩個新的訓練資料集集合中的第一個集合稱為The Well,另一個資料集被稱為“多模態宇宙”(The Multimodal Universe)。
到目前為止,還沒有一個涵蓋如此廣泛領域的科學品質資料集,…這些資料集首次為真正的通才科學基礎模型打開了大門。我們可能會發現哪些新的科學原理?我們即將找到答案,這真是令人難以置信的興奮。
當劍橋天文研究所的劍橋團隊負責人,亦是應用數學和理論物理系成員 Miles Cranmer 如是說時,不知為何,A.H.也跟著興奮起來。。。
到底,AI會像20年前一樣走向泡沫化?
還是,就此開啟科學新里程碑?
好奇好奇好奇!!!
先用了再說!
記得看: 科學家AI抱抱 I: ChatGPT 兩歲後 喔!
[1] Lenharo, M. ChatGPT turns two: how the AI chatbot has changed scientists’ lives. Nature News. Dec. 2. 2024
[2] University of Cambridge News: New datasets will train AI models to think like scientists. Dec. 2. 2024