限時公開

科學家AI抱抱 II: 餵食資料集

A.H.-avatar-img
發佈於精選集 個房間
更新於 發佈於 閱讀時間約 5 分鐘

raw-image

《自然》具體說明了AI機器人如何改變科學家的生活,劍橋大學在同一天(2024年12月2日)發布的新聞中指出: 「新的資料集將訓練AI模型,像科學家一樣思考[2]。新聞的副標是:

關於血液如何流經動脈,爆炸的恆星可以告訴我們什麼?或是細菌在海洋各層如何混合的情況下游動?包括劍橋大學在內的研究人員合作,在訓練人工智慧模型以尋找和使用領域之間可轉移的知識來推動科學發現方面取得了里程碑式的進展。

一項名為Polymathic AI的計畫使用了為ChatGPT或谷歌Gemini等大型語言模型提供支持的技術。但是,不同的是,該專案的模型並非訓練文本,而是使用來自天體物理學、生物學、聲學、化學、流體動力學等領域的科學資料集進行學習,基本上為模型提供了跨學科的科學知識。

Polymathic AI專案由來自Simons基金會及Flatiron研究所、紐約大學、劍橋大學、普林斯頓大學、法國國家科學研究中心和勞倫斯伯克利國家實驗室的合作,向大眾發布了兩個開源訓練資料集,大小高達115TB。資料集整合來自數十來源,供科學界訓練AI模型,並實現新的科學發現。相較之下,GPT-3使用45TB的未壓縮、未格式化文字所進行的訓練,過濾後最終約為0.5TB。

完整的資料集可在託管AI模型和資料集的平台HuggingFace 上免費下載。Polymathic AI 團隊在NeurIPS機器學習會議上發表的兩篇海報中提供了有關資料集的更多資訊,該會議將於本月(10~15)在加拿大溫哥華舉行。 

"正如ChatGPT等LLM學習使用跨語言的通用語法結構一樣,這些新的科學基礎模型可能會揭示我們以前從未註意到的跨學科的深層聯繫,

劍橋大學天文學研究所的劍橋團隊負責人邁爾斯·克蘭默博士說。

我們可能會發現人類看不到的模式,因為沒有人既擁有如此廣泛的科學知識,又具有將其壓縮到單一框架中的能力。”

機器學習等AI工具在科學研究中越來越普遍,並在今年的兩項諾貝爾獎中獲得認可。儘管如此,此類工具通常是針對特定應用程式專門建立的,並使用該領域的資料進行訓練。相反,Polymathic AI計畫的目標是開發真正博學的模型,就像專業知識跨越多個領域的人一樣。該計畫的團隊體現了知識的多樣性,包括物理學家、天文物理學家、數學家、電腦科學家和神經科學家。兩個新的訓練資料集集合中的第一個集合稱為The Well,另一個資料集被稱為“多模態宇宙”(The Multimodal Universe)。

raw-image
  1. The Well:用於機器學習的各種物理類比的大規模集合: 基於機器學習的代理模型為研究人員提供了強大的工具,用於加速基於類比的工作流程。...The Well 彙集了領域科學家和數值軟體開發人員,在16個數據集中提供15TB的數據,涵蓋生物系統、流體動力學、聲學散射以及銀河系外流體或超新星爆炸的磁流體動力學類比等不同領域。
  2. 多模態宇宙:使用100TB的天文科學資料集實現大規模機器學習: 提出了“多模態宇宙”,這是一個科學天文數據的大規模多模態資料集,專為促進機器學習研究而編譯。總體而言,多模態宇宙包含數億次天文觀測,構成了100TB的多通道和高光譜圖像、光譜、多變數時間序列,以及各種相關的科學測量和後設資料 (metadata)。此外,還包括一系列代表天體物理學機器學習方法標準實踐的基準任務。這個龐大的資料集,將使專門針對科學應用的大型多模態模型的開發成為可能。
到目前為止,還沒有一個涵蓋如此廣泛領域的科學品質資料集,…這些資料集首次為真正的通才科學基礎模型打開了大門。我們可能會發現哪些新的科學原理?我們即將找到答案,這真是令人難以置信的興奮。

當劍橋天文研究所的劍橋團隊負責人,亦是應用數學和理論物理系成員 Miles Cranmer 如是說時,不知為何,A.H.也跟著興奮起來。。。

raw-image

到底,AI會像20年前一樣走向泡沫化?

還是,就此開啟科學新里程碑?

好奇好奇好奇!!!

先用了再說!

記得看: 科學家AI抱抱 I: ChatGPT 兩歲後 喔!


[1] Lenharo, M. ChatGPT turns two: how the AI chatbot has changed scientists’ lives. Nature News. Dec. 2. 2024

[2] University of Cambridge News: New datasets will train AI models to think like scientists. Dec. 2. 2024

留言
avatar-img
留言分享你的想法!
avatar-img
A.H.科普(pScience)
114會員
270內容數
用知識點燃你的神經通路! A.H. 科普的每篇文章,刺激您大腦突觸的新舊連接,讓您對理解、思維、靈感和好奇,貪得無厭~
A.H.科普(pScience)的其他內容
2025/04/24
2025年4月24日,今天是有史以來第一個世界荷爾蒙日。是一個你身體秘密信差的大日子!我們體內的荷爾蒙/激素就像微小的信差或超級英雄,不斷地在身體中工作,發出指令,讓我們的情緒和能量水準等一切運作順利。這個特殊的日子就是讓每個人都談論這些荷爾蒙對於保持健康和感覺良好有多麼重要。這個想法實際上始於..
Thumbnail
2025/04/24
2025年4月24日,今天是有史以來第一個世界荷爾蒙日。是一個你身體秘密信差的大日子!我們體內的荷爾蒙/激素就像微小的信差或超級英雄,不斷地在身體中工作,發出指令,讓我們的情緒和能量水準等一切運作順利。這個特殊的日子就是讓每個人都談論這些荷爾蒙對於保持健康和感覺良好有多麼重要。這個想法實際上始於..
Thumbnail
2025/04/23
2025年,耶魯大學C.J. Carlson等人在《自然評論:生物多樣性》上發表了「病原體和星球變化」 ,試圖繪製這些微觀擾動,聆聽我們在微生物世界中匆忙的迴聲。這顯示我們的加速正在引起漣漪、意想不到的潮流,將古老的生命形式帶入新的、不確定的未來。。。
Thumbnail
2025/04/23
2025年,耶魯大學C.J. Carlson等人在《自然評論:生物多樣性》上發表了「病原體和星球變化」 ,試圖繪製這些微觀擾動,聆聽我們在微生物世界中匆忙的迴聲。這顯示我們的加速正在引起漣漪、意想不到的潮流,將古老的生命形式帶入新的、不確定的未來。。。
Thumbnail
2025/04/22
曾幾何時,在一個不起眼的星系中,一顆岌岌可危發高燒的行星,名叫地球🌍。在這裡,一群咖啡因含量高有些驚慌失措科學家們認為受夠了。地球人走向環境災難的速度竟然比智慧手機在長途通勤中耗盡電池的速度還快,因此,需要有人為此做點什麼。前哨星球獎,時空回到2022年。。。
Thumbnail
2025/04/22
曾幾何時,在一個不起眼的星系中,一顆岌岌可危發高燒的行星,名叫地球🌍。在這裡,一群咖啡因含量高有些驚慌失措科學家們認為受夠了。地球人走向環境災難的速度竟然比智慧手機在長途通勤中耗盡電池的速度還快,因此,需要有人為此做點什麼。前哨星球獎,時空回到2022年。。。
Thumbnail
看更多
你可能也想看
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
這次的內容,我將分享在政大聽完 OpenAI 的執行長技術顧問(Technical Advisor to the CEO) Dr. Mohammad Bavarian 在台灣的第一場演講,透過 OpenAI 官方的視角,探討人工通用智慧(AGI)的關鍵技術和未來趨勢。
Thumbnail
這次的內容,我將分享在政大聽完 OpenAI 的執行長技術顧問(Technical Advisor to the CEO) Dr. Mohammad Bavarian 在台灣的第一場演講,透過 OpenAI 官方的視角,探討人工通用智慧(AGI)的關鍵技術和未來趨勢。
Thumbnail
Hi, 我是茶桁。 在上一节中,我们介绍了如何使用最新的ChatGPT API,注册HuggingFace账户,并将我们的聊天机器人部署出去。在这个过程中,我们学习了实际的应用开发过程,使你对聊天机器人的开发有了充足的体验。在这一讲中,我们将探讨OpenAI的各种接口提供的能力,以更深入地了解这些
Thumbnail
Hi, 我是茶桁。 在上一节中,我们介绍了如何使用最新的ChatGPT API,注册HuggingFace账户,并将我们的聊天机器人部署出去。在这个过程中,我们学习了实际的应用开发过程,使你对聊天机器人的开发有了充足的体验。在这一讲中,我们将探讨OpenAI的各种接口提供的能力,以更深入地了解这些
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知! 隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道
Thumbnail
ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知! 隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News