科學家AI抱抱 II: 餵食資料集

閱讀時間約 5 分鐘

raw-image

《自然》具體說明了AI機器人如何改變科學家的生活,劍橋大學在同一天(2024年12月2日)發布的新聞中指出: 「新的資料集將訓練AI模型,像科學家一樣思考[2]。新聞的副標是:

關於血液如何流經動脈,爆炸的恆星可以告訴我們什麼?或是細菌在海洋各層如何混合的情況下游動?包括劍橋大學在內的研究人員合作,在訓練人工智慧模型以尋找和使用領域之間可轉移的知識來推動科學發現方面取得了里程碑式的進展。

一項名為Polymathic AI的計畫使用了為ChatGPT或谷歌Gemini等大型語言模型提供支持的技術。但是,不同的是,該專案的模型並非訓練文本,而是使用來自天體物理學、生物學、聲學、化學、流體動力學等領域的科學資料集進行學習,基本上為模型提供了跨學科的科學知識。

Polymathic AI專案由來自Simons基金會及Flatiron研究所、紐約大學、劍橋大學、普林斯頓大學、法國國家科學研究中心和勞倫斯伯克利國家實驗室的合作,向大眾發布了兩個開源訓練資料集,大小高達115TB。資料集整合來自數十來源,供科學界訓練AI模型,並實現新的科學發現。相較之下,GPT-3使用45TB的未壓縮、未格式化文字所進行的訓練,過濾後最終約為0.5TB。

完整的資料集可在託管AI模型和資料集的平台HuggingFace 上免費下載。Polymathic AI 團隊在NeurIPS機器學習會議上發表的兩篇海報中提供了有關資料集的更多資訊,該會議將於本月(10~15)在加拿大溫哥華舉行。 

"正如ChatGPT等LLM學習使用跨語言的通用語法結構一樣,這些新的科學基礎模型可能會揭示我們以前從未註意到的跨學科的深層聯繫,

劍橋大學天文學研究所的劍橋團隊負責人邁爾斯·克蘭默博士說。

我們可能會發現人類看不到的模式,因為沒有人既擁有如此廣泛的科學知識,又具有將其壓縮到單一框架中的能力。”

機器學習等AI工具在科學研究中越來越普遍,並在今年的兩項諾貝爾獎中獲得認可。儘管如此,此類工具通常是針對特定應用程式專門建立的,並使用該領域的資料進行訓練。相反,Polymathic AI計畫的目標是開發真正博學的模型,就像專業知識跨越多個領域的人一樣。該計畫的團隊體現了知識的多樣性,包括物理學家、天文物理學家、數學家、電腦科學家和神經科學家。兩個新的訓練資料集集合中的第一個集合稱為The Well,另一個資料集被稱為“多模態宇宙”(The Multimodal Universe)。

raw-image
  1. The Well:用於機器學習的各種物理類比的大規模集合: 基於機器學習(ML)的代理模型為研究人員提供了強大的工具,用於加速基於類比的工作流程。...The Well 彙集了領域科學家和數值軟體開發人員,在16個數據集中提供 15TB 的數據,涵蓋生物系統、流體動力學、聲學散射以及銀河系外流體或超新星爆炸的磁流體動力學類比等不同領域。
  2. 多模態宇宙:使用100TB的天文科學資料集實現大規模機器學習: 提出了“多模態宇宙”,這是一個科學天文數據的大規模多模態資料集,專為促進機器學習研究而編譯。總體而言,多模態宇宙包含數億次天文觀測,構成了100TB的多通道和高光譜圖像、光譜、多變數時間序列,以及各種相關的科學測量和後設資料 (metadata)。此外,還包括一系列代表天體物理學機器學習方法標準實踐的基準任務。這個龐大的資料集,將使專門針對科學應用的大型多模態模型的開發成為可能。
到目前為止,還沒有一個涵蓋如此廣泛領域的科學品質資料集,…這些資料集首次為真正的通才科學基礎模型打開了大門。我們可能會發現哪些新的科學原理?我們即將找到答案,這真是令人難以置信的興奮。

當劍橋天文研究所的劍橋團隊負責人,亦是應用數學和理論物理系成員 Miles Cranmer 如是說時,不知為何,A.H.也跟著興奮起來。。。

raw-image

到底,AI會像20年前一樣走向泡沫化?

還是,就此開啟科學新里程碑?

好奇好奇好奇!!!

先用了再說!

記得看: 科學家AI抱抱 I: ChatGPT 兩歲後 喔!


[1] Lenharo, M. ChatGPT turns two: how the AI chatbot has changed scientists’ lives. Nature News. Dec. 2. 2024

[2] University of Cambridge News: New datasets will train AI models to think like scientists. Dec. 2. 2024

avatar-img
86會員
179內容數
愛因斯坦: "所有的科學都只不過是日常思維的提煉。” 對於A.H.而言,每個人的內在都住著一個好奇的小孩, A.H.藉著寫科普,提煉日常的觀察與理解, 期待科學其實也能成為大家閒話家常的有趣日常。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
A.H.科普(pScience) 的其他內容
倫敦大學學院(UCL)心理學與語言科學研究人員,2024年11月27日發表在《自然人類行為》的研究顯示,大型語言模型在預測神經科學結果方面超越了人類專家。
過去許多研究探討生活在網路時代的人,一方面享受數位時代的便利,另一方面則可能面臨許多不同型式的潛在心理負面影響。上網連線,不論是與人的社交連結,或是資訊知識的傳遞,我們每天花許多時間上網進行各種活動,到底讓我們的生活更快樂還是更焦慮? 連線上網和幸福感的關係到底是正面還是負面?
目前A.H科普的新冠科普術語索引是根據WHO最新版本ICD 11: 國際疾病分類第十一次修訂本,而國內行政院衛生署中央健康保險局使用的中文翻譯是ICD10,為保持中文翻譯的一致性, 這裡將 [不定期更新]。
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
這裡將陸續針對新冠科普中常用術語,根據美國國家醫學圖書館醫學科目標題(MeSH)與其他國際標準詞彙等陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。肺泡巨噬細胞(Macrophages, Alveolar)。。。
這裡將陸續針對新冠科普中常用術語,根據美國國家醫學圖書館醫學科目標題(MeSH)與其他國際標準詞彙等陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。血管收縮素轉化酶2(ACE2)。。。
倫敦大學學院(UCL)心理學與語言科學研究人員,2024年11月27日發表在《自然人類行為》的研究顯示,大型語言模型在預測神經科學結果方面超越了人類專家。
過去許多研究探討生活在網路時代的人,一方面享受數位時代的便利,另一方面則可能面臨許多不同型式的潛在心理負面影響。上網連線,不論是與人的社交連結,或是資訊知識的傳遞,我們每天花許多時間上網進行各種活動,到底讓我們的生活更快樂還是更焦慮? 連線上網和幸福感的關係到底是正面還是負面?
目前A.H科普的新冠科普術語索引是根據WHO最新版本ICD 11: 國際疾病分類第十一次修訂本,而國內行政院衛生署中央健康保險局使用的中文翻譯是ICD10,為保持中文翻譯的一致性, 這裡將 [不定期更新]。
史丹佛大學的AI指數2024報告(2024 AI Index Report)歸納了10大重點: 人工智慧(AI 在某些任務上擊敗了人類,但並非在所有任務上都擊敗了人類。AI在許多方面已經超越了人類基準,包括圖像分類、視覺推理和英語理解方面的一些基準。。。。
這裡將陸續針對新冠科普中常用術語,根據美國國家醫學圖書館醫學科目標題(MeSH)與其他國際標準詞彙等陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。肺泡巨噬細胞(Macrophages, Alveolar)。。。
這裡將陸續針對新冠科普中常用術語,根據美國國家醫學圖書館醫學科目標題(MeSH)與其他國際標準詞彙等陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。血管收縮素轉化酶2(ACE2)。。。
你可能也想看
Google News 追蹤
Thumbnail
Hi 我是 VK~ 在 8 月底寫完〈探索 AI 時代的知識革命:NotebookLM 如何顛覆學習和創作流程?〉後,有機會在 INSIDE POSSIBE 分享兩次「和 NotebookLM 協作如何改變我學習和創作」的主題,剛好最近也有在許多地方聊到關於 NotebookLM 等 AI 工具
Thumbnail
國泰CUBE App 整合外幣換匯、基金、證券等服務,提供簡便、低成本的美股定期定額投資解決方案。 5分鐘開戶、低投資門檻,幫助新手輕鬆進軍國際股市;提供人氣排行榜,讓投資人能夠掌握市場趨勢。
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文介紹了AI科研文獻管理工具,包括Connected Papers、EasyScholar、Research Rabbit、ReadPaper、立理 LitLit、海鯨AI學術、pdftopdf.ai等。這些工具能幫助科研人員實現高效的文獻管理和利用文獻資源,並提高科研工作的效率和質量。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。
Thumbnail
本書介紹生成式AI有徹底改變醫學和健康保健領域遊戲規則的能力,但也有未知的風險,需要更多的研究和監督。
Thumbnail
Hi 我是 VK~ 在 8 月底寫完〈探索 AI 時代的知識革命:NotebookLM 如何顛覆學習和創作流程?〉後,有機會在 INSIDE POSSIBE 分享兩次「和 NotebookLM 協作如何改變我學習和創作」的主題,剛好最近也有在許多地方聊到關於 NotebookLM 等 AI 工具
Thumbnail
國泰CUBE App 整合外幣換匯、基金、證券等服務,提供簡便、低成本的美股定期定額投資解決方案。 5分鐘開戶、低投資門檻,幫助新手輕鬆進軍國際股市;提供人氣排行榜,讓投資人能夠掌握市場趨勢。
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文介紹了AI科研文獻管理工具,包括Connected Papers、EasyScholar、Research Rabbit、ReadPaper、立理 LitLit、海鯨AI學術、pdftopdf.ai等。這些工具能幫助科研人員實現高效的文獻管理和利用文獻資源,並提高科研工作的效率和質量。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。
Thumbnail
本書介紹生成式AI有徹底改變醫學和健康保健領域遊戲規則的能力,但也有未知的風險,需要更多的研究和監督。