OpenAI 的「訓練資料集 Books2」是什麼？

更新於 2025/03/02發佈於 2024/02/03閱讀時間約 1 分鐘

Books2 是 OpenAI 用於訓練其大型語言模型的關鍵資料集（Dataset）之一。根據 OpenAI 公開透露的少量資訊，它是為一個「基於網路的書籍語料庫」，包含大量的書名和文字內容。¹

雖然 OpenAI 沒有提供太多細節，但根據最初 GPT-3 論文中提到的一些資訊，可以估計出 Books2 資料集可能包含約 550 億個 token，約佔 GPT-3 總訓練資料的 8%。外界曾分析估計 Books2 總共包含大約 29萬本書籍²。

事實上，雖然 OpenAI 不公布書籍和文本的具體來源，且稱這些資料是私有的內容³。然而，而能夠提供如此多書籍內容的線上資較集，來源並不多，所以許多 AI 研究人員懷疑，它的書籍可能來自於許多已知儲存大量盜版電子書的「影子圖書館」網站，例如創世紀圖書館（Library Genesis，LibGen）、Z-Library、Bibliotik 等⁴，因為這些是為數不多擁有 29 萬本書籍的地方。

由於OpenAI 在訓練資料的來源上缺乏透明度，許多知名作者提起集體訴訟，指控 OpenAI 在未經許可的情況下，從盜版網站獲取有著作權的作品來訓練其模型，OpenAI 則沒有證實或否認這些指控。

略懂的IP聊天室

0會員

3內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

略懂的IP聊天室的其他內容

[台灣專利判決] 手機立架專利告行動電源產品？法院判決亞瑟公司勝訴！

本案為一起專利侵權訴訟，法院判決被告勝利（產品沒有侵權專利），勝訴方之訴訟代理人為魏意庭律師。本案原告士覺有限公司擁有台灣新型專利 M513550，是關於手機的立架。如下圖，將支撐板彎折後，可以拿來架手機。因為支撐板內有磁鐵，所以可以調整手機架的角度（市面上有蠻多類似產品）。原告的網站販售不

#專利 #行動電源 #手機

[台灣專利判決] 手機立架專利告行動電源產品？法院判決亞瑟公司勝訴！

你可能也想看

川普2.0關稅戰地圖炮炸裂，背後的核心邏輯與後續影響

川普2.0的關稅與貿易政策，表面看似反覆無常，實則圍繞著幾個核心目標：扭轉貿易不公、推動美國再工業化、確保戰略自主，以及貫徹「美國優先」原則。本文深入剖析其背後的一致性邏輯、長期戰略意義，以及對全球產業鏈的影響，並探討不同產業的贏家與輸家。

#川普 #美國製造 #關稅

廣告雜誌

2024/07/31

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌 #專欄 #cacaFly

Darren的沙龍

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT #AlphaGo #人工智慧