「訓練資料集 Books1」是什麼？

袁如陵專利師

2025/08/03 更新2024/04/18 發佈閱讀 2 分鐘

OpenAI 在 2020 年的論文中提到，GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫（Project Gutenberg）的完整內容，包含約 7 萬本書籍。

Image: Flickr (CC BY 2.0 DEED)

Books1 在 GPT-3 訓練中佔了 8% 的權重，對應到大約 12 億個 tokens（可視為字詞）。研究認為，這與古騰堡計畫整理的標準語料庫（Standardized Project Gutenberg Corpus）的 tokens 數量相當。
古騰堡計畫專門收集著作權已過期的書籍，將其數位化後免費提供給公眾。這些書籍主要是一些經典作品，並涵蓋各種文學形式，如小說、詩歌、戲劇等。因此，古騰堡計畫的內容在著作權上相對無爭議，且提供了大量長篇、連貫內容，為訓練 AI模型的理想材料。

總結來說，雖然 OpenAI 的沒有正式公開Books1 的內容，但基於既有線索，可以合理推測是來自古騰堡計畫。

留言

留言分享你的想法！

IP聊天室

2會員

135內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

IP聊天室的其他內容

2024/04/17

「Common Crawl 」是什麼？

Common Crawl 是一個非營利組織，目標是建立一個大規模、公開可用的網路爬蟲資料集，以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。 Source: Institutt for informatikk 自 2008 年開始，Common Crawl 的網路爬蟲會依據網址清

2024/04/17

「Common Crawl 」是什麼？

2024/04/12

[美國著作權法] 轉化性使用（Transformative Use）是什麼？

「轉化性使用」（Transformative Use）是美國著作權法中「合理使用（Fair Use）」原則下的一個重要概念。美國最高法院在 1994 年的 Campbell 一案中，首次採納了轉化性使用的概念：「不只是取代原著作，而是有其他目的或不同性質，對原著作增加新的表達、意義或訊息，而改變

2024/04/12

[美國著作權法] 轉化性使用（Transformative Use）是什麼？

2024/04/11

CNET 文章醜聞：媒體應用 AI 的潛在風險

在2023年初，知名科技新聞網站 CNET 因大量使用人工智慧（AI）產生的文章而引發爭議。據 Futurism 報導，CNET 自 2022 年 11 月起，開始在網站上發布由 AI 撰寫的文章（大多與理財相關），並以「CNET Money Staff」作為署名發表。 Image

2024/04/11

CNET 文章醜聞：媒體應用 AI 的潛在風險

看更多

你可能也想看

黛•Adele的生活隨筆

塔羅入門指南｜塔羅師推薦蝦皮雙11必買塔羅牌、占卜布與收納小物

想開始學塔羅卻不知道要準備哪些工具？這篇整理塔羅新手必備好物清單，從塔羅牌、塔羅布到收納袋與香氛噴霧一次入手。趁蝦皮雙11優惠打造專屬占卜空間，還能加入蝦皮分潤計畫，用分享創造收入。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

黛•Adele的生活隨筆

塔羅入門指南｜塔羅師推薦蝦皮雙11必買塔羅牌、占卜布與收納小物

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

渡狼／DL

[蝦皮分潤計畫X雙11購物季] 魔法少年賈修扭蛋系列開箱！

今天不只要分享蝦皮分潤計畫，也想分享最近到貨的魔法少年賈修扭蛋開箱，還有我的雙11購物清單，漫畫、文具、Switch2、後背包......雙11優惠真的超多，如果有什麼一直想買卻遲遲還沒下手的東西，最適合趁這個購物季趕緊下單！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

渡狼／DL

[蝦皮分潤計畫X雙11購物季] 魔法少年賈修扭蛋系列開箱！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

#AI#ai#PromptEngineering

2024/07/30

VeinTRON

我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事

我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事，所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容

#作者ChatGPT

2024/07/28

VeinTRON

我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事

我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事，所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容

#作者ChatGPT

2024/07/28

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 69

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI#ai#PromptEngineering

2024/06/15

Learn AI 不 BI

AI說書 - 從0開始 - 18

#AI#ai#PromptEngineering

2024/06/15

ezra.share.injoy

學習筆記【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

延續上週提到的，「有哪些不訓練模型的情況下，能夠強化語言模型的能力」，這堂課接續介紹其中第 3、4 個方法

#AI#生成式AI#學習

2024/03/10

ezra.share.injoy

學習筆記【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

延續上週提到的，「有哪些不訓練模型的情況下，能夠強化語言模型的能力」，這堂課接續介紹其中第 3、4 個方法

#AI#生成式AI#學習

2024/03/10

創作者經濟 IMO

AI + Web3 公益課筆記 #1｜大型語言模型是什麼？

⋯⋯GPT 有一個秘密，他其實是一個失憶症患者，為了不讓別人發現他的秘密，他把和別人的對話寫在一本日記本上；每次和別人說話之前，GPT 都會先翻閱一下日記本，回顧之前的對話，然後才做回應。

#AI#Web3#GPT

2024/02/01

創作者經濟 IMO

AI + Web3 公益課筆記 #1｜大型語言模型是什麼？

#AI#Web3#GPT

2024/02/01

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News