「訓練資料集 Books3」是什麼？

2025/08/03 更新2024/04/01 發佈閱讀 5 分鐘

生成式人工智慧（AI）模型的訓練，需要大量、多元的文字內容，尤其是書籍，對於訓練模型的效果最好。Books3 是一個多樣化的訓練用資料集（dataset），包含小說和非小說作品，由開源倡導者 Shawn Presser 於 2020 年發布。¹

Books3 資料集除了包含將近 20 萬本書籍，涵蓋廣泛的題材和主題外，也收錄了許多主要出版商及著名作家的作品，為訓練人工智慧模型提供了豐富的文字資料。然而，Books3 的內容卻因其來源備受爭議。

Image: Flickr (CC BY 2.0 DEED)

事實上，Shawn Presser 很早就懷疑 OpenAI 使用的訓練資料來自盜版書籍的天堂「影子圖書館」（shadow library）。許多人也依據OpenAI所發表的論文推測，GPT-3的訓練資料除了著作權已過期的圖書合集（Books1）外，還有來自「創世紀圖書館」（Library Genesis）或 Bibliotik 等影子圖書館的盜版書籍。隨著 OpenAI 等 AI 巨頭對用於訓練模型的資料集內容越來越守口如瓶，也令人質疑如此缺乏透明度的原因，極可能是因為使用了未經授權的資料。

Shawn Presser 認為，如果像 Meta、OpenAI 這樣的大公司都可以不負責任地利用大量資料，甚至是被著作權保護的內容，那麼公眾也應該可以使用，以避免 AI 技術被科技巨頭所壟斷。所以他創造了一個可以開放所有人取得的資料集，也就是 Books3，這與他過去所推動的開放原始碼計畫（Open source project），宗旨是一致的，都是強調合作、透明和自由獲取技術。²

Shawn Presser 在資料歸檔組織「The Eye」找到了影子圖書館 Bibliotik 的 BT 伺服器（BitTorrent tracker）連結，並下載了將近 20 萬本書籍，多數是近20年的作品（換句話說，都仍然被著作權所保護）。他利用 OCR 技術（光學字元辨識，Optical Character Recognition）將書籍轉換為.txt 的純文字檔案後，仿造 OpenAI 神秘的 Books1 和 Books2 資料集，命名為Books3，並成立了非營利的 AI 研究組織 EleutherAI，在 2020 年 10 月將 Books3 作為 AI 訓練資料集「The Pile」的一部分發布（The Pile 是由開源研究小組 EleutherAI 開發的 22 個資料集所組成）。EleutherAI 也使用 The Pile 和其他資料集來訓練自己的 AI 模型 GPT-J，以與當時 OpenAI 的 GPT3 競爭。同樣使用 The Pile 資料集的還有 Meta 的 LLaMA 模型等。³

儘管丹麥反盜版組織「Rights Alliance」依照數位千禧年著作權法（Digital Millennium Copyright Act, DMCA）提交通知，成功讓 Books3 從 The Eye 及其他託管網站被刪除，但這並沒有徹底消除網路上的資料集，因為研究人員仍在使用該資料集的副本。⁴

Shawn Presser 也仍然持續發布新的 Books3 下載連結，讓其他人可以訓練自己的 AI 模型，打破由 OpenAI、Google 等大型企業所壟斷的局面。他曾在採訪中說道：

「唯一能夠複製像 ChatGPT 這樣的模型的方法，就是創建像 Books3 這樣的資料集」

「每家營利公司都會暗中這麼做，不會把資料集公開給大眾……沒有 Books3，我們將生活在一個除了 OpenAI 和其他數十億美元的公司之外沒有人能夠存取那些書籍的世界，這意味著你無法製作自己的 ChatGPT。沒有人能夠做到。只有數十億美元的公司才有資源去做這件事。」

Books3 的使用者之一 Meta 已經因為使用了 Books3 而面臨集體訴訟。而一些公司，如曾經使用 Books3 訓練 BloombergGPT 的彭博社，已經聲明他們未來不會再使用 Books3。⁵ 另一個潛在的發展路線是建立合法授權的資料集。例如美國作家協會（Authors Guild）也曾與 EleutherAI 討論建立 The Pile 的授權版本，以確保 AI 公司只使用合法獲得的資料集，並對作者進行補償。⁶

留言

留言分享你的想法！

IP聊天室

2會員

136內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

IP聊天室的其他內容

2024/03/31

Napster 與音樂產業

在 1999 年，一個名為 Napster 的公司橫空出世，年輕的創業者 Sean Parker 和 Shawn Fanning，利用點對點網路（Peer-to-Peer, P2P）共享技術，讓全球用戶能夠輕易地共享和下載音樂檔案，引起了巨大的轟動，並迅速顛覆了全球音樂產業。 Napster

2024/03/31

Napster 與音樂產業

2024/03/31

「文字與資料探勘」（TDM）是什麼？

文字與資料探勘（Text and Data Mining，TDM）是指自動化分析大量的資料，以識別出其中的模式或規律，以萃取出有價值的資訊。TDM 結合了自然語言處理（NLP）、機器學習（ML）、統計分析等技術，能夠處理和分析大量的非結構化數據，以發現隱藏的趨勢、模式和關聯性。從學術研究到商業情報，

2024/03/31

「文字與資料探勘」（TDM）是什麼？

2024/03/13

光影與法律：攝影著作權的歷史之旅

攝影著作權有著曲折而漫長的歷史。從最初被視為無法受到保護，到現今獲得與其他藝術作品相同的法律地位，攝影著作權的發展過程反映了社會對攝影的認知演變，以及立法者因應新興技術所做出的回應。攝影誕生之初：被視為機械複製品 1826 年，法國發明家尼埃普斯（Nicéphore Niépce）在錫板上製作

2024/03/13

光影與法律：攝影著作權的歷史之旅

看更多

你可能也想看

創業經驗談

出國旅遊穿搭攻略｜WIWI 輕旅穿搭首選 × 蝦皮雙11活動限時優惠，保暖、防曬一次搞定！

每次出國旅行，最讓人頭痛的就是要穿什麼？不同國家的氣候差很大，從零下低溫到艷陽高照，一趟旅程可能要準備兩季的衣服！這次我整理出我出國最愛帶的 WIWI 輕旅穿搭清單，全部都能在蝦皮雙11活動期間用超優惠價格入手，還能同時參加蝦皮分潤計畫，一邊分享一邊賺旅費 💰 雙11優惠懶人包：

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

創業經驗談

出國旅遊穿搭攻略｜WIWI 輕旅穿搭首選 × 蝦皮雙11活動限時優惠，保暖、防曬一次搞定！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

成長痛WDKY的沙龍

POK萬能磁吸腳架心得分享，蝦皮買的手機腳架不專業開箱分享

大家好久不見，趁著連假有時間寫文來分享我這陣子的近況～大約 8 月中後的時候，我自己去了一小趟的釜山+福岡獨旅，主要是因為想讓自己沈澱放鬆，也加上自己好久沒有好好休息，所以希望可以有一段自己的時間。當然，也因為這次是獨自出發，所以身為小小自媒體工作者還是會需要拍照記錄一下生活，所以這次旅程還

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

成長痛WDKY的沙龍

POK萬能磁吸腳架心得分享，蝦皮買的手機腳架不專業開箱分享

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 69

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 67

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 67

#AI#ai#PromptEngineering

2024/06/30

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI#ai#PromptEngineering

2024/06/26

Learn AI 不 BI

AI說書 - 從0開始 - 52

#AI#ai#PromptEngineering

2024/06/26

每日發車

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

每日發車

筆記-曲博談AI模型.群聯-24.05.05

2024/05/06

ezra.share.injoy

學習筆記【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

延續上週提到的，「有哪些不訓練模型的情況下，能夠強化語言模型的能力」，這堂課接續介紹其中第 3、4 個方法

#AI#生成式AI#學習

2024/03/10

ezra.share.injoy

學習筆記【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

延續上週提到的，「有哪些不訓練模型的情況下，能夠強化語言模型的能力」，這堂課接續介紹其中第 3、4 個方法

#AI#生成式AI#學習

2024/03/10

ezra.share.injoy

學習筆記【生成式AI導論 2024】第3講：訓練不了人工智慧？你可以訓練你自己 (上) — 神奇咒語與提供更多資訊

這一節課說明，如何透過改變給模型的指示或咒語（prompt），來得到不同的結果。如果直接說結論的話會是，在今天語言模型的能力之下，我們只要交代清楚任務就好，可以包括背景以及需求。而這節課很像是一堂模型咒語的歷史課 XD

#AI#生成式AI#學習

2024/03/03

ezra.share.injoy

學習筆記【生成式AI導論 2024】第3講：訓練不了人工智慧？你可以訓練你自己 (上) — 神奇咒語與提供更多資訊

#AI#生成式AI#學習

2024/03/03

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News