生成式人工智慧(AI)模型的訓練,需要大量、多元的文字內容,尤其是書籍,對於訓練模型的效果最好。Books3 是一個多樣化的訓練用資料集(dataset),包含小說和非小說作品,由開源倡導者 Shawn Presser 於 2020 年發布。1
Books3 資料集除了包含將近 20 萬本書籍,涵蓋廣泛的題材和主題外,也收錄了許多主要出版商及著名作家的作品,為訓練人工智慧模型提供了豐富的文字資料。然而,Books3 的內容卻因其來源備受爭議。

Image: Flickr (CC BY 2.0 DEED)
事實上,Shawn Presser 很早就懷疑 OpenAI 使用的訓練資料來自盜版書籍的天堂「影子圖書館」(shadow library)。許多人也依據OpenAI所發表的論文推測,GPT-3的訓練資料除了著作權已過期的圖書合集(Books1)外,還有來自「創世紀圖書館」 (Library Genesis)或 Bibliotik 等影子圖書館的盜版書籍。隨著 OpenAI 等 AI 巨頭對用於訓練模型的資料集內容越來越守口如瓶,也令人質疑如此缺乏透明度的原因,極可能是因為使用了未經授權的資料。
Shawn Presser 認為,如果像 Meta、OpenAI 這樣的大公司都可以不負責任地利用大量資料,甚至是被著作權保護的內容,那麼公眾也應該可以使用,以避免 AI 技術被科技巨頭所壟斷。所以他創造了一個可以開放所有人取得的資料集,也就是 Books3,這與他過去所推動的開放原始碼計畫(Open source project),宗旨是一致的,都是強調合作、透明和自由獲取技術。2
Shawn Presser 在資料歸檔組織「The Eye」找到了影子圖書館 Bibliotik 的 BT 伺服器(BitTorrent tracker)連結,並下載了將近 20 萬本書籍,多數是近20年的作品(換句話說,都仍然被著作權所保護)。他利用 OCR 技術(光學字元辨識,Optical Character Recognition)將書籍轉換為.txt 的純文字檔案後,仿造 OpenAI 神秘的 Books1 和 Books2 資料集,命名為Books3,並成立了非營利的 AI 研究組織 EleutherAI,在 2020 年 10 月將 Books3 作為 AI 訓練資料集「The Pile」的一部分發布(The Pile 是由開源研究小組 EleutherAI 開發的 22 個資料集所組成)。EleutherAI 也使用 The Pile 和其他資料集來訓練自己的 AI 模型 GPT-J,以與當時 OpenAI 的 GPT3 競爭。同樣使用 The Pile 資料集的還有 Meta 的 LLaMA 模型等。3
儘管丹麥反盜版組織「Rights Alliance」依照數位千禧年著作權法(Digital Millennium Copyright Act, DMCA)提交通知,成功讓 Books3 從 The Eye 及其他託管網站被刪除,但這並沒有徹底消除網路上的資料集,因為研究人員仍在使用該資料集的副本。4
Shawn Presser 也仍然持續發布新的 Books3 下載連結,讓其他人可以訓練自己的 AI 模型,打破由 OpenAI、Google 等大型企業所壟斷的局面。他曾在採訪中說道:
「唯一能夠複製像 ChatGPT 這樣的模型的方法,就是創建像 Books3 這樣的資料集」
「每家營利公司都會暗中這麼做,不會把資料集公開給大眾……沒有 Books3,我們將生活在一個除了 OpenAI 和其他數十億美元的公司之外沒有人能夠存取那些書籍的世界,這意味著你無法製作自己的 ChatGPT。沒有人能夠做到。只有數十億美元的公司才有資源去做這件事。」
Books3 的使用者之一 Meta 已經因為使用了 Books3 而面臨集體訴訟。而一些公司,如曾經使用 Books3 訓練 BloombergGPT 的彭博社,已經聲明他們未來不會再使用 Books3。5 另一個潛在的發展路線是建立合法授權的資料集。例如美國作家協會(Authors Guild)也曾與 EleutherAI 討論建立 The Pile 的授權版本,以確保 AI 公司只使用合法獲得的資料集,並對作者進行補償。6