Books2 是 OpenAI 用於訓練其大型語言模型的關鍵資料集(Dataset)之一。根據 OpenAI 公開透露的少量資訊,它是為一個「基於網路的書籍語料庫」,包含大量的書名和文字內容。1
Image: Flickr (CC BY 2.0 DEED)
雖然 OpenAI 沒有提供太多細節,但根據最初 GPT-3 論文中提到的一些資訊,可以估計出 Books2 資料集可能包含約 550 億個 token,約佔 GPT-3 總訓練資料的 8%。外界曾分析估計 Books2 總共包含大約 29萬本書籍2。
事實上,雖然 OpenAI 不公布書籍和文本的具體來源,且稱這些資料是私有的內容3。然而,而能夠提供如此多書籍內容的線上資較集,來源並不多,所以許多 AI 研究人員懷疑,它的書籍可能來自於許多已知儲存大量盜版電子書的「影子圖書館」網站,例如創世紀圖書館(Library Genesis,LibGen)、Z-Library、Bibliotik 等4,因為這些是為數不多擁有 29 萬本書籍的地方。
由於OpenAI 在訓練資料的來源上缺乏透明度,許多知名作者提起集體訴訟,指控 OpenAI 在未經許可的情況下,從盜版網站獲取有著作權的作品來訓練其模型,OpenAI 則沒有證實或否認這些指控。