OpenAI 在 2020 年的論文中提到,GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫(Project Gutenberg)的完整內容,包含約 7 萬本書籍。

- Books1 在 GPT-3 訓練中佔了 8% 的權重,對應到大約 12 億個 tokens(可視為字詞)。研究認為,這與古騰堡計畫整理的標準語料庫(Standardized Project Gutenberg Corpus)的 tokens 數量相當。
- 古騰堡計畫專門收集著作權已過期的書籍,將其數位化後免費提供給公眾。這些書籍主要是一些經典作品,並涵蓋各種文學形式,如小說、詩歌、戲劇等。因此,古騰堡計畫的內容在著作權上相對無爭議,且提供了大量長篇、連貫內容,為訓練 AI模型的理想材料。
總結來說,雖然 OpenAI 的沒有正式公開Books1 的內容,但基於既有線索,可以合理推測是來自古騰堡計畫。



















