「訓練資料集 Books3」 是什麼?

更新 發佈閱讀 5 分鐘

生成式人工智慧(AI)模型的訓練,需要大量、多元的文字內容,尤其是書籍,對於訓練模型的效果最好。Books3 是一個多樣化的訓練用資料集(dataset),包含小說和非小說作品,由開源倡導者 Shawn Presser 於 2020 年發布。1

Books3 資料集除了包含將近 20 萬本書籍,涵蓋廣泛的題材和主題外,也收錄了許多主要出版商及著名作家的作品,為訓練人工智慧模型提供了豐富的文字資料。然而,Books3 的內容卻因其來源備受爭議。

raw-image

Image: Flickr (CC BY 2.0 DEED)

事實上,Shawn Presser 很早就懷疑 OpenAI 使用的訓練資料來自盜版書籍的天堂「影子圖書館」(shadow library)。許多人也依據OpenAI所發表的論文推測,GPT-3的訓練資料除了著作權已過期的圖書合集(Books1)外,還有來自「創世紀圖書館」 (Library Genesis)或 Bibliotik 等影子圖書館的盜版書籍。隨著 OpenAI 等 AI 巨頭對用於訓練模型的資料集內容越來越守口如瓶,也令人質疑如此缺乏透明度的原因,極可能是因為使用了未經授權的資料。

Shawn Presser 認為,如果像 Meta、OpenAI 這樣的大公司都可以不負責任地利用大量資料,甚至是被著作權保護的內容,那麼公眾也應該可以使用,以避免 AI 技術被科技巨頭所壟斷。所以他創造了一個可以開放所有人取得的資料集,也就是 Books3,這與他過去所推動的開放原始碼計畫(Open source project),宗旨是一致的,都是強調合作、透明和自由獲取技術。2

Shawn Presser 在資料歸檔組織「The Eye」找到了影子圖書館 Bibliotik 的 BT 伺服器(BitTorrent tracker)連結,並下載了將近 20 萬本書籍,多數是近20年的作品(換句話說,都仍然被著作權所保護)。他利用 OCR 技術(光學字元辨識,Optical Character Recognition)將書籍轉換為.txt 的純文字檔案後,仿造 OpenAI 神秘的 Books1 和 Books2 資料集,命名為Books3,並成立了非營利的 AI 研究組織 EleutherAI,在 2020 年 10 月將 Books3 作為 AI 訓練資料集「The Pile」的一部分發布(The Pile 是由開源研究小組 EleutherAI 開發的 22 個資料集所組成)。EleutherAI 也使用 The Pile 和其他資料集來訓練自己的 AI 模型 GPT-J,以與當時 OpenAI 的 GPT3 競爭。同樣使用 The Pile 資料集的還有 Meta 的 LLaMA 模型等。3

儘管丹麥反盜版組織「Rights Alliance」依照數位千禧年著作權法(Digital Millennium Copyright Act, DMCA)提交通知,成功讓 Books3 從 The Eye 及其他託管網站被刪除,但這並沒有徹底消除網路上的資料集,因為研究人員仍在使用該資料集的副本。4

Shawn Presser 也仍然持續發布新的 Books3 下載連結,讓其他人可以訓練自己的 AI 模型,打破由 OpenAI、Google 等大型企業所壟斷的局面。他曾在採訪中說道:

「唯一能夠複製像 ChatGPT 這樣的模型的方法,就是創建像 Books3 這樣的資料集」

「每家營利公司都會暗中這麼做,不會把資料集公開給大眾……沒有 Books3,我們將生活在一個除了 OpenAI 和其他數十億美元的公司之外沒有人能夠存取那些書籍的世界,這意味著你無法製作自己的 ChatGPT。沒有人能夠做到。只有數十億美元的公司才有資源去做這件事。」

Books3 的使用者之一 Meta 已經因為使用了 Books3 而面臨集體訴訟。而一些公司,如曾經使用 Books3 訓練 BloombergGPT 的彭博社,已經聲明他們未來不會再使用 Books3。5 另一個潛在的發展路線是建立合法授權的資料集。例如美國作家協會(Authors Guild)也曾與 EleutherAI 討論建立 The Pile 的授權版本,以確保 AI 公司只使用合法獲得的資料集,並對作者進行補償。6

留言
avatar-img
留言分享你的想法!
avatar-img
IP聊天室
2會員
131內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
IP聊天室的其他內容
2024/03/31
在 1999 年,一個名為 Napster 的公司橫空出世,年輕的創業者 Sean Parker 和 Shawn Fanning,利用點對點網路(Peer-to-Peer, P2P)共享技術,讓全球用戶能夠輕易地共享和下載音樂檔案,引起了巨大的轟動,並迅速顛覆了全球音樂產業。 Napster
Thumbnail
2024/03/31
在 1999 年,一個名為 Napster 的公司橫空出世,年輕的創業者 Sean Parker 和 Shawn Fanning,利用點對點網路(Peer-to-Peer, P2P)共享技術,讓全球用戶能夠輕易地共享和下載音樂檔案,引起了巨大的轟動,並迅速顛覆了全球音樂產業。 Napster
Thumbnail
2024/03/31
文字與資料探勘(Text and Data Mining,TDM)是指自動化分析大量的資料,以識別出其中的模式或規律,以萃取出有價值的資訊。TDM 結合了自然語言處理(NLP)、機器學習(ML)、統計分析等技術,能夠處理和分析大量的非結構化數據,以發現隱藏的趨勢、模式和關聯性。從學術研究到商業情報,
Thumbnail
2024/03/31
文字與資料探勘(Text and Data Mining,TDM)是指自動化分析大量的資料,以識別出其中的模式或規律,以萃取出有價值的資訊。TDM 結合了自然語言處理(NLP)、機器學習(ML)、統計分析等技術,能夠處理和分析大量的非結構化數據,以發現隱藏的趨勢、模式和關聯性。從學術研究到商業情報,
Thumbnail
2024/03/13
攝影著作權有著曲折而漫長的歷史。從最初被視為無法受到保護,到現今獲得與其他藝術作品相同的法律地位,攝影著作權的發展過程反映了社會對攝影的認知演變,以及立法者因應新興技術所做出的回應。 攝影誕生之初:被視為機械複製品 1826 年,法國發明家尼埃普斯(Nicéphore Niépce)在錫板上製作
Thumbnail
2024/03/13
攝影著作權有著曲折而漫長的歷史。從最初被視為無法受到保護,到現今獲得與其他藝術作品相同的法律地位,攝影著作權的發展過程反映了社會對攝影的認知演變,以及立法者因應新興技術所做出的回應。 攝影誕生之初:被視為機械複製品 1826 年,法國發明家尼埃普斯(Nicéphore Niépce)在錫板上製作
Thumbnail
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News