OpenAI 的「訓練資料集 Books2」 是什麼?

更新於 發佈於 閱讀時間約 1 分鐘


Books2 是 OpenAI 用於訓練其大型語言模型的關鍵資料集(Dataset)之一。根據 OpenAI 公開透露的少量資訊,它是為一個「基於網路的書籍語料庫」,包含大量的書名和文字內容。1

raw-image

Image: Flickr (CC BY 2.0 DEED)

雖然 OpenAI 沒有提供太多細節,但根據最初 GPT-3 論文中提到的一些資訊,可以估計出 Books2 資料集可能包含約 550 億個 token,約佔 GPT-3 總訓練資料的 8%。外界曾分析估計 Books2 總共包含大約 29萬本書籍2

事實上,雖然 OpenAI 不公布書籍和文本的具體來源,且稱這些資料是私有的內容3。然而,而能夠提供如此多書籍內容的線上資較集,來源並不多,所以許多 AI 研究人員懷疑,它的書籍可能來自於許多已知儲存大量盜版電子書的「影子圖書館」網站,例如創世紀圖書館(Library Genesis,LibGen)、Z-Library、Bibliotik 等4,因為這些是為數不多擁有 29 萬本書籍的地方。

由於OpenAI 在訓練資料的來源上缺乏透明度,許多知名作者提起集體訴訟,指控 OpenAI 在未經許可的情況下,從盜版網站獲取有著作權的作品來訓練其模型,OpenAI 則沒有證實或否認這些指控。

avatar-img
0會員
3內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
留言
avatar-img
留言分享你的想法!

































































略懂的IP聊天室 的其他內容
本案為一起專利侵權訴訟,法院判決被告勝利(產品沒有侵權專利),勝訴方之訴訟代理人為魏意庭律師。 本案原告士覺有限公司擁有台灣新型專利 M513550,是關於手機的立架。如下圖,將支撐板彎折後,可以拿來架手機。因為支撐板內有磁鐵,所以可以調整手機架的角度(市面上有蠻多類似產品)。 原告的網站販售不
本案為一起專利侵權訴訟,法院判決被告勝利(產品沒有侵權專利),勝訴方之訴訟代理人為魏意庭律師。 本案原告士覺有限公司擁有台灣新型專利 M513550,是關於手機的立架。如下圖,將支撐板彎折後,可以拿來架手機。因為支撐板內有磁鐵,所以可以調整手機架的角度(市面上有蠻多類似產品)。 原告的網站販售不
你可能也想看
Google News 追蹤
Thumbnail
川普2.0的關稅與貿易政策,表面看似反覆無常,實則圍繞著幾個核心目標:扭轉貿易不公、推動美國再工業化、確保戰略自主,以及貫徹「美國優先」原則。本文深入剖析其背後的一致性邏輯、長期戰略意義,以及對全球產業鏈的影響,並探討不同產業的贏家與輸家。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
這個頻道將提供以下服務: 深入介紹各種Machine Learning技術 深入介紹各種Deep Learning技術 深入介紹各種Reinforcement Learning技術 深入介紹Probabilistic Graphical Model技術 不定時提供讀書筆記 讓我們一起在未
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
這篇文章介紹了 12 個超酷的免費 AI 工具,讓你讀書事半功倍,成績突飛猛進!從課堂筆記到科研論文,這些 AI 工具都能助你提高效率,增進學習成效。
Thumbnail
川普2.0的關稅與貿易政策,表面看似反覆無常,實則圍繞著幾個核心目標:扭轉貿易不公、推動美國再工業化、確保戰略自主,以及貫徹「美國優先」原則。本文深入剖析其背後的一致性邏輯、長期戰略意義,以及對全球產業鏈的影響,並探討不同產業的贏家與輸家。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
這篇介紹我看過的AI書籍中,覺得很棒的書單,我按照不同的AI作法來分類: Machine Learning: Pattern Recognition and Machine Learning, Christopher M. Bishop, 2011 The Elements of Statis
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
這個頻道將提供以下服務: 深入介紹各種Machine Learning技術 深入介紹各種Deep Learning技術 深入介紹各種Reinforcement Learning技術 深入介紹Probabilistic Graphical Model技術 不定時提供讀書筆記 讓我們一起在未
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
這篇文章介紹了 12 個超酷的免費 AI 工具,讓你讀書事半功倍,成績突飛猛進!從課堂筆記到科研論文,這些 AI 工具都能助你提高效率,增進學習成效。