「訓練資料集 WebText2」是什麼？

袁如陵專利師

2025/08/03 更新2024/04/18 發佈閱讀 2 分鐘

WebText2 是由 OpenAI 公司所建立的一個大型資料集，用來訓練他們的 GPT-3 語言模型。WebText2 是 WebText 資料集的延伸版本，而 WebText 是用來訓練 GPT-2 模型的資料集。

raw-image

Image: Flickr (CC BY 2.0 DEED)

WebText2 透過爬取問答網站「Reddit」，篩選出上得到至少 3 個正向評價的文章連結，來蒐集高品質的網頁內容。他們認為這個方法可以被用來判斷該連結的內容較為有趣、具教育意義或有娛樂效果。WebText2 的資料大小為 40GB，包含了超過 800 萬份文件。

WebText2 是 OpenAI 的內部資料集，目前尚未公開。但是有一個由 EleutherAI 社群建立的開源版本，稱為 OpenWebText2，其中包含了 1710 萬份文件。OpenWebText2 的爬蟲方式使用與 WebText2 相同，並涵蓋從 2005 年到 2020 年 4 月的所有 Reddit 文章。

留言

留言分享你的想法！

IP聊天室

3會員

141內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

IP聊天室的其他內容

2024/04/18

「古騰堡計畫」是什麼？

「古騰堡計畫」（Project Gutenberg）是由美國人麥克．哈特（Michael Hart）於 1971 年發起的一項非營利計畫，旨在將各種語言的經典作品數位化，製作成免費的電子書供大眾下載閱讀。它是世界上最早的數位圖書館，致力於電子書的創作與發行。 Image: Flickr 古騰

2024/04/18

「古騰堡計畫」是什麼？

「古騰堡計畫」（Project Gutenberg）是由美國人麥克．哈特（Michael Hart）於 1971 年發起的一項非營利計畫，旨在將各種語言的經典作品數位化，製作成免費的電子書供大眾下載閱讀。它是世界上最早的數位圖書館，致力於電子書的創作與發行。 Image: Flickr 古騰

2024/04/18

「訓練資料集 Books1」是什麼？

OpenAI 在 2020 年的論文中提到，GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫（Project Gutenberg）的完整內容，包含約 7 萬本書籍。 Image: Flickr (CC BY 2.0 DE

2024/04/18

「訓練資料集 Books1」是什麼？

OpenAI 在 2020 年的論文中提到，GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫（Project Gutenberg）的完整內容，包含約 7 萬本書籍。 Image: Flickr (CC BY 2.0 DE

2024/04/17

「Common Crawl 」是什麼？

Common Crawl 是一個非營利組織，目標是建立一個大規模、公開可用的網路爬蟲資料集，以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。 Source: Institutt for informatikk 自 2008 年開始，Common Crawl 的網路爬蟲會依據網址清

2024/04/17

「Common Crawl 」是什麼？

Common Crawl 是一個非營利組織，目標是建立一個大規模、公開可用的網路爬蟲資料集，以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。 Source: Institutt for informatikk 自 2008 年開始，Common Crawl 的網路爬蟲會依據網址清

你可能也想看

黛•Adele的生活隨筆

清爽果香系香水推薦｜以週四的輕快節奏，讓熱帶果香喚醒心裡那份自由｜Sunkronizo Playful Heart

Sunkronizo 的 Playful Heart 是一款帶著明亮果香與柔和木質調的甜感香水，特別適合星期四使用。前調活潑、尾韻沉靜，陪你從忙碌過渡到週末的輕鬆心情。適合喜歡果香、花果香調的女性，也很適合作為溫暖又有個性的送禮選擇。可於官網、Pinkoi 選購，11 月底起於臺中國家歌劇院寄售。

#香水#香水評論#試香

2025/11/25

黛•Adele的生活隨筆

清爽果香系香水推薦｜以週四的輕快節奏，讓熱帶果香喚醒心裡那份自由｜Sunkronizo Playful Heart

Sunkronizo 的 Playful Heart 是一款帶著明亮果香與柔和木質調的甜感香水，特別適合星期四使用。前調活潑、尾韻沉靜，陪你從忙碌過渡到週末的輕鬆心情。適合喜歡果香、花果香調的女性，也很適合作為溫暖又有個性的送禮選擇。可於官網、Pinkoi 選購，11 月底起於臺中國家歌劇院寄售。

#香水#香水評論#試香

2025/11/25

Alan Tseng的沙龍

超簡單! 一文理解如何使用私有大型語言模型LLM - Ollama＋Open WebUI篇

本文會教你如何以最簡單方式使用Ollama＋Open WebUI

#ollama#llm#大型語言模型

2024/07/19

Alan Tseng的沙龍

超簡單! 一文理解如何使用私有大型語言模型LLM - Ollama＋Open WebUI篇

本文會教你如何以最簡單方式使用Ollama＋Open WebUI

#ollama#llm#大型語言模型

2024/07/19

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI#ai#PromptEngineering

2024/06/15

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI#ai#PromptEngineering

2024/06/15

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

iBonnie_愛邦尼

語言模型初探

語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術，並提供了實際的應用參考點，幫助讀者深入理解自然語言處理的技術。

#模型#語言#輸入

2024/04/17

iBonnie_愛邦尼

語言模型初探

語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術，並提供了實際的應用參考點，幫助讀者深入理解自然語言處理的技術。

#模型#語言#輸入

2024/04/17

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

這篇文章介紹瞭如何利用生成式AI（GenAI）來提高學習效率，包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度，保持學術誠信，適當運用GenAI能大幅提升工作效率。

#學習#生成式AI#文章

2024/03/24

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

這篇文章介紹瞭如何利用生成式AI（GenAI）來提高學習效率，包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度，保持學術誠信，適當運用GenAI能大幅提升工作效率。

#學習#生成式AI#文章

2024/03/24

ezra.share.injoy

學習筆記【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

延續上週提到的，「有哪些不訓練模型的情況下，能夠強化語言模型的能力」，這堂課接續介紹其中第 3、4 個方法

#AI#生成式AI#學習

2024/03/10

ezra.share.injoy

學習筆記【生成式AI導論 2024】第4講：訓練不了人工智慧？你可以訓練你自己 (中) — 拆解問題與使用工具

延續上週提到的，「有哪些不訓練模型的情況下，能夠強化語言模型的能力」，這堂課接續介紹其中第 3、4 個方法

#AI#生成式AI#學習

2024/03/10

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News