WebText2 是由 OpenAI 公司所建立的一個大型資料集,用來訓練他們的 GPT-3 語言模型。WebText2 是 WebText 資料集的延伸版本,而 WebText 是用來訓練 GPT-2 模型的資料集。

WebText2 透過爬取問答網站「Reddit」,篩選出上得到至少 3 個正向評價的文章連結,來蒐集高品質的網頁內容。他們認為這個方法可以被用來判斷該連結的內容較為有趣、具教育意義或有娛樂效果。WebText2 的資料大小為 40GB,包含了超過 800 萬份文件。
WebText2 是 OpenAI 的內部資料集,目前尚未公開。但是有一個由 EleutherAI 社群建立的開源版本,稱為 OpenWebText2,其中包含了 1710 萬份文件。OpenWebText2 的爬蟲方式使用與 WebText2 相同,並涵蓋從 2005 年到 2020 年 4 月的所有 Reddit 文章。























