「訓練資料集 Infiniset」是什麼？

袁如陵專利師

2025/08/03 更新2024/04/18 發佈閱讀 2 分鐘

Infiniset 資料集包含了約 1.56 兆個單詞，大小為 750 GB。這個資料集的組成非常多樣化，涵蓋了不同形式和主題的內容，例如技術性主題到日常對話，讓 LaMDA 模型能夠學習廣泛的知識，並具備靈活應對各種對話的能力。Infiniset 資料集被用於訓練 Google 的 LaMDA（Language Model for Dialogue Applications）語言模型。

raw-image

Source: PxHere CC0 Public Domain

Infiniset 的資料來源組成如下：

比重內容50%公開論壇的對話資料，被懷疑來自 Reddit 及 Stack Overflow12.5%Google 在 2020 年開發的 C4（Colossal Clean Crawled Corpus）資料集，源頭為基於 Common Crawl 的網路爬蟲資料12.5%英語維基百科12.5%程式設計相關網站（如問答網站、教學等）的程式碼文件6.25%英語網頁文件6.25%非英語網頁文件

值得注意的是，除了 C4 資料集與維基百科外，Infiniset 資料集還有 75% 的內容來源並不明確，Google 只籠統地將它們描述為「英語和非英語網頁文件」以及「公開論壇對話」，並未透露具體的網站來源。

另外， Google 子公司 DeepMind 也曾建立 MassiveWeb 資料集，其中包含來自 Reddit、Facebook、Quora、YouTube、Medium、Stack Overflow 的資料，但不清楚是否與 Infiniset 資料集及 LaMDA 模型的訓練有所關聯。

留言

留言分享你的想法！

IP聊天室

2會員

133內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

IP聊天室的其他內容

2024/04/19

Meta 使用了那些資料來訓練 Llama 2 模型？

Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數，其他語言則皆低於 0.2%，中文則佔了 0.13%。擷取自 Meta 所發布之論文 Llama 2: Open Foundation and Fine-Tuned Chat Models

2024/04/19

Meta 使用了那些資料來訓練 Llama 2 模型？

Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數，其他語言則皆低於 0.2%，中文則佔了 0.13%。擷取自 Meta 所發布之論文 Llama 2: Open Foundation and Fine-Tuned Chat Models

2024/04/18

「C4 資料集」是什麼？

C4（Colossal Clean Crawled Corpus）資料集是由 Google 所發佈，用於訓練人工智慧（AI）模型的大型資料集，其中包含了大量的網路文字資料，讓演算法能夠更好地理解人類的語言並進行自然語言處理（Natural Language Processing，NLP）。C4 資料

2024/04/18

「C4 資料集」是什麼？

C4（Colossal Clean Crawled Corpus）資料集是由 Google 所發佈，用於訓練人工智慧（AI）模型的大型資料集，其中包含了大量的網路文字資料，讓演算法能夠更好地理解人類的語言並進行自然語言處理（Natural Language Processing，NLP）。C4 資料

2024/04/18

「訓練資料集 WebText2」是什麼？

WebText2 是由 OpenAI 公司所建立的一個大型資料集，用來訓練他們的 GPT-3 語言模型。WebText2 是 WebText 資料集的延伸版本，而 WebText 是用來訓練 GPT-2 模型的資料集。 Image: Flickr (CC BY 2.0 DEED) WebTe

2024/04/18

「訓練資料集 WebText2」是什麼？

WebText2 是由 OpenAI 公司所建立的一個大型資料集，用來訓練他們的 GPT-3 語言模型。WebText2 是 WebText 資料集的延伸版本，而 WebText 是用來訓練 GPT-2 模型的資料集。 Image: Flickr (CC BY 2.0 DEED) WebTe

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI#ai#promptengineering

2024/08/05

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 88

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 88

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News