Infiniset 資料集包含了約 1.56 兆個單詞,大小為 750 GB。這個資料集的組成非常多樣化,涵蓋了不同形式和主題的內容,例如技術性主題到日常對話,讓 LaMDA 模型能夠學習廣泛的知識,並具備靈活應對各種對話的能力。Infiniset 資料集被用於訓練 Google 的 LaMDA(Language Model for Dialogue Applications)語言模型。

Infiniset 的資料來源組成如下:
比重內容50%公開論壇的對話資料,被懷疑來自 Reddit 及 Stack Overflow12.5%Google 在 2020 年開發的 C4(Colossal Clean Crawled Corpus)資料集,源頭為基於 Common Crawl 的網路爬蟲資料12.5%英語維基百科12.5%程式設計相關網站(如問答網站、教學等)的程式碼文件6.25%英語網頁文件6.25%非英語網頁文件
值得注意的是,除了 C4 資料集與維基百科外,Infiniset 資料集還有 75% 的內容來源並不明確,Google 只籠統地將它們描述為「英語和非英語網頁文件」以及「公開論壇對話」,並未透露具體的網站來源。
另外, Google 子公司 DeepMind 也曾建立 MassiveWeb 資料集,其中包含來自 Reddit、Facebook、Quora、YouTube、Medium、Stack Overflow 的資料,但不清楚是否與 Infiniset 資料集及 LaMDA 模型的訓練有所關聯。