C4(Colossal Clean Crawled Corpus)資料集是由 Google 所發佈,用於訓練人工智慧(AI)模型的大型資料集,其中包含了大量的網路文字資料,讓演算法能夠更好地理解人類的語言並進行自然語言處理(Natural Language Processing,NLP)。C4 資料集曾被用來訓練 Google 的 LaMDA 和 Meta的 LLaMA 大型語言模型。

C4 資料集源自於 Common Crawl,而 Common Crawl 則包含數十億個藉由網路爬蟲抓取的網頁資訊。由於 Common Crawl 資料集的內容十分龐雜,C4 資料集被定義為僅包含英文內容,所以 Google 從 Common Crawl 中擷取約 750GB 的英文內容,涵蓋了大量的網頁、部落格、新聞文章等內容。如果網頁不是以英文撰寫,就會被捨棄。此外,Google 還使用許多過濾器來排除不想要的內容,例如:
- 沒有以英文句點結束的句子。
- 少於 3 個詞或 5 個句子的文件。
- 包含「佔位符」(Placeholder)文本,例如「亂數假文」 (Lorem ipsum) 的文件。
- 有不當詞彙的文件。(詞彙列表來自「List of Dirty, Naughty, Obscene, or Otherwise Bad Words」)
根據統計,C4 資料集的前25大來源網站依序為:
- patents.google.com
- en.wikipedia.org
- en.m.wikipedia.org
- www.nytimes.com
- www.latimes.com
- www.theguardian.com
- journals.plos.org
- www.forbes.com
- www.huffpost.com
- patents.com
- www.scribd.com
- www.washingtonpost.com
- www.fool.com
- ipfs.io
- www.frontiersin.org
- www.businessinsider.com
- www.chicagotribune.com
- www.booking.com
- www.theatlantic.com
- link.springer.com
- www.aljazeera.com
- www.kickstarter.com
- caselaw.findlaw.com
- www.ncbi.nlm.nih.gov
- www.npr.org
除了以提供專利資訊的網站 patents.google.com 排名第一外,Wikipedia、新聞、期刊網站也都榜上有名。此外,.gov 和 .mil 的政府和軍事網域在資料集中的佔比也不低。值得注意的是,由於有 51.3% 的網頁是位於在美國的伺服器上,所以一般認為 C4 資料集雖然是只包含英文,但很難代表整個英文世界的資訊。