「C4 資料集」是什麼？

2025/08/03 更新2024/04/18 發佈閱讀 4 分鐘

C4（Colossal Clean Crawled Corpus）資料集是由 Google 所發佈，用於訓練人工智慧（AI）模型的大型資料集，其中包含了大量的網路文字資料，讓演算法能夠更好地理解人類的語言並進行自然語言處理（Natural Language Processing，NLP）。C4 資料集曾被用來訓練 Google 的 LaMDA 和 Meta的 LLaMA 大型語言模型。

Source: PxHere CC0 Public Domain

C4 資料集源自於 Common Crawl，而 Common Crawl 則包含數十億個藉由網路爬蟲抓取的網頁資訊。由於 Common Crawl 資料集的內容十分龐雜，C4 資料集被定義為僅包含英文內容，所以 Google 從 Common Crawl 中擷取約 750GB 的英文內容，涵蓋了大量的網頁、部落格、新聞文章等內容。如果網頁不是以英文撰寫，就會被捨棄。此外，Google 還使用許多過濾器來排除不想要的內容，例如：

沒有以英文句點結束的句子。
少於 3 個詞或 5 個句子的文件。
包含「佔位符」（Placeholder）文本，例如「亂數假文」（Lorem ipsum）的文件。
有不當詞彙的文件。（詞彙列表來自「List of Dirty, Naughty, Obscene, or Otherwise Bad Words」）

根據統計，C4 資料集的前25大來源網站依序為：

patents.google.com
en.wikipedia.org
en.m.wikipedia.org
www.nytimes.com
www.latimes.com
www.theguardian.com
journals.plos.org
www.forbes.com
www.huffpost.com
patents.com
www.scribd.com
www.washingtonpost.com
www.fool.com
ipfs.io
www.frontiersin.org
www.businessinsider.com
www.chicagotribune.com
www.booking.com
www.theatlantic.com
link.springer.com
www.aljazeera.com
www.kickstarter.com
caselaw.findlaw.com
www.ncbi.nlm.nih.gov
www.npr.org

除了以提供專利資訊的網站 patents.google.com 排名第一外，Wikipedia、新聞、期刊網站也都榜上有名。此外，.gov 和 .mil 的政府和軍事網域在資料集中的佔比也不低。值得注意的是，由於有 51.3% 的網頁是位於在美國的伺服器上，所以一般認為 C4 資料集雖然是只包含英文，但很難代表整個英文世界的資訊。

留言

留言分享你的想法！

IP聊天室

2會員

131內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

IP聊天室的其他內容

2024/04/18

「訓練資料集 WebText2」是什麼？

WebText2 是由 OpenAI 公司所建立的一個大型資料集，用來訓練他們的 GPT-3 語言模型。WebText2 是 WebText 資料集的延伸版本，而 WebText 是用來訓練 GPT-2 模型的資料集。 Image: Flickr (CC BY 2.0 DEED) WebTe

2024/04/18

「訓練資料集 WebText2」是什麼？

2024/04/18

「古騰堡計畫」是什麼？

「古騰堡計畫」（Project Gutenberg）是由美國人麥克．哈特（Michael Hart）於 1971 年發起的一項非營利計畫，旨在將各種語言的經典作品數位化，製作成免費的電子書供大眾下載閱讀。它是世界上最早的數位圖書館，致力於電子書的創作與發行。 Image: Flickr 古騰

2024/04/18

「古騰堡計畫」是什麼？

2024/04/18

「訓練資料集 Books1」是什麼？

OpenAI 在 2020 年的論文中提到，GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫（Project Gutenberg）的完整內容，包含約 7 萬本書籍。 Image: Flickr (CC BY 2.0 DE

2024/04/18

「訓練資料集 Books1」是什麼？

看更多

你可能也想看

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28