「C4 資料集」是什麼?

更新 發佈閱讀 4 分鐘

C4(Colossal Clean Crawled Corpus)資料集是由 Google 所發佈,用於訓練人工智慧(AI)模型的大型資料集,其中包含了大量的網路文字資料,讓演算法能夠更好地理解人類的語言並進行自然語言處理(Natural Language Processing,NLP)。C4 資料集曾被用來訓練 Google 的 LaMDA 和 Meta的 LLaMA 大型語言模型

raw-image

Source: PxHere CC0 Public Domain

C4 資料集源自於 Common Crawl,而 Common Crawl 則包含數十億個藉由網路爬蟲抓取的網頁資訊。由於 Common Crawl 資料集的內容十分龐雜,C4 資料集被定義為僅包含英文內容,所以 Google 從 Common Crawl 中擷取約 750GB 的英文內容,涵蓋了大量的網頁、部落格、新聞文章等內容。如果網頁不是以英文撰寫,就會被捨棄。此外,Google 還使用許多過濾器來排除不想要的內容,例如:

  • 沒有以英文句點結束的句子。
  • 少於 3 個詞或 5 個句子的文件。
  • 包含「佔位符」(Placeholder)文本,例如「亂數假文」 (Lorem ipsum) 的文件。
  • 有不當詞彙的文件。(詞彙列表來自「List of Dirty, Naughty, Obscene, or Otherwise Bad Words」)

根據統計,C4 資料集的前25大來源網站依序為:

  1. patents.google.com
  2. en.wikipedia.org
  3. en.m.wikipedia.org
  4. www.nytimes.com
  5. www.latimes.com
  6. www.theguardian.com
  7. journals.plos.org
  8. www.forbes.com
  9. www.huffpost.com
  10. patents.com
  11. www.scribd.com
  12. www.washingtonpost.com
  13. www.fool.com
  14. ipfs.io
  15. www.frontiersin.org
  16. www.businessinsider.com
  17. www.chicagotribune.com
  18. www.booking.com
  19. www.theatlantic.com
  20. link.springer.com
  21. www.aljazeera.com
  22. www.kickstarter.com
  23. caselaw.findlaw.com
  24. www.ncbi.nlm.nih.gov
  25. www.npr.org

除了以提供專利資訊的網站 patents.google.com 排名第一外,Wikipedia、新聞、期刊網站也都榜上有名。此外,.gov 和 .mil 的政府和軍事網域在資料集中的佔比也不低。值得注意的是,由於有 51.3% 的網頁是位於在美國的伺服器上,所以一般認為 C4 資料集雖然是只包含英文,但很難代表整個英文世界的資訊。

留言
avatar-img
留言分享你的想法!
avatar-img
IP聊天室
2會員
131內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
IP聊天室的其他內容
2024/04/18
WebText2 是由 OpenAI 公司所建立的一個大型資料集,用來訓練他們的 GPT-3 語言模型。WebText2 是 WebText 資料集的延伸版本,而 WebText 是用來訓練 GPT-2 模型的資料集。 Image: Flickr (CC BY 2.0 DEED) WebTe
Thumbnail
2024/04/18
WebText2 是由 OpenAI 公司所建立的一個大型資料集,用來訓練他們的 GPT-3 語言模型。WebText2 是 WebText 資料集的延伸版本,而 WebText 是用來訓練 GPT-2 模型的資料集。 Image: Flickr (CC BY 2.0 DEED) WebTe
Thumbnail
2024/04/18
「古騰堡計畫」(Project Gutenberg)是由美國人麥克.哈特(Michael Hart)於 1971 年發起的一項非營利計畫,旨在將各種語言的經典作品數位化,製作成免費的電子書供大眾下載閱讀。它是世界上最早的數位圖書館,致力於電子書的創作與發行。 Image: Flickr 古騰
Thumbnail
2024/04/18
「古騰堡計畫」(Project Gutenberg)是由美國人麥克.哈特(Michael Hart)於 1971 年發起的一項非營利計畫,旨在將各種語言的經典作品數位化,製作成免費的電子書供大眾下載閱讀。它是世界上最早的數位圖書館,致力於電子書的創作與發行。 Image: Flickr 古騰
Thumbnail
2024/04/18
OpenAI 在 2020 年的論文中提到,GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫(Project Gutenberg)的完整內容,包含約 7 萬本書籍。 Image: Flickr (CC BY 2.0 DE
Thumbnail
2024/04/18
OpenAI 在 2020 年的論文中提到,GPT-3 的訓練資料包含兩個書籍資料集 Books1 和 Books2。而許多研究人員推測Books1很可能是古騰堡計畫(Project Gutenberg)的完整內容,包含約 7 萬本書籍。 Image: Flickr (CC BY 2.0 DE
Thumbnail
看更多
你可能也想看
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡(GNN),並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化,包括引入批量標準化和獨立的消息傳遞層,調整Dropout和聚合函數,顯著提高了模型的分類準確率。實驗結果表明,經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
GNN發展背景 傳統的深度學習模型如在計算機視覺(CV)和自然語言處理(NLP)領域中極為成功,主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構,例如影像是由有序的像素點組成。然而,在真實世界中,許多數據是非結構化的,如化合物結構(原子和分子)。這些數據雖然具有一定的規則性,
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
本文介紹了如何使用資料樞紐分析的功能來整理所需的資料,並設定圖表的中文字型,最後提供了繪圖的程式碼範例。
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News