「Common Crawl 」是什麼？

2025/08/03 更新2024/04/17 發佈閱讀 6 分鐘

Common Crawl 是一個非營利組織，目標是建立一個大規模、公開可用的網路爬蟲資料集，以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。

自 2008 年開始，Common Crawl 的網路爬蟲會依據網址清單抓取網頁內容。抓取的資料包括網頁的 HTML 原始碼、純文字內容和相關的中繼資料。抓取的網頁資料會被處理成不同的格式，並上傳到 Amazon Web Services（AWS）以及全球多個學術雲端平台上，開放任何人免費存取和分析。

Common Crawl 每個月都會抓取一次網頁內容，一次抓取約 30-45 億個網址。每次發布的資料集會包含數百 TB 的內容，涵蓋數千萬個網域。Common Crawl 的爬蟲也會定期抓取先前爬過的網址，更新過期的內容，或是新納入發現的網址以擴大資料集的涵蓋範圍。

Common Crawl 的資料主要被用於學術研究，例如自然語言處理（Natural Language Processing，NLP）、機器翻譯等。此外，由於 Common Crawl 存有長期的網路資料，為網路演化研究提供了寶貴的縱向資料。研究人員可以利用 Common Crawl 的資料來分析網路內容和結構的變化，探索不同時期的文化趨勢和社會變遷，所以是非常重要的參考資源。

儘管 Common Crawl 對於學術研究有著重要的貢獻，但也存在許多缺點和侷限性：

Common Crawl 的資料並不能代表「整個網際網路」。儘管號稱涵蓋了各種語言，但根據 2023 年 4 月的統計，英語內容的比重極高，約佔 46%，其後的德文、俄文、日文、法文、西班牙文、中文、義大利文，占比都低於 6%。。此外，Common Crawl 對不同地區網站的覆蓋率也不平衡，這可能導致資料的代表性不足。
無法覆蓋到一些重要網域，例如社交媒體平台 Facebook，以及一些主流新聞網站如《紐約時報》（The New York Times）。
資料品質參差不齊，常包含大量的垃圾訊息和不實內容。由於Common Crawl 希望資料可用於許多不同的情境，包括仇恨言論的研究，所以不會刻意刪除有問題的內容，因此需要耗費大量的時間和精力對資料進行清理和篩選。
通常一個月才爬取一次網頁，無法反應最新的內容變化，對一些時效性要求較高的應用，如即時新聞分析等，Common Crawl 的資料可能就不太適用。
Common Crawl 的資料量為 PB 等級，對計算和儲存資源的要求很高。
雖然Common Crawl 的爬蟲會遵守 robots.txt 協定，不去抓取那些不願被爬取的網站。但許多網路上的公開內容仍然受著作權法保護，Common Crawl 的複製行為事實上是遊走在法律的灰色地帶。

在生成式人工智慧興起之前，Common Crawl 在著作權方面似乎並未引發太多爭議。Common Crawl 在蒐集有著作權的內容資料時，認為這屬於合理使用（fair use），因為它的目的是建立一個用於研究和教育的資料集，而非商業用途。根據報導，目前 Common Crawl 是由 Wikimedia 及一些 Google 的前員工在運作。

不過隨著 AI 技術的發展，特別是大型語言模型（LLM）的出現，使 Common Crawl 的角色開始發生變化。許多 AI 公司和研究機構開始使用 Common Crawl 的資料來訓練 LLM，而有時這些模型的輸出內容會非常接近原始的著作權內容，引起爭議。根據Mozilla的研究，2019-2023年之間發布的 LLM 中，有 64% 都使用過 Common Crawl 進行訓練。舉例來說，OpenAI 的 GPT-3 就有 60% 的訓練資料來自 Common Crawl。

在《紐約時報》針對 OpenAI 和微軟的著作權侵權訴訟中，就強調OpenAI 推出 ChatGPT 時，Common Crawl 中很大一部分的資料來自《紐約時報》，因此《紐約時報》的內容很可能也佔 GPT-3 訓練資料的很大一部分。在起訴書中的一個網頁快照中，顯示《紐約時報》是被 Common Crawl 抓取量第三多的網站，僅次於維基百科（Wikipedia）和美國專利資料庫。《紐約時報》認為，OpenAI 和 Microsoft 的做法侵犯了其著作權，並剝奪了其訂閱、授權、廣告和聯盟行銷的收入。目前還無法知道訴訟的結果會是如何。

如以上所述，Common Crawl 是一個非常有價值的開放資料集，雖然有覆蓋率、品質、多樣性、時效性和等缺點，但也為學術研究做出了重大貢獻，並成為 AI發展的重要基礎。隨著 AI 商業化的加速，Common Crawl 的定位和影響也發生了變化，其中涉及的法律和道德問題變得更加複雜，值得持續關注。

留言

留言分享你的想法！

IP聊天室

2會員

131內容數

喜愛學東學西，總說略懂略懂。希望簡單的文字，讓更多人了解智慧財產權。相信觀點的碰撞，才能帶來成長。

IP聊天室的其他內容

2024/04/12

[美國著作權法] 轉化性使用（Transformative Use）是什麼？

「轉化性使用」（Transformative Use）是美國著作權法中「合理使用（Fair Use）」原則下的一個重要概念。美國最高法院在 1994 年的 Campbell 一案中，首次採納了轉化性使用的概念：「不只是取代原著作，而是有其他目的或不同性質，對原著作增加新的表達、意義或訊息，而改變

2024/04/12

[美國著作權法] 轉化性使用（Transformative Use）是什麼？

2024/04/11

CNET 文章醜聞：媒體應用 AI 的潛在風險

在2023年初，知名科技新聞網站 CNET 因大量使用人工智慧（AI）產生的文章而引發爭議。據 Futurism 報導，CNET 自 2022 年 11 月起，開始在網站上發布由 AI 撰寫的文章（大多與理財相關），並以「CNET Money Staff」作為署名發表。 Image

2024/04/11

CNET 文章醜聞：媒體應用 AI 的潛在風險

2024/04/01

「訓練資料集 Books3」是什麼？

生成式人工智慧（AI）模型的訓練，需要大量、多元的文字內容，尤其是書籍，對於訓練模型的效果最好。Books3 是一個多樣化的訓練用資料集（dataset），包含小說和非小說作品，由開源倡導者 Shawn Presser 於 2020 年發布。1 Books3 資料集除了包含將近 20 萬本書籍，涵

2024/04/01

「訓練資料集 Books3」是什麼？

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15