Common Crawl 是一個非營利組織,目標是建立一個大規模、公開可用的網路爬蟲資料集,以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。

自 2008 年開始,Common Crawl 的網路爬蟲會依據網址清單抓取網頁內容。抓取的資料包括網頁的 HTML 原始碼、純文字內容和相關的中繼資料。抓取的網頁資料會被處理成不同的格式,並上傳到 Amazon Web Services(AWS)以及全球多個學術雲端平台上,開放任何人免費存取和分析。
Common Crawl 每個月都會抓取一次網頁內容,一次抓取約 30-45 億個網址。每次發布的資料集會包含數百 TB 的內容,涵蓋數千萬個網域。Common Crawl 的爬蟲也會定期抓取先前爬過的網址,更新過期的內容,或是新納入發現的網址以擴大資料集的涵蓋範圍。
Common Crawl 的資料主要被用於學術研究,例如自然語言處理(Natural Language Processing,NLP)、機器翻譯等。此外,由於 Common Crawl 存有長期的網路資料,為網路演化研究提供了寶貴的縱向資料。 研究人員可以利用 Common Crawl 的資料來分析網路內容和結構的變化,探索不同時期的文化趨勢和社會變遷,所以是非常重要的參考資源。
儘管 Common Crawl 對於學術研究有著重要的貢獻,但也存在許多缺點和侷限性:
- Common Crawl 的資料並不能代表「整個網際網路」。儘管號稱涵蓋了各種語言,但根據 2023 年 4 月的統計,英語內容的比重極高,約佔 46%,其後的德文、俄文、日文、法文、西班牙文、中文、義大利文,占比都低於 6%。。此外,Common Crawl 對不同地區網站的覆蓋率也不平衡,這可能導致資料的代表性不足。
- 無法覆蓋到一些重要網域,例如社交媒體平台 Facebook,以及一些主流新聞網站如《紐約時報》(The New York Times)。
- 資料品質參差不齊,常包含大量的垃圾訊息和不實內容。由於Common Crawl 希望資料可用於許多不同的情境,包括仇恨言論的研究,所以不會刻意刪除有問題的內容,因此需要耗費大量的時間和精力對資料進行清理和篩選。
- 通常一個月才爬取一次網頁,無法反應最新的內容變化,對一些時效性要求較高的應用,如即時新聞分析等,Common Crawl 的資料可能就不太適用。
- Common Crawl 的資料量為 PB 等級,對計算和儲存資源的要求很高。
- 雖然Common Crawl 的爬蟲會遵守 robots.txt 協定,不去抓取那些不願被爬取的網站。但許多網路上的公開內容仍然受著作權法保護,Common Crawl 的複製行為事實上是遊走在法律的灰色地帶。
在生成式人工智慧興起之前,Common Crawl 在著作權方面似乎並未引發太多爭議。Common Crawl 在蒐集有著作權的內容資料時,認為這屬於合理使用(fair use),因為它的目的是建立一個用於研究和教育的資料集,而非商業用途。根據報導,目前 Common Crawl 是由 Wikimedia 及一些 Google 的前員工在運作。
不過隨著 AI 技術的發展,特別是大型語言模型(LLM)的出現,使 Common Crawl 的角色開始發生變化。許多 AI 公司和研究機構開始使用 Common Crawl 的資料來訓練 LLM,而有時這些模型的輸出內容會非常接近原始的著作權內容,引起爭議。根據Mozilla的研究,2019-2023年之間發布的 LLM 中,有 64% 都使用過 Common Crawl 進行訓練。舉例來說,OpenAI 的 GPT-3 就有 60% 的訓練資料來自 Common Crawl。
在《紐約時報》針對 OpenAI 和微軟的著作權侵權訴訟中,就強調OpenAI 推出 ChatGPT 時,Common Crawl 中很大一部分的資料來自《紐約時報》,因此《紐約時報》的內容很可能也佔 GPT-3 訓練資料的很大一部分。在起訴書中的一個網頁快照中,顯示《紐約時報》是被 Common Crawl 抓取量第三多的網站,僅次於維基百科(Wikipedia)和美國專利資料庫。《紐約時報》認為,OpenAI 和 Microsoft 的做法侵犯了其著作權,並剝奪了其訂閱、授權、廣告和聯盟行銷的收入。目前還無法知道訴訟的結果會是如何。
如以上所述,Common Crawl 是一個非常有價值的開放資料集,雖然有覆蓋率、品質、多樣性、時效性和等缺點,但也為學術研究做出了重大貢獻,並成為 AI發展的重要基礎。隨著 AI 商業化的加速,Common Crawl 的定位和影響也發生了變化,其中涉及的法律和道德問題變得更加複雜,值得持續關注。