「Common Crawl 」是什麼?

更新於 發佈於 閱讀時間約 6 分鐘

Common Crawl 是一個非營利組織,目標是建立一個大規模、公開可用的網路爬蟲資料集,以便研究人員、開發者和公眾可以搜尋網路上從過去到現在的資訊。

raw-image

Source: Institutt for informatikk

自 2008 年開始,Common Crawl 的網路爬蟲會依據網址清單抓取網頁內容。抓取的資料包括網頁的 HTML 原始碼、純文字內容和相關的中繼資料。抓取的網頁資料會被處理成不同的格式,並上傳到 Amazon Web Services(AWS)以及全球多個學術雲端平台上,開放任何人免費存取和分析。

Common Crawl 每個月都會抓取一次網頁內容,一次抓取約 30-45 億個網址。每次發布的資料集會包含數百 TB 的內容,涵蓋數千萬個網域。Common Crawl 的爬蟲也會定期抓取先前爬過的網址,更新過期的內容,或是新納入發現的網址以擴大資料集的涵蓋範圍。

Common Crawl 的資料主要被用於學術研究,例如自然語言處理(Natural Language Processing,NLP)、機器翻譯等。此外,由於 Common Crawl 存有長期的網路資料,為網路演化研究提供了寶貴的縱向資料。 研究人員可以利用 Common Crawl 的資料來分析網路內容和結構的變化,探索不同時期的文化趨勢和社會變遷,所以是非常重要的參考資源。

儘管 Common Crawl 對於學術研究有著重要的貢獻,但也存在許多缺點和侷限性:

  • Common Crawl 的資料並不能代表「整個網際網路」。儘管號稱涵蓋了各種語言,但根據 2023 年 4 月的統計,英語內容的比重極高,約佔 46%,其後的德文、俄文、日文、法文、西班牙文、中文、義大利文,占比都低於 6%。。此外,Common Crawl 對不同地區網站的覆蓋率也不平衡,這可能導致資料的代表性不足。
  • 無法覆蓋到一些重要網域,例如社交媒體平台 Facebook,以及一些主流新聞網站如《紐約時報》(The New York Times)。
  • 資料品質參差不齊,常包含大量的垃圾訊息和不實內容。由於Common Crawl 希望資料可用於許多不同的情境,包括仇恨言論的研究,所以不會刻意刪除有問題的內容,因此需要耗費大量的時間和精力對資料進行清理和篩選。
  • 通常一個月才爬取一次網頁,無法反應最新的內容變化,對一些時效性要求較高的應用,如即時新聞分析等,Common Crawl 的資料可能就不太適用。
  • Common Crawl 的資料量為 PB 等級,對計算和儲存資源的要求很高。
  • 雖然Common Crawl 的爬蟲會遵守 robots.txt 協定,不去抓取那些不願被爬取的網站。但許多網路上的公開內容仍然受著作權法保護,Common Crawl 的複製行為事實上是遊走在法律的灰色地帶。

在生成式人工智慧興起之前,Common Crawl 在著作權方面似乎並未引發太多爭議。Common Crawl 在蒐集有著作權的內容資料時,認為這屬於合理使用(fair use),因為它的目的是建立一個用於研究和教育的資料集,而非商業用途。根據報導,目前 Common Crawl 是由 Wikimedia 及一些 Google 的前員工在運作。

不過隨著 AI 技術的發展,特別是大型語言模型(LLM)的出現,使 Common Crawl 的角色開始發生變化。許多 AI 公司和研究機構開始使用 Common Crawl 的資料來訓練 LLM,而有時這些模型的輸出內容會非常接近原始的著作權內容,引起爭議。根據Mozilla的研究,2019-2023年之間發布的 LLM 中,有 64% 都使用過 Common Crawl 進行訓練。舉例來說,OpenAI 的 GPT-3 就有 60% 的訓練資料來自 Common Crawl。

在《紐約時報》針對 OpenAI 和微軟的著作權侵權訴訟中,就強調OpenAI 推出 ChatGPT 時,Common Crawl 中很大一部分的資料來自《紐約時報》,因此《紐約時報》的內容很可能也佔 GPT-3 訓練資料的很大一部分。在起訴書中的一個網頁快照中,顯示《紐約時報》是被 Common Crawl 抓取量第三多的網站,僅次於維基百科(Wikipedia)和美國專利資料庫。《紐約時報》認為,OpenAI 和 Microsoft 的做法侵犯了其著作權,並剝奪了其訂閱、授權、廣告和聯盟行銷的收入。目前還無法知道訴訟的結果會是如何。

如以上所述,Common Crawl 是一個非常有價值的開放資料集,雖然有覆蓋率、品質、多樣性、時效性和等缺點,但也為學術研究做出了重大貢獻,並成為 AI發展的重要基礎。隨著 AI 商業化的加速,Common Crawl 的定位和影響也發生了變化,其中涉及的法律和道德問題變得更加複雜,值得持續關注。

留言
avatar-img
留言分享你的想法!
avatar-img
IP聊天室
2會員
120內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
IP聊天室的其他內容
2024/04/12
「轉化性使用」(Transformative Use)是美國著作權法中「合理使用(Fair Use)」原則下的一個重要概念。 美國最高法院在 1994 年的 Campbell 一案中,首次採納了轉化性使用的概念:「不只是取代原著作,而是有其他目的或不同性質,對原著作增加新的表達、意義或訊息,而改變
Thumbnail
2024/04/12
「轉化性使用」(Transformative Use)是美國著作權法中「合理使用(Fair Use)」原則下的一個重要概念。 美國最高法院在 1994 年的 Campbell 一案中,首次採納了轉化性使用的概念:「不只是取代原著作,而是有其他目的或不同性質,對原著作增加新的表達、意義或訊息,而改變
Thumbnail
2024/04/11
在2023年初,知名科技新聞網站 CNET 因大量使用人工智慧(AI)產生的文章而引發爭議。 據 Futurism 報導,CNET 自 2022 年 11 月起,開始在網站上發布由 AI 撰寫的文章(大多與理財相關),並以「CNET Money Staff」作為署名發表。 Image
Thumbnail
2024/04/11
在2023年初,知名科技新聞網站 CNET 因大量使用人工智慧(AI)產生的文章而引發爭議。 據 Futurism 報導,CNET 自 2022 年 11 月起,開始在網站上發布由 AI 撰寫的文章(大多與理財相關),並以「CNET Money Staff」作為署名發表。 Image
Thumbnail
2024/04/01
生成式人工智慧(AI)模型的訓練,需要大量、多元的文字內容,尤其是書籍,對於訓練模型的效果最好。Books3 是一個多樣化的訓練用資料集(dataset),包含小說和非小說作品,由開源倡導者 Shawn Presser 於 2020 年發布。1 Books3 資料集除了包含將近 20 萬本書籍,涵
Thumbnail
2024/04/01
生成式人工智慧(AI)模型的訓練,需要大量、多元的文字內容,尤其是書籍,對於訓練模型的效果最好。Books3 是一個多樣化的訓練用資料集(dataset),包含小說和非小說作品,由開源倡導者 Shawn Presser 於 2020 年發布。1 Books3 資料集除了包含將近 20 萬本書籍,涵
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
想學流量怎麼蹭嗎?讓我這位前任競選總幹事告訴你,不過要先修課程唷,我會給素材,你們要交作業,否則紙上談兵都無用,我有一些業配的業務可以讓各位練習,如何蹭流量還有管理經營。 流量密碼研究所 3000,每個月 https://vocus.cc/pay/salon/monthly/645345c1
Thumbnail
想學流量怎麼蹭嗎?讓我這位前任競選總幹事告訴你,不過要先修課程唷,我會給素材,你們要交作業,否則紙上談兵都無用,我有一些業配的業務可以讓各位練習,如何蹭流量還有管理經營。 流量密碼研究所 3000,每個月 https://vocus.cc/pay/salon/monthly/645345c1
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
網路爬蟲的由來 網路爬蟲,也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所訪問的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。 網路爬蟲的原理
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
Thumbnail
你知道嗎?網路爬蟲其實是整個搜尋世界的起點。爬蟲將所有上線的網頁快速瀏覽後並整理重點做索引,這樣搜尋引擎才能快速檢索相關內容。今天本男爵就來跟大家好好聊一下,在網路世界中無所不在,但你可能卻從未察覺到的這條「蟲」。
Thumbnail
資訊架構就像是網站的地圖,讓用戶快速找到所需的資訊。好的資訊架構可提升使用者滿意度、強化 SEO、增進擴充性、達成商業目標。資訊架構可透過使用者訪談、卡片分析、競品分析、使用者測試等方法設計。在設計資訊架構時,需考量用戶的認知方式、目標客群、資訊分類等因素。定期檢驗資訊架構,才能確保用戶體驗。
Thumbnail
資訊架構就像是網站的地圖,讓用戶快速找到所需的資訊。好的資訊架構可提升使用者滿意度、強化 SEO、增進擴充性、達成商業目標。資訊架構可透過使用者訪談、卡片分析、競品分析、使用者測試等方法設計。在設計資訊架構時,需考量用戶的認知方式、目標客群、資訊分類等因素。定期檢驗資訊架構,才能確保用戶體驗。
Thumbnail
在當今數位時代,搜尋引擎排名對於各大企業、各式品牌,以及創作者的重要性已經不言而喻。然而,許多人在追求「高排名」時卻陷入了一些「誤區」,例如:砸大錢買不知所謂的社群廣告、常自......
Thumbnail
在當今數位時代,搜尋引擎排名對於各大企業、各式品牌,以及創作者的重要性已經不言而喻。然而,許多人在追求「高排名」時卻陷入了一些「誤區」,例如:砸大錢買不知所謂的社群廣告、常自......
Thumbnail
最近發現有很多的網站的做法都是先找到某個不錯的關鍵字,然後直接用關鍵字當作網域名稱。 接著把網站首頁作為主要頁面,然後其他頁面圍繞著相同主題然後堆廣首頁。 這樣做的好處是,因為首頁一般來說擁有最高的權重。如果可以把首頁作為主要頁面並集中推廣,那就有機會搶下這個關鍵字。 主要的關鍵字就是
Thumbnail
最近發現有很多的網站的做法都是先找到某個不錯的關鍵字,然後直接用關鍵字當作網域名稱。 接著把網站首頁作為主要頁面,然後其他頁面圍繞著相同主題然後堆廣首頁。 這樣做的好處是,因為首頁一般來說擁有最高的權重。如果可以把首頁作為主要頁面並集中推廣,那就有機會搶下這個關鍵字。 主要的關鍵字就是
Thumbnail
這邊統整了所有過去發表過關於 QUERY 函式的教學分享,希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料,還可以做張簡易的資料透視表,是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一,既方便又好用,誠心推薦!
Thumbnail
這邊統整了所有過去發表過關於 QUERY 函式的教學分享,希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料,還可以做張簡易的資料透視表,是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一,既方便又好用,誠心推薦!
Thumbnail
  筆者最近和同行討論,關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。 一般人會想到,駭客一定是會選擇一些利潤大的目標,如銀行、虛擬資產平台等等。但是不要忘記,這些財力雄厚的公司當然也知道自己是很容易成為目標,所以他們的防線也不是容易擊破的。
Thumbnail
  筆者最近和同行討論,關於駭客找尋目標的方法。其實近十年駭客對於選擇目標的方式其實已經變得很難猜測。 一般人會想到,駭客一定是會選擇一些利潤大的目標,如銀行、虛擬資產平台等等。但是不要忘記,這些財力雄厚的公司當然也知道自己是很容易成為目標,所以他們的防線也不是容易擊破的。
Thumbnail
這是為了搭建自己想要的工作流而開始的研究工作。
Thumbnail
這是為了搭建自己想要的工作流而開始的研究工作。
Thumbnail
談了許多網路安全的議題,提醒民眾要注意哪些事情,建構哪些網路安全思維,讓我們可以降低踏入詐騙陷阱的風險。但除了民眾本身要不斷學習、提升防詐意識外,是不是還有其他方面的作法呢? 本文就來聊聊在企業端可以做些什麼。 要打造一個密不可破的防護網,企業端就不能夠缺席。 舉幾個例子讓大家知道。
Thumbnail
談了許多網路安全的議題,提醒民眾要注意哪些事情,建構哪些網路安全思維,讓我們可以降低踏入詐騙陷阱的風險。但除了民眾本身要不斷學習、提升防詐意識外,是不是還有其他方面的作法呢? 本文就來聊聊在企業端可以做些什麼。 要打造一個密不可破的防護網,企業端就不能夠缺席。 舉幾個例子讓大家知道。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News