大型語言模型(LLM)訓練中,大規模的核心資料來源

更新 發佈閱讀 4 分鐘

在大型語言模型(LLM)訓練中,Reddit 很重要,但其實還有一些更核心、規模更大的資料來源。許多 AI 公司(如 OpenAIGoogleAnthropic)的模型訓練資料都高度依賴以下幾類。

下面是業界普遍認為 比 Reddit 更重要的 5 類資料來源


1️⃣ 維基百科(高品質知識資料)

Wikipedia

重要原因:

  • 全球最大開放百科全書
  • 多語言(300+語言)
  • 內容經過編輯審核
  • 知識結構完整

AI 可以從 Wikipedia 學到:

  • 歷史
  • 科學
  • 地理
  • 人物
  • 技術概念

特點:

高品質
高可信度
結構化知識

因此幾乎所有 LLM(GPT、Gemini、Claude)都會使用。


2️⃣ Common Crawl(整個網路的抓取資料)

Common Crawl

這是 AI 訓練最龐大的資料來源

Common Crawl 每個月都會:

爬取整個公開網路
儲存數十億網頁
建立開放資料集

許多知名訓練資料集都來自它,例如:

  • C4 dataset(Google)
  • OpenWebText
  • RefinedWeb

LLM 的大量語料其實來自:

新聞
論壇
部落格
技術網站
學術文章

3️⃣ GitHub(程式碼知識庫)

GitHub

如果 AI 要學會寫程式,就需要程式碼資料。

GitHub 是:

全球最大程式碼庫

內容包括:

  • Python
  • JavaScript
  • C++
  • Rust
  • Go
  • DevOps配置
  • README說明文件

很多 AI coding 模型(例如 GitHub Copilot

都是用 GitHub 進行大量訓練。


4️⃣ 書籍資料庫(深度長文本)

很多模型會使用:

  • 公版書籍
  • 電子書
  • 技術書

常見來源:

  • Project Gutenberg
  • Books datasets
  • 公版文學

優點:

長文本
語法完整
邏輯清晰
敘事結構

這類資料讓 AI 能:

  • 寫故事
  • 長篇解釋
  • 保持語言一致性

5️⃣ 學術論文(高知識密度)

最重要來源之一是:

  • arXiv

arXiv 是全球最大的開放學術論文平台。

內容包含:

  • 物理
  • AI
  • 數學
  • 密碼學
  • 計算機科學

例如:

Transformer
Diffusion model
RLHF

很多論文都在 arXiv 首發。

AI 從中學到:

  • 專業術語
  • 科學推理
  • 數學表達

🧠 AI 訓練資料的重要性排名(概念版)

一般可粗略理解為:

1  Common Crawl(整個網路)
2 Wikipedia(知識核心)
3 Books(深度文本)
4 GitHub(程式知識)
5 Academic papers(學術推理)
6 Reddit(討論與問答)

每一種資料對 AI 都有不同作用。


🔬 為什麼 AI 需要「混合資料」

如果只用一種資料,模型會很差。

例如:

只有 Wikipedia

→ 很像百科全書

→ 不會聊天

只有 Reddit

→ 很會聊天

→ 但知識不準

只有 GitHub

→ 只會寫程式

因此 AI 訓練通常是:

知識資料
+
對話資料
+
程式資料
+
長文本
+
學術資料

混合後才會變成強大的 LLM。


一句話總結

Reddit 對 AI 的「對話能力」很重要,但整體訓練資料中,Common Crawl、Wikipedia、GitHub、書籍與論文通常更核心。



留言
avatar-img
sirius數字沙龍
12會員
262內容數
吃自助火鍋啦!不要客氣,想吃啥,請自行取用!
sirius數字沙龍的其他內容
2026/03/12
AI 公司(如 OpenAI、Google、Anthropic)非常重視 Reddit 的資料,主要是因為 Reddit 具備 「極罕見的人類對話資料特性」。對訓練大型語言模型(LLM)來說,它幾乎是最接近真實人類思考與討論的語料庫之一。關鍵原因: 1️⃣ Reddit 是「高品質人類對話資料庫」
Thumbnail
2026/03/12
AI 公司(如 OpenAI、Google、Anthropic)非常重視 Reddit 的資料,主要是因為 Reddit 具備 「極罕見的人類對話資料特性」。對訓練大型語言模型(LLM)來說,它幾乎是最接近真實人類思考與討論的語料庫之一。關鍵原因: 1️⃣ Reddit 是「高品質人類對話資料庫」
Thumbnail
2026/03/12
Reddit 是一個非常大型的網路論壇與社群平台,常被稱為 👉 「網路的首頁(The Front Page of the Internet)」。 它成立於 2005 年,由 Steve Huffman 和 Alexis Ohanian 創辦。 Reddit 就像一個由無數主題論壇組成的社群網站。
Thumbnail
2026/03/12
Reddit 是一個非常大型的網路論壇與社群平台,常被稱為 👉 「網路的首頁(The Front Page of the Internet)」。 它成立於 2005 年,由 Steve Huffman 和 Alexis Ohanian 創辦。 Reddit 就像一個由無數主題論壇組成的社群網站。
Thumbnail
2026/03/12
AI SaaS 公司,就是把 人工智慧(AI)能力包裝成 線上服務(SaaS, Software as a Service),讓使用者不需要自己訓練模型或寫程式,也能直接使用 AI 功能。 換句話說,就是「AI 的訂閱制軟體公司」。 🧩 AI SaaS 的核心概念 軟體即服務(SaaS)
Thumbnail
2026/03/12
AI SaaS 公司,就是把 人工智慧(AI)能力包裝成 線上服務(SaaS, Software as a Service),讓使用者不需要自己訓練模型或寫程式,也能直接使用 AI 功能。 換句話說,就是「AI 的訂閱制軟體公司」。 🧩 AI SaaS 的核心概念 軟體即服務(SaaS)
Thumbnail
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
📌在數位時代,人們認識人物的方式,往往從搜尋開始。打開瀏覽器,輸入一個名字,最先映入眼簾的,常常是維基百科的詞條。於是,一個幾乎不言自明的判斷便悄然形成:某人若在維基百科上有條目,似乎便意味著其人「存在於公共記憶之中」;若沒有,則彷彿仍在歷史與知識的邊緣。
Thumbnail
📌在數位時代,人們認識人物的方式,往往從搜尋開始。打開瀏覽器,輸入一個名字,最先映入眼簾的,常常是維基百科的詞條。於是,一個幾乎不言自明的判斷便悄然形成:某人若在維基百科上有條目,似乎便意味著其人「存在於公共記憶之中」;若沒有,則彷彿仍在歷史與知識的邊緣。
Thumbnail
我在莒光路上打開的浪漫濾鏡,就這麼輕易地被擊碎了....
Thumbnail
我在莒光路上打開的浪漫濾鏡,就這麼輕易地被擊碎了....
Thumbnail
■ Chapter 1|你以為的真理,只是盲人的手杖 ▋ 澀谷車站的不可視之物 在《咒術迴戰》的設定中,世界充滿了名為「咒靈」的異形怪物,它們是由人類溢出的負面情緒聚合而成的。這些怪物長相駭人,有些甚至有幾層樓高,每天就在繁忙的東京街頭爬行、甚至趴在路人的肩膀上竊竊私語。 但最令人細思極恐
Thumbnail
■ Chapter 1|你以為的真理,只是盲人的手杖 ▋ 澀谷車站的不可視之物 在《咒術迴戰》的設定中,世界充滿了名為「咒靈」的異形怪物,它們是由人類溢出的負面情緒聚合而成的。這些怪物長相駭人,有些甚至有幾層樓高,每天就在繁忙的東京街頭爬行、甚至趴在路人的肩膀上竊竊私語。 但最令人細思極恐
Thumbnail
一、改變學習     疫情期間,無意間接觸了google的協作平台,站在專業眼光來說,這其實是一個很陽春、不好施展拳腳的平台,甚至有些專業人士會覺得不好用!!但起心動念為了構築孩子的學習歷程,希望藉由數位化,能完整紀錄孩子求學間的美好回憶,即使是點點滴滴,也可以聚沙成塔,集腋成裘,成就一番美
Thumbnail
一、改變學習     疫情期間,無意間接觸了google的協作平台,站在專業眼光來說,這其實是一個很陽春、不好施展拳腳的平台,甚至有些專業人士會覺得不好用!!但起心動念為了構築孩子的學習歷程,希望藉由數位化,能完整紀錄孩子求學間的美好回憶,即使是點點滴滴,也可以聚沙成塔,集腋成裘,成就一番美
Thumbnail
大家好我是Putang,今天要跟你們分享是 原教界第103期後五族維基百科的展望。 上禮拜我有在IG限動問大家,一想到維基百科,你會想到? 那我們就趕快來聽聽看Alang Star們是怎麼說的吧~
Thumbnail
大家好我是Putang,今天要跟你們分享是 原教界第103期後五族維基百科的展望。 上禮拜我有在IG限動問大家,一想到維基百科,你會想到? 那我們就趕快來聽聽看Alang Star們是怎麼說的吧~
Thumbnail
在台日人維基百科編纂計畫 #002西川滿及其周邊 西川滿、矢野峰人、島田謹二、立石鐵臣、宮田彌太郎
Thumbnail
在台日人維基百科編纂計畫 #002西川滿及其周邊 西川滿、矢野峰人、島田謹二、立石鐵臣、宮田彌太郎
Thumbnail
第一回維基百科頁面連結: 濱田隼雄:https://zh.wikipedia.org/wiki/濱田隼雄 齋藤勇:https://zh.wikipedia.org/wiki/齋藤勇 中山侑:https://zh.wikipedia.org/wiki/中山侑 坂口䙥子:https://zh.wikip
Thumbnail
第一回維基百科頁面連結: 濱田隼雄:https://zh.wikipedia.org/wiki/濱田隼雄 齋藤勇:https://zh.wikipedia.org/wiki/齋藤勇 中山侑:https://zh.wikipedia.org/wiki/中山侑 坂口䙥子:https://zh.wikip
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News