Meta 使用了那些資料來訓練 Llama 模型?

更新 發佈閱讀 3 分鐘

Llama 是 Meta 所發佈的大型語言模型(Large Language Model,LLM),在訓練過程中使用了大量的資料。就 Meta 所述,他們只使用公開或是開源的資料,包括:

資料名稱占比 內容英文網頁資料67%2017年到2020年期間從 Common Crawal 所獲取的英文網頁資料,並刪除重複的資料、移除非英文的網頁,以及過濾品質不佳的內容。另外,也會捨棄未被維基百科引用的網頁。C4資料集15%C4 資料集為 Google 所發佈,同樣源自於 Common Crawl 的網頁資料,主要依賴一些簡單的規則來過濾內容,例如網頁中是否有標點符號、單詞和句子的數量等。Github程式碼4.5%只保留以 Apache、BSD 和 MIT 這些開源軟體授權條款所發布的專案。使用簡單的規則來過濾品質不佳的程式碼,並刪除完全相同的程式碼檔案。維基百科4.5%2022 年 6 月至 8 月期間,使用拉丁字母或西里爾字母(較常使用在前蘇聯國家)的維基百科內容。移除了超連結、註解和其他格式。Gutenberg和Books34.5%納入兩個書籍合集,並刪除內容重複度超過90%的書籍:
1. 「古騰堡計畫」(Gutenberg Project):內容皆為著作權過期,已經屬於公領域的經典書籍。
2. 「Books3」:有許多著作權爭議的公開資料集。ArXiv論文2.5%移除論文第一節之前的所有內容和參考書目,並刪除註解。Stack Exchange問答2%Stack Exchange 是一系列的問答網站,每一個網站包含不同領域的問題,知名的 Stack Overflow 即是其中一份子。Meta 保留了 28 個最大網站的資料,移除文字中的 HTML 標籤,並依照回答的得分(從高到低)進行排序。

以上資料來自 Meta 公開發表的論文:LLaMA: Open and Efficient Foundation Language Models (2023 年 2 月)

雖然 Meta 刻意使用公開的資料集來訓練 Llama 模型,並將其開源,但並非沒有著作權的爭議。已有多位作者因為 Meta 使用 Books3 資料集訓練 AI 而提出著作權訴訟。雖然此訴訟是針對 Llama 2模型,但 Llama 模型的訓練資料也包含了 Books3 資料集。

另外,Llama 模型主要以英文訓練而成,其他語言的比例則不得而知。雖然 Meta 沒有公布詳細資訊,但其下一代的 Llama 2 模型,則知道英語占了 89.7%,其餘則皆在 0.2% 以下。中文佔 0.13%,但推估絕大部分為簡體中文。

raw-image

另一種 Llama 訓練。 Image: Flickr

留言
avatar-img
留言分享你的想法!
avatar-img
IP聊天室
2會員
121內容數
喜愛學東學西,總說略懂略懂。 希望簡單的文字,讓更多人了解智慧財產權。 相信觀點的碰撞,才能帶來成長。
IP聊天室的其他內容
2024/04/19
Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數,其他語言則皆低於 0.2%,中文則佔了 0.13%。 擷取自 Meta 所發布之論文 Llama 2: Open Foundation and Fine-Tuned Chat Models
Thumbnail
2024/04/19
Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數,其他語言則皆低於 0.2%,中文則佔了 0.13%。 擷取自 Meta 所發布之論文 Llama 2: Open Foundation and Fine-Tuned Chat Models
Thumbnail
2024/04/18
Infiniset 資料集包含了約 1.56 兆個單詞,大小為 750 GB。這個資料集的組成非常多樣化,涵蓋了不同形式和主題的內容,例如技術性主題到日常對話,讓 LaMDA 模型能夠學習廣泛的知識,並具備靈活應對各種對話的能力。Infiniset 資料集被用於訓練 Google 的 LaMDA(L
Thumbnail
2024/04/18
Infiniset 資料集包含了約 1.56 兆個單詞,大小為 750 GB。這個資料集的組成非常多樣化,涵蓋了不同形式和主題的內容,例如技術性主題到日常對話,讓 LaMDA 模型能夠學習廣泛的知識,並具備靈活應對各種對話的能力。Infiniset 資料集被用於訓練 Google 的 LaMDA(L
Thumbnail
2024/04/18
C4(Colossal Clean Crawled Corpus)資料集是由 Google 所發佈,用於訓練人工智慧(AI)模型的大型資料集,其中包含了大量的網路文字資料,讓演算法能夠更好地理解人類的語言並進行自然語言處理(Natural Language Processing,NLP)。C4 資料
Thumbnail
2024/04/18
C4(Colossal Clean Crawled Corpus)資料集是由 Google 所發佈,用於訓練人工智慧(AI)模型的大型資料集,其中包含了大量的網路文字資料,讓演算法能夠更好地理解人類的語言並進行自然語言處理(Natural Language Processing,NLP)。C4 資料
Thumbnail
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
呈上篇介紹如何訓練模型,此篇就主要介紹如何利用訓練好的模型來生成圖片 [深度學習][Python]DCGAN訓練生成手寫阿拉伯數字_生成篇 生成的結果 生成的圖片大小會根據,當初設置的生成器輸出大小來決定,當你使用生成對抗網絡(GAN)生成圖像時,生成器模型的最後一層通常會決定生成圖
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
本文將延續上一篇文章,經由訓練好的GAN模型中的生成器來生成圖片 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 [深度學習][Python]訓練CNN的GAN模型來生成圖片_訓練篇 相較之下CNN的GAN生成的效果比較好,但模型也相對比較複雜,訓練時間花的也比較
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文主要介紹,如何利用GAN生成對抗網路來訓練生成圖片。 利用tensorflow,中的keras來建立生成器及鑑別器互相競爭訓練,最後利用訓練好的生成器來生成圖片。 GAN生成對抗網路的介紹 它由生成網路(Generator Network)和鑑別網路(Discriminator Netwo
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News