Llama 是 Meta 所發佈的大型語言模型(Large Language Model,LLM),在訓練過程中使用了大量的資料。就 Meta 所述,他們只使用公開或是開源的資料,包括:
資料名稱占比 內容英文網頁資料67%2017年到2020年期間從 Common Crawal 所獲取的英文網頁資料,並刪除重複的資料、移除非英文的網頁,以及過濾品質不佳的內容。另外,也會捨棄未被維基百科引用的網頁。C4資料集15%C4 資料集為 Google 所發佈,同樣源自於 Common Crawl 的網頁資料,主要依賴一些簡單的規則來過濾內容,例如網頁中是否有標點符號、單詞和句子的數量等。Github程式碼4.5%只保留以 Apache、BSD 和 MIT 這些開源軟體授權條款所發布的專案。使用簡單的規則來過濾品質不佳的程式碼,並刪除完全相同的程式碼檔案。維基百科4.5%2022 年 6 月至 8 月期間,使用拉丁字母或西里爾字母(較常使用在前蘇聯國家)的維基百科內容。移除了超連結、註解和其他格式。Gutenberg和Books34.5%納入兩個書籍合集,並刪除內容重複度超過90%的書籍:
1. 「古騰堡計畫」(Gutenberg Project):內容皆為著作權過期,已經屬於公領域的經典書籍。
2. 「Books3」:有許多著作權爭議的公開資料集。ArXiv論文2.5%移除論文第一節之前的所有內容和參考書目,並刪除註解。Stack Exchange問答2%Stack Exchange 是一系列的問答網站,每一個網站包含不同領域的問題,知名的 Stack Overflow 即是其中一份子。Meta 保留了 28 個最大網站的資料,移除文字中的 HTML 標籤,並依照回答的得分(從高到低)進行排序。
雖然 Meta 刻意使用公開的資料集來訓練 Llama 模型,並將其開源,但並非沒有著作權的爭議。已有多位作者因為 Meta 使用 Books3 資料集訓練 AI 而提出著作權訴訟。雖然此訴訟是針對 Llama 2模型,但 Llama 模型的訓練資料也包含了 Books3 資料集。
另外,Llama 模型主要以英文訓練而成,其他語言的比例則不得而知。雖然 Meta 沒有公布詳細資訊,但其下一代的 Llama 2 模型,則知道英語占了 89.7%,其餘則皆在 0.2% 以下。中文佔 0.13%,但推估絕大部分為簡體中文。

另一種 Llama 訓練。 Image: Flickr