Llama 2模型的訓練資料量比前一代 Llama 的訓練資料增加了40%。其中以英文內容佔絕大多數,其他語言則皆低於 0.2%,中文則佔了 0.13%。

值得注意的是,Meta 並未如前一代 Llama 模型一樣,發佈詳細的訓練內容,這引起許多海外媒體的關注。外界大多猜測 Meta 不願透漏訓練材料的原因,除了商業機密之外,也是因為潛在的著作權議題。
然而一切終將水落石出。根據多家媒體報導,Meta 在美國的一起著作權訴訟中,已承認使用了 Books3 來訓練Llama 2模型。

拜託,今天可以不要訓練嗎? Image: Wikimedia