AI 工程師的 LLM 筆記

不是資料太少，是太雜：phi-1 的啟示

發佈於訓練大型語言模型的資料策略

2025/07/28 更新2025/07/28 發佈閱讀 3 分鐘

微軟在 2023 年於 Microsoft Research 發表的論文《Textbooks Are All You Need》中，首次提出「以教科書品質資料訓練，而不是大量雜訊網頁資料」，進而開發出 phi‑1 一款僅有 1.3B 參數、訓練用資料量約 70B tokens 的語言模型，在程式合成評估 HumanEval 與 MBPP 上分別達成 50.6% 與 55.5% 的 pass@1 準確度，性能媲美十倍以上參數與資料量的模型。

訓練細節及高品質資料的重要性

過濾現有的程式碼數據集

使用 Transformer-based 分類器來過濾資料。
使用 GPT-4 來標註資料品質，篩選出高教育價值的程式碼片段。

創建合成的教科書品質資料集

使用 GPT-3.5 生成 Python 教科書等級資料，確保資料集的多樣性和非重複性。
合成資料集包括約 1B tokens 的教科書資料和約 180M tokens 的練習數據。

模型架構與訓練過程

phi-1 和 phi-1-base 的預訓練使用 CodeTextbook 資料集（phi-1-base 29%），微調使用 CodeExercises 數據集（phi-1 51%）。
模型參數小與架構簡單，但數據品質有顯著提高模型性能，且解鎖了意想不到的程式碼生成功能。
在 CodeTextbook 資料集上訓練的基於 phi-1 的模型僅用 1.3B 參數模型即可實現 29% 的 HumanEval 效能。

增加計算時間（135 -> 1090 GPU hr）與數據（26B -> 76B）或增加模型參數（350M -> 1.3B）

增加計算時間（135 -> 1090 GPU hr）與數據（26B -> 76B）或增加模型參數（350M -> 1.3B）

湧現（emergence）性質

比較 phi-1 和 phi-1-small 發現模型參數對湧現能力的重要性。
phi-1 展現出許多 phi-1-base 沒有的能力，如更高的程式碼準確性和靈活性。

raw-image

替代基準測試

CodeExercises 資料集可能會產生記憶（訓練數據污染）
為了最大限度地減少資料外洩（data leakage) 使用其他測試方法如不同的程式碼生成任務來評估模型的性能。

對 50 個非常規程式問題的理解進行評分

對 50 個非常規程式問題的理解進行評分

訓練數據污染的研究

分析 HumanEval 基準測試中的數據污染問題。
強調訓練數據的透明度和可靠性對於模型性能的重要性。

移除 CodeExercises 資料集中與 HumanEval「相似」的內容

移除 CodeExercises 資料集中與 HumanEval「相似」的內容

AI 工程師的 LLM 筆記訓練大型語言模型的資料策略

留言

留言分享你的想法！

AI 工程師的 LLM 筆記

0會員

14內容數

聊一聊提示工程、模型調校與優化技巧，同時分享一路走來的挑戰與突破，作為提醒未來的自己：別忘初心，走得更踏實。

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 90

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/15

Learn AI 不 BI

AI說書 - 從0開始 - 89

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 89

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

#AI#ai#PromptEngineering

2024/07/14

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 63

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 62 說：如果我參照原始 Google 釋出的 Transformer 論文的參數，在三個字的句子情況下，Single-Head At

#AI#ai#PositionalEncoding

2024/06/28

Learn AI 不 BI

AI說書 - 從0開始 - 63

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 62 說：如果我參照原始 Google 釋出的 Transformer 論文的參數，在三個字的句子情況下，Single-Head At

#AI#ai#PositionalEncoding

2024/06/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News