Microsoft Research 進一步發表 《Textbooks Are All You Need II: phi-1.5 technical report》,Phi-1.5 展現高品質合成資料(教科書等級)的潛力,以僅 1.3B 參數在常識推理與語言理解上媲美大型模型,挑戰「參數規模至上」的傳統觀點。
技術規格
模型架構
- 使用旋轉嵌入(rotary embedding)和 flash-attention。
- 資料生成與組成
- 選擇了 20,000 個主題作為生成這些新合成資料的種子。
- 使用來自網頁資料集的樣本來增加多樣性
- 過濾後的 Web 資料(95B tokens)
- Falcon 精煉 Web 資料集過濾出的(88B tokens)。
- The Stack 和 StackOverflow 過濾出的Web資料標記資料集(7B tokens)。
模型說明
- phi-1.5 :
- 新的合成資料(20B tokens) : 用於常識推理和一般世界知識的教科書式資料集。
- 非合成數據(6B tokens):用於 phi-1(7B tokens)訓練中過濾的程式碼資料集。
- phi-1.5-web-only :
- 只使用基於過濾後的 Web 資料進行訓練。
- phi-1.5-web :
- 過濾後的 Web 資料(40%)
- phi-1 的程式碼資料(20%)
- 新建立的合成資料(40%)

用上下文長度 2048 fp16 的單一 A100-80G 訓練
合成資料的經驗總結
- 主題選擇:精確選擇適合訓練目標的內容。
- 知識理解:識別並填補資料中的盲區。
- 合成資料:合成資料有助於控制有害和偏見內容生成的挑戰。
基準測試結果
常識推理
WinoGrande, ARC-Easy, ARC-Challenge, BoolQ, SIQA

語言理解和知識問答
PIQA, Hellaswag, OpenbookQA, MMLU, SQUAD

多步推理
GSM8K, HumanEval, MBPP

解決有害內容和偏見
採用合成資料訓練,可以減少有害內容的生成,逐步改進有害內容的評估基準測試。
- 資料集生成:合成的“教科書品質”數據在有害內容生成方面有衝減效果。
- 範例與比較:與 Falcon-7B 和 Llama2-7B 相比,phi-1.5 在回應中展示理論心智的概念,避免有害內容。

選擇 6541 個句子,並根據困惑度和句子有毒性進行評分。分數範圍從 0 到 1,分數越高表示模型產生有毒句子的可能性較小。