微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。本文將深入介紹其訓練特色、效能表現、安全性設計,以及與其他模型的比較。

Phi-4-reasoning Technical Report
資料過濾與訓練方法的精雕細琢
監督式微調與強化學習
Phi-4-reasoning 透過監督式微調(SFT)訓練,使用超過140萬個由 o3-mini 生成的推理示範,涵蓋數學、程式設計與安全任務。這些提示經過精心篩選,聚焦於需要多步驟推理的「可教」問題,確保模型學習結構化思考。Phi-4-reasoning-plus 則進一步採用強化學習(RL),針對數學推理優化,使用6000個可驗證問題,透過基於規則的獎勵模型鼓勵正確且簡潔的輸出。推理標記與上下文擴展
兩模型在架構上延續 Phi-4,但新增了 <think> 和 </think> 標記來明確標示推理過程,促進思維鏈生成。為支援更長推理,上下文長度從 16K 增至32K tokens,提升處理長輸入的能力。
資料過濾的核心價值
微軟強調資料品質對訓練的影響。SFT資料集透過基於LLM的過濾,選出最適合教學的樣本,結合高品質推理示範,確保模型學習有效推理技能。RL階段則鼓勵模型在錯誤時進行更深入思考,實現推理能力的質變。
效能表現
超越大型模型
儘管參數僅140億,Phi-4-reasoning 與 Phi-4-reasoning-plus 在多項基準測試中表現出色,超越 DeepSeek-R1-Distill-Llama-70B,甚至接近 DeepSeek-R1 的效能。尤其在 AIME 2025 數學基準測試中,Phi-4-reasoning-plus 表現突出,準確率較基礎 Phi-4 提升50%以上。
泛化能力的突破
兩模型在程式設計(LiveCodeBench,提升25%)、演算法問題(TSP、3SAT,提升30%-60%)與規劃任務中,展現推理技能的泛化性。這種跨領域能力表明,模型不僅學會特定任務,更掌握了可轉移的元推理技能。
Token 與準確率的平衡
Phi-4-reasoning-plus 在數學任務中準確率更高,但平均使用1.5倍 Token,顯示其更深入的思考過程。而在其他領域, Token 使用差異較小,兩模型提供靈活的效能選擇。
安全性與限制
Phi-4-reasoning 在 Toxigen 基準測試中,改善毒性與中性內容的檢測平衡,縮小群體偏見。然而,與基礎 Phi-4 相比,負責任AI評估略有退步,顯示長推理軌跡的安全監控仍需改進。微軟建議搭配 Azure AI Content Safety,確保應用安全。
兩模型繼承 Phi-4 的一些限制,如主要支援英文、潛在偏見與事實性錯誤。作為推理模型,它們需要更多計算資源,回應速度較慢,且上下文長度(32K tokens)可能限制複雜任務。
Phi-4-reasoning 與 Phi-4-reasoning-plus 證明,透過高品質資料與創新訓練,小模型也能在推理任務中媲美巨型模型,特別適合資源受限的使用場景。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~
也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!
>>>請我喝一杯咖啡