Phi-4-reasoning 與 Phi-4-reasoning-plus:高效能小模型的卓越表現

Phi-4-reasoning 與 Phi-4-reasoning-plus:高效能小模型的卓越表現

更新於 發佈於 閱讀時間約 4 分鐘

微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。本文將深入介紹其訓練特色、效能表現、安全性設計,以及與其他模型的比較。

raw-image

Phi-4-reasoning Technical Report


資料過濾與訓練方法的精雕細琢

監督式微調與強化學習

Phi-4-reasoning 透過監督式微調(SFT)訓練,使用超過140萬個由 o3-mini 生成的推理示範,涵蓋數學、程式設計與安全任務。這些提示經過精心篩選,聚焦於需要多步驟推理的「可教」問題,確保模型學習結構化思考。Phi-4-reasoning-plus 則進一步採用強化學習(RL),針對數學推理優化,使用6000個可驗證問題,透過基於規則的獎勵模型鼓勵正確且簡潔的輸出。

推理標記與上下文擴展

兩模型在架構上延續 Phi-4,但新增了 <think> 和 </think> 標記來明確標示推理過程,促進思維鏈生成。為支援更長推理,上下文長度從 16K 增至32K tokens,提升處理長輸入的能力。

資料過濾的核心價值

微軟強調資料品質對訓練的影響。SFT資料集透過基於LLM的過濾,選出最適合教學的樣本,結合高品質推理示範,確保模型學習有效推理技能。RL階段則鼓勵模型在錯誤時進行更深入思考,實現推理能力的質變。


效能表現

超越大型模型

儘管參數僅140億,Phi-4-reasoning 與 Phi-4-reasoning-plus 在多項基準測試中表現出色,超越 DeepSeek-R1-Distill-Llama-70B,甚至接近 DeepSeek-R1 的效能。尤其在 AIME 2025 數學基準測試中,Phi-4-reasoning-plus 表現突出,準確率較基礎 Phi-4 提升50%以上。

泛化能力的突破

兩模型在程式設計(LiveCodeBench,提升25%)、演算法問題(TSP、3SAT,提升30%-60%)與規劃任務中,展現推理技能的泛化性。這種跨領域能力表明,模型不僅學會特定任務,更掌握了可轉移的元推理技能。

Token 與準確率的平衡

Phi-4-reasoning-plus 在數學任務中準確率更高,但平均使用1.5倍 Token,顯示其更深入的思考過程。而在其他領域, Token 使用差異較小,兩模型提供靈活的效能選擇。


安全性與限制

Phi-4-reasoning 在 Toxigen 基準測試中,改善毒性與中性內容的檢測平衡,縮小群體偏見。然而,與基礎 Phi-4 相比,負責任AI評估略有退步,顯示長推理軌跡的安全監控仍需改進。微軟建議搭配 Azure AI Content Safety,確保應用安全。

兩模型繼承 Phi-4 的一些限制,如主要支援英文、潛在偏見與事實性錯誤。作為推理模型,它們需要更多計算資源,回應速度較慢,且上下文長度(32K tokens)可能限制複雜任務。


Phi-4-reasoning 與 Phi-4-reasoning-plus 證明,透過高品質資料與創新訓練,小模型也能在推理任務中媲美巨型模型,特別適合資源受限的使用場景。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡


avatar-img
TN科技筆記(TechNotes)的沙龍
22會員
84內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
留言
avatar-img
留言分享你的想法!
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。