Phi-4-reasoning 與 Phi-4-reasoning-plus：高效能小模型的卓越表現

2025/05/01 更新2025/05/01 發佈閱讀 4 分鐘

微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型，以僅140億參數的規模，挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務，特別在數學、科學、程式設計等STEM領域展現卓越表現。本文將深入介紹其訓練特色、效能表現、安全性設計，以及與其他模型的比較。

Phi-4-reasoning Technical Report

資料過濾與訓練方法的精雕細琢

監督式微調與強化學習

Phi-4-reasoning 透過監督式微調（SFT）訓練，使用超過140萬個由 o3-mini 生成的推理示範，涵蓋數學、程式設計與安全任務。這些提示經過精心篩選，聚焦於需要多步驟推理的「可教」問題，確保模型學習結構化思考。Phi-4-reasoning-plus 則進一步採用強化學習（RL），針對數學推理優化，使用6000個可驗證問題，透過基於規則的獎勵模型鼓勵正確且簡潔的輸出。

推理標記與上下文擴展

兩模型在架構上延續 Phi-4，但新增了 <think> 和 </think> 標記來明確標示推理過程，促進思維鏈生成。為支援更長推理，上下文長度從 16K 增至32K tokens，提升處理長輸入的能力。

資料過濾的核心價值

微軟強調資料品質對訓練的影響。SFT資料集透過基於LLM的過濾，選出最適合教學的樣本，結合高品質推理示範，確保模型學習有效推理技能。RL階段則鼓勵模型在錯誤時進行更深入思考，實現推理能力的質變。

效能表現

超越大型模型

儘管參數僅140億，Phi-4-reasoning 與 Phi-4-reasoning-plus 在多項基準測試中表現出色，超越 DeepSeek-R1-Distill-Llama-70B，甚至接近 DeepSeek-R1 的效能。尤其在 AIME 2025 數學基準測試中，Phi-4-reasoning-plus 表現突出，準確率較基礎 Phi-4 提升50%以上。

泛化能力的突破

兩模型在程式設計（LiveCodeBench，提升25%）、演算法問題（TSP、3SAT，提升30%-60%）與規劃任務中，展現推理技能的泛化性。這種跨領域能力表明，模型不僅學會特定任務，更掌握了可轉移的元推理技能。

Token 與準確率的平衡

Phi-4-reasoning-plus 在數學任務中準確率更高，但平均使用1.5倍 Token，顯示其更深入的思考過程。而在其他領域， Token 使用差異較小，兩模型提供靈活的效能選擇。

安全性與限制

Phi-4-reasoning 在 Toxigen 基準測試中，改善毒性與中性內容的檢測平衡，縮小群體偏見。然而，與基礎 Phi-4 相比，負責任AI評估略有退步，顯示長推理軌跡的安全監控仍需改進。微軟建議搭配 Azure AI Content Safety，確保應用安全。

兩模型繼承 Phi-4 的一些限制，如主要支援英文、潛在偏見與事實性錯誤。作為推理模型，它們需要更多計算資源，回應速度較慢，且上下文長度（32K tokens）可能限制複雜任務。

Phi-4-reasoning 與 Phi-4-reasoning-plus 證明，透過高品質資料與創新訓練，小模型也能在推理任務中媲美巨型模型，特別適合資源受限的使用場景。

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～

也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

72會員

239內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/04/30

Google NotebookLM 重大更新：多語言 AI podcast 生成全面升級

Google的 NotebookLM 推出重大更新，其「深入探索對話」功能現已支援超過50種語言，包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制，讓使用者能輕鬆生成多語言的podcast風格內容，無論原始資料是何種語言，以下將詳細介紹這次更新的核心亮點與使用方式。

2025/04/30

Google NotebookLM 重大更新：多語言 AI podcast 生成全面升級

2025/04/29

挑戰Google搜尋？ChatGPT購物與引文新功能搶先看

OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能，並分析這些更新如何改變我們的線上搜尋與購物方式。

2025/04/29

挑戰Google搜尋？ChatGPT購物與引文新功能搶先看

2025/04/23

TTS模型：NotebookLM、ElevenLabs、Sesame與Dia四大技術比拼

介紹TTS模型（文字轉語音）的運作原理與應用，比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製，幫助您選擇最適合的TTS解決方案。

2025/04/23

TTS模型：NotebookLM、ElevenLabs、Sesame與Dia四大技術比拼

#AI 的其他內容

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

賴仕涵的思考王國

💖當「我的女朋友叫GEMINI」成為公開認同：台視【熱線追蹤】觀後感

小貝的多媒體學習日記．Beibei's diary

為什麼很多專業剪輯師不用剪映？剪映 vs Adobe Premiere Pro 差異

你可能也想看

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11