Phi-4-reasoning 與 Phi-4-reasoning-plus:高效能小模型的卓越表現

更新於 發佈於 閱讀時間約 4 分鐘

微軟最新推出的 Phi-4-reasoning 與 Phi-4-reasoning-plus 模型,以僅140億參數的規模,挑戰大型語言模型的效能極限。這兩個模型專注於複雜推理任務,特別在數學、科學、程式設計等STEM領域展現卓越表現。本文將深入介紹其訓練特色、效能表現、安全性設計,以及與其他模型的比較。

raw-image

Phi-4-reasoning Technical Report


資料過濾與訓練方法的精雕細琢

監督式微調與強化學習

Phi-4-reasoning 透過監督式微調(SFT)訓練,使用超過140萬個由 o3-mini 生成的推理示範,涵蓋數學、程式設計與安全任務。這些提示經過精心篩選,聚焦於需要多步驟推理的「可教」問題,確保模型學習結構化思考。Phi-4-reasoning-plus 則進一步採用強化學習(RL),針對數學推理優化,使用6000個可驗證問題,透過基於規則的獎勵模型鼓勵正確且簡潔的輸出。

推理標記與上下文擴展

兩模型在架構上延續 Phi-4,但新增了 <think> 和 </think> 標記來明確標示推理過程,促進思維鏈生成。為支援更長推理,上下文長度從 16K 增至32K tokens,提升處理長輸入的能力。

資料過濾的核心價值

微軟強調資料品質對訓練的影響。SFT資料集透過基於LLM的過濾,選出最適合教學的樣本,結合高品質推理示範,確保模型學習有效推理技能。RL階段則鼓勵模型在錯誤時進行更深入思考,實現推理能力的質變。


效能表現

超越大型模型

儘管參數僅140億,Phi-4-reasoning 與 Phi-4-reasoning-plus 在多項基準測試中表現出色,超越 DeepSeek-R1-Distill-Llama-70B,甚至接近 DeepSeek-R1 的效能。尤其在 AIME 2025 數學基準測試中,Phi-4-reasoning-plus 表現突出,準確率較基礎 Phi-4 提升50%以上。

泛化能力的突破

兩模型在程式設計(LiveCodeBench,提升25%)、演算法問題(TSP、3SAT,提升30%-60%)與規劃任務中,展現推理技能的泛化性。這種跨領域能力表明,模型不僅學會特定任務,更掌握了可轉移的元推理技能。

Token 與準確率的平衡

Phi-4-reasoning-plus 在數學任務中準確率更高,但平均使用1.5倍 Token,顯示其更深入的思考過程。而在其他領域, Token 使用差異較小,兩模型提供靈活的效能選擇。


安全性與限制

Phi-4-reasoning 在 Toxigen 基準測試中,改善毒性與中性內容的檢測平衡,縮小群體偏見。然而,與基礎 Phi-4 相比,負責任AI評估略有退步,顯示長推理軌跡的安全監控仍需改進。微軟建議搭配 Azure AI Content Safety,確保應用安全。

兩模型繼承 Phi-4 的一些限制,如主要支援英文、潛在偏見與事實性錯誤。作為推理模型,它們需要更多計算資源,回應速度較慢,且上下文長度(32K tokens)可能限制複雜任務。


Phi-4-reasoning 與 Phi-4-reasoning-plus 證明,透過高品質資料與創新訓練,小模型也能在推理任務中媲美巨型模型,特別適合資源受限的使用場景。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡


留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
31會員
121內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/04/30
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
2025/04/30
Google的 NotebookLM 推出重大更新,其「深入探索對話」功能現已支援超過50種語言,包括中文、西班牙文、法文、日文等。這項更新打破了以往僅限英語的限制,讓使用者能輕鬆生成多語言的podcast風格內容,無論原始資料是何種語言,以下將詳細介紹這次更新的核心亮點與使用方式。
Thumbnail
2025/04/29
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
Thumbnail
2025/04/29
OpenAI近日為ChatGPT推出了一系列更新以提升用戶體驗並挑戰傳統搜尋引擎的地位。本文將介紹ChatGPT的最新功能,並分析這些更新如何改變我們的線上搜尋與購物方式。
Thumbnail
2025/04/23
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。
Thumbnail
2025/04/23
介紹TTS模型(文字轉語音)的運作原理與應用,比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製,幫助您選擇最適合的TTS解決方案。
Thumbnail
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
1.0 從函數到函算語法 1.4 函算語法 1.4.1 語法範疇理論導論 1.4.2 函算語法與函數概念 三 弗雷格從語言結構的觀點出發,提出了函數可以被視為一個不完整的表式。如果我們將一個函數拆解為一個由一個函子及其 (一個或多個) 論元所組成的表式,那麼該函子便是一個有待滿足的
Thumbnail
1.0 從函數到函算語法 1.4 函算語法 1.4.1 語法範疇理論導論 1.4.2 函算語法與函數概念 三 弗雷格從語言結構的觀點出發,提出了函數可以被視為一個不完整的表式。如果我們將一個函數拆解為一個由一個函子及其 (一個或多個) 論元所組成的表式,那麼該函子便是一個有待滿足的
Thumbnail
1.0 從函數到函算語法 1.4 函算語法 1.4.1 語法範疇理論導論 1.4.2 函算語法與函數概念 二 關於函數的演變和弗雷格對函數的看法,前面的 1.2 節和 1.3 節已經談論了不少。 由於函數在數學﹑邏輯學﹑計算語言學極為重要,更且是本書闡述的語法的中心概念,因此有必要再略作
Thumbnail
1.0 從函數到函算語法 1.4 函算語法 1.4.1 語法範疇理論導論 1.4.2 函算語法與函數概念 二 關於函數的演變和弗雷格對函數的看法,前面的 1.2 節和 1.3 節已經談論了不少。 由於函數在數學﹑邏輯學﹑計算語言學極為重要,更且是本書闡述的語法的中心概念,因此有必要再略作
Thumbnail
1.0 從函數到函算語法 1.4 函算語法 1.4.1 語法範疇理論導論 1.4.2 函算語法與函數概念 一 上節是對語構範疇理論的簡介。 1922年,列希涅夫斯基提出了語構範疇概念,以此取代人工化的型論,並引入到他的三個形式系統中66,以圖避免羅素悖論及其它集論悖論的出現。 艾杜
Thumbnail
1.0 從函數到函算語法 1.4 函算語法 1.4.1 語法範疇理論導論 1.4.2 函算語法與函數概念 一 上節是對語構範疇理論的簡介。 1922年,列希涅夫斯基提出了語構範疇概念,以此取代人工化的型論,並引入到他的三個形式系統中66,以圖避免羅素悖論及其它集論悖論的出現。 艾杜
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 1.2 函數概念小史 1.3 弗雷格的函數概念 七 「概念」很可能是歐洲哲學史中最常用的其中一個語詞,就好像數學工作者的「數」,但概念總是作為一種心智建構提出或使用,對弗雷格要創建的新邏輯 —— 即以客存事物為對象的新邏輯 —— 來說,它可以
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 1.2 函數概念小史 1.3 弗雷格的函數概念 七 「概念」很可能是歐洲哲學史中最常用的其中一個語詞,就好像數學工作者的「數」,但概念總是作為一種心智建構提出或使用,對弗雷格要創建的新邏輯 —— 即以客存事物為對象的新邏輯 —— 來說,它可以
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 三 必須說一下波希米亞數學家/邏輯學家/哲學家/神學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法 1.2.5 弦的振動 1.2.6 熱的傳導 1.2.7 十九世紀的尾聲 三 必須說一下波希米亞數學家/邏輯學家/哲學家/神學
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法  三 有些讀者大概都知道,微積分學有兩個分科﹕一為微分學 (differential calculus),一為積分學 (integ
Thumbnail
1.0 從函數到函算語法 1.2 函數概念小史 1.2.1 中譯的來源 1.2.2 一個速度問題 1.2.3 幾何的方法 1.2.4 微積分的記法  三 有些讀者大概都知道,微積分學有兩個分科﹕一為微分學 (differential calculus),一為積分學 (integ
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
目錄 序 導論: 一個西方觀點的評述 1.0 從函數到函數算法 ......1.1 句子成份
Thumbnail
邏輯是我們思考的基礎,影響著我們如何看待世界和進行推論。透過假設前提和推論,我們可以從邏輯的角度來思考生活中的各種情況和決策。深入瞭解邏輯可以幫助我們更清晰地思考,理解事物之間的關聯。
Thumbnail
邏輯是我們思考的基礎,影響著我們如何看待世界和進行推論。透過假設前提和推論,我們可以從邏輯的角度來思考生活中的各種情況和決策。深入瞭解邏輯可以幫助我們更清晰地思考,理解事物之間的關聯。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News