從手機部署到多模態任務,一個 Phi‑3 就夠

更新於 發佈於 閱讀時間約 3 分鐘
Phi‑3 系列以高品質與合成資料訓練,搭配 RLHF 與自動測試優化,實現可在手機上執行的高效語言模型,並推出支援圖像理解的多模態版本 Phi‑3‑Vision《Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone》,在推理、生成與感知任務上展現接近 GPT‑3.5 的能力。

劃時代的性能與小型化

Phi-3 小型語言模型(SLMs)使用高品質資料訓練

  • 經過大量高品質資料訓練,包括人類反饋強化學習(RLHF)和自動化測試。
  • Phi-3 系列模型適用於各種語言理解、推理分析和生成任務。
  • 在資源有限和低延遲需求的場景中表現突出,甚至部署於手機上(Phi-3-mini 4-bit)。
raw-image

Phi-3 性能優於同等和更大尺寸模型

  • 支持 4K / 8K 和 128K 的上下文長度,適用於不同場景需求。
  • 在語言、推理、程式碼和數學等基準性能優於同等和更大尺寸模型,如 GPT-3.5T 和 Gemini 1.0 Pro。
  • 使用 ONNX Runtime 優化模型
    • 支持 Windows DirectML 和跨平台支援。
    • 針對 NVIDIA GPU 和 Intel accelerators 進行優化。
Phi-3 模型大小與效果比較

Phi-3 模型大小與效果比較

安全性評估

  • 遵循 Microsoft 負責任 AI 標準,包含六項原則:
    • 問責制、透明度、公平性、可靠性和安全性、隱私和安全性、包容性。
  • 經過嚴格安全測量和評估:
    • 紅隊測試(red-teaming)、敏感用途審查(sensitive use review)。
  • 使用高品質資料訓練
    • 經過強化學習和多種危害類別的自動化測試和人工紅隊測試。

加入多模態

  • Phi-3 系列新增 Phi-3-vision 模型
    • 結合語言和視覺能力,對於文本和圖像進行推理。
    • 在視覺推理任務、OCR、表格和圖表理解任務中性能超過更大尺寸模型。
Phi-3-vision 圖表理解能力

Phi-3-vision 圖表理解能力

選擇合適的模型

  • Phi-3-mini(3.8B) : 支援 128K, 4K 兩種上下文長度(context lengths)。
  • Phi-3-small(7B) : 在語言、推理、程式碼和數學測試中擊敗 GPT-3.5。
Phi-3-small(7B)

Phi-3-small(7B)

  • Phi-3-medium(14B) : 各項表現優於Gemini 1.0 Pro。
Phi-3-medium(14B)

Phi-3-medium(14B)

  • Phi-3-vision(4.2B): 適合需要圖文結合推理的任務,如 OCR 和圖表理解,優於 Claude-3 Haiku 和 Gemini 1.0 Pro V 等較大模型。
Phi-3-vision(4.2B)

Phi-3-vision(4.2B)


留言
avatar-img
留言分享你的想法!
avatar-img
AI 工程師的 LLM 筆記
0會員
10內容數
聊一聊提示工程、模型調校與優化技巧,同時分享一路走來的挑戰與突破,作為提醒未來的自己:別忘初心,走得更踏實。
2025/07/30
Microsoft Research 發表《Textbooks Are All You Need II: phi-1.5 technical report》,Phi-1.5 展現高品質合成資料(教科書等級)的潛力,以僅 1.3B 參數在常識推理與語言理解上媲美大型模型,挑戰「參數規模至上」的傳統觀點
Thumbnail
2025/07/30
Microsoft Research 發表《Textbooks Are All You Need II: phi-1.5 technical report》,Phi-1.5 展現高品質合成資料(教科書等級)的潛力,以僅 1.3B 參數在常識推理與語言理解上媲美大型模型,挑戰「參數規模至上」的傳統觀點
Thumbnail
2025/07/28
微軟的研究論文《Textbooks Are All You Need》提出以高品質教科書資料訓練語言模型,開發出僅 1.3B 參數的 phi-1 模型,其效能在程式碼生成任務上媲美參數量更大的模型。此論文探討了高品質資料的重要性,包含資料過濾、合成教科書資料集的建立,以及模型架構與訓練過程。
Thumbnail
2025/07/28
微軟的研究論文《Textbooks Are All You Need》提出以高品質教科書資料訓練語言模型,開發出僅 1.3B 參數的 phi-1 模型,其效能在程式碼生成任務上媲美參數量更大的模型。此論文探討了高品質資料的重要性,包含資料過濾、合成教科書資料集的建立,以及模型架構與訓練過程。
Thumbnail
2025/07/28
使用大型語言模型(LLM)生成合成資料作為訓練語料的可行性與實務應用。根據研究顯示,合成資料在某些任務上可達到與真實資料相近的效果,具備部分替代潛力。高品質訓練資料對模型表現的重要性,並討論合成資料的生成策略與評估方法。
Thumbnail
2025/07/28
使用大型語言模型(LLM)生成合成資料作為訓練語料的可行性與實務應用。根據研究顯示,合成資料在某些任務上可達到與真實資料相近的效果,具備部分替代潛力。高品質訓練資料對模型表現的重要性,並討論合成資料的生成策略與評估方法。
Thumbnail
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News