- NPU 軍備競賽加速:微軟把 Copilot+ PC 的最低門檻定在 NPU ≥ 40 TOPS,逼著 PC 供應商在 2024–2025 一口氣把 NPU 拉到 45–80 TOPS 等級(Intel Lunar Lake ~48 TOPS、AMD Ryzen AI 300 系列 50+ TOPS、Qualcomm X2 Elite/Extreme 跳到 80 TOPS 區間;蘋果 M4 神經引擎 38 TOPS)。這不是跑分遊戲,是部署「本地 LLM/VLM」的硬性地板。
- 雲邊協同的「私密雲」範式成形:Apple Intelligence 先在端上跑,算力不夠再丟到 Private Cloud Compute(PCC),把資料封在 Apple 自研晶片與硬化 OS 的雲端節點裡,安全機制公開給研究社群驗證—這是把「雲」變成延伸的裝置安全域。
- 工控與醫療邊緣進入量產化堆疊:NVIDIA IGX + Holoscan 把「低延遲多感測器處理 + 安全認證 + 10 年商規支援」打包,醫療成像、機器人這類需要毫秒級回饋的場景開始常態化採用。

市場趨勢判斷
- 算力版圖在「端」側重繪
NPU 成了 PC 與手機 SoC 的第一等公民。微軟用 40 TOPS 把生態壓到一條線上;Intel、AMD、Qualcomm 今年一個比一個高,實質意義是 7–8B 等級的 LLM、輕量 VLM、ASR/TTS 可以常駐本機,而不是偶爾 demo。這會持續擠壓一部分「雲上每答付費」的推論收入。 - 瀏覽器與本機框架把「分發成本」壓到最低
ONNX Runtime Web 的 WebGPU 從 1.17 起正式上線,配合 Transformers.js v3,「免安裝、即點即跑」的瀏覽器 AI 變成正規路徑;Intel OpenVINO 2025 系列把 INT4/NF4、KV-cache 壓縮等針對 LLM 的優化做成預設選項。這意味著邊緣部署將更像前端工程的交付節奏,而不是一年一更的終端方案。 - 工業/醫療邊緣從 PoC 轉向 SOP
IGX(工規安全 + 即時串流處理)配 Holoscan 的組合,讓「可驗證、安全」成為中大型專案標配;微軟也把 Edge RAG(Arc on K8s) 做成可部署元件,企業把私有知識庫留在廠內或院內、在邊緣完成檢索與推論,合規與延遲一次到位。 - 監管與成本同向推動「資料不出域」
EU AI Act 的時程已經走到 2025/08 起針對 GPAI 的義務、2026/08 高風險系統全面上路。對隱私/合規敏感場景(醫療、公共安全、製造)而言,「就地推論」是最少阻力路徑。另一方面,記憶體與儲存(尤其 DDR4 與企業級 NAND)在 2025 下半年持續漲價,雲推論 TCO 不會便宜到哪去,邊緣算一次付一次更容易控本。 - 供應鏈關鍵料件:LPDDR6
JEDEC 已發佈 LPDDR6(JESD209-6),鎖定行動/邊緣 AI 的頻寬與能效翻倍,這直接決定 2026 年起端側 LLM 響應的上限與續航表現。
技術路線正在收斂成三條主路
- 端上執行(On-device):Apple Intelligence(端→PCC 回落),Android 的 Gemini Nano 常駐裝置;PC 端以 ONNX Runtime / OpenVINO / DirectML 為主。好處是隱私、延遲、可離線;瓶頸在模型大小與記憶體頻寬。
- 邊緣微服務:NVIDIA NIM 把 LLM/RAG/語音/視覺打包成容器,五分鐘起一個推論端點;Dell/微軟等都給出從 PoC → 生產的參考藍圖。
- Edge RAG:索引與向量庫留在園區或工廠(Azure Arc Edge RAG),僅回傳最小必要上下文給模型;對資料主權與網路不穩的產線/門市尤其關鍵。