前情提要:高通不是第一次做 AI 晶片
高通在資料中心 AI 推理領域其實並非新兵。過去曾推出過「Cloud AI 100 Ultra」推理卡,其規格為 870 TOPS、128 GB LPDDR4、支援 8 卡一機。
但市場反應不如預期,原因不少:市場已被 Nvidia、 AMD 等巨頭佔據,生態系統硬體+軟體配套成熟,而高通雖有硬體能力,但生態與切入點尚未突破。這次推出的新品Qualcomm AI200 和 Qualcomm AI250,可說是高通再接再厲,並試圖「翻盤」。
撰文|編輯部|2025年10月
核心亮點:768 GB LPDDR + 「Disaggregated Inferencing」
公告內容中有兩個關鍵字值得特別留意:“768 GB LPDDR” 和 “disaggregated AI inferencing”(或稱 “disaggregated serving”)。這兩者其實比單純提升 TOPS 更為戰略性。
- 在記憶體容量方面,AI200 每卡支援 768 GB LPDDR。
- 在架構策略方面,「disaggregated inferencing」意味著硬體與資源能夠在推理階段做資源拆解(Compute / Memory / Interconnect 分離),讓 Prefill(預填充)與 Decode(解碼)可以在不同伺服器架構、不同卡片或不同機櫃中協同運作。
高通自己雖未將「disaggregated inferencing」放在宣傳標題最明顯位置,但在新聞稿及技術文章中這樣描述:
“This enables disaggregated AI inferencing for efficient utilization of hardware while meeting customer performance and cost requirements.”
換句話說,如果你只從「NPU/TOPS」的傳統視角去看,就容易忽略高通此次產品規劃的重點:系統級拆解 + 高記憶體容量 +記憶體頻寬提升。
競爭定位:高通 vs. Nvidia 的拆解推理賽道
讓我們把焦點放在拆解推理(disaggregated inferencing)這一塊,並與 Nvidia 的產品做對照。
Prefiller 機櫃定位
- 晶片:AI200(高通)對比 Rubin CPX(Nvidia)
- 核心:Hexagon NPU(高通) vs. Rubin CPX GPU(Nvidia)
- 記憶體:768 GB LPDDR(高通) vs. 128 GB GDDR7(Nvidia)
- Scale-Up:PCIe(高通) vs. PCIe(Nvidia)
- Scale-Out:Ethernet(高通) vs. Ethernet/InfiniBand(Nvidia)
- 系統:AI200 機櫃(高通) vs. CPX 機櫃/NVL144 CPX機櫃(Nvidia)
- 上市時間:2026(高通) vs. Late 2026(Nvidia) 
 評析:在這個定位上,高通的記憶體容量優勢明顯,768 GB 備受市場注目。
Decoder 機櫃定位
- 晶片:AI250(高通) vs. Rubin 系列(Nvidia)
- 核心:Hexagon NPU(高通) vs. Rubin GPU(Nvidia)
- 記憶體:高通未明確公開,只提「10×記憶體頻寬」;Nvidia 則為 288 GB HBM4。
- Scale-Up:PCIe(高通) vs. NVLink(Nvidia)
- Scale-Out:Ethernet(高通) vs. Ethernet/InfiniBand(Nvidia)
- 系統:AI250 機櫃(高通) vs. VR NVL144 機櫃(Nvidia)
- 上市時間:2027(高通) vs. Late 2026(Nvidia)
 評析:高通在 Decoder 階段時間落後一年成為潛在弱點。Nvidia 利用 NVLink+HBM 頻寬優勢可能在第一時間佔據先機。
風險與挑戰:時間差/生態較弱/精度格式未明
- 上市時間間隔:高通 AI200 2026 年推出,AI250 則預期 2027 年,與 Nvidia 在 Decoder 階段可能搶先的時間差形成弱點。
- 生態系統落後:Nvidia 整套從 GPU、系統、軟體到開發工具都成熟,而高通雖強調支援主流框架(PyTorch、ONNX 等) ,但其市場採用率、合作夥伴、生態滲透仍待觀察。
- 精度格式未明:目前其他推理晶片越來越多支援 FP4/FP6 等低精度格式以提升效率,但高通在公告中並未明確指出其 AI200/AI250 支援哪些精度格式。
- 使命聚焦偏窄:高通這次明確聚焦「推理(inference)」而非「訓練(training)」,對應的是雲端/資料中心模型推理需求,但如果訓練-推理協同變得更重要,或訓練硬體需求彈性增大,這可能限制其發揮。
為什麼這次值得注意?
- 高通這次不只是「進入資料中心 AI 市場」,而是在架構變革口(disaggregated serving)下注。這意味著未來資料中心不再僅是大 GPU 堆疊,而可能分解為「大量記憶體 + NPU +高速互連」的組合。
- 而對於其他 GPU/XPU/ASIC 廠商,這/改變了門檻:如果沒有專用「拆解推理晶片/硬體」,未來只能靠軟體改造,恐怕在 C/P 值上處於劣勢。外購高通 AI200 或 Nvidia Rubin CPX 的機櫃,可能讓自研 ASIC 的規模效益變小。
- 從產業角度看,假設其他雲端服務商(例如 Meta Platforms、Microsoft、Bytedance)也開始布局拆解推理,那麼「推理晶片」將不僅是訓練晶片的附屬,而成為獨立、被設計為可拆解/共享資源的產品類別。

















