前言:
AI 晶片是近年來科技業跟半導體的核心驅力,從 ChatGPT 掀起的生成式 AI 熱潮、到自動駕駛與智慧監控落地,算力的需求持續高漲。
無論是 NVIDIA 在數據中心稱霸,還是各大 CSP 自研 ASIC、手機的 edge AI 運算等,整個 AI 晶片市場正進入一個分化又重組的時代。本篇以六大應用場景來切入 AI 晶片產業.
👑 數據中心 AI 晶片(Data Center AI Chips)
目前最成熟的主戰場,從十年前 NVIDIA、AMD、Intel 三巨頭便在 HPC 領域互別苗頭.
近年來隨著 AI 模型訓練與推論算力爆炸性成長,已經形成以 NVIDIA 為首的壟斷態勢,市佔率高達 80~90%。
NVIDIA 除了 AI 晶片( B200GPU )領先外,還靠 CUDA 開發環境與 NVLink 等整合,從「GPU供應商」走向「整套 AI 平台供應商」,推出完整的 AI 超級伺服器整機系統(如 DGX NVL72/36系列),其特點是將GPU + CPU + Networking + 存儲 + 軟體 = 打包一站式整合,並導入 NVLink(Scale-Up)+ Spectrum-X/Infiniband(Scale-Out)提供極高頻寬的互聯架構。
而 AMD MI300 系列與 Intel Gaudi 則努力搶攻次要市場,但生態系與規模仍有差距;詳細可以看這篇解構 AI 三巨頭的晶片戰爭
趨勢觀察:
- 除了AI 晶片的算力提升之外,軟體上面的演算法優化、模型壓縮與等這些創新也會大幅提升 AI 模型的效率。
- CSP 自研 AI ASIC 或是針對特定AI應用的 ASIC 在某些應用可能有更好的效率,也會吃掉一部分 Data Center AI Chips 市場.
- NVIDIA 跟台積電合作的CoWoS-L封裝技術:解鎖AI晶片千瓦級功耗的關鍵 .
👑 CSP 自研 AI ASIC
Amazon、Google、Microsoft 等雲端服務大廠,近年來積極自研 AI ASIC,以降低對 NVIDIA 的依賴並提升運算效率。
Google TPU 可說是先行者,由 Broadcom 合作設計,針對 Google 自家演算法優化。AWS 的 Trainium/Inferentia、Meta、Microsoft 的 ASIC 等也陸續上線。背後設計常由 Broadcom、Marvell 等傳統網通 IC 設計大廠完成,形成「CSP出規格 + 代工設計」模式。
台灣 design service 廠商的也有做這塊,幫大陸的 CSP 做.
困難在於:
- AI 演算法演進快,ASIC 研發成本高(數億美元起跳),若設計時沒有考慮好通用性-有可能新的演算法不一定能套用原本 ASIC.
- 為通用性而犧牲效能,或為極致效能而犧牲未來彈性,成為兩難;
- 缺乏像 CUDA 的生態系。
趨勢觀察:NVIDIA 近期推出 NVLink Fusion 平台,結合聯發科、Marvell 等合作夥伴打造半客製化 AI 晶片.
👑 AI 晶片新創
在巨頭與 CSP 夾縫中,AI 晶片新創通常尋求利基市場切入。代表性企業如:
- Cerebras:其 WSE-3 是全球最大晶圓級晶片(wafer scale),強調大型模型單晶片訓練能力;
- Groq:主打語言模型推論速度極快,每秒 token 處理數遠高於 H100;
挑戰在於生態系、客戶信任與市場規模,不易大規模商業化。
趨勢觀察:這些公司常避開與 NVIDIA 正面競爭,而以「推論場景」、「邊緣裝置」、「政府/金融」等特殊需求為主要切入點。
👑 Edge AI 的應用(AI 手機/AI PC)
Edge AI 指將推論算力移到用戶端設備,如手機、筆電、IoT 裝置。
手機方面,Apple(A17 Pro)、Qualcomm(Snapdragon 8 Gen3)、MediaTek(Dimensity 9400)以及更早的幾代都有整合 NPU。在 Android 系統中,Google Gemini nano 成為 Android 端側 AI 應用的主引擎,Google 提供了一整套開發與應用支援.
AI PC 方面,除了原本的 Intel、AMD 已將 NPU 整合進PC 處理器,而且像高通跟聯發科等也有進軍這塊把 NPU 整合進 arm-base 處理器-搭配 Windows on ARM OS。
加上 int4/ggml/GGUF 等推理壓縮技術與 MoE 架構 的成熟,現在主流旗艦手機跟 AI PC 都能支援本地 7B 級模型(如 Llama 2 7B、Gemma 7B)每秒產生 10~20 tokens (或更高)的速度,足以支援簡易對話、指令理解等功能。
趨勢觀察:
- 記憶體頻寬與容量仍限制 LLM 模型大小;
- Google 逐步將 Gemini nano 深入整合進 Gboard、Assistant、Messages、Recorder、Photos 等自家應用中,打造端側 AI 的應用示範生態。
👑 車用自動駕駛 AI 晶片
此為 AI 晶片最早應用場景之一。
目前車用自動駕駛晶片的市場:
- Level 2~2+ ADAS:入門市場以 Mobileye 為最大玩家,但高通 Snapdragon Ride 平台近年快速滲透 OEM 廠商(如通用、BMW、現代).
- Level 3~4 高階自駕:以 NVIDIA Orin/Thor為主;
- Tesla:採自家 Dojo 晶片+自研 E2E 模型,新一代Dojo 的規格跟做法蠻有趣的,可以參考晶圓級封裝的 AI - Dojo Training Tile
中國電動車興起,形成地產地銷的自駕晶片需求(地平線、黑芝麻等),正在快速追趕。
趨勢觀察:類似影像監控的演進,從規則引擎走向 end-to-end 神經網路控制,並強調真實世界資料訓練與多模態感測器融合。
👑 AI 影像監控晶片
以中國為主要市場與技術主導者(如海康、大華、中星微等),強調:
- 即時物件辨識、人臉辨識、異常行為預測;
- 低功耗 + 高整合度 + 終端智慧化(不依賴雲端)。
演算法逐漸從傳統 CV 方法轉為深度學習,結合視訊、聲音、雷達等多模態資訊,形成智慧城市的基礎設施之一。
趨勢觀察:隨著 E2E 模型與自監督學習成熟,監控晶片也將納入 transformer、RNN 等 AI 模型加速需求。
不同應用對 AI 晶片的特性、記憶體需求、資料流設計會有差異

大語言模型(LLM)偏重記憶體與矩陣運算
以 Transformer 架構的大語言模型(LLM)上,這類模型運算以大規模矩陣乘法為主,記憶體頻寬與參數吞吐量是關鍵瓶頸。像是NVIDIA 的 H100、GH200,以及Google TPU 等都優化於這種 workload,尤其重視「每秒產生多少 token」的效能表現。
自動駕駛與影像監控則強調即時性與資料流
相對而言,影像監控與自動駕駛的 AI 晶片更注重即時反應與多感測器輸入的處理能力。這些晶片偏重卷積(CNN)與視覺前處理,加強資料流控制、功耗管理與延遲優化。像是 NVIDIA Orin、Mobileye EyeQ、Qualcomm Snapdragon Ride 等,皆設計為處理高速攝影機與雷達等輸入裝置資料,並在毫秒內做出決策。
應用於手機的多模態 AI 的挑戰
Edge AI 將多模態 AI(文字、影像、語音、感測器等資料來源的融合)應用於手機等終端裝置,帶來的是一場晶片設計上的「高複雜度、低功耗、低延遲」三重挑戰;這等有空再另外寫一篇。
結語:
AI 晶片的戰場正迅速多元化,從以數據中心為主的通用 GPU,擴展至 CSP 專用 ASIC、AI PC 與手機、到自動駕駛與影像監控等垂直場景。
未來發展關鍵在於三點:
- 軟硬整合:擁有 CUDA 等生態優勢的公司仍有較大護城河;
- 演算法迭代與晶片設計週期的落差,將考驗 ASIC 模式的可行性;
- 垂直應用場景的發酵與推論經濟學的效率提升,將推動邊緣與利基市場快速成長。