在 2025 年的 AI 算力競賽中,NVIDIA GPU 與 Google TPU 已經演變成兩條截然不同的技術路徑。NVIDIA 憑藉著靈活性與生態系統統治著市場;而 Google 則透過高度客製化的 ASIC(專用集成電路)架構,在雲端算力成本與特定大規模訓練任務中展現出實力。
1.核心定位
- NVIDIA GPU (圖形處理器): 最初為圖形渲染設計,隨後演進為通用並行計算平台。它能處理 AI、物理模擬、科學運算、甚至影像剪輯。它是通用的(General Purpose)。
- Google TPU (張量處理器): 這是專為神經網絡運算(矩陣運算)打造的 ASIC。它放棄了處理圖形或通用任務的能力,將所有電晶體資源集中於加速 AI 核心的張量數學運算。
2.硬體架構
- NVIDIA 的最新架構(如 Blackwell B200)依賴於數千個小型、高效的 CUDA 核心,並搭配專門的 Tensor Cores。
- 控制邏輯: 擁有複雜的控制單元,能處理分支預測與複雜指令流。
- 記憶體層次: 具有多層快取(L1/L2)和高頻寬記憶體(HBM3e),適合處理動態權重與不規則的資料結構。
- 最新進展: 第二代 Transformer Engine 能根據模型需求自動調整精度(如從 FP16 到 FP8 或 FP4),大幅提升 LLM(大語言模型)推理效率。
- Google TPU v6 (Trillium) 脈動陣列 (Systolic Array) 架構採用了完全不同的邏輯。
- 矩陣乘法單元 (MXU): 這是 TPU 的心臟。不同於 GPU 需要頻繁訪問暫存器,TPU 的數據在處理單元之間流動(脈動陣列),減少了記憶體訪問的功耗。
- 大容量 HBM: TPU 針對大規模參數模型設計,擁有極大的單晶片記憶體頻寬。
- 互連技術: Google 使用自研的 OCS (光學電路交換) 技術,讓數萬個 TPU 能像單一超大電腦一樣運作,這在處理 Gemini 等萬億級參數模型時極具優勢。
3.軟體生態
- NVIDIA CUDA:無可取代的通用標準
- 深厚的技術積澱: 自 2006 年發表以來,CUDA 已累積近 20 年的開發者貢獻,成為 AI 領域的「工業標準」。
- 極致的靈活性: 支援底層 C++ 撰寫自定義算子(Custom Kernels),當科學家研發出全新的神經網絡結構時,CUDA 幾乎能第一時間實現支持。
- 龐大的函數庫支持: 擁有如 cuDNN(深度神經網絡)、NCCL(多卡通訊)及 TensorRT(推理優化)等高度成熟的加速庫,能榨乾硬體的最後一分性能。
- 正向循環的社群: 全球超過 400 萬名開發者。在 GitHub 或 Stack Overflow 上,針對 GPU 的報錯解決方案遠多於其他架構,大幅降低了企業的研發門檻與時間成本。
- Google XLA:專為自動化優化而生的編譯器
- 垂直整合策略: XLA (Accelerated Linear Algebra) 是一個針對線性代數的專用編譯器,它能將高階的 AI 代碼直接翻譯成 TPU 的機器指令。
- 算子融合(Operator Fusion): 這是 XLA 的殺手鐧。它能將多個離散的數學運算(如加法與乘法)合併為單一運算塊,減少資料在記憶體與運算核心間搬運的次數,從而解決記憶體頻寬瓶頸。
- TensorFlow/PyTorch: 透過 torch_xla 插件,讓開發者能用習慣的語法享受 TPU 的加速。
- 自動化負擔減輕: 開發者通常不需要像在 CUDA 中那樣手動優化暫存器或快取,XLA 編譯器會自動在後台完成大部分的效能調優,適合追求快速擴展的大型團隊。
4.觀點與投資看法 (2025.12)
個人認為目前的盤勢很有趣, 因為 NVIDIA 實在紅太久了,現在市場反而開始看衰它,擔心它太耗電、太貴,覺得大家都要跑去自研晶片了。既然我們無法百分之百確定誰是最後贏家,個人認為最好的策略就是「逆著情緒走」。既然市場現在看衰 NVIDIA (GPU),嫌它泡沫,這時候反而是佈局它的好時機。只要 AI 還有新應用,NVIDIA 就會持續上漲。但如果哪天風向變了,市場開始看衰 Google (TPU),嫌它太封閉、沒人用,那反而是佈局它的點位。
總而言之,個人認為不用糾結誰更強,看市場現在嫌棄誰,那邊往往就是被低估的機會。















