在 AI 模型參數、算力需求呈指數級成長的今天,擁有高效能、高效率且具備規模化能力的基礎設施,不再是科技巨頭的加分題,而是攸關未來競爭力的存亡題。當整個產業的焦點都放在如何訓練出更強大的模型時,背後的硬體戰爭早已打得如火如荼。
就在本週,Google Cloud 正式揭曉其最新的兩款自研晶片:第七代 Tensor Processing Unit (TPU) — Ironwood,以及首款基於 Arm 架構的自研 CPU — Axion。顯現 Google 對於 AI 運算「系統級」的全盤思考,以及企圖從硬體、軟體到資料中心架構,打造一個高度垂直整合生態系的野心。
Announcing Ironwood TPUs General Availability and new Axion VMs to power the age of inference
Ironwood TPU、Axion Arm CPU懶人包
簡單來說,Google Cloud 這次端出兩款自研晶片分別針對 AI 模型的「專用運算」與「通用運算」需求:
- Ironwood TPU :這是 Google 最新的 AI 加速器,專為大規模模型訓練與高流量、低延遲的推理服務所設計。相較於前代,Ironwood 在性能與能效上都有巨大的提升,是 Google 用來支持自家 Gemini、Veo 等前沿模型,以及服務像 Anthropic 這類頂級 AI 公司客戶的核心武器。
- Axion Arm CPU :Google 首次推出自研的 Arm 架構 CPU,並發布了兩款新的虛擬機 (VM) 實例:N4A 與 C4A metal。這代表 Google 正式加入 AWS 、Microsoft 的行列,透過自研 CPU 來降低成本、提升效能,並擺脫對傳統 x86 架構的依賴。
它們共同構成了 Google AI Hypercomputer 願景下的基石:用最高效的專用晶片 (Ironwood) 處理最複雜的 AI 運算,同時用最具性價比的通用晶片 (Axion) 處理支撐 AI 應用的日常工作負載,兩者相輔相成。
主要亮點剖析
Ironwood TPU:不只是一塊晶片,而是一整個「超級電腦系統」
如果說 GPU 是 AI 運算的瑞士刀,那 TPU 就是專為屠龍而生的寶劍。從十年前第一代 TPU 誕生至今,Google 的核心理念始終如一:透過軟硬體的高度整合,打造出為特定 AI 任務最佳化的專用積體電路。
硬體規格亮點:
- 為推理而生的強大性能:Ironwood 的峰值性能是前代 TPU v5p 的 10 倍,單晶片性能更是 TPU v6e 的 4 倍以上,無論是訓練或推理,效能提升都相當顯著。這使其能夠應對最嚴苛的任務,從模型的訓練,到需要即時反應的 AI 助理或內容生成服務。
- 記憶體的暴力美學:一個完整的 Ironwood 超級節點 (superpod) 可以連接高達 9,216 顆晶片,共享驚人的 1.77 PB 高頻寬記憶體 (HBM)。這些晶片之間透過 Google 自家的 Inter-Chip Interconnect 技術以 9.6 Tb/s 的速度直接通訊,形成一個巨大的運算矩陣。這種架構的優勢在於,當處理大型模型時,可以有效避免資料傳輸的瓶頸,讓數千顆晶片像一顆晶片一樣協同工作。
- 規模化與穩定性的保障:為了連接上萬顆晶片,Google 採用了「Optical Circuit Switching, OCS」 技術,它就像一個智慧的交通號誌系統,可以動態地重新配置光纖網路路徑。當某個節點或線路出現故障時,OCS 能夠立刻繞道,確保整個系統不中斷運行,這對於需要 99.999% 可靠度的雲端服務至關重要。
軟體層的深度整合:
硬體再強大,沒有軟體生態系的支援也只是空中樓閣。Ironwood 的真正護城河在於其與 JAX、PyTorch、OpenXLA 等框架的深度整合。
- XLA 編譯器:這是 Google 的秘密武器,全名為 Accelerated Linear Algebra。它能將高階的程式碼(如 Python)自動編譯、最佳化,並融合成最高效的指令在 TPU 上執行,達成「開箱即用」的優異性能。
- Pallas:釋放極致性能的客製化能力:對於追求極致效能的研究者,Google 提供了 Pallas 這個內嵌在 JAX 中的核心程式設計語言。開發者可以直接用 Python 控制 TPU 的記憶體階層與運算單元,撰寫客製化的運算核心 (Kernel),榨乾硬體的每一分效能,而無需像其他平台一樣,跳到 C++ 或 CUDA 這類低階語言,大幅簡化了開發流程。
- 擁抱開源生態:Google 積極將 Ironwood 的能力整合到主流 AI 生態系中。例如,近期宣布在熱門的推論框架 vLLM 中強化對 TPU 的支援,讓開發者只需修改幾行設定,就能在 GPU 和 TPU 之間無痛切換或混合使用。
Axion VM:Google 的 Arm 陣線,對標 AWS Graviton
在 AI 加速器之外,另一大重點是 Google 首款自研的 Arm 架構 CPU — Axion。長期以來,雲端伺服器市場由 Intel 和 AMD 的 x86 架構主導,但近年來,以 Arm 架構為基礎的 CPU 因為其出色的能效與成本優勢,正迅速崛起。
- 性價比的絕對優勢:根據 Google 的資料,最新的 Axion N4A 虛擬機,在處理網頁服務、微服務、資料分析等日常通用型工作負載時,性價比相較於同代的 x86 虛擬機可提升高達 2 倍。許多前期測試的客戶都回報了顯著的成本降低與性能提升,幅度從 30% 到 60% 不等。
- 完善 AI 工作流程的最後一塊拼圖:一個完整的 AI 應用,不只有模型推論這個環節。前端的應用程式伺服器、後端的資料預處理與數據擷取,都需要大量通用 CPU 來支撐。Axion 的角色,就是在這些環節提供最高效、最低成本的運算力,讓 Ironwood TPU 能專注於最核心的 AI 運算,達到整體系統的最佳化。
- 策略自主與供應鏈安全:擁有自研 CPU,意味著 Google 能更深度地客製化硬體以符合自家資料中心的需求,從晶片設計、效能調校到散熱管理,都能做到最佳化。更重要的是,這降低了對外部晶片供應商的依賴,提升了供應鏈的穩定性與議價能力。
TN科技筆記的觀點
Google 這次的硬體更新,看似是雲端巨頭之間的軍備競賽,但其影響將會輻射到整個科技產業。對於追求極致性能的 AI 研究團隊,尤其是像 Anthropic 這樣需要訓練大型模型的公司,Ironwood 提供了另一個頂級的選擇。其獨特的系統級架構與對 JAX 的深度支援,對於需要進行複雜模型設計與演算法創新的團隊來說,具備相當大的吸引力。
Axion 的出現則為企業在選擇雲端伺服器時提供了新的考量。對於那些希望降低雲端支出、且應用程式可以輕易轉移到 Arm 架構的企業(例如基於容器化、微服務架構的應用),Axion 將會是一個極具競爭力的選項,直接挑戰 AWS Graviton 的市場地位。
Google 透過 Ironwood 和 Axion,展現了其打造 AI 基礎設施的決心。這對 NVIDIA 形成了有趣的制衡,雖然 NVIDIA 的 CUDA 生態系依然是市場主流,但 Google TPU 在特定的大規模訓練與推論場景下,憑藉其軟硬整合的優勢,正努力突破重圍。雲端市場的競爭也從單純的 VM 價格戰,升級到涵蓋自研晶片、網路架構、軟體堆疊的「系統級」對抗。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)




