方格子 vocus

為何 AI GPU 一定要使用 HBM

JH Young

發佈於我想問

2026/02/23 更新2026/02/23 發佈閱讀 6 分鐘

🟩 AI GPU「一定要」用HBM（物理原因）

這不是單純工程選擇，而是 AI 計算物理極限 的結果。

一句話：

AI ≠ compute problem，而是 memory movement problem

下面從物理層 → 架構層 → AI scaling 層，完整講清楚。

⭐ 一、AI 計算本質：資料搬移主導

在 LLM / Transformer 中：

Compute FLOPs  <<  Memory traffic

原因：

權重矩陣巨大
activation 巨大
KV cache 巨大
attention streaming

👉 GPU 大部分時間在 等資料

這就是 memory wall

⭐ 二、Memory wall 的物理來源

🔷 1️⃣ 電子傳輸距離

功耗近似：

Energy ∝ capacitance × distance

👉 距離越遠 → 功耗越高

比較

👉 HBM 最短

🔷 2️⃣ Pin density 限制

傳統 DRAM：

PCB trace
package edge pins

👉 IO pin 數量受封裝限制

結果

👉 bandwidth ceiling

🔷 3️⃣ Frequency scaling 不可行

GDDR 想提高 bandwidth：

bandwidth = pins × frequency

但：

高頻 → signal integrity
jitter
power
EM loss

👉 GHz scaling 成本極高

⭐ 三、HBM 的物理解法

🔷 HBM = 3D + 2.5D integration

HBM 使用：

TSV（Through Silicon Via）
silicon interposer
3D stack

👉 本質 = memory proximity engineering

🔷 1️⃣ 超寬 IO（核心）

HBM：

1024 bit / stack
多 stack

👉 aggregate bus width = tens of thousands bit

GDDR：

32 bit channel

👉 HBM 用寬度，不用頻率

🔷 2️⃣ mm 級距離

HBM：

GPU die 旁邊
interposer

👉 RC delay ↓

👉 energy ↓

🔷 3️⃣ 並行 memory banking

HBM stack：

多 die
多 bank

👉 massive parallel memory

適合：

matrix streaming
tensor access

⭐ 四、AI 為何比 graphics 更依賴 HBM

🔷 Graphics

cache reuse
locality
pipeline reuse

👉 bandwidth 壓力較低

🔷 AI

weight streaming
activation streaming
KV cache

👉 near worst-case memory pattern

⭐ 五、Scaling law 使 HBM 成為必然

AI scaling：

model size ↑
context ↑
batch ↑

👉 memory traffic ≈ O(N)

Compute scaling：

👉 O(N log N)

👉 memory 變 bottleneck

⭐ 六、Energy economics（最深原因）

移動 32bit：

👉 memory access ≫ compute

HBM 目標：

👉 降低 memory energy

⭐ 七、為何 GDDR 不行

👉 GDDR 是 PCB memory

👉 HBM 是 package memory

⭐ 八、最直觀理解

🔷 GDDR

👉 memory 在城市外

👉 要開高速公路

🔷 HBM

👉 memory 在 CPU 旁

👉 走小路

👉 latency ↓

👉 energy ↓

👉 bandwidth ↑

⭐ 九、一句話物理結論

AI GPU 必須 HBM，因為 memory movement energy dominates compute energy，而 HBM 是唯一能降低 movement energy 的封裝技術

⭐ 十、延伸前沿（非常重要）

HBM 之後：

HBM4
optical memory link
wafer-scale memory
memory fabric

👉 AI computing → memory-centric computing

留言

sirius數字沙龍

23會員

478內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/02/23

NVIDIA AI 發展路線圖

🟩 NVIDIA AI Scale Roadmap （H100 → H200 → B200 → GB200 → Rubin）這條 roadmap 是近年 AI 基礎設施最重要技術演進之一。本質是一條： AI 模型 scaling 需求 → GPU 架構 → 系統級算力演化鏈。

2026/02/23

NVIDIA AI 發展路線圖

2026/02/23

NVIDIA GPU 全層級總覽

🟩 NVIDIA 全 GPU Hierarchy （RTX 5090 → RTX Pro → H200 → B200 → GB200） NVIDIA GPU 並不是單一產品線，而是完整算力層級架構。可理解為： PC → 工作站 → 單卡 AI → AI 基礎設施 → AI 超級系統

2026/02/23

NVIDIA GPU 全層級總覽

2026/02/23

完整比較 NVIDIA RTX 5090 和 B200

🟩 NVIDIA RTX 5090 vs B200 完整比較這兩張 GPU 雖然同屬 Blackwell 架構，但定位完全不同： RTX 5090 → 消費級 / 工作站 / 遊戲 / 本地 AI B200 → 資料中心 / AI 訓練 / 超級算力

2026/02/23

完整比較 NVIDIA RTX 5090 和 B200

看更多

你可能也想看

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28