HBM (High Bandwidth Memory) 是什麼?

更新於 2024/11/18閱讀時間約 11 分鐘
  • 文內如有投資理財相關經驗、知識、資訊等內容,皆為創作者個人分享行為。
  • 有價證券、指數與衍生性商品之數據資料,僅供輔助說明之用,不代表創作者投資決策之推介及建議。
  • 閱讀同時,請審慎思考自身條件及自我決策,並應有為決策負責之事前認知。
  • 方格子希望您能從這些分享內容汲取投資養份,養成獨立思考的能力、判斷、行動,成就最適合您的投資理財模式。
raw-image



HBM,全稱 High Bandwidth Memory(高頻寬記憶體),是一種專為高性能計算設計的先進記憶體技術。它以 3D 堆疊 為核心,能夠提供極高的數據傳輸頻寬,同時降低功耗和佔用空間,成為人工智慧(AI)、高效能計算(HPC)和高端 GPU 的首選記憶體。

HBM 的核心特點

  1. 3D 堆疊設計
    • 將多層 DRAM 晶片垂直堆疊在一起,透過 TSV(Through-Silicon Via,矽通孔) 技術連接每層晶片,實現高速數據傳輸。
  2. 高頻寬
    • 每層 DRAM 晶片之間的通訊距離極短,數據傳輸速度可以達到 每秒數百 GB。
  3. 低功耗
    • 記憶體模組和處理器(如 GPU)之間的數據傳輸耗能更低,對比傳統 GDDR 記憶體,功耗降低約 50%。
  4. 緊密集成
    • HBM 記憶體直接堆疊在 GPU 或處理器旁邊,佔用面積極小,適合空間受限的應用(如 HPC、AI 訓練晶片)。


HBM 的演進歷程

HBM 技術從 2013 年推出至今,已經歷多次演進,每一代性能逐步提升:

1. HBM (第一代,2013 年)

  • 推出廠商:SK Hynix 和 AMD(共同開發)。
  • 關鍵技術
    • 首次採用 TSV 技術堆疊多層 DRAM 晶片。
    • 單顆模組頻寬達 128GB/s。
    • 每個 HBM 堆疊最大容量為 4GB。
  • 應用
    • AMD Fury X GPU(全球首款使用 HBM 的顯示卡)。

2. HBM2 (第二代,2016 年)

  • 推出廠商:SK Hynix、三星。
  • 關鍵技術
    • 每層 DRAM 的容量提升,單個模組頻寬達 256GB/s(翻倍)。
    • 最大容量可達 8GB(每個堆疊)。
    • 支援更高層數的堆疊(最高 8 層)。
  • 應用
    • NVIDIA Tesla P100(Pascal 架構,專為 HPC 設計)。
    • AMD Vega GPU(消費級市場使用 HBM2)。
    • AI 和 HPC 晶片逐步採用 HBM2。

3. HBM2E (第三代,2018 年)

  • 推出廠商:三星、SK Hynix。
  • 關鍵技術
    • 在 HBM2 的基礎上進一步提升容量和頻寬。
    • 單顆模組頻寬達 460GB/s,比 HBM2 提升約 80%。
    • 單個堆疊的容量提升至 16GB。
  • 應用
    • NVIDIA A100(Ampere 架構,用於 AI 訓練)。
    • AMD Instinct MI100(HPC 和 AI 加速器)。

4. HBM3 (第四代,2021 年)

  • 推出廠商:三星、SK Hynix。
  • 關鍵技術
    • 支援更高層數堆疊(最高 12 層),單堆疊容量可達 24GB。
    • 單顆模組頻寬突破 819GB/s,為 HBM2E 的兩倍。
    • 更低功耗,適合更高效能的 AI 和 HPC。
  • 應用
    • NVIDIA H100(Hopper 架構)。
    • AMD Instinct MI300(CPU+GPU 整合產品)。
    • Intel Ponte Vecchio(超算加速器)。

5. HBM3e (第五代,2024 年預計量產)

  • 推出廠商:SK Hynix。
  • 關鍵技術
    • 預計提升頻寬至 1.2TB/s(每模組),再創新高。
    • 提供更大容量(單堆疊容量超過 32GB)。
    • 設計針對下一代 AI 晶片和 HPC 的超高需求優化。
  • 應用
    • 預計應用於 NVIDIA B100 晶片(Blackwell 架構)。

HBM 的主要應用領域

  1. 人工智慧(AI)
    • AI 訓練和推理需要超高頻寬和低延遲,HBM 是目前的首選。
    • 代表應用:NVIDIA H100、AMD Instinct MI300。
  2. 高效能運算(HPC)
    • 超算中心需要快速處理大規模數據,HBM 提供高頻寬支持。
    • 代表應用:Intel Ponte Vecchio。
  3. 顯示卡與遊戲 GPU
    • 高端顯示卡(如 AMD Vega 系列)曾經採用 HBM,雖然現已主要被 GDDR 替代,但仍是部分專業 GPU 的選擇。
  4. 伺服器與資料中心
    • 雲端伺服器的 AI 模型訓練和數據分析使用 HBM 提升效率。



單堆疊容量 是指 一個 HBM 模組內的記憶體總容量。這個容量來自多層 DRAM 晶片的垂直堆疊。


1. HBM 的結構簡單介紹

HBM(High Bandwidth Memory)是一種 3D 堆疊記憶體,每個模組由多層記憶體晶片(DRAM Die)垂直堆疊而成。

  • 每層 DRAM 晶片有固定的容量(例如 1GB 或 2GB)。
  • 多層 DRAM 晶片透過 TSV(Through-Silicon Via,矽通孔) 技術連接,形成一個緊密的堆疊模組。
  • 這個完整的堆疊稱為一個 HBM 堆疊

2. 單堆疊容量怎麼計算?

單堆疊容量由以下公式決定: 單堆疊容量=每層晶片容量×堆疊層數\text{單堆疊容量} = \text{每層晶片容量} \times \text{堆疊層數}單堆疊容量=每層晶片容量×堆疊層數

例子

  • 如果每層 DRAM 晶片容量是 2GB,堆疊 4 層: 2GB×4=8GB2GB \times 4 = 8GB2GB×4=8GB 單個 HBM 堆疊容量是 8GB
  • 如果每層 DRAM 晶片容量是 4GB,堆疊 6 層: 4GB×6=24GB4GB \times 6 = 24GB4GB×6=24GB 單個 HBM 堆疊容量是 24GB

3. 單堆疊容量與 HBM 記憶體性能的關係

  • 容量: 單堆疊容量越大,處理器(如 GPU 或 CPU)可以同時存取更多數據,適合處理 AI 訓練或 HPC 任務。
  • 頻寬: 每個堆疊的頻寬由內部晶片層數和互聯速度決定。例如:
    • HBM2 支援頻寬 256GB/s。
    • HBM3 支援頻寬 819GB/s。 單堆疊容量越大,頻寬需求也越高。


raw-image

簡單比喻

  • 想像 HBM 堆疊是一棟高樓,每層樓存放數據。
  • 單堆疊容量 就是這棟樓能存放的總數據量。
  • 如果每層樓(DRAM 晶片)能存更多東西,或者樓層數增加,這棟樓的總容量就會更大。


需要那麼大的 HBM 容量,是為了滿足以下幾個高性能應用場景的需求,這些應用需要處理大量的數據,並且需要高速度和高效能來支持:


1. 人工智慧(AI)訓練

  • 需求原因
    • 訓練大型 AI 模型(如 GPT-4、GPT-5)需要處理海量數據和參數。
    • 模型的參數量通常以 十億到兆(billion to trillion)計算,這些參數需要大量記憶體來存儲和快速訪問。
  • 需要大容量 HBM 的原因
    • 訓練數據需要在記憶體中快速調用,容量越大,數據讀取和交換越快,避免瓶頸。
    • 舉例:NVIDIA H100 使用 HBM3 24GB 單堆疊,總計最多可達 192GB 記憶體,適合處理 GPT 等巨型模型。

2. 高效能運算(HPC)

  • 需求原因
    • 超算需要進行大規模科學模擬、基因分析、氣候預測等任務。
    • 這些應用需要快速處理大量數據,並保持高效能。
  • 需要大容量 HBM 的原因
    • 模擬時需要處理數以 PB(PetaBytes) 計的數據,大容量 HBM 提供快速存取和計算支持。
    • 舉例:Intel Ponte Vecchio GPU 在 HPC 應用中使用多個 HBM3 堆疊來提升運算效率。

3. 即時推理

  • 需求原因
    • 生成式 AI(如 ChatGPT)在推理時需要同時存取大量模型參數,特別是在處理多用戶請求時。
    • AI 模型推理需要快速存取數據,避免延遲。
  • 需要大容量 HBM 的原因
    • 即時推理需要將模型參數和數據同時存入 HBM,減少數據在記憶體和硬碟之間傳輸的時間。
    • 舉例:Amazon 和 Google 的資料中心中使用 HBM 支持 AI 推理工作負載。

4. 3D 渲染與視覺運算

  • 需求原因
    • 電影製作、遊戲設計和工程模擬等需要處理大量圖形數據和材質。
    • 高分辨率 3D 場景渲染需要記憶體支持大量並行數據運算。
  • 需要大容量 HBM 的原因
    • 在記憶體中存儲整個場景、材質和紋理數據,能減少存取延遲並提升渲染速度。
    • 舉例:高端顯卡(如 NVIDIA Quadro 系列)使用 HBM 支持 3D 渲染。

5. 基因分析與生物信息學

  • 需求原因
    • 基因測序、蛋白質折疊計算需要處理數據量非常龐大。
    • 記憶體容量不足可能導致數據處理速度過慢。
  • 需要大容量 HBM 的原因
    • 需要快速存取並處理高頻數據,尤其在藥物設計和生物信息學研究中。
    • 舉例:超算中心的 HPC 工作負載中,使用多層 HBM 支持基因分析。

6. 雲端伺服器與資料中心

  • 需求原因
    • 雲端服務商(如 Amazon AWS、Google Cloud)需要同時處理多個客戶的數據和計算需求。
  • 需要大容量 HBM 的原因
    • 支持多任務並行執行,保證每個客戶的工作負載能快速完成。
    • 大容量 HBM 提高記憶體帶寬,避免數據交換瓶頸。
    • 舉例:NVIDIA H100 的 HBM 為大型雲端資料中心的 AI 模型提供高效能支持。

7. 自動駕駛與邊緣計算

  • 需求原因
    • 自動駕駛汽車需要處理來自多個感測器(攝像頭、雷達、LIDAR)的數據,同時進行即時分析和決策。
  • 需要大容量 HBM 的原因
    • 感測器數據流量非常大,HBM 可以將數據緊密存儲並快速處理。
    • 舉例:NVIDIA Orin 平台在自動駕駛中使用高帶寬記憶體來提升計算能力。


簡單比喻

  • 如果把 HBM 比作辦公桌,容量越大的辦公桌能同時放下更多的檔案:
    • 小容量記憶體:需要頻繁從檔案櫃(硬碟)來回搬資料,效率低。
    • 大容量 HBM:能一次性放下整個檔案,所有檔案都在手邊,工作更快。

總結

需要大容量 HBM 是因為現代應用(特別是 AI 和 HPC)需要:

  1. 同時處理大量數據。
  2. 確保數據訪問速度快,減少延遲。
  3. 支持高效能、並行計算。

隨著 AI 模型和計算需求的增長,HBM 的大容量和高頻寬特性會變得越來越重要。

avatar-img
1會員
191內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
DA的美股日記 的其他內容
1. Chiplet 是什麼? Chiplet 設計 就是把一個大晶片分成多個小晶片,這些小晶片各自負責不同功能,然後用超高速連接技術把它們組合起來,讓它們像一個完整的晶片一樣運作。 3. Chiplet 的優點 更容易生產: 小晶片製作成功率高(良率高),比做一個大晶片更省成本。 性能更
1. Ampere 架構 代表晶片: A100、A30、A10 技術特點: 第三代 Tensor Core: 提升了混合精度計算性能,支援 FP32、FP16、BF16 和 INT8 等多種精度,適合不同 AI 工作負載。 增強矩陣運算能力,特別是大型矩陣的乘加操作。 多實例
NVIDIA 自 2006 年推出 CUDA 架構以來,持續研發專為人工智慧(AI)設計的 GPU,以下是其主要產品的演進: 2006 年:CUDA 架構 NVIDIA 發布 CUDA(Compute Unified Device Architecture),使 GPU 能夠進行通用計算,開啟了
H100 架構:Hopper 架構(針對 AI 訓練與推理的 GPU)。 製程:台積電 4nm 製程。 電晶體數量:約 800 億。 記憶體: 支援 HBM3 記憶體,容量最大達 80GB。 設計:單一晶片(非 Chiplet)。 主要應用: AI 訓練與推理。 高效能運算(HPC
CUDA Core(通用計算單元) 是 NVIDIA GPU(圖形處理器)中的基本計算單元,專門設計用來執行並行計算任務。它們是 NVIDIA CUDA 平台的核心部分,用來處理圖形渲染和一般計算任務,特別是那些需要大規模數據運算的應用,例如遊戲圖形、科學模擬和人工智慧(AI)。 1. CUD
Tensor Core 不是一個獨立的晶片,而是一個 GPU 內部的專用硬體單元(硬體模塊),專為加速矩陣運算(特別是人工智慧中的深度學習任務)設計。 1. Tensor Core 是什麼? Tensor Core 是 NVIDIA 在 GPU 中設計的一種「小單位」,專門處理 矩陣乘法與累加
1. Chiplet 是什麼? Chiplet 設計 就是把一個大晶片分成多個小晶片,這些小晶片各自負責不同功能,然後用超高速連接技術把它們組合起來,讓它們像一個完整的晶片一樣運作。 3. Chiplet 的優點 更容易生產: 小晶片製作成功率高(良率高),比做一個大晶片更省成本。 性能更
1. Ampere 架構 代表晶片: A100、A30、A10 技術特點: 第三代 Tensor Core: 提升了混合精度計算性能,支援 FP32、FP16、BF16 和 INT8 等多種精度,適合不同 AI 工作負載。 增強矩陣運算能力,特別是大型矩陣的乘加操作。 多實例
NVIDIA 自 2006 年推出 CUDA 架構以來,持續研發專為人工智慧(AI)設計的 GPU,以下是其主要產品的演進: 2006 年:CUDA 架構 NVIDIA 發布 CUDA(Compute Unified Device Architecture),使 GPU 能夠進行通用計算,開啟了
H100 架構:Hopper 架構(針對 AI 訓練與推理的 GPU)。 製程:台積電 4nm 製程。 電晶體數量:約 800 億。 記憶體: 支援 HBM3 記憶體,容量最大達 80GB。 設計:單一晶片(非 Chiplet)。 主要應用: AI 訓練與推理。 高效能運算(HPC
CUDA Core(通用計算單元) 是 NVIDIA GPU(圖形處理器)中的基本計算單元,專門設計用來執行並行計算任務。它們是 NVIDIA CUDA 平台的核心部分,用來處理圖形渲染和一般計算任務,特別是那些需要大規模數據運算的應用,例如遊戲圖形、科學模擬和人工智慧(AI)。 1. CUD
Tensor Core 不是一個獨立的晶片,而是一個 GPU 內部的專用硬體單元(硬體模塊),專為加速矩陣運算(特別是人工智慧中的深度學習任務)設計。 1. Tensor Core 是什麼? Tensor Core 是 NVIDIA 在 GPU 中設計的一種「小單位」,專門處理 矩陣乘法與累加
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
ch 目前主要功能是用在web3技術的硬體載體, 已經有哪些重大的發明和發展? 未來還有哪些功能和設計, 是值得台灣的硬體廠商和新創團隊, 繼續發展設計和深入研究的? 幸福課程 fb 幸福教練黃老師 潮資訊媒體 Web3技術的硬體載體 正在推動去中心化網絡和區塊鏈應用的
Thumbnail
隨著人工智慧技術的快速發展,生成式AI(Generative AI)時代已經來臨。在台北國際電腦展(Computex)上,NVIDIA創辦人暨執行長黃仁勳正式發布了新一代Blackwell GPU架構,標誌著這個新紀元的到來。
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
人工智慧的浪潮正在席捲全球,而生成式AI更是成為當前最炙手可熱的焦點。透過強大的計算能力和創新的算法,生成式AI可以生成逼真的圖像、文字和語音,為各個領域帶來前所未有的創新和突破。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
GG 目前主要功能是用在web3技術的硬體載體, 已經有哪些重大的發明和發展? 未來還有哪些功能和設計, 是值得台灣的硬體廠商和新創團隊, 繼續發展設計和深入研究的? 幸福課程 fb 幸福教練黃老師 潮資訊媒體 目前主要用於Web3技術的硬件載體有以下幾種: 加密貨
Thumbnail
根據高盛最近的研究報告,未來的個人電腦和移動設備將搭載更多由AI增強後的應用程式,如AI增強、安全性提升和運算能力強化。 消費性電子股票組合<GSXUPCAI>也顯示出潛力,並列出了成分股以及其權重。
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
那些關於「量子電腦的焦慮」是不必要的。 量子電腦不會取代傳統電腦,而是作為一個強大的輔助工具─類似AI加速器的形式存在;初期應用開發會透過雲服務的形式提供,像是 Azure Quantum 跟 Amazon Braket . 由於量子電腦在特定類型的計算問題上展現出顯著的潛在優勢,會被專門用於處
Thumbnail
半導體是AI經濟的基礎!由於半導體生態系很複雜,所以簡單來跟介紹:
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
ch 目前主要功能是用在web3技術的硬體載體, 已經有哪些重大的發明和發展? 未來還有哪些功能和設計, 是值得台灣的硬體廠商和新創團隊, 繼續發展設計和深入研究的? 幸福課程 fb 幸福教練黃老師 潮資訊媒體 Web3技術的硬體載體 正在推動去中心化網絡和區塊鏈應用的
Thumbnail
隨著人工智慧技術的快速發展,生成式AI(Generative AI)時代已經來臨。在台北國際電腦展(Computex)上,NVIDIA創辦人暨執行長黃仁勳正式發布了新一代Blackwell GPU架構,標誌著這個新紀元的到來。
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
人工智慧的浪潮正在席捲全球,而生成式AI更是成為當前最炙手可熱的焦點。透過強大的計算能力和創新的算法,生成式AI可以生成逼真的圖像、文字和語音,為各個領域帶來前所未有的創新和突破。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
GG 目前主要功能是用在web3技術的硬體載體, 已經有哪些重大的發明和發展? 未來還有哪些功能和設計, 是值得台灣的硬體廠商和新創團隊, 繼續發展設計和深入研究的? 幸福課程 fb 幸福教練黃老師 潮資訊媒體 目前主要用於Web3技術的硬件載體有以下幾種: 加密貨
Thumbnail
根據高盛最近的研究報告,未來的個人電腦和移動設備將搭載更多由AI增強後的應用程式,如AI增強、安全性提升和運算能力強化。 消費性電子股票組合<GSXUPCAI>也顯示出潛力,並列出了成分股以及其權重。
Thumbnail
NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命(個人紀錄用) 🇺🇸Omniverse 就是未來集大成,而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低,提出「運算通膨」概念
那些關於「量子電腦的焦慮」是不必要的。 量子電腦不會取代傳統電腦,而是作為一個強大的輔助工具─類似AI加速器的形式存在;初期應用開發會透過雲服務的形式提供,像是 Azure Quantum 跟 Amazon Braket . 由於量子電腦在特定類型的計算問題上展現出顯著的潛在優勢,會被專門用於處
Thumbnail
半導體是AI經濟的基礎!由於半導體生態系很複雜,所以簡單來跟介紹: