預計訓練7B模型使用2張RTX-5090

JH Young

發佈於滴咕雞

2026/03/04 更新2026/03/04 發佈閱讀 6 分鐘

兩張 RTX 5090（每張擁有 32GB GDDR7 顯存與 Blackwell 架構）是目前消費級硬體的頂規配置。針對 7B 規模模型的 Pre-train（預訓練），這個配置非常理想，甚至可以說是非常奢侈。

在 2026 年的技術標準下，針對此硬體與 7B 模型，以下是最佳實踐指南：

1. 記憶體預算分析 (7B Model @ 2x 5090)

一個 7B 模型在預訓練（混合精度 BF16）時的顯存佔用大致如下：

模型參數：

梯度 (Gradients)：

優化器狀態 (Adam Optimizer)：

(這是最大的負擔)

總計：約 112 GB。

結論：兩張 5090 共有 64GB 顯存，無法直接塞下所有狀態。因此，必須使用 DeepSpeed ZeRO-2 或 ZeRO-3，並配合 CPU Offload。

2. 核心技術組合建議

DeepSpeed: ZeRO-2 + Offload (首選)

由於 5090 的單卡顯存（32GB）大於模型參數+梯度的總和（約 28GB），建議使用 ZeRO-2。

優勢：將 84GB 的優化器狀態切分並放一部分到系統記憶體（RAM）中。這比 ZeRO-3 快，因為模型參數不需要在每層運算時重新廣播。
硬體要求：建議您的系統 RAM 至少配備 128GB。

Liger Kernel: 必開

針對 5090 的 Blackwell 架構，Liger Kernel 的 FusedLinearCrossEntropy 非常關鍵。

作用：預訓練時詞表（Vocabulary）很大，這一層非常耗顯存。Liger Kernel 可以把這部分的顯存佔用降低 60% 以上，讓您能使用更大的 Micro Batch Size，從而提高訓練效率。

Flash Attention 3

5090 支援第五代 Tensor Cores，務必使用 Flash Attention 3。

作用：針對 Blackwell 架構優化，能極大化利用這張卡的 FP8/BF16 計算能力，尤其在處理長文本序列時，速度優勢極其明顯。

3. 推薦的 DeepSpeed 配置文件 (JSON)

這是一個針對「2x RTX 5090 + 7B Model」量身打造的配置參考：

</>JSON
{
  "train_micro_batch_size_per_gpu": 4,
  "gradient_accumulation_steps": 8,
  "bf16": {
    "enabled": true
  },
  "zero_optimization": {
    "stage": 2,
    "offload_optimizer": {
      "device": "cpu",
      "pin_memory": true
    },
    "allgather_partitions": true,
    "allgather_bucket_size": 5e8,
    "overlap_comm": true,
    "reduce_scatter": true,
    "reduce_bucket_size": 5e8,
    "contiguous_gradients": true
  },
  "gradient_clipping": 1.0,
  "steps_per_print": 10
}

4. 實作代碼片段 (整合 Liger Kernel)

在訓練腳本開頭，加入以下代碼即可自動優化所有 Llama 或類似結構的層：

</>Python
from liger_kernel.transformers import apply_liger_kernel_to_llama
import transformers

# 在載入模型前調用，自動替換優化算子
apply_liger_kernel_to_llama()

# 正常載入模型
model = transformers.AutoModelForCausalLM.from_pretrained("your-base-config")

5. 特別提醒

散熱與電源： RTX 5090 的功耗（TDP）高達 575W，兩張卡加上 CPU，整機滿載會逼近 1500W-1600W。請務必確認電源供應器（PSU）至少有 1600W (80+ Platinum) 以上，且機殼通風良好。
PCIe 頻寬： 5090 雖然沒有 NVLink，但支援 PCIe Gen 5。請確保主機板支援兩條 PCIe 5.0 x16（或至少 x8/x8），否則在 DeepSpeed 交換梯度時會遇到嚴重瓶頸。

留言

sirius數字沙龍

9會員

228內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/04

從頭開始進行預訓練LLM（Pre-train）

⚔️ 從頭開始進行預訓練 (Pre-training) 是 AI 領域中最具挑戰性也最迷人的任務。這不僅是技術的展現，更是對硬體資源與數據處理能力的極致考驗。既然目標是 Pre-train，這意味著您需要處理海量的 Token（通常以 Trillion 為單位）以及極長的時間。

2026/03/04

從頭開始進行預訓練LLM（Pre-train）

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

在訓練大語言模型（LLM）時，記憶體（VRAM）不足和計算速度慢是兩大難題。業界發展出了幾項關鍵技術：DeepSpeed 負責多卡分配、Flash Attention 與 Liger Kernel 負責優化運算過程中的記憶體佔用，而 Quantization 則負責把模型「壓扁」以節省空間。

2026/03/03

DeepSpeed、Liger Kernel、Flash Attention及Quantization介紹

2026/03/03

如何使用多張顯卡訓練LLM？

⭐使用多張顯卡（Multi-GPU）訓練大語言模型（LLM）已經是現代 AI 開發的標配。由於 LLM 的參數規模動輒數十億（Billion），單張顯卡的顯存（VRAM）往往無法容納完整的模型與訓練數據，因此我們需要透過[並行運算（Parallelism）]來解決。

2026/03/03

如何使用多張顯卡訓練LLM？

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14