【AI成長日記】聊聊GPU規格

發佈於產業/投資等個房間

更新於 2025/07/30發佈於 2025/01/11閱讀時間約 5 分鐘

如果要衡量 AI 系統的「聰明程度」，通常會從「回應速度」、「每秒回應字數」、「上下文記憶長度」等面向評估，然而「聰明程度」很大程度取決於系統運作使用的GPU規格，了解GPU 規格，能夠幫助系統開發者選擇適合的模型、分析模型應有的效能表現。

想像一下 VRAM 是顯卡的記憶體，就像書桌一樣。VRAM 越大，顯卡能存的資料就越多，LLM 就越聰明。

由於 LLM 是由數十億到上千億個參數所組成的神經網路。這些參數在執行推論（inference）時必須全部載入到記憶體中才能運作。而 VRAM 是 GPU 運算時直接使用的記憶體，提供高速存取。

舉例來說，一個 70B的模型，光是模型權重就可能佔用數十 GB 的記憶體。若是沒有足夠 VRAM，模型就無法完整載入，甚至無法執行。

CUDA 核心是 NVIDIA GPU 中負責進行並行運算的基本單位。你可以把它想像成 CPU 的運算核心，只是 GPU 擁有成千上萬個這樣的核心，專門用來處理大量矩陣與張量運算，正是深度學習的基礎。

推論過程中，CUDA 核心太少時，模型運算無法高度並行，只能一部分一部分慢慢做，會導致系統回應時間變長，使用者會感覺到系統「卡住」、「想很久」。

NVLink 是 NVIDIA 推出的高速 GPU-GPU 互聯技術，用來取代傳統 PCIe 介面之間的瓶頸。它提供高於PCIe的頻寬、GPU 間共享記憶體。

舉例來說，兩張 24GB VRAM 的GPU若是有支援NVLink，能合併使用為 48GB 記憶體。但如果系統不支援 NVLink，模型大小會被單張 GPU 的記憶體上限限制，也無法載入超大型模型（如 LLaMA2-70B、GPT-NeoX 等）。

若是系統會面臨到高併發的使用者請求，缺乏NVLink將無法有效分配請求，整體輸出量降低。

2025年1月 CES剛發表，預計於五月開始發售，預期價格 US$3000 起跳。
使用GB10 Grace Blackwell超級晶片，128GB DDR5X，預計可以執行200B超大模型，若兩部機器使用NVIDIA ConnectX連接，則可執行405B的大模型！
這款可說是針對AI程式開發者而打造的超強電腦！

※ 結論：

對企業級用戶，若要捨棄外部的 LLM 服務，使用自有的LLM，其推論品質就相當重要，在預算充足的情況下，適合多買幾張A6000，並使用 NVLink 共享VRAM，在高算力的狀況下，可以直接選用大參數LLM、拉大上下文長度、批量大小，有助於提升推論的品質。
對預算十萬內的用戶，NVIDIA RTX 5090 也是一個值得考慮的選項，其 24GB VRAM約可處理6~13B的語言模型。
對於預算有限且需求較小的用戶，NVIDIA RTX 4090 提供了良好的性能和性價比。其 24GB VRAM約可處理6~10B的語言模型。
若不考慮遊戲用途，未來開發者最好的選擇應該是Project DIGITS系列的個人電腦！

留言

留言分享你的想法！

EMO先生的沙龍

159會員