🌟 為什麼需要了解GPU規格
如果要衡量 AI 系統的「聰明程度」,通常會從「回應速度」、「每秒回應字數」、「上下文記憶長度」等面向評估,然而「聰明程度」很大程度取決於系統運作使用的GPU規格,了解GPU 規格,能夠幫助系統開發者選擇適合的模型、分析模型應有的效能表現。
🌟 LLM面對的硬體問題
🔧 VRAM
想像一下 VRAM 是顯卡的記憶體,就像書桌一樣。VRAM 越大,顯卡能存的資料就越多,LLM 就越聰明。
由於 LLM 是由數十億到上千億個參數所組成的神經網路。這些參數在執行推論(inference)時必須全部載入到記憶體中才能運作。而 VRAM 是 GPU 運算時直接使用的記憶體,提供高速存取。舉例來說,一個 70B的模型,光是模型權重就可能佔用數十 GB 的記憶體。若是沒有足夠 VRAM,模型就無法完整載入,甚至無法執行。
🔧 CUDA 核心
CUDA 核心是 NVIDIA GPU 中負責進行並行運算的基本單位。你可以把它想像成 CPU 的運算核心,只是 GPU 擁有成千上萬個這樣的核心,專門用來處理大量矩陣與張量運算,正是深度學習的基礎。
推論過程中,CUDA 核心太少時,模型運算無法高度並行,只能一部分一部分慢慢做,會導致系統回應時間變長,使用者會感覺到系統「卡住」、「想很久」。
🔧 NVLink
NVLink 是 NVIDIA 推出的高速 GPU-GPU 互聯技術,用來取代傳統 PCIe 介面之間的瓶頸。它提供高於PCIe的頻寬、GPU 間共享記憶體。
舉例來說,兩張 24GB VRAM 的GPU若是有支援NVLink,能合併使用為 48GB 記憶體。但如果系統不支援 NVLink,模型大小會被單張 GPU 的記憶體上限限制,也無法載入超大型模型(如 LLaMA2-70B、GPT-NeoX 等)。
若是系統會面臨到高併發的使用者請求,缺乏NVLink將無法有效分配請求,整體輸出量降低。
🌟 著名顯卡介紹
NVIDIA A6000:
- 優勢:提供 48GB VRAM,支持 NVLink,功耗相對較低,適合長時間運行與專業應用。
- 劣勢:售價較高,台灣售價約18萬。
- 適用場景: 適合企業級用戶或需要處理大規模模型的專業人士。
NVIDIA RTX 5090:
- 優勢:擁有 32GB VRAM 和 21,760 個 CUDA 核心,效能極高,適合需要大量計算的深度學習任務。
- 劣勢:功耗高達 600W,可能需要更強的電源和散熱解決方案。
- 適用場景:預算充足、追求頂級效能的客戶。
NVIDIA RTX 4090:
- 優勢:24GB VRAM和 16,384 個 CUDA 核心,性能强大,價格相對較低。
- 劣勢:不支持 NVLink,VRAM可能不足以處理超大規模模型。
- 適用場景: 適合個人開發者或小型團隊進行小規模的模型訓練。
「番外篇」Project DIGITS 超強微型電腦(DGX Spark)
- 2025年1月 CES剛發表,預計於五月開始發售,預期價格 US$3000 起跳。
- 使用GB10 Grace Blackwell超級晶片,128GB DDR5X,預計可以執行200B超大模型,若兩部機器使用NVIDIA ConnectX連接,則可執行405B的大模型!
- 這款可說是針對AI程式開發者而打造的超強電腦!
※ 結論:
- 對企業級用戶,若要捨棄外部的 LLM 服務,使用自有的LLM,其推論品質就相當重要,在預算充足的情況下,適合多買幾張A6000,並使用 NVLink 共享VRAM,在高算力的狀況下,可以直接選用大參數LLM、拉大上下文長度、批量大小,有助於提升推論的品質。
- 對預算十萬內的用戶,NVIDIA RTX 5090 也是一個值得考慮的選項,其 24GB VRAM約可處理6~13B的語言模型。
- 對於預算有限且需求較小的用戶,NVIDIA RTX 4090 提供了良好的性能和性價比。其 24GB VRAM約可處理6~10B的語言模型。
- 若不考慮遊戲用途,未來開發者最好的選擇應該是Project DIGITS系列的個人電腦!