【AI成長日記】聊聊GPU規格

EMO先生-avatar-img
發佈於產業/投資 個房間
更新於 發佈於 閱讀時間約 5 分鐘

🌟 為什麼需要了解GPU規格

如果要衡量 AI 系統的「聰明程度」,通常會從「回應速度」、「每秒回應字數」、「上下文記憶長度」等面向評估,然而「聰明程度」很大程度取決於系統運作使用的GPU規格,了解GPU 規格,能夠幫助系統開發者選擇適合的模型、分析模型應有的效能表現。

🌟 LLM面對的硬體問題

🔧 VRAM

想像一下 VRAM 是顯卡的記憶體,就像書桌一樣。VRAM 越大,顯卡能存的資料就越多,LLM 就越聰明。

由於 LLM 是由數十億到上千億個參數所組成的神經網路。這些參數在執行推論(inference)時必須全部載入到記憶體中才能運作。而 VRAM 是 GPU 運算時直接使用的記憶體,提供高速存取。

舉例來說,一個 70B的模型,光是模型權重就可能佔用數十 GB 的記憶體。若是沒有足夠 VRAM,模型就無法完整載入,甚至無法執行。

🔧 CUDA 核心

CUDA 核心是 NVIDIA GPU 中負責進行並行運算的基本單位。你可以把它想像成 CPU 的運算核心,只是 GPU 擁有成千上萬個這樣的核心,專門用來處理大量矩陣與張量運算,正是深度學習的基礎。

推論過程中,CUDA 核心太少時,模型運算無法高度並行,只能一部分一部分慢慢做,會導致系統回應時間變長,使用者會感覺到系統「卡住」、「想很久」。

🔧 NVLink

NVLink 是 NVIDIA 推出的高速 GPU-GPU 互聯技術,用來取代傳統 PCIe 介面之間的瓶頸。它提供高於PCIe的頻寬、GPU 間共享記憶體。

舉例來說,兩張 24GB VRAM 的GPU若是有支援NVLink,能合併使用為 48GB 記憶體。但如果系統不支援 NVLink,模型大小會被單張 GPU 的記憶體上限限制,也無法載入超大型模型(如 LLaMA2-70B、GPT-NeoX 等)。

若是系統會面臨到高併發的使用者請求,缺乏NVLink將無法有效分配請求,整體輸出量降低。

🌟 著名顯卡介紹

NVIDIA A6000:

  • 優勢提供 48GB VRAM,支持 NVLink,功耗相對較低,適合長時間運行與專業應用。
  • 劣勢:售價較高,台灣售價約18萬。
  • 適用場景 適合企業級用戶或需要處理大規模模型的專業人士。

NVIDIA RTX 5090:

  • 優勢:擁有 32GB VRAM 和 21,760 個 CUDA 核心,效能極高,適合需要大量計算的深度學習任務。
  • 劣勢功耗高達 600W,可能需要更強的電源和散熱解決方案。
  • 適用場景預算充足、追求頂級效能的客戶。

NVIDIA RTX 4090:

  • 優勢24GB VRAM和 16,384 個 CUDA 核心,性能强大,價格相對較低。
  • 劣勢不支持 NVLink,VRAM可能不足以處理超大規模模型。
  • 適用場景 適合個人開發者或小型團隊進行小規模的模型訓練。

「番外篇」Project DIGITS 超強微型電腦(DGX Spark)

  • 2025年1月 CES剛發表,預計於五月開始發售,預期價格 US$3000 起跳。
  • 使用GB10 Grace Blackwell超級晶片,128GB DDR5X,預計可以執行200B超大模型,若兩部機器使用NVIDIA ConnectX連接,則可執行405B的大模型!
  • 這款可說是針對AI程式開發者而打造的超強電腦!

※ 結論:

  • 對企業級用戶,若要捨棄外部的 LLM 服務,使用自有的LLM,其推論品質就相當重要,在預算充足的情況下,適合多買幾張A6000,並使用 NVLink 共享VRAM,在高算力的狀況下,可以直接選用大參數LLM、拉大上下文長度、批量大小,有助於提升推論的品質。
  • 對預算十萬內的用戶,NVIDIA RTX 5090 也是一個值得考慮的選項,其 24GB VRAM約可處理6~13B的語言模型。
  • 對於預算有限且需求較小的用戶,NVIDIA RTX 4090 提供了良好的性能和性價比。其 24GB VRAM約可處理6~10B的語言模型。
  • 若不考慮遊戲用途,未來開發者最好的選擇應該是Project DIGITS系列的個人電腦!
留言
avatar-img
留言分享你的想法!
avatar-img
EMO先生的沙龍
159會員
76內容數
本專題主要放一些投資理財方面的個人研究,投資理念偏向價值投資,習慣從產業的角度、產品營收佔比分析公司體質,近期研究的主題著重於: (1)半導體產業鏈:IC設計、IC製造、CoWos (2)重電產業鏈:台電強韌電網、智慧電網計畫 (3)營建股追蹤:隆大、新美齊、憶聲、順達、名軒
EMO先生的沙龍的其他內容
2025/02/28
南亞科(2408)股價來到近期波段高點,本文探討其在DDR5、DDR4市場的競爭力,以及在邊緣運算的未來佈局。儘管中國長鑫存儲的崛起帶來競爭壓力,但南亞科可望受惠於轉單效應及高階DDR5高密度模組市場的發展。本文也分析了市場對於南亞科股價的觀望態度,以及其在去庫存化壓力下的挑戰與機會。
Thumbnail
2025/02/28
南亞科(2408)股價來到近期波段高點,本文探討其在DDR5、DDR4市場的競爭力,以及在邊緣運算的未來佈局。儘管中國長鑫存儲的崛起帶來競爭壓力,但南亞科可望受惠於轉單效應及高階DDR5高密度模組市場的發展。本文也分析了市場對於南亞科股價的觀望態度,以及其在去庫存化壓力下的挑戰與機會。
Thumbnail
2025/02/15
聯發科發表Breeze 2繁體中文多模態大語言模型,具備聊天、視覺多模態及工具使用等多元功能,並推出臺灣口音語音合成與Android APP,致力於推廣邊緣運算與NPU技術。群聯電子受惠美國對中國半導體產業的管制政策,因其NAND Flash控制IC設計能力而受惠,股價上漲。
Thumbnail
2025/02/15
聯發科發表Breeze 2繁體中文多模態大語言模型,具備聊天、視覺多模態及工具使用等多元功能,並推出臺灣口音語音合成與Android APP,致力於推廣邊緣運算與NPU技術。群聯電子受惠美國對中國半導體產業的管制政策,因其NAND Flash控制IC設計能力而受惠,股價上漲。
Thumbnail
2025/02/10
聯發科2024年營收創歷史次高,2025年成長動能來自天璣9400/9300系列晶片、AI與邊緣運算、Wi-Fi 7及車用業務。然而,市場預期2025年營收增長放緩,毛利率及獲利成長也將面臨挑戰,需關注晶片代工成本、ARM授權費及營運費用等風險。
Thumbnail
2025/02/10
聯發科2024年營收創歷史次高,2025年成長動能來自天璣9400/9300系列晶片、AI與邊緣運算、Wi-Fi 7及車用業務。然而,市場預期2025年營收增長放緩,毛利率及獲利成長也將面臨挑戰,需關注晶片代工成本、ARM授權費及營運費用等風險。
Thumbnail
看更多
你可能也想看
Thumbnail
本文探討部署私有LLM的優缺點,並針對硬體、軟體、資料三個面向提供建議。文中比較三種顯卡:NVIDIA RTX 5090、RTX 4090和A6000,分析其優劣勢及適用場景,最後針對不同預算和需求的用戶提供選購建議。
Thumbnail
本文探討部署私有LLM的優缺點,並針對硬體、軟體、資料三個面向提供建議。文中比較三種顯卡:NVIDIA RTX 5090、RTX 4090和A6000,分析其優劣勢及適用場景,最後針對不同預算和需求的用戶提供選購建議。
Thumbnail
AI PC 是將 AI 模型與傳統 PC 緊密結合的裝置,為本地 AI 運算能力,更能保護用戶的隱私和數據安全。 AI PC 具有 NPU、CPU 以及 GPU,並能夠具備高算力 AI 應用的需求,在 AI 運算性能、效率跟功耗方面,NPU 相較 CPU 與 GPU 具有大幅優勢。
Thumbnail
AI PC 是將 AI 模型與傳統 PC 緊密結合的裝置,為本地 AI 運算能力,更能保護用戶的隱私和數據安全。 AI PC 具有 NPU、CPU 以及 GPU,並能夠具備高算力 AI 應用的需求,在 AI 運算性能、效率跟功耗方面,NPU 相較 CPU 與 GPU 具有大幅優勢。
Thumbnail
NVIDIA、Intel、Tenstorrent和RISC-V在AI半導體領域的競爭和合作。Intel在AI領域推出了一系列產品,Tenstorrent和Rapidus合作開發新技術,而RISC-V開放源碼指令集架構也受到了廣泛關注。這些內容都展示了AI半導體市場的技術革新和競爭激烈的情況。
Thumbnail
NVIDIA、Intel、Tenstorrent和RISC-V在AI半導體領域的競爭和合作。Intel在AI領域推出了一系列產品,Tenstorrent和Rapidus合作開發新技術,而RISC-V開放源碼指令集架構也受到了廣泛關注。這些內容都展示了AI半導體市場的技術革新和競爭激烈的情況。
Thumbnail
這篇文章探討了NVIDIA在推論式AI半導體市場的挑戰,以及介紹了Intel在AI領域的強化舉措。文章中提到了新興企業可能有機會取代現有市場領導者,並討論了RISC-V技術在AI半導體市場的應用和其他相關動向。
Thumbnail
這篇文章探討了NVIDIA在推論式AI半導體市場的挑戰,以及介紹了Intel在AI領域的強化舉措。文章中提到了新興企業可能有機會取代現有市場領導者,並討論了RISC-V技術在AI半導體市場的應用和其他相關動向。
Thumbnail
這是我最近在『網路安全停看聽』Podcast企劃的一集,文末會提供podcast單集連結,想讓眼睛休息的格友們也可點選收聽喔! 今年NVIDIA輝達這家公司在世界掀起了旋風,不管你之前有沒有購買這家公司的股票,當執行長黃仁勳先生訪台,台灣各家媒體爭相報導下,你總應該注意到這家厲害的公司了。Go
Thumbnail
這是我最近在『網路安全停看聽』Podcast企劃的一集,文末會提供podcast單集連結,想讓眼睛休息的格友們也可點選收聽喔! 今年NVIDIA輝達這家公司在世界掀起了旋風,不管你之前有沒有購買這家公司的股票,當執行長黃仁勳先生訪台,台灣各家媒體爭相報導下,你總應該注意到這家厲害的公司了。Go
Thumbnail
GPU,既能支援大規模人工智慧計算,現在也能夠支援一些量子軟體,各家公司都在密切關注這個發展趨勢。 GPU已經改變了人工智慧的格局,現在也準備投身量子計算領域,儘管量子技術尚未成熟,但許多公司已經找到可以在與人工智慧相同的晶片上,運行複雜的量子演算法。近年來,由於GPU和其他先進晶片提供的計算
Thumbnail
GPU,既能支援大規模人工智慧計算,現在也能夠支援一些量子軟體,各家公司都在密切關注這個發展趨勢。 GPU已經改變了人工智慧的格局,現在也準備投身量子計算領域,儘管量子技術尚未成熟,但許多公司已經找到可以在與人工智慧相同的晶片上,運行複雜的量子演算法。近年來,由於GPU和其他先進晶片提供的計算
Thumbnail
如果這篇文章裡面的內容都已經price in了,僅供想了解產業及科技的人參考。不構成任何投資建議。 未來趨勢 CoWoS 已經外包了。 CoWoS 有幾種變體,但原始 CoWoS-S 仍然是大批量生產中的唯一配置。這是如上所述的經典配置:邏輯芯片 + HBM 芯片通過帶有 TSV 的矽基中介層
Thumbnail
如果這篇文章裡面的內容都已經price in了,僅供想了解產業及科技的人參考。不構成任何投資建議。 未來趨勢 CoWoS 已經外包了。 CoWoS 有幾種變體,但原始 CoWoS-S 仍然是大批量生產中的唯一配置。這是如上所述的經典配置:邏輯芯片 + HBM 芯片通過帶有 TSV 的矽基中介層
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News