NVIDIA 在 GTC 2024 推出新一代 Blackwell 架構後,至今已多次更改其產品路徑圖,從最初的 B100、B200,到後來的 B200A、B210A,和近期才推出的 B300 系列(包含 B300、B300A),多款規格及產品架構可說是眼花撩亂。
隨著搭載 GB200 的伺服器預期將在 2025Q1 起放量;後續 GB300 系列則預期在 2025 下半年開始出貨,業界也時刻關心著各零組件的備貨、出貨狀況,其中散熱產業更在液冷作為 Blackwell 架構備選甚至是部分產品唯一解決方案下,成為重點關注產業之一。
以下將透過觀察北美四大 CSP 2025 年起資本支出計畫、重新整理目前 NVIDIA 各產品線架構和拆解散熱零組件產品價值和供貨佔比,討論散熱族群包含奇鋐(市:3017) 、雙鴻(市:3324)和建準(市:2421)2025、2026 年的營運展望。
NVIDIA 近期釋出 B300、B300A,兩者的規格如下:
在此兩款 GPU 推出後,預期 2025 下半年 NVIDIA 產品線將變得更加完整且定位明確,將會包含 GB300 NVL72、GB300A NVL36 和 HGX B300 三條主產品線:
觀察目前北美四大 CSP 2024 年的資本支出狀況,截至 2024Q3,北美四大 CSP 的前三季資本支出已較 2023 年同期增長 50%,預期此階段支出主要用於支付年初起陸續交付的 H100/H200 訂單、搭載自家設計的 ASIC 伺服器,以及 Q2 左右開始的第一波 GB200 訂單費用。
參考 Bloomberg 上目前的預估值,北美四大 CSP 2025 年的資本支出僅將以 YoY+18% 的幅度成長,預期將主要用於訂購第二波 Blackwell 架構之產品(包含 GB200 和 GB300)。其中筆者預期在 NVIDIA 推出 B300 系列並規劃在 2025 下半年開始出貨下,部分已下訂 GB200 的訂單將有大機率會轉移至訂購算力密度進一步提升的 GB300 或成本效益更高的 GB300A。
然而,從近期的電話會議中都能感受到這些公司經營層對於投資 AI 業務的堅定態度,包含 Google 提到會透過調整投資策略,確保資本支出集中於 AI、雲端基礎設施等項目;Amazon 則提到,隨著 AI 業務持續以超過整體 AWS 的速度加速增長,公司也將因此在在資料中心硬體上加速投資,因此筆者認為,YoY+18% 的數值後續仍有持續上修的空間,以下也將以 NVIDIA 下訂 2025 年台積電 CoWoS 產能反推其可能性及合理性。
根據產業訪查結果,NVIDIA 2025 年已向台積電下訂全年約 340K 片 CoWoS-L、約 60K 片 CoWoS-S,以及向其他 OSAT 下訂約 60K 片類 CoWoS 的先進封裝產能。
由此推估將可生產出合計約 300 萬個 H100/H200/B300A GPU 和約 510 萬個 B200/B300 GPU,進一步分別以 HGX 和 NVL72 / 36 的產品架構計算伺服器整機量,預估最終將可生產約 163 萬台伺服器或約 16.8 萬台整機櫃,並創造最終約 3,761 億美元的產值(2024 年預估為 2,380 億美元,YoY+58%)。
上述統計的北美四大 CSP 2025 年資本支出預估值僅不到此數值的 70%,然而同樣的數值在 2024 年卻達到 90% 以上,而在目前 AI 伺服器主要投資力道仍來自北美四大 CSP 來看,判斷 2025 全年資本支出年成長率應會進一步提升,抑或由二線大客戶,例如 Tesla、CoreWeave 和 Omniva 等支撐相關需求。小結以上,筆者判斷 2025 年整體產業產值年成長率雖未能與 2024 年匹敵,但仍將維持接近 30% 的水平。
以下將拆解 NVIDIA 各產品線 BoM 表,進一步預估 2025 年散熱族群產值變化。
隨著 GB200 晶片組在 GTC 2024 釋出,NVIDIA 再度把其 GPU 的 TDP(熱功耗設計)推升至新的高度,單顆 B200 來到了 1,200W(液冷狀況下);由兩顆 B200 加上一顆 Grace CPU 組成的 GB200 晶片組總 TDP 則高達 2,700W。
在 NVL72/36 的設計架構下,每層 Compute Tray 配備兩組 GB200,這意味著在 1-2U 的伺服器高度內,需承載與過去 H100 HGX 系統相近的總 TDP。為了滿足這樣的需求,採用散熱效率更高的液冷技術成為必要選擇,不僅能有效負擔散熱需求,同時也能改善整體資料中心的能源使用效能。(關於電力使用效能及散熱解方,可參考筆者過往文章<氣冷、液冷是什麼?讓伺服器效能穩定的「散熱技術」有哪些發展趨勢?>)
而不論是使用 L2A(Liquid-to-air)或 L2L(Liquid-to-liquid)的散熱解方,都會使用到 Cold plate(液冷板)、CDU(Coolant distribution unit,冷卻液分配單元)、 Manifold(冷卻水歧管)和 UQD(Universal Quick Disconnect,冷卻液快接頭)四大零組件,由這些零組件將廢熱從晶片表面帶離後,L2A 會再透過風扇背門和熱交換器、L2L 則透過室外冰水機使冷卻液降溫並重新再回到系統進行循環。
根據產業調研結果,在 GB200 NVL72 / 36 中,每層 Compute Tray 在 CPU 和 GPU 上方都會使用到一片液冷板,並在機殼後方放置 6~10 組的散熱風扇;Switch Tray 部分則在 2 顆 NVLink Switch ASIC 各使用一片液冷板,並放置 6 組的散熱風扇;整機櫃部分,會使用到一對冷卻水歧管、一組搭配櫃式液冷背門的 CDU;另外在包含 Manifold、液冷板部分都會使用到 UQD。其 BoM 表拆解如下:
透過以上拆解和計算,GB200 NVL72 / 36 散熱模組總組成價值分別落在約 10 萬美元和 7 萬美元(其中不包含針對液冷系統改變的基礎建設和管線重設),其中四大零組件的組成價值即占 90% 以上,顯示有出貨此四大零組件的業者將能最大程度受惠於液冷解方大量採用之趨勢。
由此,我們能夠集結目前針對各產品線出貨量的預估,加上各零組件的組成價值,進行散熱族群包含奇鋐(市:3017) 、雙鴻(市:3324)和建準(市:2421)2025、2026 年的營運展望。
目前絕大多數 HGX H100/H200 準系統的氣冷散熱解方,是在 4、5U 的機殼中使用 3DVC 處理 8 顆 GPU 所產生的廢熱。而根據產業訪查,目前僅有奇鋐與 Cooler Master 通過 NVIDIA 驗證,為市占率預估各自佔半的兩大主要供應商。