** 3C機構設計爸版權所有 ©️ **
水冷式伺服器的發展與機構設計人員的必備專業知識
隨著 AI、HPC 與大規模雲端運算需求的激增,傳統以風冷為主的伺服器冷卻方式逐漸面臨效能與效率的瓶頸。高功率密度下,空氣冷卻不僅冷卻效率低,而且無法縮小機櫃密度,耗電與噪音也呈現飆升趨勢。水冷(Liquid Cooling)因其優越的熱傳導效率與節能特性,正成為現代資料中心與機構設計師關注的重點。
一、水冷系統的演進與技術型態:
1.傳統管路與直接到晶片的水冷設計:
--> 傳統方法是將冷卻液通過水管至伺服器內部冷板,再由冷板吸熱,最後導回 CDU(冷卻分配單元)進行散熱。直接到晶片(direct-to-chip)的方法因熱阻低且可精準降溫,廣受採用。NVIDIA 在其 GB200 NVL72 架構中即採用了這種技術,它能提升能效 25×、處理效能提升 30×,且水效率高達 300×,大幅降低冷卻成本與能源消耗。
2.浸沒式冷卻(Immersion Cooling)
-->此方式將整台伺服器浸入不導電液體中,進行高效散熱,適合極高功率密度與節能要求的場域。例如面對 GB200 NVL72 每機櫃高至 140 kW 的冷卻需求時,浸沒式冷卻成為可行策略之一。
3.熱回收應用
歷史案例如蘇黎世的 Aquasar 超級電腦,使用熱水冷卻微通道冷板,將熱水餘熱回收至建築供暖系統,可回收高達 80% 熱能,節省能源達 40%,碳排減少 85%。
二、NVIDIA 在水冷伺服器領域的應用
1.GB200 NVL72 與 GB300 NVL72 架構
NVIDIA 的 GB200 NVL72 架構是液冷伺服器的典型代表,結合 Grace CPU 與 Blackwell GPU,支援極高運算密度與效能。更重要的是,基於液冷設計,實現 300× 的水效率與 25× 成本節省。
2.Mass 出貨與可靠性提升
根據報導,NVIDIA GB300 伺服器預計將於 2025 年 9 月起進入大規模出貨,採模組化設計加速擴散;而 GB200 遭遇的水冷快接頭滲漏問題也已逐步排除,產能正在提升。
3.綠能與效率兼顧的資料中心參考架構
NVIDIA 與 Schneider Electric 合作開發針對高密度伺服器機櫃(單櫃高達 132 kW)的冷卻參考設計,支援液冷應用,能降低冷卻能耗約 20%,並將專案開發時間縮短 30%。
4.雲端巨頭的實務操作
AWS 為了應對 Blackwell 架構伺服器的高散熱需求,自研了 In-Row Heat Exchanger(IRHX)冷卻系統,可整合既有機房配置,無需全面改裝即可實現液冷部署。
5.前端液冷整合技術供應商
像 CoolIT Systems 與 Supermicro 等企業,推出液冷冷板、CDU、液冷機櫃模組等元件,成為 NVIDIA 認可的供應商,協助加速液冷伺服器的量產與部署。
三、機構設計人員應具備的專業知識
1. 熱力分析與 CFD 模擬
--> 配合相關部門,了解不同冷卻方式(空冷、管路水冷、浸沒冷)熱源分布與熱傳特性,了解 CFD 工具模擬熱流與散熱效能,評估瓶頸與潛能。
2. 結構整合與材料適配
--> 水冷系統牽涉泵浦、冷板、管路與快速接頭,需要設計通道與支撐結構,同時兼顧材質耐腐蝕性、密封性,以及強度與抗震性。
3. 模組化與可維護性設計
--> 像是 GB300 的模組化架構、IRHX 可模組替換的設計,或是 Quick-Disconnect 應用於 GPU 拆裝,均需在機構設計階段考慮易維護性。
4. 噪音管理與空間配置
--> 液冷可顯著降低風扇使用,但泵浦與冷卻模組仍會產生噪音。設計時需平衡噪音、風道與空間利用,實現機櫃高密度與低噪音並存。
5. 綠能與熱回收整合
--> 若具備熱回收意識,可設計熱水系統將冷卻剩餘熱能導入建築供暖,提升整體能源效率與環境友好性。
6. 可靠性與故障預防
--> 水冷系統需防漏、防腐蝕、耐泵壓變化,設計須導入偵測元件、冗餘路徑與故障隔離設計,提升系統可靠度。
別忘了,扎實對設計規格的了解、靈活應用協力廠商的附件模組、協同合作才能打造出一個成功的產品。
參考文獻:
1. 網路: 維基百科、水冷伺服器資訊
2. Nvidia 公開資訊
上課預約及繳費 https://calendly.com/tomdaddydesign/course
** 3C機構設計爸版權所有 ©️ **
水冷式伺服器的發展與機構設計人員的必備專業知識
隨著 AI、HPC 與大規模雲端運算需求的激增,傳統以風冷為主的伺服器冷卻方式逐漸面臨效能與效率的瓶頸。高功率密度下,空氣冷卻不僅冷卻效率低,而且無法縮小機櫃密度,耗電與噪音也呈現飆升趨勢。水冷(Liquid Cooling)因其優越的熱傳導效率與節能特性,正成為現代資料中心與機構設計師關注的重點。
一、水冷系統的演進與技術型態:
1.傳統管路與直接到晶片的水冷設計:
--> 傳統方法是將冷卻液通過水管至伺服器內部冷板,再由冷板吸熱,最後導回 CDU(冷卻分配單元)進行散熱。直接到晶片(direct-to-chip)的方法因熱阻低且可精準降溫,廣受採用。NVIDIA 在其 GB200 NVL72 架構中即採用了這種技術,它能提升能效 25×、處理效能提升 30×,且水效率高達 300×,大幅降低冷卻成本與能源消耗。
2.浸沒式冷卻(Immersion Cooling)
-->此方式將整台伺服器浸入不導電液體中,進行高效散熱,適合極高功率密度與節能要求的場域。例如面對 GB200 NVL72 每機櫃高至 140 kW 的冷卻需求時,浸沒式冷卻成為可行策略之一。
3.熱回收應用
歷史案例如蘇黎世的 Aquasar 超級電腦,使用熱水冷卻微通道冷板,將熱水餘熱回收至建築供暖系統,可回收高達 80% 熱能,節省能源達 40%,碳排減少 85%。
二、NVIDIA 在水冷伺服器領域的應用
1.GB200 NVL72 與 GB300 NVL72 架構
NVIDIA 的 GB200 NVL72 架構是液冷伺服器的典型代表,結合 Grace CPU 與 Blackwell GPU,支援極高運算密度與效能。更重要的是,基於液冷設計,實現 300× 的水效率與 25× 成本節省。
2.Mass 出貨與可靠性提升
根據報導,NVIDIA GB300 伺服器預計將於 2025 年 9 月起進入大規模出貨,採模組化設計加速擴散;而 GB200 遭遇的水冷快接頭滲漏問題也已逐步排除,產能正在提升。
3.綠能與效率兼顧的資料中心參考架構
NVIDIA 與 Schneider Electric 合作開發針對高密度伺服器機櫃(單櫃高達 132 kW)的冷卻參考設計,支援液冷應用,能降低冷卻能耗約 20%,並將專案開發時間縮短 30%。
4.雲端巨頭的實務操作
AWS 為了應對 Blackwell 架構伺服器的高散熱需求,自研了 In-Row Heat Exchanger(IRHX)冷卻系統,可整合既有機房配置,無需全面改裝即可實現液冷部署。
5.前端液冷整合技術供應商
像 CoolIT Systems 與 Supermicro 等企業,推出液冷冷板、CDU、液冷機櫃模組等元件,成為 NVIDIA 認可的供應商,協助加速液冷伺服器的量產與部署。
三、機構設計人員應具備的專業知識
1. 熱力分析與 CFD 模擬
--> 配合相關部門,了解不同冷卻方式(空冷、管路水冷、浸沒冷)熱源分布與熱傳特性,了解 CFD 工具模擬熱流與散熱效能,評估瓶頸與潛能。
2. 結構整合與材料適配
--> 水冷系統牽涉泵浦、冷板、管路與快速接頭,需要設計通道與支撐結構,同時兼顧材質耐腐蝕性、密封性,以及強度與抗震性。
3. 模組化與可維護性設計
--> 像是 GB300 的模組化架構、IRHX 可模組替換的設計,或是 Quick-Disconnect 應用於 GPU 拆裝,均需在機構設計階段考慮易維護性。
4. 噪音管理與空間配置
--> 液冷可顯著降低風扇使用,但泵浦與冷卻模組仍會產生噪音。設計時需平衡噪音、風道與空間利用,實現機櫃高密度與低噪音並存。
5. 綠能與熱回收整合
--> 若具備熱回收意識,可設計熱水系統將冷卻剩餘熱能導入建築供暖,提升整體能源效率與環境友好性。
6. 可靠性與故障預防
--> 水冷系統需防漏、防腐蝕、耐泵壓變化,設計須導入偵測元件、冗餘路徑與故障隔離設計,提升系統可靠度。
別忘了,扎實對設計規格的了解、靈活應用協力廠商的附件模組、協同合作才能打造出一個成功的產品。
參考文獻:
1. 網路: 維基百科、水冷伺服器資訊
2. Nvidia 公開資訊
上課預約及繳費 https://calendly.com/tomdaddydesign/course