早期超級電腦只使用 CPU 的單一配制,便可達到了高階運算。近年來,為了讓效率提升,開始同時採用 CPU 與 GPU 的設計,由於CPU 與 GPU 運算方式不同,這樣的硬體配制,再搭配軟體的撰寫,也確實讓效率提升。因為使用 GPU/CPU 的比例搭配,可以產生更有效率的結果,因此在 Frontier 上,更是使用了 GPU/CPU 4倍的比例,達到了運算能力的 1.1 exaflops 穩定表現。同時,依照目前 GPU 內電晶體的需求成長速度,已經超過了 CPU 的1.1 倍,這也讓電腦科技大廠的佈局上,出現了洗牌與併購的效應。
不只需要高效能的處理器 (GPU/CPU),同時也需要更高的容量、更快的讀寫速度,以及更大的頻寬的記憶體,因此,更推動了 DRAM DDR5 以及 SSD PCIE GEN-5 的應用。
隨著光學與物理的極限,想要繼續延著摩爾定律 (Moore’s Law) 往下走的難度愈來愈高,因此,開始從二維轉成三維的製程,也藉由 3D 封裝技術,持續的讓電晶體的密度愈來愈高,因而推進摩爾定律,也就是說,為了晶片的效能提高,未來也會有更多的記憶體與處理器藉由 3D封裝在同一顆 IC 晶片內,除此以外,也可以降低電能的損失。
《電力轉換效率》
我們經常使用高效能運算的產品,如手機 (Client) 連結到 Datacenter 或是 Server (Cloud),讓生活更便利,卻也讓電力的總耗損不斷地增加。根據統計結果,在 Datacenter 內,電力佔比分別以 IT 設備 (45%) 與 散熱系統 (38%) 居前二位;再進一步探討,內部運算系統電力佔比僅僅是是 IT 設備內的 52%,換句話說,Datacenter 內的運算系統電力佔比只有 23% (45% 內的 52%),在電力轉換運算能力的效率來看,還有改善的空間。亦如前段所提到的,除了利用 GPU/CPU 的配制可以增加電力轉換運算能力的效率以外,電源管理晶片 (PMIC) 也是一個很重要的角色。目前 GaN (III-V族,第三代半導體) 是比較有潛力可以發揮絕佳效率的電源管理方案。然而,耗電量位居第二的散熱系統也是無法忽視的重點,因為機器在運轉時,除了將電力轉換成高效能運算以外,同時也會產生巨量的熱能,所以需要散熱裝置的協助。過去常規使用銅片來輔助散熱,目前已經逐漸走向水冷式 (Liquid cooling) 或者使用浸沒式 (Immersion cooling) 更加快速協助機器冷卻,避免熱當機。
《抓住機會》
總結來說,科技,始終來自於人性。我們想要的便利,造就了更快速更有效率的 AI、HPC 與 Datacenter/Server 進化,這些帶動了 GPU 與 CPU 的電晶體密度提高,尤其以 GPU 的成長速度更快,也改變了機器內 GPU/CPU 的配置比例,來達到更有效率的運算。同時,透過 3D 封裝技術,增加電晶體的密度,將更多的記憶體封裝在同一顆 IC 內,提升效能。高效能運算,也一併帶動了 DRAM DDR5 & SSD PCIE GEN5 的容量需求增長,擁有更快的讀寫速度。
[1]. 2022 IEEE IEDM Short Course 1: High-Performance Technologies for Datacenter and Graphics to enable Zetta Scale Computing
[2]. 2022 IEEE IEDM Short Course 2: Next-Generation High-Speed Memory for AI and High Performance Compute
[3]. Future of High-Performance Computing: Software, System and Transistor, Wilfred Gomes, Intel
[4]. Memory solutions for HPC & AI: An Overview, John Wuu, AMD
[5]. W. Gomes, A. Koker, & P. Stover, "Ponte Vecchio: A Multi-Tile 3D Stacked Processor for Exascale Computing"
[6]. K. M. U. Ahmed, M. H. J. Bollen, and M. Alvarez, "A Review of Data Centers Energy Consumption and Reliability Modeling", IEEE Access, Nov. 2021
[7]. K. M. U. Ahmed, M. Alvarez and M. H. J. Bollen, "Reliability analysis of internal power supply architecture of data centers in terms of power losses", Electr. Power Syst. Res., vol. 193, Apr. 2021.
[8]. T. L. Vasques, P. Moura and A. de Almeida, "A review on energy efficiency and demand response with focus on small and medium data centers", Energy Efficiency, vol. 12, no. 5, pp. 1399-1428, 2019.
[9]. C. Jin, X. Bai, C. Yang, W. Mao and X. Xu, "A review of power consumption models of servers in data centers", Appl. Energy, vol. 265, May 2020.