《後疫情時代的來臨》
在 Covid-19 疫情大流行過後,歐美及亞洲大部份的國家都已經開放國門,所以世界都已經慢慢地回到疫情前的生活。去年 (2021) 在疫情期間,IEDM 舉行了現場與線上同步的 67th 屆會議,想起當時主持人的開場感嘆了一句:「Amazing!」形容經歷過去一整年 (2021) 的封閉,又再次回到現實生活,是一種充滿感恩的解脫。一年之後 (2022),IEDM 68th 屆會議又更如以往一般的正常,同時今年也是〝電晶體〞(Transistor) 誕生的 75th 週年。另一方面,當點開 68th IEDM 在 Youtube 的宣傳影片,開頭就直接了當地說:「Semiconductor technologies are impacting our lives, today, and shaping our tomorrows.」即是,半導體已經深入在我們的生活,同時,半導體也持續塑造著我們的未來。因此,今年的會議又更顯重要了!
68th IEDM 有很多先進技術的討論與發表,同時也有兩個 Short Course 討論 (表列於參考文獻),這兩個主題的主講人都來自於世界最知名的大機構 (如 台積電, Intel, AMD, Samsung, IMEC 等),在分析完這兩堂課的資料後,本文主要分享科普知識。
《超級電腦的演進》
1984年,超級電腦的運算能力達到了 1 gigaflops (每秒10的9次方浮點運算),隨著科技不斷地進步,在半導體技術沿著摩爾定律 (Moore’s Law)的推進下,也讓超級電腦持續以每 1.2 年 2倍的運算能力演進,今年 (2022) Frontier 採用 AMD CPU 與 GPU 同時搭載DDR4 DRAM 並採用 PCIE Gen-4 連結,終於讓運算能力首次衝上了 1.1 exaflops (每秒10的18次方浮點運算),這絕對是非常驚人的速度,接著要再挑戰 1 zettaflops (每秒10的21次方浮點運算),已經是科技發展的重點了。
《科技始終來自於人性》
人工智慧 (AI, Artificial Intelligence) 與高效能運算 (HPC, High Performance Computing) 產品持續的在我們的身邊運作,舉例來說:生活中可能會使用自駕車 (Autonomous cars) 代步,自駕系統內需要圖像分類 (Image classification) 協助行車安全判斷;出遊前我們會參考氣象預報 (Weather Forecast),當作是旅遊計劃的一部份;家庭或政府機構所使用的安控系統 (Security),甚至在氣候變遷 (Climate science) 的議題討論,或是 Covid-19 演化後,需要醫學辨識 (Medical imaging) 來抓到隱藏的變種病毒所使用的生物科技 (Biomedical research),這些全都需要靠 AI 與 HPC 機器的協助運算。從另一個角度來看,我們每天所產生的數據,提供給 AI 運算的參數,正在以每 2.3 個月 2倍的速度增加,換句話說,為了避免讓資訊延遲,只有創造更強運算能力的機器,才能消化這些快速增長的數據。由於我們希望生活更好更便利,這就是我們一直持續創造 1 zettaflops (每秒10的21次方浮點運算) 超級電腦最大的動力。
《運算效率》
早期超級電腦只使用 CPU 的單一配制,便可達到了高階運算。近年來,為了讓效率提升,開始同時採用 CPU 與 GPU 的設計,由於CPU 與 GPU 運算方式不同,這樣的硬體配制,再搭配軟體的撰寫,也確實讓效率提升。因為使用 GPU/CPU 的比例搭配,可以產生更有效率的結果,因此在 Frontier 上,更是使用了 GPU/CPU 4倍的比例,達到了運算能力的 1.1 exaflops 穩定表現。同時,依照目前 GPU 內電晶體的需求成長速度,已經超過了 CPU 的1.1 倍,這也讓電腦科技大廠的佈局上,出現了洗牌與併購的效應。
不只需要高效能的處理器 (GPU/CPU),同時也需要更高的容量、更快的讀寫速度,以及更大的頻寬的記憶體,因此,更推動了 DRAM DDR5 以及 SSD PCIE GEN-5 的應用。
隨著光學與物理的極限,想要繼續延著摩爾定律 (Moore’s Law) 往下走的難度愈來愈高,因此,開始從二維轉成三維的製程,也藉由 3D 封裝技術,持續的讓電晶體的密度愈來愈高,因而推進摩爾定律,也就是說,為了晶片的效能提高,未來也會有更多的記憶體與處理器藉由 3D封裝在同一顆 IC 晶片內,除此以外,也可以降低電能的損失。
《電力轉換效率》
我們經常使用高效能運算的產品,如手機 (Client) 連結到 Datacenter 或是 Server (Cloud),讓生活更便利,卻也讓電力的總耗損不斷地增加。根據統計結果,在 Datacenter 內,電力佔比分別以 IT 設備 (45%) 與 散熱系統 (38%) 居前二位;再進一步探討,內部運算系統電力佔比僅僅是是 IT 設備內的 52%,換句話說,Datacenter 內的運算系統電力佔比只有 23% (45% 內的 52%),在電力轉換運算能力的效率來看,還有改善的空間。亦如前段所提到的,除了利用 GPU/CPU 的配制可以增加電力轉換運算能力的效率以外,電源管理晶片 (PMIC) 也是一個很重要的角色。目前 GaN (III-V族,第三代半導體) 是比較有潛力可以發揮絕佳效率的電源管理方案。然而,耗電量位居第二的散熱系統也是無法忽視的重點,因為機器在運轉時,除了將電力轉換成高效能運算以外,同時也會產生巨量的熱能,所以需要散熱裝置的協助。過去常規使用銅片來輔助散熱,目前已經逐漸走向水冷式 (Liquid cooling) 或者使用浸沒式 (Immersion cooling) 更加快速協助機器冷卻,避免熱當機。
《抓住機會》
總結來說,科技,始終來自於人性。我們想要的便利,造就了更快速更有效率的 AI、HPC 與 Datacenter/Server 進化,這些帶動了 GPU 與 CPU 的電晶體密度提高,尤其以 GPU 的成長速度更快,也改變了機器內 GPU/CPU 的配置比例,來達到更有效率的運算。同時,透過 3D 封裝技術,增加電晶體的密度,將更多的記憶體封裝在同一顆 IC 內,提升效能。高效能運算,也一併帶動了 DRAM DDR5 & SSD PCIE GEN5 的容量需求增長,擁有更快的讀寫速度。
另一方面,從 exaflops 往 zettaflops 邁進的路上,電力轉換運算能力的效率,必定是個重點,那麼,電源管理晶片採用 GaN (III-V族,第三代半導體) 會有較佳的管理方案,同時,散熱系統佔耗電量的比例也大,已經從銅片散熱走向水冷式 (Liquid cooling) 或者使用浸沒式 (Immersion cooling) 的產業佈局。
科技的進步,電力的需求與總耗電量是沒有上限的,所以也需要更好的儲能與發電系統,因為我們在追求的,是更佳的電能轉換效率!
《參考文獻》
[1]. 2022 IEEE IEDM Short Course 1: High-Performance Technologies for Datacenter and Graphics to enable Zetta Scale Computing
[2]. 2022 IEEE IEDM Short Course 2: Next-Generation High-Speed Memory for AI and High Performance Compute
[3]. Future of High-Performance Computing: Software, System and Transistor, Wilfred Gomes, Intel
[4]. Memory solutions for HPC & AI: An Overview, John Wuu, AMD
[5]. W. Gomes, A. Koker, & P. Stover, "Ponte Vecchio: A Multi-Tile 3D Stacked Processor for Exascale Computing"
[6]. K. M. U. Ahmed, M. H. J. Bollen, and M. Alvarez, "A Review of Data Centers Energy Consumption and Reliability Modeling", IEEE Access, Nov. 2021
[7]. K. M. U. Ahmed, M. Alvarez and M. H. J. Bollen, "Reliability analysis of internal power supply architecture of data centers in terms of power losses", Electr. Power Syst. Res., vol. 193, Apr. 2021.
[8]. T. L. Vasques, P. Moura and A. de Almeida, "A review on energy efficiency and demand response with focus on small and medium data centers", Energy Efficiency, vol. 12, no. 5, pp. 1399-1428, 2019.
[9]. C. Jin, X. Bai, C. Yang, W. Mao and X. Xu, "A review of power consumption models of servers in data centers", Appl. Energy, vol. 265, May 2020.