關鍵技術之一:高效能計算系統
高效能計算(High-Performance Computing, HPC)是我長期關注的技術領域,也是當前發展先進AI和大型語言模型(LLM)技術的重要基礎。沒有足夠的算力,根本沒辦法訓練出具備競爭力LLM;想在最短的時間之內訓練出比別人更厲害的模型,如果在算力上落後一大截,那會是一件很難達成的任務。所以這幾年世界級的大公司,為了不落人後,都在搶購高階的GPU,或者自行研發高效能的AI晶片。
以下的左側的圖取自於「經濟學人」,可以看到算力的成長,明顯地在2010年因應深度學習的需求而快速起飛,從原本已經很驚人的「每23.7個月加倍」的摩爾定律,變成了「每6個月加倍」的超高速度,因此從2010年到2024年的14年間,算力成長了228= 2.7 x 108倍。不過這裡指的是高效能算力的成長幅度,一般個人電腦和手機平板的成長速度還是傳統的摩爾定律,因此普羅大眾恐怕根本感受不到這件事。
我在圖的右側標注了最近幾年比較知名、與大模型訓練有關的高效能計算平台,包括微軟、Google、Meta、x.AI以及OpenAI,都不斷在擴充算力的規模。2021年微軟同時使用四千多顆A100 GPU來訓練當時最大的模型,之後Google也不甘示弱,在2022年發表了用了6千多顆TPU晶片訓練出更大的模型,而Meta不僅建置大規模的算力來訓練Llama系列大模型,還將訓練好的大模型開放供大眾下載使用。如今,這些大公司仍然爭相採購最新最強的GPU,並且建置更大規模的算力平台。例如,OpenAI找了Softbank、Oracle等公司共同投資興建一座名為Stargate的算力中心,宣稱規模要達到40萬顆、甚至上百萬顆GPU。
要知道,一顆高階的GPU的行情大約是100萬元台幣上下,所以10萬顆高階的GPU大概要10萬 x 100萬元 = 1000億台幣,如果接下來的競爭越演越烈,算力中心進入到100萬顆GPU等級的話,那就是1兆台幣的投資,而且這些投資所採購的GPU,可不是房地產或黃金,由於技術不斷在進步,很可能在四年後就沒什麼殘餘價值了。所以說,這些大公司的競爭是極為劇烈的,擁有大量的算力,不僅是為了爭取領先地位,也是為了存活,不得不傾力投入戰局。
實際上,算力、人才、資料可說是訓練大模型的三大要件。即便有充沛的算力,還需要第一流的人才和充足有效的資料。2025年7月SemiAnalysis網站有一篇文章探討Meta如何努力在算力、人才、資料上取得領先地位 [1],包括在2026年底之前建置完成50萬顆GPU的算力中心,比OpenAI Stargate的40萬顆GPU規模更大,以極高的薪資爭取(挖角)第一流的人才,同時從Llama 4的失敗經驗中學到一些教訓:時至今日這個推理(reasoning)模型掛帥的年代,必須更加重視資料集的品質,不能再盲目或不假思索地蒐集訓練所需的資料。
另一方面,中國以國家的力量發展AI,在十億人口和政策支持的基礎上,能夠以極多的優秀人才和西方國家企業所無法取得的資料來打造大模型。因此,美國幾年前眼見苗頭不對,恐怕中國的AI發展進步太快,於是開始限制高效能晶片輸出至中國。但即便在算力受限的情況下,中國AI大模型的進步仍然讓許多人跌破眼鏡。2025年初以來,包括DeepSeek和Qwen等中國公司出品的模型陸續公開供大眾下載,口碑相當不錯。我看當前的頂尖AI會議論文,有超過一半的作者是華人,人才的重要性實在不容小覷。
因為無法(合乎美國政府的規定)進口最新的高效能晶片,中國只好自立自強,開始自行研製高效能晶片和系統。華為在今年4月發表了AI CloudMatrix 384系統,說是憑藉其顛覆性的系統架構設計與全棧技術創新,在多項關鍵指標上實現對英偉達旗艦産品GB200 NVL72的超越,標誌着中國在人工智慧基礎設施領域實現里程碑式突破。央視網還「引用」SemiAnalysis的評論,說CloudMatrix 384領先英偉達和AMD的産品一代 [2]。

華為CloudMax 384
實際上SemiAnalysis並沒有這麼說,如果讀者細看以下的比較表,可以看到CloudMatrix 384雖然在算力、記憶體容量、記憶體頻寬上領先Nvidia的GB200 NVL72,但因為單晶片的效能不如GB200,只好使用更多的晶片。Nvidia的系統使用了72顆GPU,華為則使用了384顆910C晶片,以5.3倍的晶片數量從4.1倍的耗電量來取得所謂的領先地位。再繼續讀下去之前,讀者不妨從以上CloudMatrix 384的圖片中算算它使用了多少個機櫃?

答案揭曉,CloudMatrix 384使用了16個機櫃。那麼Nvidia GB200 NVL72使用了幾個機櫃呢?答案是1個。以下是我去年在Supercomputing Conference展場中拍攝到Asus製造的GB200 NVL72,1個機櫃塞進72個GPU以及連接GPU的NVSwitch,價格大約一億元台幣,所以有人戲稱「億元櫃」。我不知道華為CloudMatrix 384一套要賣多少錢?要賣多少才能回收研發成本?訓練大模型要負擔比GB200多幾倍的電費?但對中國來說,為了自立自強,錢不是問題。很多人都聽過60年前的中國有一句名言:「寧要核子,不要褲子」,形容當時的中國雖然窮困仍傾全力發展核子武器;如今研發AI的重要性不亞於核子武器,以當前中國的國力,這些研發成本和電力又算得上什麼?

NVIDIA GB200 NVL72
話說回來,看到國外搶購GPU的熱潮、台灣系統廠出貨很開心,但我們國內有多少高效能計算資源可用於發展先進AI技術、尖端的大模型工程呢?坦白說,並不多。有人說,台灣根本用不到高效能計算、資料量不足,或是用國外的雲端資源就行,我想,實際的情況絕非如此,國內的科技和產業要升級的話,必須要在AI領域上具備核心競爭力。如我在之前的論述中提及的,可以利用開放權重的基礎模型(open-weight foundation models),加上領域專家的智慧和推理,訓練出優秀的專家模型,不見得要有巨量資料才行,只是沒有起碼的算力,那就難了。
對我來說,不管有沒有算力,該做的探索還是要做。我這半年來帶著一群學生研究如何提升大模型推論和訓練的效率、如何透過適當的過濾、分類、驗證程序來獲得高品質的推理軌跡(reasoning traces)、以及如何利用演化(evolve)框架讓大模型參考人類的智慧後產生高效能的晶片設計,即便在缺乏大規模算力的情況下,我們仍然能有所收穫。所幸在最近一個月獲得Taipei-1的64顆H100 GPU算力加持下,我們終於能實際驗證想法並且大幅推展實務進度,真是受益良多。尤其是參與研究的學生,從一開始的坐井觀天,只知道一些理論和招式,到後來對大模型和高效能平台的實務有所體會,有機會在將來成為業界冀求的人才,算是他們的造化。
我想引用美國電影Field of Dreams的一句名言“if you build it they will come”,來形容我對於高效能計算和先進研究的看法。片中的農場主人Ray有天聽到神秘聲音說:「你蓋好了,他們就會來。」於是剷平了自己的玉米田建造了一座棒球場,而棒球偶像真的來到這裡打球。國內很少人實際接觸過高效能計算,是因為業界長年重硬體製造、輕忽或不相信軟體研發的價值;今天在AI的浪潮下,高效能計算資源就像片中的棒球場,可以吸引和培育人才,強化核心競爭力,讓他們有辦法乘風破浪。或許有人提供了算力,就像當年的紅葉少棒隊,可以追逐夢想,創造奇蹟。
--
[1] Dylan Patel, Jeremie Eliahou Ontiveros, Wei Zhou, AJ Kourabi and Maya Barkin (2025-07-11,SemiAnalysis), Meta Superintelligence – Leadership Compute, Talent, and Data. https://semianalysis.com/2025/07/11/meta-superintelligence-leadership-compute-talent-and-data/
[2] 央視網 | 2025-04-18. SemiAnalysis稱:華為雲CloudMatrix 384領先英偉達和AMD的産品一代。https://big5.cctv.com/gate/big5/business.cctv.cn/2025/04/18/ARTIL1uiTGWZipH1prKSUD0t250418.shtml
[3] Dylan Patel, Daniel Nishball, Myron Xie, Patrick Zhou, Ivan Chiam, AJ Kourabi, Christopher Seifel and Doug OLaughlin (2025-04-16,SemiAnalysis). AI CloudMatrix 384 – China’s Answer to Nvidia GB200 NVL72. https://semianalysis.com/2025/04/16/huawei-ai-cloudmatrix-384-chinas-answer-to-nvidia-gb200-nvl72/