中國近期在人工智慧領域取得重大突破,成功在多個資料中心和不同的GPU架構下訓練出單一的生成式AI模型。此一成就的複雜度與關鍵要點在於在分散多個地理位置的資料中心使用不同品牌的GPU進行模型訓練。根據Moor Insights & Strategy的首席分析師Patrick Moorhead的透露,中國是首個實現這一壯舉的國家,這項發現是在一次與非披露協議(NDA)會議的討論中透露的。
由於美國的制裁,限制了中國獲得最先進的AI晶片,中國因此被迫尋求替代解決方案。儘管Nvidia針對中國市場開發了性能較低的H20 AI晶片,但未來這些晶片也可能面臨進一步的出口限制。為了應對這一挑戰,中國研究人員將不同品牌和性能的GPU整合到一個訓練叢集中,混合使用如Nvidia A100、華為Ascend 910B等高性能晶片,以及較容易獲得的較低性能GPU。這種做法有助於解決中國高端GPU短缺問題,儘管傳統上這樣的混合會導致效率大幅下降。
然而,最新消息顯示,中國似乎已經解決了這一效率問題,成功在多個資料中心進行了單一GAI模型的訓練,證明了中國在面對技術和政治挑戰時,仍能保持AI發展的韌性。正如華為所言,中國會持續在制裁壓力下找到推動AI發展的方式,真正應驗了「需求促進發明」的道理。
這個科技議題核心關注的有幾點,首先是中國成功用類似HPC(高性能運算)的方式或架構將很多次級的GPU或資料中心進行算力與資料能力的串接,這樣的科技能力明顯讓中國可以進一步繞過美國進行的半導體制裁跟禁令。而且這樣的算力串接與調度能力能夠讓中國在次世代的數位發展上更為效率化,不仰賴硬體而是透過架構的改善與調度強化整體的數位競爭力,而且在此背景之下,也可以跳脫傳統而言東亞過於倚賴硬體而軟體疲弱的區域發展課題。
再來是這次串聯的算力系統與GPU分別都是不同的廠牌與規格,特別還是分屬美廠Nvidia與中廠華為的全球兩大不同系統,在這樣的整合背景之下,代表中國有能力對不同規格的硬體設備在資料中心整合的尺度上進行標準化,如果順利,中國成為全球的算力與人工智慧大國指日可待。