在人工智慧(AI)技術快速發展的今天,一家你可能從未聽說過的公司正準備在華爾街亮相。這家名為Cerebras Systems的公司,正計劃通過IPO進入資本市場,分食NVIDIA在AI晶片市場的大餅。成立於2016年的Cerebras Systems,憑藉其獨特的晶圓級引擎(Wafer-Scale Engine,WSE)技術,正在另闢蹊徑找到自己的市場。
Cerebras Systems的CEO Andrew Feldman在最近的一次訪談中表示:
「我們展示了我們的AI推理能力,我們現在在推理方面是世界上最快的。在最高精度水平上,我們是最便宜的。」
為了應對這些挑戰,Cerebras開發了一系列創新技術和解決方案:
Cerebras Systems的核心競爭力來自其革命性的晶圓級引擎技術。該公司的第三代WSE(WSE-3)是目前市面上最大的晶片,其尺寸是領先的NVIDIA H100 GPU的57倍。WSE-3擁有9,000億個電晶體,這一數字超過了摩爾定律預測的2034年才能達到的水平。
WSE-3配備了 52 倍於領先 GPU 的運算核心,總計 900,000 個核心。此外,它還具有 880 倍的片上記憶體(44 GB)和 7,000 倍的記憶體頻寬(每秒 21 PB)。
值得注意的是,Cerebras採用了與NVIDIA類似的策略,選擇台積電(TSMC)作為其晶圓代工夥伴。這種合作關係使Cerebras能夠利用台積電的尖端製程技術,生產出其革命性的晶圓級引擎。
這種規模的晶片為AI運算帶來了顯著優勢。首先,它能夠在單一晶片上執行甚至是最大規模的AI模型,避免了將模型分割到多個處理器上的複雜性。其次,WSE的龐大片上記憶體和超高記憶體頻寬大大減少了數據移動的需求,從而提高了效能並降低了功耗。最後,WSE-3的架構原生支持稀疏性加速,能夠跳過不必要的零值計算,進一步提升性能和能源效率。
根據Cerebras Systems的說法,許多客戶報告稱,使用其解決方案進行AI模型訓練的速度比同代領先的8路GPU系統快10倍以上。在推理方面,Cerebras聲稱其解決方案的輸出生成速度,比頂級雲服務提供商的基於GPU的解決方案快10倍以上。
Andrew Feldman在訪談中具體解釋了他們在推理方面的優勢:
「如果你比較我們與你可以從Nvidia H100在Azure上獲得的性能,我們快20倍。對於像llama 3.1 8B和70B這樣的最流行模型,我們正在提供GPU無法達到的速度。」
這種性能優勢源於Cerebras獨特的技術方法。例如,在訓練大型AI模型時,傳統的GPU集群(如使用NVIDIA的GPU)需要將模型分割並分佈到數百或數千個GPU上,這導致了極大的通訊cost和programming的複雜性。相比之下,Cerebras的單個WSE就能容納整個模型,大大簡化了訓練過程。在推理方面,WSE的大容量晶片上記憶體和超高記憶體頻寬使得即使是最大的AI模型也能保持在晶片上,極大地降低了延遲。