2024-10-01|閱讀時間 ‧ 約 0 分鐘

你沒聽過的 Nvidia AI 晶片的挑戰者Cerebras要IPO了

raw-image


Cerebras Systems:AI 晶片界的新星

在人工智慧(AI)技術快速發展的今天,一家你可能從未聽說過的公司正準備在華爾街亮相。這家名為Cerebras Systems的公司,正計劃通過IPO進入資本市場,分食NVIDIA在AI晶片市場的大餅。成立於2016年的Cerebras Systems,憑藉其獨特的晶圓級引擎(Wafer-Scale Engine,WSE)技術,正在另闢蹊徑找到自己的市場。

Cerebras Systems的CEO Andrew Feldman在最近的一次訪談中表示:

「我們展示了我們的AI推理能力,我們現在在推理方面是世界上最快的。在最高精度水平上,我們是最便宜的。」



Cerebras想解決的核心問題

  1. 大規模AI模型的訓練效率:傳統GPU在處理大型AI模型時面臨著嚴重的限制。例如,訓練像GPT-3這樣的模型,需要將其分割並分佈到數百或數千個GPU上,這導致了極大的通訊開銷和programming複雜性。
  2. 推理速度和延遲:在進行生成式推理時,完整的模型需要為每個生成的詞運行一次。由於大型模型超出了GPU的片上記憶體容量,這需要頻繁地在片外記憶體之間移動數據,導致效率低下和高延遲。
  3. 能源效率:傳統的GPU集群在處理AI工作負載時消耗大量能源,特別是在數據移動方面。
  4. Programming複雜性:開發人員需要管理複雜的並行策略和大量程式碼,才能在GPU集群上有效地運行大型AI模型。
  5. 擴展性挑戰:隨著AI模型規模的增長,擴展GPU集群變得越來越困難和昂貴


Cerebras的解決方案

為了應對這些挑戰,Cerebras開發了一系列創新技術和解決方案:

  • 晶圓級引擎(Wafer-Scale Engine, WSE):

Cerebras Systems的核心競爭力來自其革命性的晶圓級引擎技術。該公司的第三代WSE(WSE-3)是目前市面上最大的晶片,其尺寸是領先的NVIDIA H100 GPU的57倍。WSE-3擁有9,000億個電晶體,這一數字超過了摩爾定律預測的2034年才能達到的水平。


WSE-3配備了 52 倍於領先 GPU 的運算核心,總計 900,000 個核心。此外,它還具有 880 倍的片上記憶體(44 GB)和 7,000 倍的記憶體頻寬(每秒 21 PB)。

值得注意的是,Cerebras採用了與NVIDIA類似的策略,選擇台積電(TSMC)作為其晶圓代工夥伴。這種合作關係使Cerebras能夠利用台積電的尖端製程技術,生產出其革命性的晶圓級引擎。

這種規模的晶片為AI運算帶來了顯著優勢。首先,它能夠在單一晶片上執行甚至是最大規模的AI模型,避免了將模型分割到多個處理器上的複雜性。其次,WSE的龐大片上記憶體和超高記憶體頻寬大大減少了數據移動的需求,從而提高了效能並降低了功耗。最後,WSE-3的架構原生支持稀疏性加速,能夠跳過不必要的零值計算,進一步提升性能和能源效率。

  • CS-3系統:這是一個集成了WSE的AI計算系統,提供創新的供電和冷卻解決方案。CS-3的計算能力每單位功耗比領先的8路GPU系統高出3倍。


  • Cerebras AI Supercomputer 超級電腦:這個系統可以無縫地擴展至2,048個CS-3系統,提供近乎線性的性能提升,而無需複雜的分佈式programming。
  • CSoft軟體平台:這是Cerebras的專有軟體平台,與PyTorch等標準ML框架無縫集成,消除了對CUDA等 low-level programming的需求。
  • Cerebras Inference Serving Stack:專門設計用於快速部署大型GenAI模型,提供業界領先的Inference推理速度。
  • AI模型服務:Cerebras提供AI專家團隊協助客戶用最快速度設計研究實驗、訓練模型和優化流程服務,幫助客戶從AI快速且高效的 AI 開發和部署,從AI投資中獲得最大價值。

性能優勢:訓練和推理的革命

根據Cerebras Systems的說法,許多客戶報告稱,使用其解決方案進行AI模型訓練的速度比同代領先的8路GPU系統快10倍以上。在推理方面,Cerebras聲稱其解決方案的輸出生成速度,比頂級雲服務提供商的基於GPU的解決方案快10倍以上。

Andrew Feldman在訪談中具體解釋了他們在推理方面的優勢:

「如果你比較我們與你可以從Nvidia H100在Azure上獲得的性能,我們快20倍。對於像llama 3.1 8B和70B這樣的最流行模型,我們正在提供GPU無法達到的速度。」


這種性能優勢源於Cerebras獨特的技術方法。例如,在訓練大型AI模型時,傳統的GPU集群(如使用NVIDIA的GPU)需要將模型分割並分佈到數百或數千個GPU上,這導致了極大的通訊cost和programming的複雜性。相比之下,Cerebras的單個WSE就能容納整個模型,大大簡化了訓練過程。在推理方面,WSE的大容量晶片上記憶體和超高記憶體頻寬使得即使是最大的AI模型也能保持在晶片上,極大地降低了延遲。

商業模式:靈活性與可擴展性

付費訂閱
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.