你沒聽過的 Nvidia AI 晶片的挑戰者Cerebras要IPO了

更新於 2024/10/01發佈於 2024/10/01閱讀時間約 15 分鐘

Cerebras Systems：AI 晶片界的新星

在人工智慧（AI）技術快速發展的今天，一家你可能從未聽說過的公司正準備在華爾街亮相。這家名為Cerebras Systems的公司，正計劃通過IPO進入資本市場，分食NVIDIA在AI晶片市場的大餅。成立於2016年的Cerebras Systems，憑藉其獨特的晶圓級引擎（Wafer-Scale Engine，WSE）技術，正在另闢蹊徑找到自己的市場。

Cerebras Systems的CEO Andrew Feldman在最近的一次訪談中表示：

「我們展示了我們的AI推理能力，我們現在在推理方面是世界上最快的。在最高精度水平上，我們是最便宜的。」

Cerebras想解決的核心問題

大規模AI模型的訓練效率：傳統GPU在處理大型AI模型時面臨著嚴重的限制。例如，訓練像GPT-3這樣的模型，需要將其分割並分佈到數百或數千個GPU上，這導致了極大的通訊開銷和programming複雜性。
推理速度和延遲：在進行生成式推理時，完整的模型需要為每個生成的詞運行一次。由於大型模型超出了GPU的片上記憶體容量，這需要頻繁地在片外記憶體之間移動數據，導致效率低下和高延遲。
能源效率：傳統的GPU集群在處理AI工作負載時消耗大量能源，特別是在數據移動方面。
Programming複雜性：開發人員需要管理複雜的並行策略和大量程式碼，才能在GPU集群上有效地運行大型AI模型。
擴展性挑戰：隨著AI模型規模的增長，擴展GPU集群變得越來越困難和昂貴

Cerebras的解決方案

為了應對這些挑戰，Cerebras開發了一系列創新技術和解決方案：

晶圓級引擎（Wafer-Scale Engine, WSE）：

Cerebras Systems的核心競爭力來自其革命性的晶圓級引擎技術。該公司的第三代WSE（WSE-3）是目前市面上最大的晶片，其尺寸是領先的NVIDIA H100 GPU的57倍。WSE-3擁有9,000億個電晶體，這一數字超過了摩爾定律預測的2034年才能達到的水平。

WSE-3配備了 52 倍於領先 GPU 的運算核心，總計 900,000 個核心。此外，它還具有 880 倍的片上記憶體（44 GB）和 7,000 倍的記憶體頻寬（每秒 21 PB）。

值得注意的是，Cerebras採用了與NVIDIA類似的策略，選擇台積電（TSMC）作為其晶圓代工夥伴。這種合作關係使Cerebras能夠利用台積電的尖端製程技術，生產出其革命性的晶圓級引擎。

這種規模的晶片為AI運算帶來了顯著優勢。首先，它能夠在單一晶片上執行甚至是最大規模的AI模型，避免了將模型分割到多個處理器上的複雜性。其次，WSE的龐大片上記憶體和超高記憶體頻寬大大減少了數據移動的需求，從而提高了效能並降低了功耗。最後，WSE-3的架構原生支持稀疏性加速，能夠跳過不必要的零值計算，進一步提升性能和能源效率。

CS-3系統：這是一個集成了WSE的AI計算系統，提供創新的供電和冷卻解決方案。CS-3的計算能力每單位功耗比領先的8路GPU系統高出3倍。

Cerebras AI Supercomputer 超級電腦：這個系統可以無縫地擴展至2,048個CS-3系統，提供近乎線性的性能提升，而無需複雜的分佈式programming。
CSoft軟體平台：這是Cerebras的專有軟體平台，與PyTorch等標準ML框架無縫集成，消除了對CUDA等 low-level programming的需求。
Cerebras Inference Serving Stack：專門設計用於快速部署大型GenAI模型，提供業界領先的Inference推理速度。
AI模型服務：Cerebras提供AI專家團隊協助客戶用最快速度設計研究實驗、訓練模型和優化流程服務，幫助客戶從AI快速且高效的 AI 開發和部署，從AI投資中獲得最大價值。

性能優勢：訓練和推理的革命

根據Cerebras Systems的說法，許多客戶報告稱，使用其解決方案進行AI模型訓練的速度比同代領先的8路GPU系統快10倍以上。在推理方面，Cerebras聲稱其解決方案的輸出生成速度，比頂級雲服務提供商的基於GPU的解決方案快10倍以上。

Andrew Feldman在訪談中具體解釋了他們在推理方面的優勢：

「如果你比較我們與你可以從Nvidia H100在Azure上獲得的性能，我們快20倍。對於像llama 3.1 8B和70B這樣的最流行模型，我們正在提供GPU無法達到的速度。」

這種性能優勢源於Cerebras獨特的技術方法。例如，在訓練大型AI模型時，傳統的GPU集群（如使用NVIDIA的GPU）需要將模型分割並分佈到數百或數千個GPU上，這導致了極大的通訊cost和programming的複雜性。相比之下，Cerebras的單個WSE就能容納整個模型，大大簡化了訓練過程。在推理方面，WSE的大容量晶片上記憶體和超高記憶體頻寬使得即使是最大的AI模型也能保持在晶片上，極大地降低了延遲。