InFO-SoW 這種晶圓級封裝出來跟12吋披薩差不多大的東西,我們要怎麼稱呼呢?
這是中午跟同學吃飯時候聊到特斯拉的下一代Dojo AI訓練模組,那個規格的數量級實在是難以想像.
預計 2027 年開始生產的特斯拉次世代 Dojo 訓練模組 ( Dojo Training Tile ) ,是把25個AI處理器(裸晶)直接放到12吋晶圓上面的晶圓級封裝,因為邏輯晶片跟最後一級的電源 PMIC等都在12吋晶圓上,一般也會說是 system in package.Dojo Training Tile 應該是用台積電的整合扇出 (InFO-SoW) 技術進行晶圓級互連,InFO_SoW 高效能連接使得 Tesla Dojo 的 25 個AI處理器(裸晶)可以像單一處理器一樣運作。
Tesla Dojo Training Tile 包含 25 個超高性能AI處理器(裸晶),因此它非常耗電,需要 18000 安培的電力,功耗15000W,電晶體總數量大約為 25 × 50 B ≈ 1250B 個電晶體,算力 9 PFLOPS @BF16
以上這些我同學「特別強調都是新聞寫的」,畢竟是簽了NDA的人啊!不過那個數量級讓離開業界甚久的我懷疑後面是不是多了幾個零🤣🤣
作為對照組, 二十多年前的頂規電腦裡面的 Intel Pentium III 裡面有 29M 個電晶體,功耗是 29 W,算力約2 GFLOPS (SSE-單精度).
為什麼特斯拉的 Dojo 訓練用 wafer-scale 封裝
Dojo 訓練用 wafer-scale 封裝是因為這符合特斯拉 FSD (full-self-driving, 自動駕駛)影像訓練的特有需求-Tesla FSD 的原始資料是每秒數百萬frame的影像序列,影片序列的大批次同步訓練每 frame 需在張量層間反覆交流,用SRAM+晶圓層級封裝來追求「跨 die 延遲最低、I/O 能耗最低」.
Nvidia 及其他 CSP 的自研晶片這類 LLM/GenAI為 主的應用,追求「HBM 容量×能效×模組化擴充」,會選擇 CoWoS-S/L (或類似的先進封裝)+ HBM 這條成熟路線,擴充就透過類似 B200 >> DGX-B200 機櫃這種更彈性的方式.
晶圓級封裝的客戶還有誰?
目前有在做這種晶圓層級封裝的只有特斯拉的Dojo 跟新創公司 Cerebras WSE-3;儘管這種晶圓層級封裝在AI訓練時的大量資料搬移能耗可以省一個數量級、通信延遲也低.
不過晶圓層級封裝在良率跟系統設計的挑戰很驚人,對於目前主流的 LLM / GenAI 為主的應用也不合適.
這可以看的出來,即便同樣都是 AI 應用,不同的應用跟演算法對應到「怎麼做會更有效率的硬體設計」也會不同,包含邏輯電路到封裝級別的系統設計.
#要多跟朋友吃飯