特斯拉自家的 Dojo 晶片硬體架構包含大量 on-die SRAM+高速近鄰通訊,是非常適合「傳統分層式自駕 pipeline」的專用硬體.
但去年特斯拉的 FSD v12 導入的端到端自動駕駛,以 Transformer 架構加上數百萬段影片訓練:長序列、跨視角、跨時間的注意力,外加訓練時的激活/KV cache,這代表超巨大的訓練模型,硬體上需要大容量、低延遲、超高頻寬的貼身記憶體與大規模低延遲互連;而市場上正好有GB200/NVL72(HBM3e+NVLink/NVSwitch)完全符合需求.
也就是特斯拉由「傳統分層式自駕 pipeline」轉向「端到端自動駕駛」的時候,就注定了 Dojo 被 Nvidia GB200/NVL72取代.以下就稍微講一下「傳統分層式自駕 」跟「端到端自動駕駛」的差別:
為什麼「傳統分層式自駕」很適合 Dojo?
- 傳統做法通常是「感知用深度學習(CNN、3D occupancy、tracking NN 等)+後段用演算法/規則/最佳化」。也就是說感知→預測已是神經網路;但規劃→控制常以各種演算法為主,並夾雜大量 heuristics 與規則。
算力最重的通常是「感知→(短時序)融合」這段—剛好是上面列的那些局部性強、可算子融合的模塊;把它們壓進 on-die SRAM(~11GB)、靠 2D mesh 近鄰交換,正好對上 Dojo 的硬體特性就能做得快又好.
後段複雜的規劃/控制雖有大量規則與最佳化,但計算上更像稀疏且結構化的 CPU/GPU 工作。
為什麼「端到端影片 Transformer」更需要超大而且可擴充的架構?
FSD v12 之後的架構把「多攝影機影片 → 控制輸出」全部交給以 Transformer 為主的端到端,並以數百萬段影片訓練、取代原本的演算法+規則/邏輯。這樣子長序列、跨視角、跨時間的注意力外加訓練時的激活/KV cache都要長時間貼身留存,這讓模型變的非常巨大,像是Nvidia NVL72 機櫃這樣可以把 72 顆 Blackwell GPU連成單一 NVLink 網域整櫃HBM≈13.5 TB的架構就更適合.
其它因素
除了演算法對應的硬體架構這個因素之外,另外像是Dojo 的 InFO_SoW(System-on-Wafer)把 25 顆近滿光罩的大晶片放在「載板晶圓」上重佈線的做法也在實作上面臨很多挑戰,包含封裝良率、供電、散熱等.
LLM的爆發讓 NVIDIA 的 Blackwell/GB200 成為目前業界標準(軟硬體堆疊、TE FP8/FP4、NVLink/NVSwitch、TensorRT-LLM 等),要大規模訓練或服務 transformer 架構巨型模型採用現成 Nvidia NVL72 機櫃更快、更具擴充性。
也請 ChatGPT 做了一個比較表:

結論:
特斯拉官方沒有把 Dojo 的終止直接歸因於架構更迭,但把端到端駕駛模型 Transformer 架構的行業大勢確實削弱了以超大 on-die SRAM 為核心的 Dojo 路線的相對優勢,讓「可擴充+ 超大HBM + 生態成熟」的 NVIDIA 更符合特斯拉在訓練端的時程與風險管理。