E2E 自駕的挑戰：從監督赤字到世界模型與算力深淵

老馬的社群貼文

在一次推文中，Elon Musk 提到：

自動駕駛的超大技術挑戰：
車上攝影機輸入 1.5GB/s 的視覺資訊，但最後只需要輸出方向盤角度、油門、煞車三個加起來只有 2KB/s 的控制訊號—而且要做到完全正確。

這正是 E2E 自駕的極限挑戰：如何在極高維感知空間中，輸出正確的低維控制決策。

而這又會有甚麼風險跟問題呢？　以下來慢慢討論

🎯監督赤字：高維輸入、低維輸出的根本矛盾

多模態 + 高維輸入 → 單一低維輸出

目前以特斯拉為首的 E2E 自駕模型，輸入包含多攝影機影像、雷達、語意資訊，是高度多模態的大量資訊(~1.5GB)。

但最後輸出的控制信號（也就是車該怎麼動）卻只有油門、煞車、轉向等幾個控制參數(~2KB)。

這導致所謂的：

監督赤字（Supervision Deficit），或是監督稀疏（Sparse Supervision）

換句話說：

E2E 自動駕駛模型被餵入大量資訊，卻只輸出極少的「控制結果」。
拿這訓練很容易變成用「記憶」特定場景學會駕駛，而非去理解真實世界運作— 這就是 Overfitting（過擬合） 問題的根本。

這幾年有不少學術論指出，當前的 E2E 自動駕駛在處理長尾和安全關鍵情況時仍然很脆弱，這正是由於監督稀疏造成；在許多電腦視覺相關的學會（如 ICCV、CVPR、CoRL）都有針對 E2E 自動駕駛中「稀疏監督」和「世界模型」的討論。

自駕模型演進：從VLM、VLA 到「世界模型」

🧠 VLM：讓模型「看懂」

VLM 指 視覺語言模型（Vision-Language Model），像是 CLIP、BLIP、GPT-4V、Gemini、Qwen-VL 等；這類模型能「理解圖像 + 文字」的對應關係，例如看到紅燈與交通號誌能理解語意上的「停車」。

在 VLM 自動駕駛研究中：

VLM 可以讓 AI 理解攝影機影像中的圖像代表意義（例如行人、車道線、交通號誌等）
VLM 可以讓模型學習「描述場景 → 對應行為（action）」的關聯

但 VLM 主要解決「感知理解（perception & semantics）」，不處理物理行為預測（例如車子會怎麼動），因此它不是完整的控制模型。

🔹 VLA（Vision-Language-Action Model）

VLA 是 多模態決策模型（Vision-Language-Action Model），是 VLM 的延伸。

它輸入視覺與語言（或其他感測器資訊），輸出「行為」（action）。

典型應用包括：

機器人從畫面與指令推斷出「該怎麼動」
自動駕駛系統從多攝影機畫面決定油門、煞車、轉向角

Tesla 的端到端（E2E）FSD 就是標準的 VLA 架構：

多個 camera sensor 的影像資訊→ Transformer → 輸出控制訊號（包含油門、煞車、轉向等控制）

其弱點在於前面提到的＂監督稀疏＂，也就是只用少少的輸出控制訊號來作模型訓練會有Overfitting（過擬合） 問題．

於是就有了 VLA + 世界模型（World Model）的技術框架．

🌍 世界模型：讓 AI 學會「想像下一秒」

世界模型（World Model）概念最早可追溯至 2018 年 DeepMind 的研究，讓 AI 透過內部生成器學習「世界的物理規律」，透過自我預測來生成更多的訓練資料．

將世界模型運用於自動駕駛來解決 VLA 的監督稀疏問題是目前趨勢，核心概念是：

VLA 決定該怎麼動（action）
VLA + World model 決定怎麼動（action）並且預測怎「動作之後世界會變成什麼樣」（next frame）。

也就是在訓練過程中，它要同時做到：

從影像輸入中建立一個內在 state space（狀態空間）
—也就是對當前世界的抽象表示。
根據VLA 輸出的 action 來預測出下一幀影像（t+1 frame）

這樣模型的監督不再是低維控制輸出，而是能輸出高維的（t+1 frame）影像。

🔹世界模型「t+1 frame 為何是有效監督」的直觀說明

t+1 frame 就像讓 AI 自己「想像下一秒的世界」；
若 t+1 frame 預測與現實不符，它能自動修正內在模型。這是一種「自我監督學習」（self-supervised learning）的形式。

也可以直覺理解為「AI 自己生成 t+1 frame 訓練資料」，來解決原本「監督赤字」問題。

小結：自動駕駛技術演進：VLM → VLA → VLA + World Model

輔助訓練：

VLA + 世界模型在訓練時會同時輸出兩個結果：

一條是低維度的行為輸出（action）
一條是高維度的未來影像（t+1 frame）

t+1 frame 影像預測屬於「輔助監督」，用於訓練階段幫助模型解決「監督赤字」的問題，透過更多的世界模型(t+1 frame 影像)資訊來做更好的訓練。

🧠 導入 MoE：訓練很肥，推理很瘦

但融合了世界模型的龐大，難以部署在車上所需的快速反應；因此新一代自駕架構將採用了 MoE（Mixture of Experts） 技術。

MoE 的原理是：

Transformer 每層中有多個「專家子網路」，但每次只啟用部分。

MoE 在這裡的應用是：

訓練時啟用完整的 VLA + 世界模型（含t+1 frame影像與行為輸出）
在汽車端的自動駕駛判斷，用推理模型時只啟用控制行為的專家子網，關閉t+1 frame影像預測的世界模型，以降低推理時的能耗與延遲．

採用 MoE 可以在訓練時保留高維監督，在實際部署在車端的推理模型時－能減少延遲。

導入 MoE －訓練時用完整世界模型，但推理只開 action branch 的做法就叫做 Modular End-to-End Planning.

結語：

「世界模型的 t+1 frame 就像 AI 自己產生訓練資料」

自駕 AI 不再只是「被餵資料」，而是能自己生成資料、自己檢驗理解、自己修正偏差。

然而融合了世界模型的 VLA，這樣根據 action 來生成 t+1 frame 預測，需要對真實物理世界有著更龐大的運算跟模擬。

這樣的代價是：

世界模型( t+1 frame )越逼近真實物理世界，算力需求越大。

算力深淵：從雙 Orin 700 TOPS到 2000 TOPS 的加速螺旋

過去業界普遍認為 雙 NVIDIA Orin（約 508 TOPS） 就足以支撐 Level-4 自駕；當時特斯拉 HW4.0 也在這個量級，通常這被認為已經「夠了」。

但隨著目前 VLA＋World Model 模型規模爆炸，「算力夠用」這個定義被一次又一次推翻；現在中國主流電車平台規劃已經把整車算力拉到 2000 TOPS.

下一代 Tesla 自研晶片也都在對標 ~2000TOPS 這個級別算力；最新 NVIDIA Thor 單顆算力 2000TOPS（透過 NVLink-C2C 連接兩個 Thor 晶片總算力提升至 4000 TOPS）.

總之這算力深淵看似還沒到底🤣🤣🤣

題外話：

相較於特斯拉與中國電動車廠的積極導入新技術『 E2E 的 VLA+世界模型』路線．

歐、美、日這些傳統車廠，目前重點更多在於穩定實現 L2/L3 級別的自動駕駛輔助功能，也傾向於採用模組化的技術架構（將自動駕駛任務分解為獨立的模組：感知、預測、規劃和控制等模組，每個模組獨立開發、測試和驗證）．

新興的電動車廠 (如特斯拉、中國的小鵬跟理想等)： 在沒有包袱的情況下，更多採用端到端 (E2E) 的 VLA 架構自動駕駛，將各個感測器資料直接透過 VLA 模型對應到控制訊號，趨勢是融合世界模型進行輔助訓練；這些都更依賴海量數據和 AI 訓練。

Reference：

1. End-to-end Autonomous Driving: Challenges and Frontiers

上面論文裡面提到的這個圖，跟整篇文章相呼應：

✅ 1. Pipeline：從模組化 → 端到端（E2E）

圖的最上半部清楚對比：

(a) Classical Approach（傳統模組化）

Perception → Prediction → Planning

這就像是傳統車廠的自動駕駛 L2/L3 做法：
每個模組各做各的 → 無法對齊最終控制目標 → 容易 error propagation

模組化設計雖好 debug，但不同模組優化方向不一致，資訊在各個模組傳遞間遞減.

(b) End-to-End Paradigm（端到端）

感知、預測、規劃變成「一個可微分模型」來共同訓練

這就像是目前的 Tesla E2E FSD：VLA（Vision-Language-Action）架構。

關鍵：E2E 把模組間 feature backpropagation 連起來 → 全局最佳化。

✅ 2. Methods：E2E 主要訓練方法

這段圖涵蓋三大核心方法：

(1) Imitation Learning（模仿學習）
(2) Inverse Optimal Control（逆最適控制）
(3) Reinforcement Learning（強化學習）

這正是 E2E 的三大技術根基。

✅ 3. Benchmarking：

圖裡benchmarking也分成：Real-world / Closed-loop / Open-loop

① Real-world（現實道路測試）：「最高標準」，但成本昂貴、安全問題多。
Mcity（密西根大學測試場）
真車上路/真實交通情境/真實突發狀況（長尾）/實際駕駛人命風險

② Closed-loop（閉環測試，真實模擬行為）
CARLA（最廣用的自駕模擬器）/ nuPlan
特點：模型輸出 action，環境會依此更新下一個 state 再回饋給模型
→ 形成完整 feedback loop

③ Open-loop（開環，傳統資料集評估）
Motional / Waymo（有 open-loop dataset）
模型只看 past frames，輸出 steering/acceleration 與 ground truth 對比　
→ 但不會真正更新車輛狀態

✅ 4. Challenges：這張圖講的挑戰（部分對應本文講的）

✅ 5. Future Trends：部分呼應本文結論

這篇論文圖中提到未來方向：

Zero/Few-shot Learning
→ 世界模型可補訓練資料（產生 t+1 frame 資料）

Modular End-to-End Planning
→ 導入MoE ，訓練用完整世界模型，但推理只開 action branch 的作法。

Data Engine
→ Tesla 與中國自駕公司強調「資料飛輪」

Foundation Model
→ VLM → VLA → 車用特化版 Transformer 的持續演進

不過這篇論文講的內容更多也更詳盡，比我這種蒸餾再蒸餾之後的科普文要複雜些，有心專研的可以去看原文．（有些是我簡化跟腦補的超譯，一切以原文為主）

2. ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generatio

3.DriveVLA-W0 : World Models Amplify Data Scaling Law in Autonomous Driving