
老馬的社群貼文
在一次推文中,Elon Musk 提到:
這正是 E2E 自駕的極限挑戰:如何在極高維感知空間中,輸出正確的低維控制決策。自動駕駛的超大技術挑戰:
車上攝影機輸入 1.5GB/s 的視覺資訊,但最後只需要輸出方向盤角度、油門、煞車三個加起來只有 2KB/s 的控制訊號—而且要做到完全正確。
而這又會有甚麼風險跟問題呢? 以下來慢慢討論
🎯監督赤字:高維輸入、低維輸出的根本矛盾
多模態 + 高維輸入 → 單一低維輸出
目前以特斯拉為首的 E2E 自駕模型,輸入包含多攝影機影像、雷達、語意資訊,是高度多模態的大量資訊(~1.5GB)。
但最後輸出的控制信號(也就是車該怎麼動)卻只有油門、煞車、轉向等幾個控制參數(~2KB)。
這導致所謂的:
- 監督赤字(Supervision Deficit),或是監督稀疏(Sparse Supervision)
換句話說:
E2E 自動駕駛模型被餵入大量資訊,卻只輸出極少的「控制結果」。
拿這訓練很容易變成用「記憶」特定場景學會駕駛,而非去理解真實世界運作— 這就是 Overfitting(過擬合) 問題的根本。
這幾年有不少學術論指出,當前的 E2E 自動駕駛在處理長尾和安全關鍵情況時仍然很脆弱,這正是由於監督稀疏造成; 在許多電腦視覺相關的學會(如 ICCV、CVPR、CoRL)都有針對 E2E 自動駕駛中「稀疏監督」和「世界模型」的討論。
自駕模型演進:從VLM、VLA 到「世界模型」
🧠 VLM:讓模型「看懂」
VLM 指 視覺語言模型(Vision-Language Model),像是 CLIP、BLIP、GPT-4V、Gemini、Qwen-VL 等;這類模型能「理解圖像 + 文字」的對應關係,例如看到紅燈與交通號誌能理解語意上的「停車」。
在 VLM 自動駕駛研究中:
- VLM 可以讓 AI 理解攝影機影像中的圖像代表意義(例如行人、車道線、交通號誌等)
- VLM 可以讓模型學習「描述場景 → 對應行為(action)」的關聯
但 VLM 主要解決「感知理解(perception & semantics)」,不處理物理行為預測(例如車子會怎麼動),因此它不是完整的控制模型。
🔹 VLA(Vision-Language-Action Model)
VLA 是 多模態決策模型(Vision-Language-Action Model),是 VLM 的延伸。
它輸入視覺與語言(或其他感測器資訊),輸出「行為」(action)。
典型應用包括:
- 機器人從畫面與指令推斷出「該怎麼動」
- 自動駕駛系統從多攝影機畫面決定油門、煞車、轉向角
Tesla 的端到端(E2E)FSD 就是標準的 VLA 架構:
多個 camera sensor 的影像資訊→ Transformer → 輸出控制訊號(包含油門、煞車、轉向等控制)
其弱點在於前面提到的"監督稀疏",也就是只用少少的輸出控制訊號來作模型訓練會有Overfitting(過擬合) 問題.
於是就有了 VLA + 世界模型(World Model)的技術框架.
🌍 世界模型:讓 AI 學會「想像下一秒」
世界模型(World Model)概念最早可追溯至 2018 年 DeepMind 的研究,讓 AI 透過內部生成器學習「世界的物理規律」,透過自我預測來生成更多的訓練資料.
將世界模型運用於自動駕駛來解決 VLA 的監督稀疏問題是目前趨勢,核心概念是:
VLA 決定該怎麼動(action)
VLA + World model 決定怎麼動(action)並且預測怎「動作之後世界會變成什麼樣」(next frame)。
也就是在訓練過程中,它要同時做到:
- 從影像輸入中建立一個內在 state space(狀態空間)
—也就是對當前世界的抽象表示。 - 根據VLA 輸出的 action 來預測出下一幀影像(t+1 frame)
這樣模型的監督不再是低維控制輸出,而是能輸出高維的(t+1 frame)影像。
🔹世界模型「t+1 frame 為何是有效監督」的直觀說明
t+1 frame 就像讓 AI 自己「想像下一秒的世界」;
若 t+1 frame 預測與現實不符,它能自動修正內在模型。 這是一種「自我監督學習」(self-supervised learning)的形式。
也可以直覺理解為「AI 自己生成 t+1 frame 訓練資料」,來解決原本「監督赤字」問題。
小結:自動駕駛技術演進:VLM → VLA → VLA + World Model
輔助訓練:
VLA + 世界模型在訓練時會同時輸出兩個結果:
- 一條是低維度的行為輸出(action)
- 一條是高維度的未來影像(t+1 frame)
t+1 frame 影像預測屬於「輔助監督」,用於訓練階段幫助模型解決「監督赤字」的問題,透過更多的世界模型(t+1 frame 影像)資訊來做更好的訓練。
🧠 導入 MoE:訓練很肥,推理很瘦
但融合了世界模型的龐大,難以部署在車上所需的快速反應;因此新一代自駕架構將採用了 MoE(Mixture of Experts) 技術。
MoE 的原理是:
Transformer 每層中有多個「專家子網路」,但每次只啟用部分。
MoE 在這裡的應用是:
- 訓練時啟用完整的 VLA + 世界模型(含t+1 frame影像與行為輸出)
- 在汽車端的自動駕駛判斷,用推理模型時只啟用控制行為的專家子網,關閉t+1 frame影像預測的世界模型,以降低推理時的能耗與延遲.
採用 MoE 可以在訓練時保留高維監督,在實際部署在車端的推理模型時-能減少延遲。
導入 MoE -訓練時用完整世界模型,但推理只開 action branch 的做法就叫做 Modular End-to-End Planning.
結語:
「世界模型的 t+1 frame 就像 AI 自己產生訓練資料」
自駕 AI 不再只是「被餵資料」,而是能自己生成資料、自己檢驗理解、自己修正偏差。
然而融合了世界模型的 VLA,這樣根據 action 來生成 t+1 frame 預測,需要對真實物理世界有著更龐大的運算跟模擬。
這樣的代價是:
世界模型( t+1 frame )越逼近真實物理世界,算力需求越大。
算力深淵:從雙 Orin 700 TOPS到 2000 TOPS 的加速螺旋
過去業界普遍認為 雙 NVIDIA Orin(約 508 TOPS) 就足以支撐 Level-4 自駕;當時特斯拉 HW4.0 也在這個量級,通常這被認為已經「夠了」。
但隨著目前 VLA+World Model 模型規模爆炸,「算力夠用」這個定義被一次又一次推翻; 現在中國主流電車平台規劃已經把整車算力拉到 2000 TOPS.
下一代 Tesla 自研晶片也都在對標 ~2000TOPS 這個級別算力;最新 NVIDIA Thor 單顆算力 2000TOPS(透過 NVLink-C2C 連接兩個 Thor 晶片總算力提升至 4000 TOPS).
總之這算力深淵看似還沒到底🤣🤣🤣
題外話:
相較於特斯拉與中國電動車廠的積極導入新技術『 E2E 的 VLA+世界模型 』路線.
歐、美、日這些傳統車廠,目前重點更多在於穩定實現 L2/L3 級別的自動駕駛輔助功能,也傾向於採用模組化的技術架構(將自動駕駛任務分解為獨立的模組:感知、預測、規劃 和控制等模組,每個模組獨立開發、測試和驗證).
新興的電動車廠 (如特斯拉、中國的小鵬跟理想等): 在沒有包袱的情況下,更多採用端到端 (E2E) 的 VLA 架構自動駕駛,將各個感測器資料直接透過 VLA 模型對應到控制訊號,趨勢是融合世界模型進行輔助訓練;這些都更依賴海量數據和 AI 訓練。
Reference:
1. End-to-end Autonomous Driving: Challenges and Frontiers
上面論文裡面提到的這個圖,跟整篇文章相呼應:

✅ 1. Pipeline:從模組化 → 端到端(E2E)
圖的最上半部清楚對比:

(a) Classical Approach(傳統模組化)
Perception → Prediction → Planning
這就像是傳統車廠的自動駕駛 L2/L3 做法:
每個模組各做各的 → 無法對齊最終控制目標 → 容易 error propagation
模組化設計雖好 debug,但不同模組優化方向不一致,資訊在各個模組傳遞間遞減.
(b) End-to-End Paradigm(端到端)
感知、預測、規劃變成「一個可微分模型」來共同訓練
這就像是目前的 Tesla E2E FSD:VLA(Vision-Language-Action)架構。
關鍵:E2E 把模組間 feature backpropagation 連起來 → 全局最佳化。
✅ 2. Methods:E2E 主要訓練方法
這段圖涵蓋三大核心方法:
(1) Imitation Learning(模仿學習)
(2) Inverse Optimal Control(逆最適控制)
(3) Reinforcement Learning(強化學習)
這正是 E2E 的三大技術根基。
✅ 3. Benchmarking:
圖裡benchmarking也分成:Real-world / Closed-loop / Open-loop
① Real-world(現實道路測試):「最高標準」,但成本昂貴、安全問題多。
Mcity(密西根大學測試場)
真車上路/真實交通情境/真實突發狀況(長尾)/實際駕駛人命風險
② Closed-loop(閉環測試,真實模擬行為)
CARLA(最廣用的自駕模擬器)/ nuPlan
特點:模型輸出 action,環境會依此更新下一個 state 再回饋給模型
→ 形成完整 feedback loop
③ Open-loop(開環,傳統資料集評估)
Motional / Waymo(有 open-loop dataset)
模型只看 past frames,輸出 steering/acceleration 與 ground truth 對比
→ 但不會真正更新車輛狀態
✅ 4. Challenges:這張圖講的挑戰(部分對應本文講的)

✅ 5. Future Trends:部分呼應本文結論
這篇論文圖中提到未來方向:
Zero/Few-shot Learning
→ 世界模型可補訓練資料(產生 t+1 frame 資料)
Modular End-to-End Planning
→ 導入MoE ,訓練用完整世界模型,但推理只開 action branch 的作法。
Data Engine
→ Tesla 與中國自駕公司強調「資料飛輪」
Foundation Model
→ VLM → VLA → 車用特化版 Transformer 的持續演進
不過這篇論文講的內容更多也更詳盡,比我這種蒸餾再蒸餾之後的科普文要複雜些,有心專研的可以去看原文.(有些是我簡化跟腦補的超譯,一切以原文為主)
3.DriveVLA-W0 : World Models Amplify Data Scaling Law in Autonomous Driving
