之前有寫過一篇關於特斯拉自動駕駛硬體演進的文章,現在因為隨著 We Robot 產品發布會公布 Cybercab 跟特斯拉股價在第三季電話會議後強勢上漲,大家又開始對自動駕駛技術感到好奇,因為傳統車廠是昔日與今日的廣告金主,傳統媒體通常無法客觀介紹特斯拉相關報導,美國偏左派媒體也是趨於政治壓力,像是 New York Times 介紹科技新聞的 poscast 節目, Hard Fork 也常常會有偏頗的言論,他們節目上個月有採訪 Uber CEO 談到 Robotaxi 的未來,主持人就有提到他五年內都不會坐上特斯拉的車,他不想當白老鼠,也開玩笑說請 Uber CEO 去當 Tesla CEO 應該會表現更好,但是 Uber CEO 他自己身在行業中也回答得比較中立,他覺得 FSD 表現真的很不錯,他自己也不想與 Elon 對抗,他也曾公開與特斯拉喊話希望未來在 Robotaxi 業務上有合作機會,節目中有提到目前 Uber 與 Waymo 已經有合作計畫。總之,我以自己的認識來介紹一下 Waymo 作為自動駕駛技術的開拓者是怎麼做到的,特斯拉的 FSD 又是如何發展的。
自動駕駛技術的發展通常以美國汽車工程師協會(SAE International)定義的六個等級來劃分,從 L0 無自動化到 L5 完全自動化,描述了車輛的自動駕駛能力和駕駛的參與程度,目前特斯拉FSD(supervised)是屬於 L2,Google Waymo 與百度蘿蔔快跑是 L4。
自動駕駛系統的核心架構通常分為三個主要模組:感知 (Perception)、規劃 (Planning) 和 控制 (Control)。
這三個部分緊密協作,形成完整的自動駕駛流程,Google 網站上介紹 Waymo 如何自己駕駛的介紹 Sense, Solve, Go 也是對應這樣的三層架構。以下是對這三個模組的介紹:
1. 感知 (Perception)
2. 規劃 (Planning)
3. 控制 (Control)
Waymo 作為自動駕駛的領先者,在技術與營運上都已先開拓江山,目前 Waymo 的自動駕駛車隊規模約為 700 輛,主要在舊金山、洛杉磯和鳳凰城等城市運營,也已經提供每周約10萬次的乘車服務,那這樣後進的特斯拉無人計程車業務還有機會嗎?從最近幾個季度的Alphabet 財報中顯示,Waymo 所屬的「其他業務」部門仍虧損約 11 億美元,關鍵在於營運自動化駕駛成本還是太高。上述提到自動駕駛在感知方面,除了需要動態知道車輛與行人動向的多感測器,還有使用到高精度地圖使模型可以與已經建模好的3D地圖資訊互相配合,更容易達到自動駕駛解決方案,但是 Waymo 沒有自己造車,現階段跟第三方車廠合作改裝自動駕駛車輛(Jaguar I-PACE),還有加裝上光達等感測器成本、車輛成本、維護高精度地圖成本、也有訓練自己模型辨識物體、路徑規劃、行為決策等算力成本,使得雖然已解決區域性自動駕駛問題,但仍然是一項虧錢生意,Google Waymo 的多感測器和高精度地圖輔助的路線,需要等待硬體成本慢慢下降,LiDAR 目前成本的確也已下降到 500~600美元,2025年也預計用相對較便宜的現代汽車的 IONIQ 5 電動車去改裝擴充其自駕車隊,未來就看 Waymo 在營運上如何克服硬體成本問題,但也還有高精地圖維護及難以大量拓展的問題。
相對於 Waymo 的多感測器和高精度地圖輔助路線,特斯拉則是採用純視覺加上軟體來解決自動駕駛問題。鏡頭需要即時辨識物體的距離和速度,但無法看到視野外的物體,或在物體遮擋的情況下進行偵測。這是一條技術挑戰極大的路線,也解釋了為什麼馬斯克自2016年以來年年要求團隊達成自動駕駛的目標,或對外宣稱即將完成自動駕駛,卻始終無法如期達成。然而,馬斯克始終堅信團隊一定能解決這個問題。
他和賈伯斯一樣,能將那種勢在必行的信念傳染給整個團隊。他不僅要求團隊畫出 Robotaxi 的設計圖,還要求持續發想 Robotaxi 需要解決的各種問題。他當時甚至認為,當 Model Y 投產後,將成為真正的 Robotaxi。
2014 年,剛加入團隊的年輕成員 Dhaval Shroff 曾告訴馬斯克,因為安全性問題,應該需要安裝雷達硬體設備。馬斯克最終同意「暫時」將雷達放上去。2016 年出廠的 Model S,除了攝影機之外,還有 12 個超音波感測器和一個前置雷達。同時,馬斯克並未放棄純視覺方案,從自傳中也可得知他還有一個名為“鳳凰”的高精度 HD 雷達專案。事實上,多個方案是同時並進的。
早年馬斯克曾與當時 Google CEO Larry Page 討論合作解決自動駕駛問題。但因對於 Google 收購 DeepMind 所衍生的 AI 安全問題存在分歧,雙方最終沒有繼續合作。此後,馬斯克決定自行解決自動駕駛問題。為了促進 AI 技術的安全發展,他在 2015 年 12 月與 Sam Altman 共同創立了 OpenAI,並挖來了 Google DeepMind 的 AI 科學家 Ilya Sutskever,擔任 OpenAI 的首席科學家,這也引起了 Page 的強烈不滿。從此,Page 和馬斯克的關係疏遠。
2018 年,馬斯克在與 OpenAI 決裂之前,從 OpenAI 挖走了深度學習與電腦視覺領域的專家 Andrej Karpathy(2017-2022 擔任特斯拉 AI 高級總監)。Karpathy 來到特斯拉後,開始以 AI 深度學習來解決自動駕駛的技術問題,也對 AI 人才的培育帶來貢獻。
2019 年,特斯拉遭遇 Model 3 產能地獄,面臨生存危機,急需資金援助。馬斯克在同年 4 月舉辦了 Autonomy Investor Day,為了讓投資者相信特斯拉即將解決自動駕駛問題,團隊為了演示固定路線的自動駕駛瘋狂加班一個月,聲稱隔年將會有 100 萬輛 Robotaxi 上路。
2021 年初,因疫情導致晶片短缺,鳳凰雷達系統無法順利整合運作。馬斯克憑藉一貫的第一性原理思考,既然人類可以僅靠眼睛看有限的影像就能駕駛,那麼機器也一定可以。他立即決定刪除雷達,並對質疑此決定的同事說再見。然而,事實上特斯拉並未完全放棄雷達方案,仍然在開發類似軍事用的更先進雷達系統。
Andrej Karpathy 在 2017 年底提出 SW1.0 和 SW2.0 的概念說明人工智慧和深度學習在軟體開發中的轉變。
Software 1.0: 傳統軟體開發方式,開發者必須編寫具體的規則、邏輯和算法來解決問題。這種方式的核心是由人類進行手工編程,開發者需要明確地知道解決問題的每個步驟並將其轉化為代碼,並且所有行為都是可預測且可控的。
Software 2.0: AI 驅動的開發方式,通過數據訓練模型自動學習邏輯,開發者不再手工編寫每一個邏輯規則,而是通過數據驅動的方式來「訓練」模型。這些模型能夠自動從大量數據中學習規則和邏輯,並且可以進行複雜的任務,如圖像識別、自動駕駛等。
2021 和 2022 年,特斯拉連續兩年舉辦了 AI Day,也由 Andrej Karpathy 擔任技術主講人。FSD v11 之前仍然是分開的多層架構,並且只有鏡頭的感知輸入,還需要利用多個鏡頭的影像建立 3D 向量空間與鳥瞰圖。車輛在行進中還需要動態感測物體、交通號誌、車道線等不同物件的偵測。HydraNets 架構就是為了解決同時辨識不同物件的感知問題。路徑規劃神經網路部分則使用與打敗世界棋王的 AlphaGo 相同的演算法 Monte Carlo Tree Search。2022 年,特斯拉增加了 Occupancy Network,可以更好地知道空間中有哪些物體佔用,並預測物體的動向,以更好地幫助視覺所建立的 3D 世界。此外,HydraNets 也增加了路線偵測功能,借鏡 GPT-3 的方法來生成預測路上車輛與自己車輛路徑的方式。
It's like Chat-GPT, but for cars!!! Instead of determining the proper path of the car based on rules, we determine the car's proper path by using neural network that learns from millions of training examples of what humans have done.
2023 年初,Dhaval Shroff 分析了超過一千萬個駕駛影片資料,並標註出好的駕駛結果給模型學習。透過這種方式,車輛可以在一些少見的案例中打破既有的制定規則,讓車輛能夠繼續移動。研究發現,一百萬個影片資料可以讓模型學習到有效的駕駛方式,並且當資料量超過一百五十萬之後,模型的表現會更好。同年四月,馬斯克親自體驗了這種新方法,並認為效果十分理想。於是,特斯拉在 2023 年底正式推出 FSD v12,取代了舊有基於既定程式規則的方式。
特斯拉並沒有公開具體的 End-to-End Neural Network 細節,因為在前幾年的 AI Day 中,其他廠商已經有很多學習機會,因此他們可能暫時不想再分享這些技術。基本的流程分為預訓練模型階段。特斯拉透過其全球百萬以上車主的攝影機,收集大量的道路影像和感測器數據,建立龐大的資料庫,用來訓練深度神經網路模型。經過訓練和測試後的模型,透過 OTA 更新部署到車輛的自動駕駛電腦中。特斯拉車內的 AI 推理晶片能夠高效執行深度學習模型。在行駛過程中,車輛的攝影機持續收集環境數據,並即時將數據輸入到車內的 AI 晶片中。這些晶片執行預先部署的模型,進行即時推理,辨識周圍環境,並做出駕駛決策,如轉向、加速或減速等。
本來預定10月上線的FSD v13 更新,現在只有在內部發布測試使用,新的大量發布更新時程預計落在11月底,感恩節前推出v13.3,而 Ashok Elluswamy, Tesla AI VP 也在特斯拉 AI 團隊成果報告的 X 貼文中回應,預告無人監管的 unsupervised FSD 會在 v13.x版本的更新迭代中推出,這會是自動駕駛技術中非常重要的里程碑。
目前 v12.5.6.1 已發送給五萬名車主使用高速公路端到端神經網路模型,本來 end to end 模型只先針對市區道路解決市區道路自動駕駛很難用的痛點,因為一般大部分特斯拉用戶是可以接受在高速公路上使用基於程式規則的 v11(ruled based),而未來 v13版本會全面發布給高速公路端到端模型給AI4(HW4)車主,本來HW4是模擬運行用在HW3車上的模型,之後會正式使用原生給HW4的模型,會有比原本三倍大的模型,三倍大的context length scaling 意味可以處理更多、更長時間、更高解析度的影像畫面,也增加了audio input 讓自動駕駛模型可以處理路上遇到聽到警消救護車的狀況,總之,可以想像 v13 大幅增加的模型規模和訓練數據量,可以使得特斯拉的自動駕駛系統更加可靠,能夠應對更複雜的路況,減少駕駛干預次數及更 smooth 的行駛體驗。而HW3的舊車主則會持續改進市區道路的模型,也會推出 Actually Smart Summon給歐洲、中國或其他地區,台灣是九月就已經收到智慧招喚的更新,Auto Park 功能也是台灣早於其他區域更新,感覺台灣以後收到 FSD 的更新也會比其他地區快。
AI 發展三大核心關鍵: 數據資料、演算法、算力,這三個要素特斯拉都已經滿足。在資料方面,特斯拉已經擁有數百萬輛車在真實世界運行的影片數據。最近,特斯拉再次向北美車主提供免費 30 天的 FSD 試用,這應該能夠獲得更多使用者的反饋。在演算法方面,特斯拉的 AI 團隊經過長時間的研究,已經開發出強大的模型演算法,且不斷改進中。關於算力資源,在 2024 年第三季度的財報電話會議上,特斯拉提到他們在算力方面並沒有遇到瓶頸,瓶頸反而是在於模型的驗證過程,這需要長時間來判斷哪一個模型表現更好。因此,自動駕駛現在只剩下時間問題。至於法規監管問題,希望川普當選後看是否能加速解決。
從早年創立 SpaceX 製造火箭的經驗來看,馬斯克深知成本控制的重要性。若要量產產品,控制成本至關重要。純視覺方案的自動駕駛解決方案,加上造價相對低廉的 Cybercab,量產之後將能以「牧羊人模式」運營,這些車輛會賣給有意願經營 Robotaxi 叫車服務的人或公司。這將有效降低運營成本,未來這種模式有望徹底顛覆人類的交通運輸方式,甚至改變城市的樣貌,為人們帶來更舒適的生活環境,同時交通安全問題也全然可以解決,讓人類不再有交通意外的悲劇產生。