自動駕駛系列-特斯拉自動駕駛技術的演進AI day 系列(1)[3]

更新 發佈閱讀 9 分鐘

上週特斯拉股價終於突破新高,往900大關邁進,恭喜所有大股東小股東奈米股東們,但我們也不能因為特斯拉目前的成功而自滿,在自動駕駛道路上有許多競爭對手相繼出爐,這一系列的文章主要是針對特斯拉自動駕駛技術的科普,我們根據特斯拉2021 AI day和特斯拉AI總監Andrej Karpathy(以下簡稱AK)在CVPR大會(頂尖電腦視覺演討會)和ScaledML(機器學習大會)上的演講,為大家整理並深入淺出介紹特斯拉自動駕駛背後的秘密!

首先在講特斯拉自動駕駛之前,我們要先知道,要完成自動駕駛解決方案,一個核心的概念就是獲取深度資訊,一般我們人在開車的時候,我們的兩隻眼睛就是一個測深度的工具,兩隻眼睛因為有瞳距,所以我們可以利用雙目視覺(stereo vision)的方式,計算出與前車(人)的距離(詳細的計算之後會提到),所以要完成自動駕駛必須先獲取深度!

那目前主流的兩大自動駕駛解決方案(獲取深度的方法)分別為:

光達LiDAR (Light Detection And Ranging) :包含Google waymo、奧迪、華為和小鵬等等…
偽光達Pseudo-LiDAR:包含特斯拉和Intel mobileye等等…

接下來大家就跟著阿財,一步步的進入特斯拉自動駕駛的世界,看看這個充滿爭議但卻引領世界的企業是怎麼實現他們心目中的自駕車。

我們都知道馬斯克在很早之前就放棄使用光達,他覺得光達又貴又醜,所以特斯拉一直致力於自動駕駛視覺的解決方案,並且在2021年5月更宣布連原本車上配有的雷達,他們都要拿掉,實現真正意義上的純視覺
那要實現純視覺,一定脫離不開相機,所以我們簡單看一下特斯拉車上的相機配置情形:

raw-image

我們人類駕駛,使用眼睛感知周圍環境,而特斯拉的自動駕駛就要靠相機來獲取外界的資訊,根據特斯拉官網公布的,特斯拉總共有8台相機,每台相機的工作距離都略有不同,車身周圍還有12台超音波傳感器,這些就構建了車子360度的感知系統,在今年特斯拉AI day中AK也將相機與人眼作類比:

物體經過人眼成像在視網膜<==>物體經過相機鏡頭成像在感光元件上
raw-image

人腦會將看到的物體計算深度並且判斷是什麼物體,而相機拍到的影像也會經過特斯拉的AI模型計算深度並且分類,至此特斯拉的AI就悄悄地展開了…

大家如果有follow特斯拉AI day的影片,主要分成四個部分:

自動駕駛-算法的演進
自動駕駛-路徑的選擇
自研晶片和超級電腦
特斯拉機器人

撇除掉機器人的部分,阿財其實在YouTube上有一系列的硬核影片,有興趣的朋友在延伸閱讀那兒有連結大家可以參考喔~當然方格子上的文章會更科普向一點,主要是紀錄阿財一路上研究的東西並且練習用最淺顯易懂的語言分享給大家。

回到正題,特斯拉是如何訓練他們的AI模型,我會從AK在AI day的部分為主軸,現在特斯拉有一堆解析度為1280x960的圖片和影片,這時候大家就會直覺想到,把這些東西丟進神經網絡裡面訓練學習,這時候會遇到兩個問題:

1. 你想學到什麼?
2. 學到的模型夠用嗎?

針對第一個問題,大家很直觀的會想聯想到,我想學深度資訊,也就是一張照片進來,我想知道照片中的是車子離我有多遠?
這個問題看似簡單,但其實要讓AI學起來十足的困難,首先第一點就是特斯拉每天有數百萬輛車在街道上蒐集圖片,這麼龐大數量的資料...
我們要用多深多大的網絡去訓練它?
這些網絡裡面的參數又要如何決定?
神經網絡怎麼知道圖片裡有車子和行人等物件...?

所以一個簡單的問題又分出數個問題,工程就是不斷提出問題並解決問題,首先這邊要顛覆大家一個概念,許多朋友沒有學過AI相關的課程,但卻多少有聽過神經網絡,大家會很自然地會覺得,神經網絡深度越深它的效果應該要是越好!

但微軟的團隊在2016年做了一個實驗,如下圖他們將同一筆資料丟進兩個不同深度的網絡去訓練,但我們可以發現到,不管是在訓練集裡面的誤差,還是在測試集裡面的誤差,淺層的網絡(20層)都比深層網絡(56層)要好,有沒有令大家覺得不可思議?作者也給出可能的原因,就是當我們在訓練每一層網絡的時候,都會有一些訊息丟失掉,所以當網絡越來越深,也就意味著丟失掉的訊息越來越多,就可能造成神經網絡的退化。

那如何解決,就是使用大名鼎鼎的殘差網絡(Residual neural network (ResNet)),ResNet想解決的問題很簡單,就是我深層網絡的能力至少要大於等於淺層網絡的能力(恆等映射的能力),當網絡加深我們希望這些多加的網絡(extra layer)不要影響我們原本網絡的能力,這時候就可以適時的跳過如右圖所示,我們假設輸入是x而經過中間的extra layer結果是F(x),那我們希望extra layer不影響我們輸出的結果(輸入=輸出),這時候在訓練過程中我們就要盡量讓F(x) = output-x = 0(這我們叫殘差residual)當然ResNet詳細的原理我就不在這邊展開,有興趣的朋友可以搜尋一下,許多大神都有給出很好的介紹。

raw-image

看到這就相信大家會有一個疑問,既然淺層的網絡效果比較好,那為什麼還要加深網絡?
主要是因為越深的網絡它可以學到更多的細節和特徵,所以它可以應付更多的場景,假設現在數據集是A,它在20層就已經達到很好的表現,但今天我們有另一個比A還要複雜且龐大的數據B,它必須要用到更深的網絡,但我們又怕訓練得時候網絡退化,這時候ResNet就可以派上用場了!

所以像特斯拉這種每天蒐集到的資料都在不斷增加的情況,為了防止網絡退化,ResNet必不可少,所以ResNet可以說是加深網絡不可缺少的武器。

我們現在已經解決了加深網絡的問題,接下來就是我們要如何決定神經網絡裡面的參數,神經網絡裡面充滿了參數,像剛剛提到的網絡深度就是其中一個,當然還有網絡的寬度(神經元的數量)、訓練的回合數和激勵函數(activation function)的選擇等等,我們這邊是科普小教室,所以不需要知道每個參數實際的運作方式和原理,只需要明白神經網絡裡面充滿了各種參數的排列組合,不同的資料使用的參數都有所不同,所以必須做參數的優化。

但參數有這麼多種,排列組合的數量大得驚人,這裡特斯拉就參考FB AI團隊提出的RegNet的方法,FB團隊透過大量的實驗,利用統計的方法找出各種參數與模型之間的關係,就提供後人很多參考的空間,舉下圖為例,每一個藍點就代表一種神經網絡的模型(方法),在同一組數據的情況下,他們將不同模型應該用多深的網絡才能有最小誤差給大家呈現出來了!簡直是佛心到不行呢~

raw-image

至此一開始的第一個問題:你想學到什麼?所延伸出來的兩個子問題特斯拉已經站在微軟和FB的肩膀上克服掉了,接下來第三個子問題:神經網絡怎麼知道圖片裡有車子和行人等物件呢...?還有要怎麼解決主要的大問題:我們到底要學到什麼?
下集待續~

延伸閱讀

特斯拉AI日完整影片

特斯拉AI日AI總監片段阿財解說

參考資料

[1] 特斯拉官網
[2] 特斯拉AI日影片
[3] He, Kaiming, et al. "Deep residual learning for image recognition."Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.
[4] Radosavovic, Ilija, et al. "Designing network design spaces."Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

留言
avatar-img
阿財科技分享的沙龍
145會員
31內容數
此專輯主要探討元宇宙相關的技術,包含虛擬實境(VR)、擴增實境(AR)、物理引擎和各種生成虛擬影像內容的算法,歡迎大家來坐坐聊聊並留言發表你的看法,如果覺得阿財寫的不錯也不要吝嗇你們的愛心~當然也可以贊助阿財,讓阿財更有寫作的動力唷~
2024/07/11
這陣子輝達真的太熱門了,有很多人分享GPU硬體相關的技術,也有人分享與老黃一起工作的點點滴滴,總之非常精彩。 而老黃也說過輝達不只有硬體還有軟體,講到軟體大家第一個聯想到的是CUDA,有了CUDA的加持讓NVIDIA的GPU有更好的效能,不過NVIDIA另一個佈局已久的平台比較少人提起-Omniv
2024/07/11
這陣子輝達真的太熱門了,有很多人分享GPU硬體相關的技術,也有人分享與老黃一起工作的點點滴滴,總之非常精彩。 而老黃也說過輝達不只有硬體還有軟體,講到軟體大家第一個聯想到的是CUDA,有了CUDA的加持讓NVIDIA的GPU有更好的效能,不過NVIDIA另一個佈局已久的平台比較少人提起-Omniv
2024/07/11
之前跟waymo前員工聊了有關於waymo的一些東西,另外又聽了矽谷101最新的一期介紹FSD和robotaxi的分享,阿財透過多年來一直追蹤自動駕駛領域的視角和大家分享自己的看法,個人觀點文長慎入... 首先FSD大家最關注的問題像是安全性和拓展性等,端到端目前特斯拉算是大規模的驗證已經成功用在
2024/07/11
之前跟waymo前員工聊了有關於waymo的一些東西,另外又聽了矽谷101最新的一期介紹FSD和robotaxi的分享,阿財透過多年來一直追蹤自動駕駛領域的視角和大家分享自己的看法,個人觀點文長慎入... 首先FSD大家最關注的問題像是安全性和拓展性等,端到端目前特斯拉算是大規模的驗證已經成功用在
2024/07/10
前陣子ASML的前CTO Martin在IMEC ITF論壇上(阿財沒有找到完整的影片,有找到的朋友幫忙補充連結感謝)展示了ASML下一代EUV…(疑?High-NA EUV不是才剛出貨不久嗎…)沒有最大只有更大(我只的是NA)
2024/07/10
前陣子ASML的前CTO Martin在IMEC ITF論壇上(阿財沒有找到完整的影片,有找到的朋友幫忙補充連結感謝)展示了ASML下一代EUV…(疑?High-NA EUV不是才剛出貨不久嗎…)沒有最大只有更大(我只的是NA)
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
前言 本文將探討3個近期最新引人注目的 AI 主題。 首先我們將了解特斯拉機器人如何在現實世界中學習,並展現其自主功能。 其次,我們將探討人工智能在應對重大風險方面的關鍵角色,如應對大流行病、氣候變化和小行星撞擊等全球挑戰。 最後,我們將介紹 Falcon 模型在開源語言模型領域的傑出表現,該模型
Thumbnail
前言 本文將探討3個近期最新引人注目的 AI 主題。 首先我們將了解特斯拉機器人如何在現實世界中學習,並展現其自主功能。 其次,我們將探討人工智能在應對重大風險方面的關鍵角色,如應對大流行病、氣候變化和小行星撞擊等全球挑戰。 最後,我們將介紹 Falcon 模型在開源語言模型領域的傑出表現,該模型
Thumbnail
去年阿財有分享過自動駕駛技術各個解決方案的路線選擇,當時我就有提到過我認為傳統車廠為什麼不走純視覺路線的可能原因,這邊再稍微分享一下: 首先在講純視覺之前先了解一下目前純視覺是如何計算深度的,目前用相機拍到的影像計算深度有單目視覺、雙目視覺、運動結構恢復(sfm)等再搭配AI模型,可以搜尋Pseud
Thumbnail
去年阿財有分享過自動駕駛技術各個解決方案的路線選擇,當時我就有提到過我認為傳統車廠為什麼不走純視覺路線的可能原因,這邊再稍微分享一下: 首先在講純視覺之前先了解一下目前純視覺是如何計算深度的,目前用相機拍到的影像計算深度有單目視覺、雙目視覺、運動結構恢復(sfm)等再搭配AI模型,可以搜尋Pseud
Thumbnail
特斯拉除了是史上開發速度與產品迭代最快的汽車,在製造環境與設備所下的功夫,也造就生產規模化極高的能力。透過資訊科技、材料科學與商業模式創新,特斯拉正在改變的不僅是汽車業,而是所有產業的自動化未來。
Thumbnail
特斯拉除了是史上開發速度與產品迭代最快的汽車,在製造環境與設備所下的功夫,也造就生產規模化極高的能力。透過資訊科技、材料科學與商業模式創新,特斯拉正在改變的不僅是汽車業,而是所有產業的自動化未來。
Thumbnail
「機器人」與「AI人工智慧」是這個時代的趨勢,眾多的高科技公司與產業正積極的研發這一個領域,這次特斯拉就在 2022 AI Day 展示他們的 Tesla Optimus ,在影片中,機器人完成了澆花、搬運貨物、以及工廠生產線的零件操作等等。 筆者對於「機器人時代來臨」非常的興奮,可是究竟「機器人」
Thumbnail
「機器人」與「AI人工智慧」是這個時代的趨勢,眾多的高科技公司與產業正積極的研發這一個領域,這次特斯拉就在 2022 AI Day 展示他們的 Tesla Optimus ,在影片中,機器人完成了澆花、搬運貨物、以及工廠生產線的零件操作等等。 筆者對於「機器人時代來臨」非常的興奮,可是究竟「機器人」
Thumbnail
最近看到許多朋友和大V都在年度總結檢討,阿財也來一個-兼職自媒體人第一年的總結與心得。此篇跟阿財FB粉專內容差不多,不過方格子的版本看起來更舒服~ 那阿財2021主要做了兩個系列的影片(播放清單在延伸閱讀) 自動駕駛技術分享 元宇宙技術分享
Thumbnail
最近看到許多朋友和大V都在年度總結檢討,阿財也來一個-兼職自媒體人第一年的總結與心得。此篇跟阿財FB粉專內容差不多,不過方格子的版本看起來更舒服~ 那阿財2021主要做了兩個系列的影片(播放清單在延伸閱讀) 自動駕駛技術分享 元宇宙技術分享
Thumbnail
上週特斯拉股價終於突破新高,往900大關邁進,恭喜所有大股東小股東奈米股東們,但我們也不能因為特斯拉目前的成功而自滿,在自動駕駛道路上有許多競爭對手相繼出爐,這一系列的文章主要是針對特斯拉自動駕駛技術的科普,我們根據特斯拉2021 AI day的介紹了解特斯拉如何完成自動駕駛~
Thumbnail
上週特斯拉股價終於突破新高,往900大關邁進,恭喜所有大股東小股東奈米股東們,但我們也不能因為特斯拉目前的成功而自滿,在自動駕駛道路上有許多競爭對手相繼出爐,這一系列的文章主要是針對特斯拉自動駕駛技術的科普,我們根據特斯拉2021 AI day的介紹了解特斯拉如何完成自動駕駛~
Thumbnail
「自動駕駛汽車」不僅全球發燒,在法律界也對此新科技風險的法律容許程度甚感興趣。自駕車的核心技術在於AI,而企業以AI系統或軟體作為提供之商品或服務時,消費者有可能依消費者保護法第7條第3項請求負商品責任,或依民法侵權行為等責任規範請求損害賠償。因此,立法上關於AI系統應用於汽車商品或服務時,
Thumbnail
「自動駕駛汽車」不僅全球發燒,在法律界也對此新科技風險的法律容許程度甚感興趣。自駕車的核心技術在於AI,而企業以AI系統或軟體作為提供之商品或服務時,消費者有可能依消費者保護法第7條第3項請求負商品責任,或依民法侵權行為等責任規範請求損害賠償。因此,立法上關於AI系統應用於汽車商品或服務時,
Thumbnail
討論到自駕車如何「看」,也就是對周遭動態環境的判讀已做出反應,目前市場上比較主流的做法是使用Lidar(光達或稱雷射雷達),來做距離測量感測環境,再搭配精準地圖圖資來掌控全面行車資訊,運用晶片運算和和過去資料的學習優化來達到人類駕駛的表現反應。
Thumbnail
討論到自駕車如何「看」,也就是對周遭動態環境的判讀已做出反應,目前市場上比較主流的做法是使用Lidar(光達或稱雷射雷達),來做距離測量感測環境,再搭配精準地圖圖資來掌控全面行車資訊,運用晶片運算和和過去資料的學習優化來達到人類駕駛的表現反應。
Thumbnail
AI、電動車、智慧城市無不需要空間感知技術,除了電腦視覺(鏡頭),還有很多技術已經進入我們的生活,這篇文章整理介紹LiDAR這個科技產品的技術、應用、商業,從技術面、投資面了解他是什麼東西。
Thumbnail
AI、電動車、智慧城市無不需要空間感知技術,除了電腦視覺(鏡頭),還有很多技術已經進入我們的生活,這篇文章整理介紹LiDAR這個科技產品的技術、應用、商業,從技術面、投資面了解他是什麼東西。
Thumbnail
你覺得在未來會開車是件很重要的事情嗎? 如果把需要開車的時間省下來,會對你的人生更有幫助嗎? 人類開車是個Bug! 如果車子在電腦之後發明,你會覺得應該由電腦來開車。 - Eric Schmidt (前Google 董事長) 現在,全世界最頂尖的AI軟體公司、車廠都在致力於打造「自駕車」,讓人類可
Thumbnail
你覺得在未來會開車是件很重要的事情嗎? 如果把需要開車的時間省下來,會對你的人生更有幫助嗎? 人類開車是個Bug! 如果車子在電腦之後發明,你會覺得應該由電腦來開車。 - Eric Schmidt (前Google 董事長) 現在,全世界最頂尖的AI軟體公司、車廠都在致力於打造「自駕車」,讓人類可
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News