一場爭奪現實世界視覺數據的「光子競賽」(Photon Race)正在AI領域發生。
這場競賽的核心,是為了餵養和訓練次世代的「視覺-語言-行動模型VLA」(Vision Language Action Model)—也就是未來機器人、自動駕駛汽車等實體物理AI agent的「大腦」。
為此,科技巨頭們正透過不同路徑積極佈局:
- Tesla:試圖利用其全球數百萬輛汽車的鏡頭數據,建立龐大的真實路況資料庫。
- Meta:其希望透過Ray-Ban智慧眼鏡和其他穿戴式VR/AR設備,獲取寶貴的「第一人稱視角」數據。
- Figure AI:此類機器人新創公司,則試圖讓機器人透過自身的感測器「邊做邊學」,直接收集互動數據。
摩根史坦利(大摩)對此精闢強調:「你可以擁有世界上所有的計算資源,但若沒有視覺數據,就無法訓練VLA。」大摩指出,視覺數據已成爲AI訓練中最稀缺、最具戰略價值的資源。
大摩更用一個生動的比喻闡明其價值:
A 600-pound bluefin tuna swimming far from the shore has zero value without a fishing boat and gear; however, if one has the capability to catch it, its value could reach up to $3.1 million.
「一條600磅的藍鰭鮪魚在遠洋遊弋,若你沒有漁船和漁具(捕撈能力),其價值爲零;但若具備捕撈能力,其價值可能高達310萬美元」
同理,世界上的視覺數據若無法被「捕獲」(蒐集)和處理,其價值也爲零。
這場競賽的關鍵,不僅在於數據本身,更在於誰能率先建立起大規模、高效的「數據捕撈船隊」(即視覺數據收集與處理系統),其未來價值將無可限量。
想要第一時間獲得市場上的最新資訊及分析嗎?
歡迎點擊下方連結訂閱【馬克觀點MKP】電子報,在即時更新資訊的同時,獲得最深入的分析~
【數據為王!VLA模型脫離遠端操控的關鍵】
以特斯拉為例,早期訓練Optimus機器人的方式,主要為動作捕捉與遠端操控,此為機器人開發領域相對標準的做法,主要依賴人類示範。
前者(動作捕捉)乃讓人類訓練員穿上「動作捕捉服」,執行特定任務(如擦桌子、拿取物體等),這套服裝會記錄下他們精確的身體和四肢動作。
後者(遠端操控)則讓操作員透過VR頭戴式裝置和觸覺手套,以第一人稱視角「附身」到機器人身上,手動控制機器人完成任務;這能讓系統捕捉到更精細的手部動作和操作邏輯。
以上過去的方法可以獲得高品質、精確的動作數據,但缺點是成本高、蒐集效率低,並因此很難大規模擴展,且中間可能需花費大量時間處理設備問題,限制了單位時間內數據收集的總量。
大約在2024年中旬,特斯拉的數據蒐集策略發生了重大轉變,2025年5月釋出的影片資訊也證實了其真實性。
他們逐漸放棄了對動作捕捉服和遠端操控的依賴,轉向了一種更接近其 FSD (全自動輔助駕駛) 系統的訓練模式:
STEP1.
人類示範,攝影機錄製: 特斯拉招募了大量的「數據採集員」(Robot Trainers)。這些人不再穿著複雜的動捕服,而是穿戴帶有多個攝影機(例如頭盔和背包上裝載 5 台攝影機)的設備。
接著重複執行訓練任務:例如拉開窗簾、舉起杯子、整理零件、甚至跳舞等等。
STEP2.
端到端訓練(End-to-End, E2E): 所有的攝影機從不同角度捕捉人類的動作。這些海量的「影像數據」會被直接輸入到Optimus的AI模型(即最上面提到的"視覺-語言-行動模型VLA")。
Beyond STEP2.
特斯拉現在所採用的最新方式,是一種更具效率的大規模數據收集模式:直接讓AI「觀看」大量的真實世界人類示範影片進行「E2E」學習。
簡而言之,特斯拉過去依賴的是「動作捕捉服」和「VR遠端操控」這種精確但緩慢的「手把手教學」模式。
但現在等於直接讓AI觀看一個正常人類一輩子都看不完、海量的「錄播課」進行自我迭代學習;並且還能進一步搭配以前提過的"digital twin(數位孿生,背景知識請閱讀MKP第16期)"。
這種轉變的關鍵目的,是為了用更高效的方式訓練 VLA 模型
這也突顯出視覺數據在當今訓練機器人AI(註一)之行為模仿與泛化能力(註二)中的重要性,誠如Mark在第20期就提過的概念,「數據為王」,而比起純文字資訊,未來(其實已經是現在進行式)多模態數據會是更珍貴的數據類型。
何出此言?我們可以用人類的五感來分析
【
- 視:目前第一階段的真實物理AI兵家必爭之"數據"。例如Meta眼鏡的用戶其實也正在"教"模型如何彈鋼琴、織毛衣、倒咖啡或倒垃圾(只是多數人並不知道他們在使用產品時為Meta帶來的"零成本高附加價值");這部分,為了處理這些數據,並使其有利於自家生態圈的未來應用,Meta開發的MTIA(註三)也已控制40%的市場。
- 聽:過去的AI訓練是先將聲音轉成逐字稿(Speech-to-Text),再處理文字;現在的模型是直接將聲音波形作爲輸入數據進行訓練,這相當於讓AI「擁有了聽覺」。
更甚者,能訓練AI辨別語氣(如高興、諷刺、倉促)等人類在聲音中隱含的情緒變化(註四),或者分辨影片中特定的聲音事件(如玻璃破碎聲、特定鳥叫聲),這需要大量的聲音數據來訓練AI對「副語言」(Paralinguistics)的理解。
除了特斯拉的FSD已納入聲音數據(模擬人類開車時"耳聽八方"),也有其他公司例如OpenAI、Google、Hume AI、Figure AI等已開始對AI執行聽覺訓練,其中聲音數據的「重度使用者」,便是近幾年火爆全網的音樂生成領域AI,如:Suno、Udio、ElevenLabs等等,他們的訓練數據就是百萬首的歌曲、音樂和人聲。 - 嗅:AI業界尚未尚未大規模佈局;過去的訓練方式是依賴「電子鼻」(E-Nose,也可以理解為用於檢測氣味的設備)的傳感器數據。目前進展較快的有從Google分拆出來的新創公司「Osmo」,其最先進的訓練方式是讓AI學習氣體的「化學分子結構」與「人類氣味描述」之間的關聯,以之建立「氣味地圖」(Principal Odor Map, POM),AI只要看一個分子的化學結構圖,就能預測它聞起來像什麼(例如:有大蒜味、花香或腐爛味),且描述的精確度高、變異性低,這部分已優於人類專家。
- 味:同上,AI業界尚未尚未大規模佈局;其訓練數據更為複雜,因為「味道」不僅僅是味蕾細胞受體的化學反應,還包含了嗅覺(後鼻腔)、口感(觸覺)甚至溫度,簡而言之某種程度上是一種綜合感觀。目前的訓練主要集中在食品工業,傳統上以電子舌(E-Tongue)蒐集數據,其使用電化學傳感器陣列,將液體樣本轉化為數據圖譜(類似"指紋"的概念);AI再通過這些數據學習分辨酸、甜、苦、鹹、鮮等味道的強度。目前已有相關研發的公司有NotCo(一家智利獨角獸AI公司)的"Giuseppe(如下圖)"及IBM的"Hypertaste"。
它們訓練AI模型分析數十萬種植物的分子數據;目前最強的應用是逆向工程與配方生成,簡單來說就是有能力開發"新食譜",AI 會從數據庫中尋找各種意想不到的組合(例如:鳳梨加高麗菜可能產生某種奶味),這是人類廚師無法想像的。

Giuseppe
- 觸:如果未來的居家型服務機器人無法感知觸覺(這在AI的理解相當於物理上的"壓力"數據),您敢讓它代替您餵嬰兒奶嗎?又或者是協助長照搬運長輩?甚至醫療機器人,你敢讓它替你開刀?
特斯拉Optimus手部已搭載壓力感測器,使機器人得以感知手指與物體接觸時的壓力變化,從而實現「力回饋」控制,使其能拿捏執行日常任務的力道,最經典的案例就是它能用剛剛好的力道捏起一顆雞蛋而不弄破;第4期提過的亞馬遜物流機器人Vulcan,也有壓力感測的觸覺設計,用以在貨物的取放力道上更加精準。
基於上述原因,觸覺感測與訓練也是目前業界的兵家必爭之地,各家廠商都在開發自己的觸覺系統,因為單純靠視覺無法處理摩擦力、重量分佈或材質軟硬等問題。
目前在實體機器人AI訓練上,除了特斯拉,已導入觸覺開發研究的公司有Boston Dynamics、Figure AI、Sanctuary AI、宇樹科技(非純觸覺,而是使用較低成本的扭力矩感測器)。
除了上述整機大廠,還有另一方面的研究是開發覆蓋機器人手臂甚至全身的「電子皮膚」,舉例如Gelsight公司開發的視觸覺感測器(Tactile Vision),是在橡膠皮膚內部放一個微型攝影機,通過拍攝橡膠的形變來「看見」觸覺,這種技術能讓機器人感知到物體的紋理是粗糙還是光滑,這是傳統壓力感測器做不到的。

是故,在文字以外,除了視覺數據是訓練下一代AI模型的核心資源,聲音(聽覺)、觸覺也同樣重要,其價值正在被重新定義。而嗅覺及味覺則相對處於萌芽階段;如果說視覺(光線)和聽覺(聲波)、觸覺(壓力)是未來實體AI機器人的「眼睛」「耳朵」和「皮膚」,那麼嗅覺和味覺就是目前最難攻克的「鼻子」和「舌頭」。
現況可以總結為:視覺與聽覺處於資料蒐集與訓練的「大爆發期」,這得益於原本已存在網路上的大量圖片、影音,而觸覺數據的爆發則是被人形機器人「具身AI」(Embodied AI,註五)的急迫需求硬生生逼出來的。
但與前三者相比,嗅覺與味覺仍處於「實驗室開發 & 極有限的垂直應用期」。
我們以一張表來讓讀者更好理解重點

而嗅、味,這兩者發展較慢的根本原因在於物理本質:
- 視覺/聽覺是「物理波」數據(光波、聲波),容易數位化(由類比轉為0和1訊號)、容易傳輸、容易重現(螢幕、喇叭)。
- 嗅覺/味覺則是「化學分子」數據,需要感測器與物質接觸發生化學反應(註六),這在人類生理學機制中也是如此(味蕾或鼻腔受體發生反應後將神經電位訊號經由神經突觸傳往大腦皮質),故數位化採集是較有難度的。但這部分,特斯拉(或者更準確說是他某一家關係企業與之的合作)未來將有絕對優勢,這就留待下一期於付費會員專屬內容中說明,會是極前沿的深度邏輯解密,我也保證其他地方找不到這些內容。
總而言之,特斯拉、Meta和Figure AI等公司通過不同的路徑推進數據收集戰略,從車輛、穿戴式裝置等,無一不在爭奪這場“光子競賽”的領先地位;除此之外,其它模態的數據形式,其蒐集也逐漸白熱化。
關於多模態數據的應用,也讓我想到一個有趣的未來場景:如果在特斯拉的無人計程車(Robotaxi)上,車輛"聞"到乘客身上有強烈的酒味,是否應該自動調整駕駛模式(更平穩以防嘔吐)或自動開啟通風?這或許是多模態感知的一個潛在應用結合點。
人類的未來,精彩可期,如果可以,我還真的想多活五十年,為的是見證曾經的科幻電影化為真實。
原本本期還要繼續講解機器人研究領域著名的「莫拉維克悖論 (Moravec's Paradox)」及未來可能的新商業模式,但礙於篇幅及考量讀者們的吸收,我們留待後續為大家介紹,敬請期待。
也謝謝大家每一次的閱讀,只要還有一位付費讀者,Mark便會繼續將這些科技股知識持續寫作下去!
(提醒:本期中提到的任何公司並非要大家直接買入,大家仍應做好自身功課[例如財報分析、估值計算],此處不具任何投資建議,僅為產業單純質性基本面分析與分享)。
第16期電子報傳送門
第20期電子報傳送門
〖註一〗未來可能的機器人應用類型&場景
無論是車用/醫用/倉儲物流/產線作業用機器人...等,只要某項工作具備「重複性」,均有可能開發特定用途的AI機器人來執行物理世界工作,並且大家要有一個觀念,即「未來執行特定工作的機器人不一定要是人型的」,只是具備類人手部結構的人型機器人其泛化用途最大,這點是無庸置疑的。
甚至太空領域也會具備應用價值,機器人無須太空衣、氧氣供應,只要有電,就能連續不間斷工作,甚至能在其身上加裝小型助推器讓其能夠自主三維運動。當然宇宙背景輻射或太陽風等等可能對硬體造成的問題需要被克服,不過這些同樣也會對人體造成傷害,所以總體而言如果能開發出太空用機器人,讓人類能只在艙內遙控指揮,其實才是最安全的。
深海領域亦然,深海具備高壓、低溫與黑暗等極端條件,對人類這種碳基生命構成致命挑戰。機器人無須顧慮減壓病(俗稱潛水夫病)或氧氣供給,僅需強化抗壓外殼與防腐蝕設計,即可長時間於深海作業;事實上,目前已有商業化的深海機器人(如下圖一ROV或下圖二AUV)能利用流體力學設計或仿生鰭進行高效游動,執行海底光/電纜維修、深海礦產探勘或沈船打撈等高風險作業。透過聲納通訊與自主導航,它們能克服傳統遙控方式於水下電磁波衰減的難題,成為人類探索「內太空」的最佳替身。
其他高危工作領域(如營建業的高空作業),若有通用型人型機器人能用,以雇主的立場,姑且先不談成本(人類工人薪資VS.機器人租賃/購置維保費用),光機器人相對於真人「可以忽視工安風險」這點,就已構成採用的極大誘因。
光從「人命關天」轉變為「資產折損」的角度分析,這種能讓員工的"人身安全風險"轉化為單純"財務風險"的潛力,就已是極大的管理優勢;如果出了人命,除了一般人能想到的民事賠償、刑事責任,其實業主最怕的是「停工」!在大型建案,勒令停工造成的違約金、資金積壓利息、供應鏈調度大亂,損失往往是以千萬甚至億元計算的。而機器人損壞或高處墜落了,對雇主來說,只是一張維修單或報廢單的問題。它不會疼痛、不需要心理輔導,更不會有家屬來拉白布條抗議。
更重要的,以目前台灣營造業缺工的大環境來說,實際上勞動力成本將會遠遠低於真人。
只要你懂AI、懂機器人硬體的發展,就會知道這件事情一定會實現,只是時間問題。
〖註二〗泛化能力(Generalization Ability)和通用能力(General Capability)的差異?
不完全相同,但有所關連
泛化能力:主要指模型對沒見過的、新樣本的適應能力和準確性;一個泛化能力強的模型可以在面對相似但非完全相同的任務或數據時,依然能有效運作。打個比方,某人在貴族世家工作過,則他到西堤牛排工作也很快就適應,這就是泛化能力。
通用能力:通常與通用人工智慧(AGI, Artificial General Intelligence)相關,指的是AI系統在廣泛的不同領域和任務中,表現出與人類相當或超越人類的智慧和能力。簡單來說就是一個機械通才。就像我們求學過程中,總有那種學業/社團/運動/感情/社交樣樣都行的同學(這個比喻僅幫助大家理解兩種能力的箇中差異,但實際上AGI問世那天會遠不只如此)。
〖註三〗MTIA
一款由Meta自家設計的客製化晶片(ASIC),目標是針對特定的AI任務進行優化,以實現低功耗、高效率,並減少對外部供應商(如NVIDIA) GPU的依賴,以降低成本。
〖註四〗聲音的「情緒」資訊
這類型的AI運算又稱為"情感運算(Affective Computing)",其關注的重點不在於你說了「什麼內容」,而在於「怎麼說的」;目標是透過聲音的微小顫抖、停頓、音調起伏,來判斷用戶是否感到困惑、生氣或猶豫。
這在心理諮商、客服任務的AI中非常有價值。(黑暗面:對詐騙集團來說也是)
〖註五〗具身AI (Embodied AI)
簡單來說就是將人工智慧整合到具有物理身體(例如機器人、自動駕駛汽車或無人機)的系統中,使AI能夠在現實世界中感知環境、進行決策並執行行動的技術。
更白話一點就是泛指「真實世界的物理AI」。
〖註六〗「化學分子」數據
氣味和味道是實實在在的化學分子,要採集它們的資訊則必須先捕捉這些分子,這表示感測器必須"物理性"吸附分子,發生化學反應(氧化還原等)才能產生電訊號。
而樣品殘留問題也是一個巨大的工程難題,這在所有化學氣體感測器中幾乎都會碰到;就像人類某個氣味聞久了會「麻痺」(嗅覺疲勞),電子感測器吸附分子到一定程度後,需要時間「脫附」(反洗/復歸等)才能檢測下一個氣味,並且耗材也需要更換。這導致數位化採集難以做到即時、連續。














