世界模型時代_第一章

更新 發佈閱讀 34 分鐘

第一章 世界模型的核心邏輯:從語言中的智能到行動中的智能

第一節 「語言中的世界」與「行動中的世界」

讓我們從一個思想實驗開始。

假設你從未見過雞蛋。你從未把一顆雞蛋握在手裡感受過它的重量、它的橢圓弧度、那層薄殼在指尖下微妙的脆弱感。但你讀過關於雞蛋的一切:維基百科的條目、食譜、營養學論文、關於蛋殼結構的材料科學文獻、甚至詩人用雞蛋作為隱喻的十四行詩。你可以精確地回答任何關於雞蛋的語言問題:它的化學組成、最佳的水煮時間、蛋殼的主要成分是碳酸鈣、在不同海拔高度下沸點的變化如何影響烹飪時間。

現在,有人遞給你一顆真正的雞蛋,請你把它打進碗裡。

你會發現,你讀過的所有文字在這個瞬間幾乎沒有用。打蛋需要的是一種完全不同的知識:如何拿捏力道;太輕敲不破殼,太重整顆蛋碎在手裡;如何控制裂縫的方向;讓它沿著赤道線擴展而不是往兩極碎裂;如何在殼裂開的瞬間用雙手拇指向兩側施力,讓蛋液完整地滑入碗中而不是灑在檯面上。這些知識,沒有一項是從文字中可以「讀出來」的。它們必須從與物理世界的直接互動中習得,從失敗中習得,從蛋殼碎片和沾滿蛋液的手指中習得。

這個思想實驗,以一種日常的方式,觸及了當代AI發展中一個根本性的區分。

大型語言模型所擁有的,是前一種知識,關於雞蛋的一切語言性描述。世界模型所追求的,是後一種知識,關於雞蛋在物理世界中如何運作的因果性理解。前者的基本單元是詞語(token),它的任務是預測「在這個語境下,下一個最合理的詞是什麼」。後者的基本單元是狀態(state),它的任務是預測「在這個物理條件下,下一個最可能的世界狀態是什麼」。

這兩者之間的差異,不只是「處理的資料型態不同」那麼簡單。它們代表的是兩種根本不同的智能形式。

為了理解這個差異的深度,我們需要先看清楚大型語言模型真正在做的事情。

一個大型語言模型的訓練過程,本質上是一個極其龐大的條件機率學習,也就是給定前面的一串文字,然後預測下一個詞出現的機率分布。這個任務看似簡單,卻有一個驚人的副產品:由於人類語言中壓縮了大量關於世界的知識,因果敘事、社會規則、物理常識、情感邏輯,一個在海量文本上訓練的模型,會在學習語言統計結構的過程中,「順帶地」吸收了大量關於世界的資訊。這就是為什麼ChatGPT能夠回答「如果把一本書放在桌上,然後推動桌子,書會怎樣」這類問題。不是因為它「理解」了慣性定律,而是因為它在訓練資料中見過足夠多的類似描述,知道「書會跟著桌子一起移動」是這個語境下最合理的續接。

楊立昆曾經預言,即使是一個假想的「GPT-5000」,如果只在文本上訓練,也永遠無法掌握這類物理直覺。這個預言後來被部分地反駁了。現代的語言模型確實能處理許多桌面物理學的場景。但楊立昆的批評者們在慶祝勝利的同時,卻也許忽略了一個更微妙的問題:模型能用正確的語言描述一個物理場景,與模型真正理解那個場景的物理機制,是同一件事嗎?

讓我們用一個具體的例子來測試這個區分。

如果你問一個大型語言模型:「一個裝滿水的氣球從三樓掉到水泥地上會怎樣?」它幾乎一定能給你一個正確的答案:氣球會破裂,水會飛濺。但如果你接著問:「如果地面不是水泥,而是一張繃緊的蹦床呢?」模型可能仍然能給出合理的答案,因為蹦床和水球的組合在網路文本中並不罕見。但如果你再進一步問:「如果地面是一層三公分厚的低密度矽膠泡棉,氣球的下墜速度是每秒兩公尺,而不是自由落體的速度呢?」在這種偏離常見文本描述的條件下,語言模型的回答就會變得不可靠。因為它處理的從來不是物理參數之間的因果關係,而是詞語之間的統計關聯。一旦場景偏離了訓練資料中的常見描述,它就失去了錨點。

而一個真正的世界模型,如果它存在的話,應該能夠處理這種偏離。因為它的錨點不是「這些詞在訓練資料中通常如何排列」,而是「在這些物理條件下,力、質量、速度、材料彈性之間的交互作用會產生什麼結果」。它建模的對象不是語言,而是世界本身的狀態轉換(state transition)。

這就是為什麼研究者開始使用「世界模型」這個術語時,他們心中所想的不只是一個更好的預測器。他們想的是一個根本不同的系統:一個能夠在內部形成關於外部世界的壓縮表徵、能夠依據這個表徵預測未來狀態的變化、能夠在預測的基礎上規劃行動、並能在行動之後根據結果更新自己的表徵的系統。

用更精確的術語來說,一個世界模型至少包含四個核心組件。

第一是狀態表徵(state representation):這是對當前世界狀態的壓縮描述。不是逐像素的圖像,也不是逐詞的文字,而是一種抽象的、捕捉了關鍵結構的內在編碼。就像你閉上眼睛回想自己的廚房,你的腦中浮現的不是一張像素級精確的照片,而是一個包含了空間佈局、物體位置、大致比例的壓縮表徵,它省略了大量的細節,但保留了對行動有用的結構。

第二是動態模型(dynamics model):這是對世界如何隨時間變化的規律的捕捉。水會往下流;推一個物體它會移動;鬆手之後物體會因重力而掉落。這些規律不需要被寫成物理方程式,但需要以一種隱含的方式編碼在模型的運作中,使得模型能夠在給定當前狀態的情況下,預測下一個時刻的狀態。

第三是行動模型(action model):這是對「如果我採取某個行動,世界狀態會如何改變」的預測能力。這部分是將世界模型從被動的觀測器轉變為主動的規劃者的關鍵。一個只能預測「接下來會發生什麼」的模型,是一個觀察者。一個能夠預測「如果我做了A而不是B,世界會有什麼不同」的模型,才是一個能夠規劃的行動者。

第四是內在模擬(mental simulation):這是在不實際執行行動的情況下,在腦中「試跑」多種可能方案的能力。這也許是世界模型最接近人類認知的一個面向。當你站在路口思考要走哪條路回家時,你的大腦在做的事情,就是在一個內在的世界模型中,快速地模擬不同路線的大致結果。這條路比較近但可能塞車,那條路遠一點但比較順暢,然後根據模擬的結果做出選擇。你不需要真的把兩條路都走一遍才能決定。你在腦中「走了」。

這四個組件合在一起,構成了一個與大型語言模型截然不同的智能架構。語言模型的基本迴路是「給定文字,預測文字」。世界模型的基本迴路是「給定狀態和行動,預測新的狀態」。前者活在語言的世界裡,後者試圖活在物理的世界裡。

讓我們把這個區分說得再更分明與尖銳一些。

語言模型所做的,是在一個已經被人類壓縮為文字的世界中進行操作。它處理的是世界的「二手經驗」,經由人類的感知、理解、語言編碼之後,已經被大幅壓縮過的世界。它極其擅長操作這些壓縮後的符號,但它從不直接接觸壓縮之前的原始世界。它知道「咖啡很燙」這四個字通常出現在什麼語境中,但它從未被燙過。

世界模型所追求的,是讓AI直接接觸壓縮之前的世界,或者至少,接觸比語言更接近世界原貌的感知數據:影像、聲音、力回饋、空間結構。然後,由AI自己來完成壓縮的工作:從原始的感知數據中,學習出一套關於世界如何運作的內在表徵。

這個差異,如果換到認知科學的語言中,你也許會覺得似曾相識。

認知心理學早在AI時代之前很久,就已經在探討「內在模型」(internal model)這個概念了。從 Kenneth Craik 在1943年提出「大腦建構外部世界的小型工作模型」的假說開始,經由「心理模型」(mental model)理論、預測處理(predictive processing)框架、一直到Karl Friston的自由能原則(free energy principle),認知科學中有一條清晰的脈絡在主張:生物體的大腦,本質上就是一部世界模型生成器。它不斷地預測下一刻的感官輸入,將預測與實際輸入進行比較,用預測誤差來更新自己的內部模型。這個持續運轉的「預測—比較—更新」迴圈,就是知覺、學習、行動決策的統一基礎。

當楊立昆在2022年發表那篇影響深遠的論文〈邁向自主機器智能的路徑〉時,他所提出的架構:聯合嵌入預測架構(Joint Embedding Predictive Architecture, JEPA),在精神上與這條認知科學的脈絡有著深層的共鳴。JEPA的核心思想是:不要預測原始像素,而是預測抽象表徵。不要試圖生成未來的精確圖像,而是預測未來在一個壓縮的表徵空間中會是什麼樣子。這與預測處理框架的核心洞見驚人地一致:大腦不是在預測視網膜上每一個光子的精確數值,而是在預測感官輸入的高層結構。

但這個共鳴也標記了一個重要的差異:認知科學中的「內在模型」是為了幫助一個有身體的生物體在世界中存活、行動、適應,它從來不是一個孤立的計算裝置,而是嵌入在身體、環境、行動的閉環之中的。而AI研究中的「世界模型」,至少在目前的大多數實現中,仍然是一個在電腦中運行的計算程序,它預測的是數據中的模式,而不一定是世界本身的運作。

這個差異,是我們在後面的章節中將會反覆回來追問的問題。但在此刻,讓我們先把它記住,然後繼續前進。

因為現在,我們已經理解了世界模型的基本概念和它與語言模型的根本區分。下一個問題是:在這個概念之下,當前的技術界實際上在做什麼?從Dreamer到JEPA,從Genie到Cosmos,四條截然不同的技術路線,各自對「理解世界」下了什麼樣不同的定義?

更重要的是:它們各自走到了哪裡,又各自在哪裡碰了壁?

第二節 四條路線,殊途同歸:誰在定義「理解世界」

如果世界模型的核心主張是「讓AI從語言的世界走進物理的世界」,那麼接下來的問題是:具體該怎麼走?

過去五年間,至少有四條截然不同的技術路線在嘗試回答這個問題。它們各自從不同的出發點切入,對「理解世界」下了不同的定義,走向了不同的技術實現。但如果你把目光從這些細節中抬起來,會發現它們最終指向的是一個殊途同歸的方向:讓AI在內部形成某種關於世界的表徵,並用這個表徵來預測、規劃、行動。

不同的是,它們對「什麼叫做形成了表徵」這件事,有著根本性的分歧。

這些分歧不只是工程上的選擇題。它們各自隱含了一種關於「理解」的哲學立場,什麼才算是理解了世界?是能在模型裡成功地行動?是能在抽象空間中準確地預測?是能生成一個看起來像真實世界的影像?還是能把世界的運作規律打包成一套可以大規模部署的基礎設施?

讓我們逐一來看。

第一條路線:在夢境裡學會行動

2020年,Google DeepMind的研究員Danijar Hafner發表了一個名為Dreamer的系統。Hafner是一位專注於模型式強化學習(model-based reinforcement learning)的研究者,他的核心信念可以用一句話概括:如果你想讓AI學會在世界中行動,不要讓它在真實世界中反覆試錯,先讓它在腦中的世界裡練習。

Dreamer的運作方式是這樣的:AI首先透過與環境的互動收集經驗,看到了什麼、做了什麼、得到了什麼結果。然後,它用這些經驗訓練一個「環境模型」。這個模型本質上就是一個關於「這個世界如何運作」的內部模擬器。一旦這個模擬器被建立起來,AI就不再需要每一步都在真實環境中試錯了。它可以在自己的模擬器裡「做夢」,想像自己採取不同的行動,觀察模擬器預測的結果,從中學習哪些行動策略是有效的。這些在夢境中習得的策略,再被帶回真實環境中執行。

Hafner把這種在模擬器中進行的虛擬嘗試稱為「想像的軌跡展開」(imagined rollouts),AI在腦中展開了一條條可能的未來軌跡,從中挑選最有利的一條,然後付諸行動。

這聽起來是不是很像人類在做的事情?你在過馬路之前,腦中會快速地模擬幾條可能的路線,是直接穿過去、等一下再走、還是繞到斑馬線?然後再根據模擬的結果做出選擇。你不需要真的把每條路線都試一遍,你在腦中「走了」。

Dreamer路線的優勢在於:它的決策與控制結構非常清晰。它有一個明確的「世界如何運作」的模型,有一個明確的「我要達成什麼目標」的標準,以及一個明確的「在模型中搜索最佳行動」的程序。這使得它在結構化的環境中,例如電子遊戲、機器人控制、資源管理等方面表現出色。Dreamer的後續版本在數十個Atari遊戲和連續控制任務中達到了或甚至超越了無模型強化學習的表現,而使用的環境互動次數遠遠更少。

但它的局限也同樣清晰:它的模擬器是在特定環境中從頭訓練的。一個在某款電子遊戲中訓練出來的世界模型,無法被遷移到另一款遊戲,更不用說遷移到真實世界。它學到的是「這個世界」的規律,而不是「世界之所以為世界」的一般性結構。

第二條路線:理解先於擬真

幾乎與Dreamer同一時期,楊立昆在Meta的AI研究實驗室裡,正在醞釀一個方向截然不同的方案。

楊立昆在深度學習的歷史中佔據著一個獨特的位置。他是卷積神經網路(Convolutional Neural Network, CNN)的發明者之一,這項技術後來成為所有影像辨識系統的基礎。1989年,當絕大多數研究者認為神經網路是一條死路的時候,他在AT&T的貝爾實驗室開發了用於手寫辨識的LeNet系統。他後來因為這些先驅性的貢獻與Geoffrey Hinton、Yoshua Bengio共同獲得了2018年的圖靈獎,計算機科學領域的最高榮譽。但與他的兩位同儕不同的是楊立昆在過去十年間一直公開而持續地對AI的主流發展方向表達懷疑。當整個產業瘋狂地投入大型語言模型的軍備競賽時,他反覆說的都是同一句話:這條路走不到真正的智能。

2022年,他將自己的替代方案寫成了一篇長達八十多頁的論文〈邁向自主機器智能的路徑〉,並在論文中提出了聯合嵌入預測架構(Joint Embedding Predictive Architecture, JEPA)。

JEPA的核心主張,可以用一個與Dreamer形成鮮明對比的原則來概括:理解世界不等於生成世界的精確圖像。

這是什麼意思?

想像你站在一條街道的盡頭,看著一輛車從遠處駛來。你的大腦會預測接下來幾秒鐘會發生什麼:車會繼續向前移動、它的視覺大小會逐漸增大、引擎的聲音會逐漸變大。但是你的大腦在進行這種預測的時候,預測的不是你視網膜上每一個像素的精確數值。你不會在腦中形成一幅攝影級別的高畫質圖像來模擬車輛駛近的過程。你預測的是一個更抽象的東西:車的大致位置和速度、它靠近的趨勢、你需要採取行動的大致時機。

楊立昆認為,這正是當時AI研究中一個根本性的錯誤所在。以影像生成模型為代表的路線,包括Sora這類視頻生成系統,試圖以逐個像素地預測未來的影像。這在計算上是極其昂貴的,而且它把大量的資源花在了預測與「理解」無關的細節上:樹葉的擺動方向、光影的細微變化、背景中行人衣服的皺褶。這些細節對於生成一段逼真的影片來說也許是必要的,但對於「理解世界如何運作」來說,幾乎是多餘的。楊立昆在一次公開演講中把這種做法稱為「完全是資源的浪費」。

JEPA的替代方案是:不要預測像素,預測表徵。具體來說,先用一個編碼器(encoder)將影像或影片壓縮為一組抽象的數學向量。這些向量捕捉了場景的高層結構,同時丟棄了不可預測的細節。然後,用一個預測器(predictor)在這個抽象空間中預測未來的狀態。整個學習過程發生在表徵空間裡,而不是在像素空間裡。

Meta在2024年初發表的V-JEPA(Video Joint Embedding Predictive Architecture)是這個理念的第一個大規模實現。V-JEPA在超過兩百萬段未標註的影片上進行自監督學習,不使用任何文字標籤,不依賴任何預訓練的影像模型,僅僅透過在表徵空間中預測被遮蔽的時空區域來學習。結果,它學到的影片表徵在動作辨識等下游任務中表現優異。而且,它能夠偵測到一段影片是否「在物理上是可能的」,當影片中出現違反物理定律的事件時,模型會標記出異常。

楊立昆在GTC 2025的演講中描述這個結果時說的是:V-JEPA展現的是「一個數位版的嬰兒驚訝反應」。發展心理學的研究早已發現,嬰兒看到一個物體懸浮在空中時會比平常注視得更久,不是因為畫面更漂亮,而是因為它違反了嬰兒腦中已經形成的關於「物體會往下掉」的內在預期。嬰兒的注視時間延長,就是他的認知系統在發出一個信號:這裡有什麼不對。V-JEPA做的是結構上相同的事情。當它處理一段正常的影片時,它的預測與實際結果之間的落差很小,因為世界按照它的內部模型預期的方式在運作。但當影片中出現了違反物理定律的事件,比如一個物體突然穿過了另一個物體,V-JEPA的預測誤差就會驟然升高。它不是「看到了」違規事件然後貼上一個標籤。它是因為自己的預測落空了而「驚訝」了,而這種驚訝,恰恰意味著它的內部已經形成了某種關於世界應該如何運作的期待。

這個結果的意義不只是技術上的。它更暗示了一種不同於生成式AI的學習方式:不需要生成逼真的圖像來證明自己「理解」了世界,只需要在抽象的層次上準確地預測世界的結構就夠了。理解,在JEPA的框架中,先於擬真,也獨立於擬真。

但這個路線的挑戰也同樣明確:JEPA目前仍然是一個表徵學習框架,而不是一個完整的行動系統。它能學到優秀的影片表徵,但要把這些表徵轉化為機器人的實際行動規劃,中間還有很長的路要走。V-JEPA 2已經開始嘗試將JEPA應用於機器人規劃任務,但距離楊立昆所描繪的「自主機器智能」的完整圖景,仍然有著巨大的落差。

第三條路線:直接生成一個可以走進去的世界

2024年,Google DeepMind的研究團隊發表了一個名為Genie的系統。如果說Dreamer是「在夢裡練習行動」,JEPA是「在抽象空間裡預測結構」,那麼Genie所做的事情則更加直接,也更加令人目眩:它生成了一個你可以走進去的世界。

Genie最初的版本能夠從一張靜態圖片出發,生成一個可互動的2D平台遊戲世界。你給它一張手繪的塗鴉,比如一個簡單筆畫的小人站在幾個方塊上,它就能將這張圖片轉化為一個可以操控的遊戲環境:你可以控制那個小人向左走、向右走、跳躍,而環境會根據你的操作產生合理的反應。2025年發表的Genie 2更進一步:它能夠生成即時的三維互動世界,畫面以每秒二十四格的速度呈現,並且維持數分鐘的視覺一致性。

Genie的技術核心是一個被稱為「潛在動作模型」(Latent Action Model)的架構。它的做法是:不告訴AI「向左移動」或「跳躍」這些具體的動作標籤,而是讓AI自己從大量的遊戲影片中,學習出一組潛在的「動作變數」。這些變數對應著「在這個世界裡可以做的事情」,但它們是AI自己從數據中發現的,而不是人類預先定義的。然後,結合一個影片生成模型,AI就能夠在給定當前畫面和一個動作變數的情況下,生成下一格畫面,如此反覆,一個可互動的世界就被「生成」出來了。

這條路線的吸引力是巨大的,因為它提供了一種最直觀的「世界模型」體驗:你可以用眼睛看到那個被AI建模的世界,可以用操作去探索它,可以即時觀察到你的行動如何改變了世界的狀態。對於遊戲產業、影視製作、虛擬實境等領域來說,這幾乎就是他們夢寐以求的技術。

但這裡有一個微妙的問題,而且這個問題恰好觸及了世界模型研究中最核心的哲學問題。

Genie所生成的「世界」,本質上是一連串在視覺上連貫的影像畫面。它看起來像一個世界,有空間、有物體、有互動,但它的內部運作機制是影像生成,而不是物理模擬。它不是先建立一個關於物理規律的模型,再從模型中產出出影像;它是直接從「當前影像加上動作」預測「下一格影像」。這意味著,它的「世界」可能在視覺上極其逼真,但在物理上並不一致。物體可能穿過彼此、重力可能突然改變方向、因果關係可能在長時間的互動後悄悄斷裂。

換言之:它生成的是一個「看起來像世界」的東西,但不一定是一個「按照世界的規律運作」的東西。

這個區分,我們將在下一章中深入展開討論。而這個差異,可能是整個世界模型研究中最關鍵的一條斷裂線。

第四條路線:把世界模型變成基礎設施

2024年,NVIDIA的創辦人暨執行長黃仁勳在一次公開演講中宣布了Cosmos平台。如果說前三條路線還帶有濃厚的學術研究氣息,Cosmos則代表了一種完全不同的邏輯:把世界模型從一個研究概念,變成一個可以被大規模使用的產業基礎設施。

黃仁勳是一個以工程師思維聞名的企業領袖。他在1993年共同創辦了NVIDIA,最初的產品是為電子遊戲提供圖形處理的GPU。三十年後,這家公司因為其GPU恰好適用於訓練深度學習模型,而成為了AI時代最重要的硬體供應商之一,市值一度超過三兆美元。黃仁勳對技術的態度從來不是「這個概念在理論上是否優美」,而是「這個東西能不能被規模化地部署」。

Cosmos的設計邏輯體現了這種態度。它不只是一個世界模型,而是一整條工具鏈:包括世界生成模型、物理模擬引擎、合成數據生成管線、模型後訓練框架、以及部署到機器人和自動駕駛系統的介面。NVIDIA的論點是:未來的機器人和自動駕駛汽車需要在虛擬世界中進行大量的訓練,然後再將學到的能力遷移到真實世界中。而要實現這一點,就需要一個能夠大規模生成高品質虛擬世界的平台。Cosmos就是這個平台。

這條路線的意義不在於它提出了什麼新的關於「理解」的定義,而在於它正在將世界模型從一個研究概念,轉化為一個產業事實。當世界模型被產業化、平台化、基礎設施化之後,它對文明的影響就不再只是一個理論上的推演,而是一個正在發生的現實。

而這個現實帶來的問題,比任何一條技術路線本身都更加迫切:當世界的模擬可以被大規模地生產和部署,當「虛擬世界」變成一種工業產品,誰來決定這些世界長什麼樣?誰來決定什麼被納入模擬、什麼被排除在外?這些問題,我們將在第四章中正面討論。

四條路線,一個共同的問題

讓我們先後退一步,把這四條路線放在一起看。

Dreamer說:理解世界就是能夠在內部模型中成功地行動。JEPA說:理解世界就是能夠在抽象空間中準確地預測結構。Genie說:理解世界就是能夠生成一個可以被進入的互動環境。Cosmos說:理解世界就是能夠大規模地模擬物理過程,並將模擬結果轉化為可部署的能力。

四條路線,四種對「理解」的定義。

但在它們各自走到目前的位置之後,一個共同的問題開始浮現。而且這個問題不是工程上的,而是認識論上的:它們模擬出來的「世界」,與真實的世界是同一回事嗎

一個能在模型裡成功行動的AI,真的「理解」了它所行動的環境嗎?一個能在抽象空間中準確預測的系統,真的掌握了預測背後的因果機制嗎?一個能生成逼真互動世界的模型,真的知道物理定律是什麼嗎?一個能大規模模擬物理過程的平台,所模擬的「物理」是真正的物理,還是對物理的一種統計性近似?

這些問題,指向的都是同一條裂縫:擬真與理解之間的裂縫。

這條裂縫有多深?它意味著什麼?就讓我們在下一節中,帶著具體的證據,仔細地察看它。

第三節 四條路線各自的裂縫

在上一節結尾,我們提出了一個跨越四條路線的共同問題:擬真與理解之間的裂縫。

現在,讓我們帶著具體的證據,逐一檢視這條裂縫在每一條路線中的實際面貌。這不是為了否定這些技術的成就。它們的成就是真實的、令人印象深刻的。但如果我們只看成就而不看裂縫,我們就會犯了一個在AI領域中反覆出現的錯誤:把demo的成功當成問題的解決。

Dreamer的裂縫:夢境太小了

Dreamer路線的核心承諾是「在腦中的世界裡練習」。這個承諾在封閉環境中漂亮地兌現了。在Atari遊戲中,在機器人控制的模擬器中,在規則固定、狀態空間有限的世界裡,Dreamer能夠高效地學習出一個環境模型,在模型中想像出成千上萬條未來軌跡,然後從中提煉出優秀的行動策略。

但這裡有一個根本性的限制:Dreamer的夢境,只有它待過的那個世界那麼大。

一個在某款Atari遊戲中訓練出來的Dreamer,對另一款遊戲一無所知。更關鍵的是,它對「遊戲」這個概念本身也一無所知。它不知道「所有遊戲都有規則」、「規則可以被學習」、「新遊戲可能和舊遊戲共享某些結構」。它學到的是一個特定世界的動態模型,而不是「世界之所以為世界」的一般性結構。每到一個新環境,它必須從頭開始學習,就像一個每次醒來都完全失憶的人。

這個限制在實驗室的基準測試中也許只是一個效率問題。但如果我們想的是真實世界的應用:一個在廚房裡工作的家用機器人,一個在城市街道上行駛的自動駕駛系統,這個限制就變成了一道無法迴避的牆。真實世界不是一款遊戲。它沒有固定的規則集、沒有有限的狀態空間、沒有清晰的邊界。它是開放的、持續變化的、充滿了訓練時未曾遇到的新奇狀況。一個只能在自己待過的世界裡做夢的系統,面對真實世界的開放性,就像一個只在游泳池裡練過游泳的人被丟進了大海。

更深層的問題是:Dreamer的世界模型是「自下而上」建構的,從具體的感知數據中歸納出特定環境的規律。它不具備任何「自上而下」的結構性先驗,比如「物體通常是持續存在的」、「因果關係通常在時間上是向前的」、「空間是三維的」。這些在人類認知中幾乎被視為理所當然的先驗知識,Dreamer每次都要重新學習。這就好像你每次走進一個新房間,都要重新驗證地心引力是否仍然存在。

JEPA的裂縫:抽象空間裡的成功,不等於真實世界裡的行動

楊立昆的JEPA路線,在理論的優雅性上也許是四條路線中最高的。「不要預測像素,預測表徵」這個原則在哲學直覺上是對的。人類的大腦確實不是在逐像素地描繪未來,而是在某個更抽象的層次上進行預測。V-JEPA在未標註的影片數據上學到了強大的視覺表徵,甚至能夠偵測出影片中違反物理定律的異常事件,這些成果是令人興奮的。

但興奮之後,一個相當尖銳的問題浮現了:然後呢?

V-JEPA學到了優秀的影片表徵。但一個表徵,無論多麼優秀,本身不會做任何事。它不會控制一隻機械手臂去拿杯子,不會規劃一條避開障礙物的路線,不會在面對突發狀況時做出即時的反應。要把表徵轉化為行動,中間需要一整套額外的機制:從表徵到運動指令的映射、從預測到規劃的推理鏈、從規劃到執行的閉環控制。而這些機制,目前在JEPA的框架中仍然是缺席的,或者說,仍然在非常初步的探索階段。

V-JEPA 2已經開始嘗試將學到的表徵用於機器人規劃任務,但結果與楊立昆在論文中所描繪的「自主機器智能」完整架構之間,仍然有著一段令人敬畏的距離。楊立昆自己在2025年的一次訪談中也承認,JEPA目前還處於「驗證核心原理」的階段,距離一個完整的、可運作的世界模型系統,可能還需要五到十年的時間。

這裡其實存在一個微妙的反諷:楊立昆大肆批評大型語言模型「只有語言能力,沒有行動能力」,但他自己的JEPA系統,至少在目前的狀態下,也同樣面臨一個相同的結構性問題:它有了優秀的世界表徵能力,但尚未將這種能力轉化為可靠的世界行動能力。

不過,公平地說,楊立昆從未宣稱JEPA已經解決了問題。他宣稱的是:JEPA指出了正確的方向。問題是,「方向正確」和「已經抵達」之間的差距,在AI研究中,經常比人們願意承認的要大得多。

Genie的裂縫:最危險的成功

在四條路線中,Genie的裂縫也許是最值得我們仔細審視的。不是因為它最大,而是因為它最容易被忽略。

Genie 2能夠生成即時的三維互動世界,畫面流暢,視覺效果令人印象深刻。你可以在這個世界裡移動、探索,環境會根據你的操作產生看似合理的反應。如果只看demo影片,你很容易被說服:這個AI「理解」了一個三維世界的運作方式。

但如果你把互動的時間拉長,問題就開始浮現了。

目前的Genie 2能夠維持數分鐘的視覺一致性。這已經是一個了不起的成就。但「數分鐘」這個數字本身就在告訴我們一些事情:這個世界的一致性是有保存期限的。隨著互動時間的延長,物體的身份可能開始混淆。剛才是一面牆的東西,轉過頭再看的時候變成了一扇門。物理規則可能悄悄地漂移。同樣的跳躍動作,在第一分鐘和第五分鐘得到的高度可能不一樣。因果關係可能在長鏈推理中斷裂。推倒一張桌子,桌子上的杯子也許會隨著桌子一起倒下,也許不會,而且下一次再做同樣的事情,結果可能不同。

這些問題的根源在於Genie的架構本身。它生成的不是一個「有物理規律的世界」,而是一串「在視覺上連貫的影像畫面」。每一格畫面都是根據「前一格加上動作」來預測的,而不是根據「底層的物理狀態加上物理定律」來演算的。這意味著,它的「一致性」是統計性的,在大多數情況下看起來是對的,但卻不是結構性的,從底層保證是對的。

這是一種什麼樣的差異?想像一下兩種不同的天氣預報系統。第一種系統建立了一個大氣動力學模型,根據溫度、氣壓、濕度等物理參數來計算未來的天氣。第二種系統只是觀察了大量過去的天氣影像,學會了「通常在這種雲的形狀之後,接下來的天空長這樣」。第二種系統在短期內可能表現得和第一種一樣好,甚至更好,因為它不需要計算複雜的物理方程。但隨著預測時間的延長,第二種系統的預測會逐漸失去物理上的一致性。它可能預測出一種在大氣動力學上不可能存在的雲的形態,因為它從來不知道雲為什麼會是那個形態,它只知道雲通常看起來像什麼。

Genie的處境,與這第二種天氣預報系統相似。它知道世界通常「看起來」像什麼,但不知道世界「為什麼」看起來像那樣。

我把Genie目前的成功稱之為「最危險的成功」,原因正在於此:正因為Genie生成的世界在短期內看起來如此逼真、如此一致、如此令人信服,人們極容易將「視覺上的逼真」誤認為「物理上的理解」。而當這種誤認發生在遊戲產業裡,後果也許只是玩家偶爾會遇到穿牆的bug。但如果同樣的技術被用來訓練機器人,讓機器人在Genie生成的虛擬世界中學習操作技能,然後遷移到真實世界。那麼虛擬世界中那些微妙的物理不一致性,就可能轉化為真實世界中的危險行為。

一個在「看起來像」但「不真正是」的世界中訓練出來的機器人,它學到的不是物理定律,而是物理定律的統計性近似。在大多數情況下,近似也許夠用。但在邊緣情況下,而真實世界充滿了邊緣情況,近似與真實之間的差距,就是安全與事故之間的差距。

Cosmos的裂縫:當世界變成產品

Cosmos的問題與前三者不同。它的裂縫不在技術層面。NVIDIA擁有世界上最強大的計算基礎設施,它的工程能力毋庸置疑。Cosmos的裂縫在於它所代表的一種邏輯:把「世界的模擬」變成一種可以被大規模生產和部署的產品。

這個邏輯本身沒有問題。甚至可以說,如果世界模型要對文明產生真正的影響,產業化和規模化是必經之路。但問題在於:當世界的模擬變成產品,產品的邏輯就會開始影響模擬的內容。

一個商業平台生成的虛擬世界,會傾向於模擬什麼樣的世界?答案幾乎是確定的:是那些有商業價值的世界。工廠的車間、倉庫的貨架、城市的街道、購物中心的動線。這些世界有明確的任務結構、可量化的績效指標、可優化的效率目標。它們是世界的一個特定子集,可以被工程化的那個子集。

而那些不容易被工程化的世界呢?一條老街上鄰居之間微妙的人際網絡。一個家庭餐桌上沉默的張力。一個孩子在放學路上漫無目的地繞路,是因為那條路更近,而是因為路邊有一隻他每天都會去看的貓。這些「世界」不會出現在Cosmos的模擬清單上,不是因為它們不重要,而是因為它們無法被轉化為一個有明確輸入和輸出的優化問題。

當世界模型被產業化,一個系統性的篩選就在不知不覺中發生了:可被量化的世界被放大,不可被量化的世界被縮小;有商業價值的面向被優先模擬,沒有商業價值的面向被靜默地排除。日積月累,這種篩選會逐漸形塑人們對「世界」這個詞的理解。當人們說「世界模型」的時候,他們心中浮現的「世界」,會越來越接近那個被工程化了的版本,而越來越遠離那個有孩子、有老街、有沉默的餐桌的版本。

這不是NVIDIA的錯。這是產業化邏輯本身的結構性後果。而它恰恰指向了一個我們將在第三章中討論的問題:「世界模型」裡的「世界」,究竟指的是什麼

四條裂縫,一個共同的指向

讓我們把四條裂縫放在一起看。

Dreamer的裂縫是:它的世界太小。JEPA的裂縫是:它的理解尚未落地。Genie的裂縫是:它的逼真可能是一種幻覺。Cosmos的裂縫是:它的規模化可能重新定義了「世界」的邊界。

四條裂縫的表面形態各不相同,但是如果你沿著每一條裂縫往深處看,你會發現它們指向的是同一個根部問題:這些系統能夠模擬世界。但它們理解世界嗎?

「模擬」與「理解」之間,究竟隔著什麼?一個能夠精確預測下一秒世界狀態的系統,是否因此就「理解」了世界?還是說,「理解」這個詞指向的是某種預測能力之外的東西,某種與因果機制、物理直覺、甚至主體性經驗有關的東西?

這是下一章的核心問題。而要回答它,我們需要的不只是更多的技術分析,還需要一些來自不同方向的思想工具。

 

留言
avatar-img
Dino Lee的AI 智識館
3會員
21內容數
這裡是一個探索 人工智慧 × 人文思想 × 跨域研究 的知識空間。 從《深度認識人工智慧》出發,分享 AI 的基礎概念、最新發展,以及它與心理學、哲學、社會的深度對話。
你可能也想看
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文除了整理 AMI 的核心主張,也深入剖析其隱含假設與潛在偏誤,並提出值得持續追問的關鍵問題——因為當 AI 變得「愈來愈正確」,真正值得思考的,或許不只是技術本身。
Thumbnail
本文除了整理 AMI 的核心主張,也深入剖析其隱含假設與潛在偏誤,並提出值得持續追問的關鍵問題——因為當 AI 變得「愈來愈正確」,真正值得思考的,或許不只是技術本身。
Thumbnail
這篇不是技術白皮書,僅是站在 2025 年尾聲的觀察: LLM 還是你心中的那個答案嗎? 算力再上去一點,電力再多消耗一點,scaling up 就真的會帶著我們走向 AGI 的終點嗎? 還是你更認同 Yann LeCun 的「世界模型」觀點——他認為 LLM 缺乏對物理世界的真實理解,單純依
Thumbnail
這篇不是技術白皮書,僅是站在 2025 年尾聲的觀察: LLM 還是你心中的那個答案嗎? 算力再上去一點,電力再多消耗一點,scaling up 就真的會帶著我們走向 AGI 的終點嗎? 還是你更認同 Yann LeCun 的「世界模型」觀點——他認為 LLM 缺乏對物理世界的真實理解,單純依
Thumbnail
DeepSeek崛起,中國AI新勢力衝擊全球!本文深入探討DeepSeek技術突破、AI產業發展趨勢、企業應用與監管挑戰。阿峰老師剖析AI發展的「油門與煞車」,並分享AI時代個人與企業的應變之道,帶領讀者掌握AI新知,提升競爭力。
Thumbnail
DeepSeek崛起,中國AI新勢力衝擊全球!本文深入探討DeepSeek技術突破、AI產業發展趨勢、企業應用與監管挑戰。阿峰老師剖析AI發展的「油門與煞車」,並分享AI時代個人與企業的應變之道,帶領讀者掌握AI新知,提升競爭力。
Thumbnail
「世界模型」是 AI 領域的新興方向,讓 AI 系統能理解、預測和模擬真實世界,被視為實現通用人工智慧和具身智慧的關鍵。它整合多模態感知輸入,建立對物理世界、空間關係和因果關係的內部模擬器,讓 AI 在行動前預演後果,實現高效學習和更強泛化能力。
Thumbnail
「世界模型」是 AI 領域的新興方向,讓 AI 系統能理解、預測和模擬真實世界,被視為實現通用人工智慧和具身智慧的關鍵。它整合多模態感知輸入,建立對物理世界、空間關係和因果關係的內部模擬器,讓 AI 在行動前預演後果,實現高效學習和更強泛化能力。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News