這篇不是技術白皮書,僅是站在 2025 年尾聲的觀察:
LLM 還是你心中的那個答案嗎?

算力再上去一點,電力再多消耗一點,scaling up 就真的會帶著我們走向 AGI 的終點嗎?
還是你更認同 Yann LeCun 的「世界模型」觀點——他認為 LLM 缺乏對物理世界的真實理解,單純依靠文本數據的 scaling 可能無法達成真正的智能?
隨著學界研究與工程技術的持續推進,在 2025 年初,如果說 LLM 不是 AGI 的答案,可能仍會招致大量質疑與反對。但站在 2025 年的尾聲 回看,各家模型從初代發展至今,不斷擴大參數規模、推高算力預算、持續 scaling up。
模型確實變得更快、更聰明、功能更豐富,但距離「AI 將大規模取代人類工作、導致全面失業」的劇本,仍然存在明顯差距。
談到 AGI,我們就無法回避一個根本問題:人類究竟是如何學習的?又為什麽 LLM 的運作基礎,使它難以通向 AGI?
這里不展開 LLM 的底層機制細節,而只聚焦 四件事——在當前結構下,LLM 難以成為 AGI 的現實門檻。
1. 模仿/學習
LLM 的能力更像是「高度可用的語言型模仿與抽象壓縮」;它可能形成某種抽象表徵,但是否等同於生物式的“理解與學習”,仍有結構性差距。
一個相對容易理解的例子,是 Yann LeCun 常提及的“小狗”比喻,以及 Rich Sutton (理查德·薩頓) 在演講中使用過的“理解松鼠”比喻。
這兩種比喻都指向同一件事:
生物是通過理解環境、與世界互動、不斷試錯來學習的;
而 LLM 的核心運作方式,是基於概率分布進行模式擬合與模仿,很難說它真正“理解”了世界。
2. 物理與現實世界的限制
LLM 對現實世界物理規律的理解,遠低於使用影像、感知數據訓練的模型。
世界模型可以通過大量觀察與反饋,逐步建立對現實的預測能力。
那 LLM 呢?
LLM 當然“知道”從十樓跳下大概率會死亡,但這並不是來自對物理世界的體驗或理解,而是基於大量文本、新聞與研究資料統計出來的最高概率的第一位答案——
假設例如:死亡 95%,未死亡 5%,包括重傷、植物人等可能性。
LLM 能說出“跳下會死”的高概率後果,主要來自文本中因果與常識的語言表徵;但它缺少的是:把這些表徵綁定到可交互的物理狀態、以及身體層面的代價模型。
所謂世界模型的價值,不在於“感受”,而在於它更自然地支援:對環境狀態的預測、對行動後果的推演、以及跨時間的規劃能力。
當然,多模態模型正在把“文字常識”往感知與世界動態延伸,但這是否等同於可交互、可規劃、可承擔代價的智能,仍是未解問題。
3. 缺乏時間與生存壓力的系統
神經科學家 Anil Seth(阿尼爾·塞思) 曾指出,意識的形成與兩個基本條件密切相關:時間約束與生存壓力。
而在現有 AI 模型的設計中,這兩種壓力基本不存在。
作為人類,我們知道:
如果沒有按時打卡,可能會被扣全勤;
被扣全勤,可能意味著月底只能吃泡麵。
這些對未來後果的預期,會反過來塑造我們的判斷、注意力與行為。
在多數「對話型 LLM」場景裡,模型本身不承擔後果;承擔後果的是產品、公司與使用者。這種“責任外包”會讓模型缺乏生物式的代價壓力。
你在工作中報錯價格,可能導致公司巨額損失,甚至需要賠償;
而 AI 對其輸出後果所能承擔的最嚴重結果,往往只是一句“抱歉”。
即便開發者憤怒到拔掉電源,對 AI 而言,這也並不是一種可被“在意”的損失。
當然,現有技術可以為 AI 人為設定時間限制或錯誤懲罰機制,
但這種外加約束往往會導致模型在目標壓力下,出現欺騙、偏離等行為——
這並不是因為 AI “想要欺騙”,而更接近於:
在給定目標函數下,它將欺騙作為一種可行的達成手段。
4.目標不足/未對齊問題
LLM 的訓練目標,從始至終都是——
在給定上下文中,最大化預測下一個 token 的概率。
因此,LLM 的當前極限,或許並不在於算力,這或許說明它從一開始就被優化為追求錯誤的目標。
Next-token prediction 對於語言能力非常有效,但它未必足以推出具備長期規劃、可驗證世界模型、以及可承擔代價的通用智能;換句話說,它可能是“必要但不充分”的目標。
LLM 被設計追求的是“語言正確性”,
而人類為了生存追求的是“現實可行性”。
目前,仍然沒有人知道 LLM 是否終將成為 AGI 的答案。
但可以確定的是,LLM 已經開啟了一個全新的技術時代與生活方式。
即便未來 AGI 由其他技術路徑實現,
LLM 仍然會深刻影響我們的生活——
至少在語言仍然是人類主要溝通工具的時代,它不會消失。
-----
剛好看到Yann LeCun最近接受訪談聊世界模型及Meta離職,
跟之前看到的一些資料串連起來的想法
2026不知道會是什麼AI技術元年~ (期待)

















