Andrej Karpathy 2025 年度回顧:為何 AI 正成為你電腦裡的「新物種」?

更新 發佈閱讀 10 分鐘

又到了歲末年終,當我們回顧 2025 年,AI 領域的進展速度依然令人目不暇給。在這片資訊的汪洋中,有幾個名字的觀點,總能為我們提供清晰的航向,Andrej Karpathy 從 OpenAI 的創始成員、到特斯拉 AI 部門的負責人,他對技術的深度理解與獨到見解,讓他的年度回顧成為所有科技關注者不容錯過的思想盛宴。

今年的回顧,Karpathy 提出了六個他認為真正改變了產業樣貌的「典範轉移」。這些轉變不僅僅是技術的迭代,更深層地影響了我們如何看待 AI 的智慧、如何與之互動,甚至徹底改變了軟體開發的本質。

raw-image

2025 LLM Year in Review

2025 年 LLM 六大典範轉移

典範轉移一:用「可驗證獎勵」教 AI 學會「思考」

過去幾年,訓練大型語言模型的標準流程大致穩定在三個階段:預訓練 (Pretraining)、監督式微調 (SFT),以及來自人類回饋的強化學習 (RLHF)。然而,2025 年,一個名為 RLVR (Reinforcement Learning from Verifiable Rewards) 的新階段強勢崛起,成為事實上的新標準。RLVR 的核心概念是,讓 LLM 在具有「可自動驗證」獎勵的環境中進行訓練。

Karpathy 指出,透過在這種環境下長時間的最佳化,LLM 自發性地發展出了類似人類「推理」的策略。它們學會了將複雜問題拆解成中間步驟,並在過程中反覆驗證、修正。這是過往的 SFT 或 RLHF 難以達成的,因為人類也很難明確告訴模型「最佳的思考路徑」是什麼。RLVR 讓模型透過獎勵機制,自己找到了最適合它的解決方案。

這個轉變帶來了幾個關鍵影響:

  • 更高的訓練效率:RLVR 提供了極高的「能力/成本」轉換率,使得原本要投入到預訓練的龐大算力,轉而投入到這個新階段,帶來了更顯著的能力提升。
  • 更強的模型能力:2025 年大部分 LLM 的能力進展,主要來自於各實驗室對 RLVR 這個新方法的深入探索。即使模型大小沒有顯著增加,但更長的強化學習運行時間讓模型變得更聰明。
  • 可控的「思考時間」:RLVR 引入了允許模型透過生成更長的推理鏈、增加「思考時間」,來換取更強大的解決問題能力。從 OpenAI 的 o1 模型初見端倪,到 o3 模型的成熟,使用者已經能直觀感受到這種能力上的質變。

典範轉移二:為何 AI 的智慧如此「參差不齊」?

Karpathy 認為整個產業開始更直觀地理解 LLM 智慧的「形狀」。他提出了一個深刻的比喻:我們不是在「養育動物」,而是在「召喚鬼魂」。

他解釋,LLM 的一切,從神經網路架構、訓練資料到最佳化壓力,都與生物大腦截然不同。人類大腦是為了在叢林中生存而演化,而 LLM 則是為了模仿人類文本、在數學題中拿高分、獲得人類點讚而最佳化。因此,用看待「動物」的眼光去理解 LLM 是不恰當的。

這就導致了 LLM 智慧一個非常有趣的特性:「參差不齊的智慧 (Jagged Intelligence)」。由於 RLVR 這類訓練方法的存在,LLM 在那些「可驗證」的領域(如數學、程式碼)能力會急遽飆升,形成一個個能力的「尖峰」。這也解釋了為何 LLM 可以同時是個博學的天才,卻又像個認知困難的小學生,下一秒就可能被簡單的提示詞攻擊 (Jailbreak) 。

這個「鬼魂理論」也讓 Karpathy 對傳統的基準測試 (Benchmarks) 失去了信心。因為基準測試本質上就是一種可驗證的環境,極易受到 RLVR 或合成資料生成的影響。各大實驗室不可避免地會針對評測項目進行最佳化,這種「為考試而訓練」的現象,也讓我們不禁反思:一個能稱霸所有榜單的 AI,就等於通用人工智慧 (AGI) 嗎?

典範轉移三:LLM 應用程式的時代來臨

在應用層面,Karpathy 特別提到了 Cursor 這款 AI 程式碼編輯器的崛起。他認為 Cursor 的成功,有力地證明了一個全新的「LLM 應用程式」層級的存在,人們開始討論「Cursor for X」的可能性。

這些新一代的 LLM 應用程式,並非只是簡單地包裝一層 API。它們為特定的垂直領域提供了更深度的價值,其核心工作包括:

  • 情境工程 (Context Engineering):自動為 LLM 準備和注入解決問題所需的所有相關背景資訊。
  • 多重呼叫的協調 (Orchestration):在底層,它們會聰明地組織和協調對 LLM 的多次呼叫,將其串成複雜的執行流程,並在性能與成本之間取得平衡。
  • 提供特定應用的圖形介面 (GUI):為使用者提供一個針對特定任務、高度優化的人機互動介面。
  • 提供「自主性滑桿 (Autonomy Slider)」:讓使用者可以自由控制 AI 的介入程度,從簡單的建議到完全自主執行任務。

Karpathy 認為基礎模型廠商像是培養出能力全面的大學畢業生,而這些 LLM 應用程式則像是專業的專案團隊,將這些「畢業生」組織、微調,並真正打造成能部署在特定垂直領域的專業人士。

典範轉移四:不再只是雲端服務,AI 正式「住進」你的電腦

2025 年,Anthropic 推出的 Claude Code 透過循環的方式,將工具使用和推理串聯起來,以解決更長、更複雜的問題,成為第一個令人信服的 LLM Agent (代理人)。

然而,Karpathy 認為 Claude Code 最重要的啟示在於它的運行模式:它運行在你的電腦上,與你的私有環境、數據和情境緊密結合。他直言,OpenAI 早期的 Codex 和 Agent 專案將重心放在雲端容器中,是一個錯誤的方向。雖然雲端代理人集群感覺像是 AGI 的終局,但在當前這個能力參差不齊的「慢速起飛」世界裡,讓 Agent 直接運行在開發者的本機電腦上,顯然是更合理的選擇。

典範轉移五:當寫程式就像聊天,人人都是開發者

Karpathy 觀察到,2025 年 AI 的能力跨越了一個門檻,使得人們可以單純透過自然語言來建構各種令人印象深刻的程式,甚至可以完全忘記程式碼的存在。 他用自己創造的詞「Vibe Coding」來形容這個現象。

Vibe Coding 的核心是,程式設計不再是訓練有素的專業人士的專利,而是任何人都可以參與的活動。Vibe Coding 不僅賦予了普通人寫程式的能力,也讓專業開發者能夠以前所未有的速度,創造出大量過去因為成本或時間考量而不會被寫出來的軟體。程式碼突然變得唾手可得、可隨意修改、甚至用完即丟。他斷言,Vibe Coding 將會徹底改造軟體產業,並改變軟體工程師的工作職責。

典範轉移六:告別純文字,迎接 AI 的「圖形化介面」

最後,Karpathy 將目光投向了人機互動的未來。他認為,LLM 是繼 70、80 年代電腦以來的下一個主要計算範式,因此我們將會看到許多類似的創新。

在他看來,目前與 LLM「聊天」的互動方式,就像是 1980 年代在電腦終端機輸入指令。文字是電腦和 LLM 最擅長處理的原始數據格式,但卻不是人類偏好的格式。人類更喜歡透過視覺和空間來消費資訊,這也是傳統計算機發明圖形化使用者介面 (GUI) 的原因。

同理,LLM 也應該用人類偏好的格式與我們對話,例如圖片、資訊圖表、簡報、白板、動畫影片或網頁應用程式。而 Google 的 Gemini Nano Banana,正是這個未來樣貌的早期線索。Karpathy 強調,其重要性不僅在於圖片生成本身,更在於它將文字生成、圖片生成和世界知識這三者緊密結合在模型權重中的綜合能力。

TN科技筆記的觀點

在 Karpathy 提出的所有典範轉移中,我認為最深刻、且最可能被低估的,是第六點所預示的:AI 正在迎來它的「圖形化介面 (GUI) 時刻」。我們可以說,整個世界正處於 AI 的「MS-DOS 時代」,雖然功能強大,但使用門檻依然存在於如何下達精準的「文字咒語」(Prompt)。而 Nano Banana 這類模型的出現,暗示 AI 的「Windows 時代」即將到來。

這為何如此重要?因為它徹底解放了 AI 的普及潛力。人類是視覺動物,我們理解一張圖表的速度遠勝於閱讀一段文字。當 AI 不再只能「說」,而是能夠「畫」、「展示」、「設計」時,它就不再只是一個問答工具,而是成為一個真正的夥伴與知識轉譯者。這個轉變,將會是繼 LLM 賦予普通人程式設計能力之後,更大規模的一次「權力下放」。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
67會員
205內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/12/17
解析 NVIDIA 最新的 Nemotron-3 開放模型家族 (Nano, Super, Ultra)。了解其為 AI 代理 (Agentic AI) 設計的混合架構、強化學習訓練,以及前所未有的開放生態系,為何將定義下一個 AI 時代。
Thumbnail
2025/12/17
解析 NVIDIA 最新的 Nemotron-3 開放模型家族 (Nano, Super, Ultra)。了解其為 AI 代理 (Agentic AI) 設計的混合架構、強化學習訓練,以及前所未有的開放生態系,為何將定義下一個 AI 時代。
Thumbnail
2025/12/12
解析 OpenAI 最新模型 GPT-5.2。本文將深入探討其在專業工作、寫程式、抽象推理 (ARC-AGI) 與視覺分析的突破性功能,並提供完整的價格資訊與未來影響分析。
Thumbnail
2025/12/12
解析 OpenAI 最新模型 GPT-5.2。本文將深入探討其在專業工作、寫程式、抽象推理 (ARC-AGI) 與視覺分析的突破性功能,並提供完整的價格資訊與未來影響分析。
Thumbnail
2025/12/11
NVIDIA 推出 CUDA Tile,這是一場 GPU 編程的革命。本文將解析其核心概念、與傳統 SIMT 的差異,以及 cuTile 如何讓 Python 開發者輕鬆駕馭 Tensor Core 的強大效能。
Thumbnail
2025/12/11
NVIDIA 推出 CUDA Tile,這是一場 GPU 編程的革命。本文將解析其核心概念、與傳統 SIMT 的差異,以及 cuTile 如何讓 Python 開發者輕鬆駕馭 Tensor Core 的強大效能。
Thumbnail
看更多
你可能也想看
Thumbnail
玉山 Unicard 新戶首刷禮,百大指定消費最高 7.5% 回饋,其中包含日本、韓國、臺灣在地 100 大指定通路,以及國內外旅遊平台、航空公司點數回饋上限1000點。 五大平台每月最高可回饋點數 500 點,今年年底前(12 月底)最後申辦機會,使用期限直達 2026 年 6 月,快把握機會!
Thumbnail
玉山 Unicard 新戶首刷禮,百大指定消費最高 7.5% 回饋,其中包含日本、韓國、臺灣在地 100 大指定通路,以及國內外旅遊平台、航空公司點數回饋上限1000點。 五大平台每月最高可回饋點數 500 點,今年年底前(12 月底)最後申辦機會,使用期限直達 2026 年 6 月,快把握機會!
Thumbnail
許多人為了信用卡優惠,持有大量信用卡,看似精打細算,實則可能浪費時間、造成財務混亂。本文以玉山Unicard為例,探討如何透過整合回饋、簡化選擇,解決多卡族的痛點,實現簡易消費與簡單理財。
Thumbnail
許多人為了信用卡優惠,持有大量信用卡,看似精打細算,實則可能浪費時間、造成財務混亂。本文以玉山Unicard為例,探討如何透過整合回饋、簡化選擇,解決多卡族的痛點,實現簡易消費與簡單理財。
Thumbnail
Anthropic、Google AI 技術突破!3D世界與智慧代理再升級 AI應用正深刻影響各行各業,從心理健康法規到技術創新,這些變化不僅重塑市場,也引發倫理與隱私的討論。了解最新趨勢,讓你在AI時代保持競爭力!
Thumbnail
Anthropic、Google AI 技術突破!3D世界與智慧代理再升級 AI應用正深刻影響各行各業,從心理健康法規到技術創新,這些變化不僅重塑市場,也引發倫理與隱私的討論。了解最新趨勢,讓你在AI時代保持競爭力!
Thumbnail
當前的人工智慧(AI)技術,已不再只是實驗室中的前瞻研究,而是逐漸走入日常,從聊天機器人到圖片生成工具、語音助手、推薦演算法,AI正在改變我們工作的方式、生活的節奏,甚至學習與創作的模式。 在台灣,這場轉變也正在發生中。 最近在方格子上,我也注意到有越來越多格友分享與AI相關的創作與思考。有
Thumbnail
當前的人工智慧(AI)技術,已不再只是實驗室中的前瞻研究,而是逐漸走入日常,從聊天機器人到圖片生成工具、語音助手、推薦演算法,AI正在改變我們工作的方式、生活的節奏,甚至學習與創作的模式。 在台灣,這場轉變也正在發生中。 最近在方格子上,我也注意到有越來越多格友分享與AI相關的創作與思考。有
Thumbnail
歡迎體驗《寶寶吉拉科技日報》,為您提供最新的科技突破、趨勢與洞見。本期涵蓋AI進展、社會變遷與創新設備,塑造未來科技新面貌。每篇報導包含摘要、詳細內容及原始連結,並在最後分析未來趨勢。以下為今日精選新聞: OpenAI勁敵Anthropic狠賺 年化營收達30億美元 摘要:被譽為OpenAI最
Thumbnail
歡迎體驗《寶寶吉拉科技日報》,為您提供最新的科技突破、趨勢與洞見。本期涵蓋AI進展、社會變遷與創新設備,塑造未來科技新面貌。每篇報導包含摘要、詳細內容及原始連結,並在最後分析未來趨勢。以下為今日精選新聞: OpenAI勁敵Anthropic狠賺 年化營收達30億美元 摘要:被譽為OpenAI最
Thumbnail
加入免費👉Discord群組/TG Channel接收市場要聞、產業動態和更新通知。
Thumbnail
加入免費👉Discord群組/TG Channel接收市場要聞、產業動態和更新通知。
Thumbnail
本文以李飛飛教授的 AI 發展觀點為主軸,探討 AI 從生物視覺起源、圖靈啟發、ImageNet 突破,到大型語言模型及空間智慧的演進歷程。強調「以人為本 AI」的核心價值:尊嚴、主體性、社群,並提出 AI 治理應以科學為基礎、採實用主義,並建立健康的 AI 生態系統。
Thumbnail
本文以李飛飛教授的 AI 發展觀點為主軸,探討 AI 從生物視覺起源、圖靈啟發、ImageNet 突破,到大型語言模型及空間智慧的演進歷程。強調「以人為本 AI」的核心價值:尊嚴、主體性、社群,並提出 AI 治理應以科學為基礎、採實用主義,並建立健康的 AI 生態系統。
Thumbnail
AI人工智慧、大數據和雲端科技在永續(ESG)領域的應用方式,包括AI在環境管理和資源管理;大數據技術在ESG報告和評估的資訊整合分析;雲端科技促進合作和可存取性,以及促進永續供應鏈管理。這些技術的整合有助於推動企業邁向更為永續、能夠量化、監測和改進環境、社會和公司治理的影響,並提升資訊透明度。
Thumbnail
AI人工智慧、大數據和雲端科技在永續(ESG)領域的應用方式,包括AI在環境管理和資源管理;大數據技術在ESG報告和評估的資訊整合分析;雲端科技促進合作和可存取性,以及促進永續供應鏈管理。這些技術的整合有助於推動企業邁向更為永續、能夠量化、監測和改進環境、社會和公司治理的影響,並提升資訊透明度。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News