Andrej Karpathy 2025 年度回顧：為何 AI 正成為你電腦裡的「新物種」？

2025/12/22 更新2025/12/22 發佈閱讀 10 分鐘

又到了歲末年終，當我們回顧 2025 年，AI 領域的進展速度依然令人目不暇給。在這片資訊的汪洋中，有幾個名字的觀點，總能為我們提供清晰的航向，Andrej Karpathy 從 OpenAI 的創始成員、到特斯拉 AI 部門的負責人，他對技術的深度理解與獨到見解，讓他的年度回顧成為所有科技關注者不容錯過的思想盛宴。

今年的回顧，Karpathy 提出了六個他認為真正改變了產業樣貌的「典範轉移」。這些轉變不僅僅是技術的迭代，更深層地影響了我們如何看待 AI 的智慧、如何與之互動，甚至徹底改變了軟體開發的本質。

2025 LLM Year in Review

2025 年 LLM 六大典範轉移

典範轉移一：用「可驗證獎勵」教 AI 學會「思考」

過去幾年，訓練大型語言模型的標準流程大致穩定在三個階段：預訓練 (Pretraining)、監督式微調 (SFT)，以及來自人類回饋的強化學習 (RLHF)。然而，2025 年，一個名為 RLVR (Reinforcement Learning from Verifiable Rewards) 的新階段強勢崛起，成為事實上的新標準。RLVR 的核心概念是，讓 LLM 在具有「可自動驗證」獎勵的環境中進行訓練。

Karpathy 指出，透過在這種環境下長時間的最佳化，LLM 自發性地發展出了類似人類「推理」的策略。它們學會了將複雜問題拆解成中間步驟，並在過程中反覆驗證、修正。這是過往的 SFT 或 RLHF 難以達成的，因為人類也很難明確告訴模型「最佳的思考路徑」是什麼。RLVR 讓模型透過獎勵機制，自己找到了最適合它的解決方案。

這個轉變帶來了幾個關鍵影響：

更高的訓練效率：RLVR 提供了極高的「能力/成本」轉換率，使得原本要投入到預訓練的龐大算力，轉而投入到這個新階段，帶來了更顯著的能力提升。
更強的模型能力：2025 年大部分 LLM 的能力進展，主要來自於各實驗室對 RLVR 這個新方法的深入探索。即使模型大小沒有顯著增加，但更長的強化學習運行時間讓模型變得更聰明。
可控的「思考時間」：RLVR 引入了允許模型透過生成更長的推理鏈、增加「思考時間」，來換取更強大的解決問題能力。從 OpenAI 的 o1 模型初見端倪，到 o3 模型的成熟，使用者已經能直觀感受到這種能力上的質變。

典範轉移二：為何 AI 的智慧如此「參差不齊」？

Karpathy 認為整個產業開始更直觀地理解 LLM 智慧的「形狀」。他提出了一個深刻的比喻：我們不是在「養育動物」，而是在「召喚鬼魂」。

他解釋，LLM 的一切，從神經網路架構、訓練資料到最佳化壓力，都與生物大腦截然不同。人類大腦是為了在叢林中生存而演化，而 LLM 則是為了模仿人類文本、在數學題中拿高分、獲得人類點讚而最佳化。因此，用看待「動物」的眼光去理解 LLM 是不恰當的。

這就導致了 LLM 智慧一個非常有趣的特性：「參差不齊的智慧 (Jagged Intelligence)」。由於 RLVR 這類訓練方法的存在，LLM 在那些「可驗證」的領域（如數學、程式碼）能力會急遽飆升，形成一個個能力的「尖峰」。這也解釋了為何 LLM 可以同時是個博學的天才，卻又像個認知困難的小學生，下一秒就可能被簡單的提示詞攻擊 (Jailbreak) 。

這個「鬼魂理論」也讓 Karpathy 對傳統的基準測試 (Benchmarks) 失去了信心。因為基準測試本質上就是一種可驗證的環境，極易受到 RLVR 或合成資料生成的影響。各大實驗室不可避免地會針對評測項目進行最佳化，這種「為考試而訓練」的現象，也讓我們不禁反思：一個能稱霸所有榜單的 AI，就等於通用人工智慧 (AGI) 嗎？

典範轉移三：LLM 應用程式的時代來臨

在應用層面，Karpathy 特別提到了 Cursor 這款 AI 程式碼編輯器的崛起。他認為 Cursor 的成功，有力地證明了一個全新的「LLM 應用程式」層級的存在，人們開始討論「Cursor for X」的可能性。

這些新一代的 LLM 應用程式，並非只是簡單地包裝一層 API。它們為特定的垂直領域提供了更深度的價值，其核心工作包括：

情境工程 (Context Engineering)：自動為 LLM 準備和注入解決問題所需的所有相關背景資訊。
多重呼叫的協調 (Orchestration)：在底層，它們會聰明地組織和協調對 LLM 的多次呼叫，將其串成複雜的執行流程，並在性能與成本之間取得平衡。
提供特定應用的圖形介面 (GUI)：為使用者提供一個針對特定任務、高度優化的人機互動介面。
提供「自主性滑桿 (Autonomy Slider)」：讓使用者可以自由控制 AI 的介入程度，從簡單的建議到完全自主執行任務。

Karpathy 認為基礎模型廠商像是培養出能力全面的大學畢業生，而這些 LLM 應用程式則像是專業的專案團隊，將這些「畢業生」組織、微調，並真正打造成能部署在特定垂直領域的專業人士。

典範轉移四：不再只是雲端服務，AI 正式「住進」你的電腦

2025 年，Anthropic 推出的 Claude Code 透過循環的方式，將工具使用和推理串聯起來，以解決更長、更複雜的問題，成為第一個令人信服的 LLM Agent (代理人)。

然而，Karpathy 認為 Claude Code 最重要的啟示在於它的運行模式：它運行在你的電腦上，與你的私有環境、數據和情境緊密結合。他直言，OpenAI 早期的 Codex 和 Agent 專案將重心放在雲端容器中，是一個錯誤的方向。雖然雲端代理人集群感覺像是 AGI 的終局，但在當前這個能力參差不齊的「慢速起飛」世界裡，讓 Agent 直接運行在開發者的本機電腦上，顯然是更合理的選擇。

典範轉移五：當寫程式就像聊天，人人都是開發者

Karpathy 觀察到，2025 年 AI 的能力跨越了一個門檻，使得人們可以單純透過自然語言來建構各種令人印象深刻的程式，甚至可以完全忘記程式碼的存在。他用自己創造的詞「Vibe Coding」來形容這個現象。

Vibe Coding 的核心是，程式設計不再是訓練有素的專業人士的專利，而是任何人都可以參與的活動。Vibe Coding 不僅賦予了普通人寫程式的能力，也讓專業開發者能夠以前所未有的速度，創造出大量過去因為成本或時間考量而不會被寫出來的軟體。程式碼突然變得唾手可得、可隨意修改、甚至用完即丟。他斷言，Vibe Coding 將會徹底改造軟體產業，並改變軟體工程師的工作職責。

典範轉移六：告別純文字，迎接 AI 的「圖形化介面」

最後，Karpathy 將目光投向了人機互動的未來。他認為，LLM 是繼 70、80 年代電腦以來的下一個主要計算範式，因此我們將會看到許多類似的創新。

在他看來，目前與 LLM「聊天」的互動方式，就像是 1980 年代在電腦終端機輸入指令。文字是電腦和 LLM 最擅長處理的原始數據格式，但卻不是人類偏好的格式。人類更喜歡透過視覺和空間來消費資訊，這也是傳統計算機發明圖形化使用者介面 (GUI) 的原因。

同理，LLM 也應該用人類偏好的格式與我們對話，例如圖片、資訊圖表、簡報、白板、動畫影片或網頁應用程式。而 Google 的 Gemini Nano Banana，正是這個未來樣貌的早期線索。Karpathy 強調，其重要性不僅在於圖片生成本身，更在於它將文字生成、圖片生成和世界知識這三者緊密結合在模型權重中的綜合能力。

TN科技筆記的觀點

在 Karpathy 提出的所有典範轉移中，我認為最深刻、且最可能被低估的，是第六點所預示的：AI 正在迎來它的「圖形化介面 (GUI) 時刻」。我們可以說，整個世界正處於 AI 的「MS-DOS 時代」，雖然功能強大，但使用門檻依然存在於如何下達精準的「文字咒語」(Prompt)。而 Nano Banana 這類模型的出現，暗示 AI 的「Windows 時代」即將到來。

這為何如此重要？因為它徹底解放了 AI 的普及潛力。人類是視覺動物，我們理解一張圖表的速度遠勝於閱讀一段文字。當 AI 不再只能「說」，而是能夠「畫」、「展示」、「設計」時，它就不再只是一個問答工具，而是成為一個真正的夥伴與知識轉譯者。這個轉變，將會是繼 LLM 賦予普通人程式設計能力之後，更大規模的一次「權力下放」。