又到了歲末年終,當我們回顧 2025 年,AI 領域的進展速度依然令人目不暇給。在這片資訊的汪洋中,有幾個名字的觀點,總能為我們提供清晰的航向,Andrej Karpathy 從 OpenAI 的創始成員、到特斯拉 AI 部門的負責人,他對技術的深度理解與獨到見解,讓他的年度回顧成為所有科技關注者不容錯過的思想盛宴。
今年的回顧,Karpathy 提出了六個他認為真正改變了產業樣貌的「典範轉移」。這些轉變不僅僅是技術的迭代,更深層地影響了我們如何看待 AI 的智慧、如何與之互動,甚至徹底改變了軟體開發的本質。

2025 年 LLM 六大典範轉移
典範轉移一:用「可驗證獎勵」教 AI 學會「思考」
過去幾年,訓練大型語言模型的標準流程大致穩定在三個階段:預訓練 (Pretraining)、監督式微調 (SFT),以及來自人類回饋的強化學習 (RLHF)。然而,2025 年,一個名為 RLVR (Reinforcement Learning from Verifiable Rewards) 的新階段強勢崛起,成為事實上的新標準。RLVR 的核心概念是,讓 LLM 在具有「可自動驗證」獎勵的環境中進行訓練。
Karpathy 指出,透過在這種環境下長時間的最佳化,LLM 自發性地發展出了類似人類「推理」的策略。它們學會了將複雜問題拆解成中間步驟,並在過程中反覆驗證、修正。這是過往的 SFT 或 RLHF 難以達成的,因為人類也很難明確告訴模型「最佳的思考路徑」是什麼。RLVR 讓模型透過獎勵機制,自己找到了最適合它的解決方案。
這個轉變帶來了幾個關鍵影響:
- 更高的訓練效率:RLVR 提供了極高的「能力/成本」轉換率,使得原本要投入到預訓練的龐大算力,轉而投入到這個新階段,帶來了更顯著的能力提升。
- 更強的模型能力:2025 年大部分 LLM 的能力進展,主要來自於各實驗室對 RLVR 這個新方法的深入探索。即使模型大小沒有顯著增加,但更長的強化學習運行時間讓模型變得更聰明。
- 可控的「思考時間」:RLVR 引入了允許模型透過生成更長的推理鏈、增加「思考時間」,來換取更強大的解決問題能力。從 OpenAI 的 o1 模型初見端倪,到 o3 模型的成熟,使用者已經能直觀感受到這種能力上的質變。
典範轉移二:為何 AI 的智慧如此「參差不齊」?
Karpathy 認為整個產業開始更直觀地理解 LLM 智慧的「形狀」。他提出了一個深刻的比喻:我們不是在「養育動物」,而是在「召喚鬼魂」。
他解釋,LLM 的一切,從神經網路架構、訓練資料到最佳化壓力,都與生物大腦截然不同。人類大腦是為了在叢林中生存而演化,而 LLM 則是為了模仿人類文本、在數學題中拿高分、獲得人類點讚而最佳化。因此,用看待「動物」的眼光去理解 LLM 是不恰當的。
這就導致了 LLM 智慧一個非常有趣的特性:「參差不齊的智慧 (Jagged Intelligence)」。由於 RLVR 這類訓練方法的存在,LLM 在那些「可驗證」的領域(如數學、程式碼)能力會急遽飆升,形成一個個能力的「尖峰」。這也解釋了為何 LLM 可以同時是個博學的天才,卻又像個認知困難的小學生,下一秒就可能被簡單的提示詞攻擊 (Jailbreak) 。
這個「鬼魂理論」也讓 Karpathy 對傳統的基準測試 (Benchmarks) 失去了信心。因為基準測試本質上就是一種可驗證的環境,極易受到 RLVR 或合成資料生成的影響。各大實驗室不可避免地會針對評測項目進行最佳化,這種「為考試而訓練」的現象,也讓我們不禁反思:一個能稱霸所有榜單的 AI,就等於通用人工智慧 (AGI) 嗎?
典範轉移三:LLM 應用程式的時代來臨
在應用層面,Karpathy 特別提到了 Cursor 這款 AI 程式碼編輯器的崛起。他認為 Cursor 的成功,有力地證明了一個全新的「LLM 應用程式」層級的存在,人們開始討論「Cursor for X」的可能性。
這些新一代的 LLM 應用程式,並非只是簡單地包裝一層 API。它們為特定的垂直領域提供了更深度的價值,其核心工作包括:
- 情境工程 (Context Engineering):自動為 LLM 準備和注入解決問題所需的所有相關背景資訊。
- 多重呼叫的協調 (Orchestration):在底層,它們會聰明地組織和協調對 LLM 的多次呼叫,將其串成複雜的執行流程,並在性能與成本之間取得平衡。
- 提供特定應用的圖形介面 (GUI):為使用者提供一個針對特定任務、高度優化的人機互動介面。
- 提供「自主性滑桿 (Autonomy Slider)」:讓使用者可以自由控制 AI 的介入程度,從簡單的建議到完全自主執行任務。
Karpathy 認為基礎模型廠商像是培養出能力全面的大學畢業生,而這些 LLM 應用程式則像是專業的專案團隊,將這些「畢業生」組織、微調,並真正打造成能部署在特定垂直領域的專業人士。
典範轉移四:不再只是雲端服務,AI 正式「住進」你的電腦
2025 年,Anthropic 推出的 Claude Code 透過循環的方式,將工具使用和推理串聯起來,以解決更長、更複雜的問題,成為第一個令人信服的 LLM Agent (代理人)。
然而,Karpathy 認為 Claude Code 最重要的啟示在於它的運行模式:它運行在你的電腦上,與你的私有環境、數據和情境緊密結合。他直言,OpenAI 早期的 Codex 和 Agent 專案將重心放在雲端容器中,是一個錯誤的方向。雖然雲端代理人集群感覺像是 AGI 的終局,但在當前這個能力參差不齊的「慢速起飛」世界裡,讓 Agent 直接運行在開發者的本機電腦上,顯然是更合理的選擇。
典範轉移五:當寫程式就像聊天,人人都是開發者
Karpathy 觀察到,2025 年 AI 的能力跨越了一個門檻,使得人們可以單純透過自然語言來建構各種令人印象深刻的程式,甚至可以完全忘記程式碼的存在。 他用自己創造的詞「Vibe Coding」來形容這個現象。
Vibe Coding 的核心是,程式設計不再是訓練有素的專業人士的專利,而是任何人都可以參與的活動。Vibe Coding 不僅賦予了普通人寫程式的能力,也讓專業開發者能夠以前所未有的速度,創造出大量過去因為成本或時間考量而不會被寫出來的軟體。程式碼突然變得唾手可得、可隨意修改、甚至用完即丟。他斷言,Vibe Coding 將會徹底改造軟體產業,並改變軟體工程師的工作職責。
典範轉移六:告別純文字,迎接 AI 的「圖形化介面」
最後,Karpathy 將目光投向了人機互動的未來。他認為,LLM 是繼 70、80 年代電腦以來的下一個主要計算範式,因此我們將會看到許多類似的創新。
在他看來,目前與 LLM「聊天」的互動方式,就像是 1980 年代在電腦終端機輸入指令。文字是電腦和 LLM 最擅長處理的原始數據格式,但卻不是人類偏好的格式。人類更喜歡透過視覺和空間來消費資訊,這也是傳統計算機發明圖形化使用者介面 (GUI) 的原因。
同理,LLM 也應該用人類偏好的格式與我們對話,例如圖片、資訊圖表、簡報、白板、動畫影片或網頁應用程式。而 Google 的 Gemini Nano Banana,正是這個未來樣貌的早期線索。Karpathy 強調,其重要性不僅在於圖片生成本身,更在於它將文字生成、圖片生成和世界知識這三者緊密結合在模型權重中的綜合能力。
TN科技筆記的觀點
在 Karpathy 提出的所有典範轉移中,我認為最深刻、且最可能被低估的,是第六點所預示的:AI 正在迎來它的「圖形化介面 (GUI) 時刻」。我們可以說,整個世界正處於 AI 的「MS-DOS 時代」,雖然功能強大,但使用門檻依然存在於如何下達精準的「文字咒語」(Prompt)。而 Nano Banana 這類模型的出現,暗示 AI 的「Windows 時代」即將到來。
這為何如此重要?因為它徹底解放了 AI 的普及潛力。人類是視覺動物,我們理解一張圖表的速度遠勝於閱讀一段文字。當 AI 不再只能「說」,而是能夠「畫」、「展示」、「設計」時,它就不再只是一個問答工具,而是成為一個真正的夥伴與知識轉譯者。這個轉變,將會是繼 LLM 賦予普通人程式設計能力之後,更大規模的一次「權力下放」。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)



















