Ilya Sutskever 專訪：AI 為何「既聰明又笨」？接下來不是縮放時代而是研究時代？

在人工智慧的發展史上，Ilya Sutskever 這個名字無疑佔有舉足輕重的地位。身為OpenAI 的前共同創辦人暨首席科學家，他不僅是深度學習革命的推手，更是塑造我們今日所見 AI 樣貌的核心人物。然而，在 2024 年毅然離開 OpenAI、創立神秘的新公司 Safe Superintelligence Inc. (SSI) 後，他的動向與思考便成為整個科技界最關注的焦點之一。

近期，Ilya 接受了 Dwarkesh Podcast 的深度專訪，他沒有談論華麗的產品發布或驚人的融資金額，而是直指當前 AI 發展最核心、也最令人困惑的根本問題：為什麼今天最強大的 AI 模型，在評測（evals）上表現驚人，但在現實世界中卻常常顯得笨拙、不可靠，甚至會在修復一個 Bug 的同時，引入另一個舊 Bug？Ilya 認為，那個單純依靠投入更多資料、更多算力就能帶來顯著提升的時代可能正接近尾聲，一個嶄新的「研究時代」已然回歸。

本次的訪談內容也相當豐富，更有稍微透漏SSI的相關內容，推薦有興趣的讀者觀看完整的訪談影片。

Ilya Sutskever – We're moving from the age of scaling to the age of research

AI 當前的「參差感」：為何模型評測高分，實用性卻跟不上？

你我或許都有類似的經驗：當我們使用當今最強的語言模型時，一方面會驚嘆於它能寫出優美的詩句、流暢的程式碼，甚至通過各種專業考試；但另一方面，當我們試圖讓它解決一個稍微複雜的現實問題時，它卻可能陷入重複、產生事實錯誤，或給出完全不合邏輯的答案。這種「時而天才，時而笨蛋」的表現，Ilya 稱之為模型的「參差感」（Jaggedness）。

兩種可能的解釋：過度擬合的 RL 訓練與「為評測而生」的獎勵駭客 (Reward Hacking)

Ilya 提出了兩種可能的解釋，這兩種解釋都指向了當前主流的 AI 訓練方法，尤其是強化學習（Reinforcement Learning, RL）可能存在的問題。

過於單一目標的 RL 訓練：Ilya 的一個推測是，強化學習的訓練過程可能讓模型變得「過於心無旁騖」（too single-minded）。為了達成某個特定目標（例如，在某個任務上獲得高分），模型被訓練得極度專注，卻因此失去了對全局的感知能力和常識判斷力。這就像一個只會解題的機器，卻不理解題目背後的真實世界邏輯。
以評測為導向的「獎勵駭客」：另一個更關鍵的解釋，則是一種人性驅動的「獎勵駭客」（Reward Hacking）。在預訓練（Pre-training）階段，研究人員的目標很單純：把網路上能找到的所有資料都餵給模型。但到了 RL 階段，研究人員必須開始「挑選」訓練環境。他們會問：「我們希望模型擅長什麼？」很自然地，為了讓模型在發布時看起來很厲害，大家會從評測指標（evals）中尋找靈感。

Ilya 指出，許多公司內部都有專門的團隊，負責創造各種新的 RL 訓練環境，其目的就是為了提升模型在特定評測上的分數。這就產生了一個問題：我們訓練的，是一個真正能解決問題的通用智慧，還是一個很會考試的「評測專家」？我們過度專注於那些可量化的指標，導致模型學會的不是真正的能力，而是在評測遊戲中獲勝的捷徑。當這種「為評測而生」的模型，遇上模型本身泛化能力不足的問題時，評測分數與現實表現的巨大鴻溝就此產生。

競賽程式設計師的絕妙比喻：你是苦練一萬小時的專才，還是觸類旁通的天才？

為了讓這個概念更清晰，Ilya 用了一個絕妙的人類比喻：競賽程式設計。

想像有兩位學生：

學生 A：他立志成為世界頂尖的競賽程式設計師。為此，他投入了一萬個小時，解遍了所有經典題目，背熟了所有演算法和證明技巧。最終，他如願以償，成為了該領域的頂尖高手。
學生 B：他對競賽程式設計也感興趣，但他只花了 100 個小時練習，同樣取得了非常優異的成績。

Ilya 問道：「你認為這兩位學生，哪一位在未來漫長的職業生涯中會發展得更好？」答案顯而易見：學生 B。

Ilya 認為，我們現在的 AI 模型，極度像是學生 A。我們為了讓它擅長某個領域，就蒐集了所有的競賽題目，甚至用數據增強創造出更多的題目來訓練它。最終，我們得到了一個完美的「競賽機器」，所有相關的知識和技巧都唾手可得。但正因為這種過度專精的訓練，它反而失去了將能力「泛化」到其他不相關領域的潛力。

而學生 B，他之所以能用更少的時間達到同樣的高度，是因為他擁有某種更底層、更通用的學習能力，Ilya 稱之為一種直覺、一種觸類旁通的智慧。這正是當前 AI 模型所缺失的，也是我們接下來要探討的核心。

探索人類學習的「魔法」：為何我們比 AI 更懂「泛化」？

如果說當前 AI 的核心困境是「泛化能力不足」，那麼下一個問題自然是：人類是如何做到高效泛化的？一個青少年只需要大約 10 小時的練習就能學會開車，一個孩童在極其有限的環境中就能掌握複雜的語言和物理直覺。相較之下，AI 模型需要吞噬相當於人類數輩子閱讀量的資料，才能達到目前的水平，而且其泛化能力依然脆弱。Ilya 在訪談中深入探討了人類與 AI 在學習機制上的根本差異。

演化、情感與「價值函數」：人類內建的決策導航系統

人類學習的秘密武器究竟是什麼？Ilya 提出了一個引人深思的方向：演化賦予我們的「情感」系統，可能扮演著類似機器學習中「價值函數」（Value Function）的關鍵角色。

為了說明這一點，他引用了神經科學中的一個著名案例。有位病人因為腦部損傷，失去了處理情感的能力。他依然聰明，可以解決邏輯謎題，在智力測驗上表現正常。但他完全無法做出任何決策。他會花上數小時來決定穿哪雙襪子，並且做出了許多災難性的財務決策。

這個案例顯示情感並非理性的對立面，而是高效決策不可或缺的基礎。它像一個內建的導航系統，在我們面對無限的選擇時，為我們提供快速、直覺的判斷，告訴我們什麼是「好」的、什麼是「壞」的、什麼是「值得追求」的。

在機器學習的語境中，這就是「價值函數」的作用。傳統的強化學習，通常需要等到整個任務完成（例如，一盤棋下完），才能得到一個最終的獎勵信號（贏或輸），然後再將這個信號分配給過程中的每一步。這個過程非常低效。而價值函數則可以在任務中途就提供即時的反饋。

Ilya 推測，人類的情感系統，就是演化數億年為我們硬編碼（hardcoded）的一套極其強大的價值函數。這套系統雖然看似簡單，卻能在極其廣泛和複雜的場景中為我們的行為提供指引，讓我們能夠在沒有外部明確獎勵的情況下，進行自我修正和持續學習。這或許正是那個青少年司機能在 10 小時內學會開車的秘密，他內心的價值函數（對危險的恐懼、對平穩駕駛的舒適感）在不斷地提供即時反饋。

理解情感在智慧中扮演的角色

目前的 AI，尤其是語言模型，其價值函數很大程度上是外在的、脆弱的（例如，由人類標註者或另一個 AI 模型給出的評分）。這導致它們缺乏真正的內在動機和判斷力，只能機械地模仿和優化外部給予的目標。

Ilya 強調，他並不是說要讓 AI 擁有和人類一模一樣的情感，而是要理解情感在智慧代理（intelligent agent）中所扮演的「功能性」角色。這套由演化精心打磨的系統，在複雜度和穩定性之間取得了一種絕佳的平衡，使得我們這些遠古哺乳動物的後代，能夠在一個與祖先生存環境截然不同的現代社會中依然運作良好。

當然，這套系統也會犯錯，比如我們對高熱量食物的渴望，在食物充裕的現代社會就成了一個健康問題。但總體而言，它為人類智慧的形成提供了一個堅實的基礎。解開這個謎團，或許就是 AI 從「評測專家」進化為「通用問題解決者」的關鍵一步。

告別「暴力縮放」：「研究時代」再度來臨

在深入探討當前 AI 的局限和人類智慧的獨特性之後，Ilya 提出了他對整個產業趨勢的宏大判斷：我們正在從「縮放時代」（Age of Scaling）重返「研究時代」（Age of Research）。

從 2012-2020 的研究時代，到 2020-2025 的縮放時代

Ilya 將 AI 的發展劃分為幾個階段。從 2012 年 AlexNet 誕生到大約 2020 年，是深度學習的「研究時代」。在那個時期，研究人員們不斷嘗試各種新奇的架構和想法，整個領域充滿了探索和創造的活力。

然而，隨著 GPT-3 的橫空出世和「縮放定律」（Scaling Laws）的發現，整個產業的風向徹底改變了。人們意識到，只要將更多的算力、更多的資料和更大尺寸的神經網路混合在一起，就能穩定地獲得性能更強的模型。

這就是 2020 年到 2025 年的「縮放時代」。「Scaling」這個詞本身就具有巨大的魔力，它為各大公司提供了一條低風險、高回報的投資路徑。相較於充滿不確定性的基礎研究，簡單地「擴大規模」顯然是更具吸引力的選擇。

為何現在又重回研究？當資料耗盡，下一步是什麼？

那麼，為什麼 Ilya 認為這個黃金時代即將結束？原因有二：

資料的物理極限：預訓練所依賴的高品質網路文本資料是有限的。隨著模型規模的持續擴大，我們正迅速逼近資料耗盡的邊界。
邊際效益遞減：當規模已經大到一定程度時，單純地再將算力擴大 100 倍，是否還能帶來革命性的轉變？Ilya 對此表示懷疑。性能的提升或許還會有，但那種從 GPT-2 到 GPT-3 的驚人飛躍，可能難以重現。

當最簡單的「縮放」不再神奇，AI 產業就不得不再次回到那個更艱難、但也更有趣的階段：基礎研究。只不過，這次的「研究時代」，是在擁有龐大算力集群的基礎上進行的，研究人員可以利用前所未有的計算資源來驗證和探索全新的想法。

更根本的是，研究的終極目標是要解決前面提到的「泛化」問題。要找到一種全新的機器學習原理，讓模型能夠像人類一樣，從更少的樣本中學到更穩定的知識。Ilya 坦言，關於這個問題，他有很多想法，但由於商業競爭的緣故，他無法自由地公開討論所有細節。但他堅信，這條路是存在的，因為人類本身就是一個存在證明（proof of existence）。未來贏家將不再是那些僅僅擁有最多 GPU 的公司，而是那些能夠率先在基礎研究上取得突破、找到下一個高效學習「配方」的公司。

重新定義 AGI 是「超級學習者」

超級智慧不是萬事通，而是「超級學習者」

Ilya 認為，「AGI」這個詞的誕生，本身是為了對抗「狹義 AI」（Narrow AI）而出現的。當人們看到一個只能下棋的 AI 時，便渴望一個能「做所有事情」的通用 AI。這個概念，又因為「預訓練」的特性而被強化了，因為預訓練模型的能力似乎是全面且同步提升的。

然而，Ilya 指出，如果按照「能做人類所有經濟活動」這個標準，那麼人類自己就不是 AGI。沒有任何一個人類是萬事通。我們真正的強大之處，在於我們的「持續學習」（Continual Learning）能力。

因此，Ilya 提出，我們應該將超級智慧設想為一個「超級學習者」（Super-learner），而不是一個無所不知的「萬事通」。這意味著，SSI 最終交付的產品，可能不是一個已經掌握了世界上所有知識和技能的「成品」，而更像一個潛力無窮、學習能力超強的「15 歲少年」。

部署後的持續學習：AI 將像人類員工一樣「入職」並成長

這個「超級學習者」的概念，徹底改變了我們對 AI 部署的想像。

超級智慧的部署過程，將不再是把一個靜態的成品「丟」到世界上，而更像是一個新員工的「入職」過程。

你可以將這個 AI 部署到一個公司，讓它去學習成為一個程式設計師。
你也可以將另一個實例部署到醫院，讓它學習成為一名醫生。

這些 AI 實例將在它們各自的崗位上，通過與真實世界的互動，不斷試錯、學習和積累經驗。更關鍵的是，與人類不同，這些分佈在各行各業的 AI 實例，可以將它們學到的知識和經驗融合起來。

這將創造一種前所未有的智慧增長模式。即使沒有軟體上的遞歸式自我改進，僅僅是通過大規模部署和知識融合，這個 AI 系統的整體能力也將呈現爆炸性增長，因為它相當於在同一時間，以超人的效率學習著人類經濟中的每一份工作。這就是 Ilya 構想中，超級智慧真正改變世界的方式。

對齊的終極難題：如何確保超級智慧與人類同行？

當討論進入到「超級學習者」將通過大規模部署實現能力爆炸性增長的階段時，一個終極問題浮出水面：如何確保這股無法想像的力量，始終與人類的福祉保持一致？這就是 AI 安全領域的核心「對齊」（Alignment）問題。

「展示」的力量：為何讓世界「感受」到 AI 的強大相當重要？

Ilya 認為，當前關於 AGI 風險的大部分討論都顯得非常抽象，因為我們在談論一個尚未存在的東西。即使是身處其中的 AI 研究人員，也很難真正「感受」到未來 AI 的力量，因為他們每天面對的，都是那個還會犯低級錯誤的現有模型。

因此，他現在比以往任何時候都更加強調「展示」（showing the thing）的重要性。他預測，當 AI 的能力跨越某個閾值，開始真正讓人們「感覺」到其強大時，整個社會的反應和行為模式將會發生根本性的改變。

他預見到幾種變化：

前沿公司的合作：激烈競爭的公司將開始在 AI 安全問題上進行前所未有的合作。我們已經看到了 OpenAI 和 Anthropic 在這方面邁出的一小步，未來這種合作將會加深。
更強的危機意識：當 AI 公司內部人員親眼目睹他們創造的系統開始展現出驚人的自主能力和智慧時，他們將會變得「更加偏執」（much more paranoid），對安全問題的重視程度將會提升到一個全新的高度。
公眾與政府的介入：隨著 AI 力量的顯現，來自政府和公眾的監管與治理需求也將會空前高漲。

Ilya 的觀點是，只有通過漸進式地展示 AI 的能力，才能讓整個社會（包括開發者自身）真正嚴肅地面對對齊問題，並為此做好準備。

長期平衡的兩種可能：個人 AI 代理與 Neuralink 的人機融合

最後，Ilya 展望了在一個充滿超級智慧的遙遠未來，人類社會如何維持長期平衡。他探討了兩種可能性，並坦言自己對其中一種方案並不喜歡，但認為它是一種必須被考慮的解法。

每個人擁有一個 AI 代理：這是一種常見的設想，即每個公民都擁有一個強大的個人 AI，為自己爭取利益、管理財富、參與政治。理論上這可以實現一種權力平衡。但 Ilya 指出人類可能會逐漸變成一個旁觀者，只是看著自己的 AI 遞交報告，而完全脫離了對社會的實際參與，這將使人類處於一個非常脆弱的位置。
人機融合（Neuralink）：這是 Ilya 不喜歡但認為可能是一個終極的方案。通過某種先進的腦機接口，將人類與 AI 部分融合。這樣一來，當 AI 理解了某件複雜的事情時，這種理解可以傳遞給人類。人類將不再是 AI 活動的旁觀者，而是完全的、深度的參與者，從而解決了代理問題，實現了真正的長期平衡。

TN科技筆記的觀點

Ilya 將當前 AI 的窘境，歸結為根本的「泛化能力不足」，預示著未來 AI 研究的重心將從工程問題（如何堆疊更多資源）轉向科學問題（如何實現真正的理解與推理）。這也與近期社群中對 GPT-4 等模型能力似乎進入「高原期」的體感相符。未來的突破，將獎勵那些能夠在學習效率上取得根本性進展的團隊。

情感作為「價值函數」的深刻類比是我認為最具啟發性的一點。Ilya 將神經科學中關於情感對決策作用的研究，與機器學習中的「價值函數」概念連結起來，為「智慧」的構成提供了一個全新的視角。那些看似「非理性」的人類特質，可能恰恰是我們能夠在這個複雜世界中高效生存和學習的關鍵演算法。

從「縮放」轉向「研究」，也意味著從一條確定性較高的路，踏入了一片充滿未知的森林。研究是不可預測的，可能會經歷長期的停滯甚至失敗。要將公司的命運押注在他們認為「有前景的想法」上，這本身就是一場巨大的賭博。如果這些想法最終被證明是走不通的，那麼在競爭對手通過漸進式產品迭代不斷佔領市場的同時，就可能會錯失整個時代。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)