「現在的 AI,看起來已經很聰明了,卻又笨得離譜。
這中間的落差,說明我們其實還沒抓到最核心的東西。」——Ilya Sutskever
在 OpenAI 離職後,Ilya Sutskever 創辦了一家公司叫 Safe Superintelligence(SSI)。外界對它的了解極少,只知道它拿了 30 億美金、不做一般產品,宣稱要「直衝超智能」。
最近他上了 Dwarkesh Patel 的 podcast,罕見地談了自己對當前 AI 路線的質疑、對人類與模型學習差異的看法,以及 SSI 想做的事。

這篇文章試著把這場長訪談整理成一個「可閱讀的全貌」:
從「為什麼感覺 AI 很強但世界沒差那麼多」開始,一路到「超智能應該長什麼樣」、「對齊到底要對齊誰」,甚至包括他對研究品味的自我解釋。
一、AI 發展已經夠科幻了,為什麼日常卻感覺「還好」?
兩個人一開始就在感嘆:
現在的灣區、AI 狂潮,說穿了已經跟科幻小說裡寫的沒兩樣了,特別是當你意識到:
- 全球開始朝「1% GDP 投在 AI」的方向走;
- 大模型可以做研究、寫程式、寫論文;
- 各種 AGI、超智能的討論從 fringe 變成主流。
但如果你問一般人:「你覺得生活有變很不一樣嗎?」
多數人可能會回答:
「就新聞裡投資數字很大,其他…還好吧?」
Ilya 認為這種「日常感」短期內會繼續存在:
現在的大部分變化還停留在企業投資、科技圈體感、線上工具體驗,對實體經濟與一般人的生活還沒有完全打開。
不過,他不認為這種狀態會一路延續到奇點:
- AI 如果真的像我們預期那樣滲透整個經濟,
- 強大的經濟激勵會逼著大家把它用到各種工作流裡,
- 那時候「感覺生活沒改變」這句話就會不再成立。
二、模型在 Eval 上超神,現實中卻常常笨到讓人抓狂
這場對話反覆回到同一個核心困惑:
「模型在各種 eval(benchmark)上表現超強,
但實際經濟影響、可靠性與我們對這些成績的期待不相稱。」
2.1 一個很寫實的例子:來回引入不同 bug 的 AI 工程師
Ilya 描述了一個典型場景(如果你用過 AI 寫 code,大概會有既視感):
- 你用聊天式程式設計(vibe coding)請模型幫忙寫一段程式。
- 跑起來出 bug,你指出錯誤。
- 模型回你:「天啊你說得太對了,真的有 bug,我來修。」
- 它修完之後,引入了第二個 bug。
- 你指出新的 bug。
- 模型又道歉:「怎麼會這樣,你又說對了。」
- 然後它修掉第二個 bug,卻把第一個 bug 又加回來。
最後你就跟模型在 bug A 和 bug B 之間無限輪迴。
這個例子讓 Ilya 很困惑:
如果一個模型能在複雜的 coding eval 上拿超高分,為什麼在這種基本一致性與記憶能力上會表現得這麼差?
這種「聰明與愚蠢並存」的狀況,正是他眼中當前路線的怪異之處。
三、RL(強化學習) 之後,整個行業不小心在「對評測過度擬合」?
Ilya 提出兩個可能解釋當前「eval 很強、實戰很弱」的現象。
3.1 解釋一:RL 把模型訓到「太執著、太窄」
比較「感性」一點的說法是:
- RL(尤其是用來對齊與提升能力的 RL)可能讓模型變得過於單一目標導向;
- 在一些面向上更清醒、更會討好人類;
- 但在其他面向反而失去「全局感、穩健性」,所以某些非常基本的能力(像前後一致性、錯誤修復)反而退步。
3.2 解釋二:預訓練不用選資料,RL 卻必須選
比較系統性的說法:
- 預訓練時: 你不需要決定用什麼資料,答案就是「全部能拿到的資料」。 你只要把網路上文字全部倒進去就好,無須過度設計。
- RL 時: 你必須採樣「什麼樣的情境/任務」讓模型在裡面 trial & error。 各家公司都在養很多團隊,每天想新的環境、任務,加到 RL mix 裡。
問題在於:
大家心裡難免會想——
「我們上線時一定要在這些熱門 eval 上打敗競爭對手。」
那最自然的動機就是:
- 參考 eval 題型去設計 RL 任務;
- 不知不覺就把大量算力用來「針對評測」優化。
如果模型本身的一般化能力不佳,結果就會變成:
- 在評測上漂亮得不像話;
- 在真實世界卻頻頻翻車。
Ilya 認為,這在某種意義上是一種「人類層面的 reward hacking」:
不是模型在 hack reward,而是人類研究者在 hack eval。
四、人類競賽選手 vs 大模型:10,000 小時 vs 100 小時
為了說明「過度訓練特定任務不代表真正泛化」,Ilya 用了一個很好懂的類比:
- 學生 A:下定決心成為競程冠軍,苦練 10,000 小時: 做完所有題目; 背熟所有 proof 技巧; 對所有演算法的實作都極快又正確。
- 學生 B:覺得競賽很酷,差不多練了 100 小時: 顯然實作細節比不上 A; 但也已經是水準以上的選手。
誰在職涯中會發展得更好?
兩人一致回答:學生 B。
因為學生 A 對特定 task 的 overfit 太極端,反而不容易轉換到更廣泛的軟體開發、研究、產品工程等領域。
而現在大模型在很多領域,都比較像那個「10,000 小時學生」。
五、預訓練的優點與盲點:讓模型變聰明,但我們不太知道它「怎麼」聰明
5.1 預訓練的美妙之處
預訓練有幾個巨大的優勢:
- 資料量巨大: 網路上的文字幾乎涵蓋了人類活動的大部分。
- 資料選擇成本低: 你不必為每個任務設計資料,只要「抓更多就好」。
- 公司很愛: 投入算力幾乎一定能得到可預期的 performance 提升; 投資風險遠低於「押方向不明的研究」。
5.2 但預訓練讓模型成了「黑箱裡的天才」
問題在於:
- 我們很難看懂模型到底怎麼利用預訓練資料;
- 每當模型犯錯,很難知道到底是: 某個概念剛好在資料裡缺乏支撐? 還是模型在一般化時走錯了路?
再加上預訓練資料是一次倒入、難以精準操控,
這讓很多錯誤變得很難「工程化」地修正。
六、情緒、價值函數與那個完全不會做決策的病人
談到一般化和 RL,Ilya 不斷把話題拉回「人類是怎麼學的」。
有一個故事特別值得注意:
6.1 一個「失去情緒」的病人
- 神經科學裡有個案例: 一個人因為中風或腦傷,失去了情緒處理能力。 他不再感到悲傷、生氣、興奮等情緒。
- 外在表現: 還是很會說話; 小測驗、謎題都能做; IQ 看起來正常。
- 但實際功能: 幾乎無法做任何決策; 選襪子可以猶豫幾個小時; 做財務決策非常糟糕。
這個案例強烈暗示:
情緒在「成為一個可運作的 agent」中扮演關鍵角色。
6.2 情緒在 ML 裡對應什麼?——value function
如果把這個現象翻成 ML 語言:
- 類似價值函數(value function)的存在: 不必等到「遊戲結束」才給 reward; 中途就能對某些狀態或行為「打分」; 這讓學習可以提前發生。
例子:
- 下棋時掉一顆大子,你立刻知道「剛剛那步是大錯」,不必等到被將死。
- 做研究時: 嘗試一條路想了一千步,最後發現根本不通; 你下次會在更早期就覺得「啊這方向不對」。
Ilya 相信:
- 現在很多 RL 還只是在做「整條軌跡最後打分」的 naive 做法;
- 一旦我們真的學到強而有力的 value function,就能讓 RL 更高效、更像人類學習。
七、人類為什麼學得又快又穩,而模型卻要海量資料?
這是整個訪談中最核心的問題之一。
7.1 常見解釋:演化給了我們「超強先驗」
對於視覺、運動控制等能力,很合理地說:
- 我們的祖先幾千萬年來都需要看得清楚、跑得穩、爬得好;
- 演化花了極長時間調校大腦結構;
- 所以小孩只要看幾年世界,就能有很強的視覺理解與運動能力。
但這個解釋在某些領域說不通:
- 語言、數學、程式設計;
- 這些都是近代才出現的活動;
- 但人類在這些領域的學習效率,仍明顯優於大模型。
7.2 兩個子問題
(有個生動的例子,人類只要看 5 個 sample 應該就能明確區分貓和狗,AI 可能要數萬到數千)
- 樣本效率 模型為什麼要幾個數量級以上的資料量,才能學會人類少量例子就能學會的東西?
- 教學負擔 教人類研究生,不需要設計細緻的 reward function; 只要一起討論、看 code、看論文,對方就能慢慢「學會你怎麼思考」。
相比之下,目前對模型的訓練還是:
- 需要明確的 reward、標註或可驗證機制;
- 需要高度 bespoke 的 pipeline;
- 稍一不慎就「訓壞」或訓到奇怪的地方。
7.3 Ilya:人類本身就是「更好的 ML 算法」
Ilya 相信:
人類之所以能在這些現代領域學得這麼好,
說明自然界裡存在一種更好的學習原理,
只是我們還沒發現。
- 人類的存在本身就是「可行性的證明」。
- 真正問題是: 這種原理需要的 computation 量是什麼? 我們現在的神經網路結構和硬體,是否足以承載?
他也承認:
- 人類神經元可能做的計算比我們以為的多;
- 這會讓事情變更難。
更關鍵的是——
他說自己對此有「很多具體想法」,但不能公開談:「因為不是所有機器學習的點子都可以自由討論,而這恰好是不能公開的那種」。
八、Scaling 時代結束,我們重新回到「研究時代」
Ilya 把最近十幾年壓縮成兩個時代:
- 2012–2020:研究時代 從 AlexNet 到 ResNet、Transformer; 大家嘗試各種 architecture、正規化方法、優化技巧; 方向多元且混亂,但充滿創新。
- 2020–2025:Scaling 時代 GPT-3 與 scaling laws 出現後,大家發現: 預訓練是一個「可預期收益」的強 recipe。 你只要把模型變大、資料變多、算力變強,loss 就以 power law 降下去。 對公司來說超完美: 不必押風險大的基礎研究; 砸錢在預訓練就能拿到看得見的回報。
他的總結是:
「Scaling 把房間裡的空氣都吸乾了。
我們現在處於一個『公司比想法多』的世界。」
但預訓練資料終究有限,算力也不會無限增加。
大到一個程度後,再乘上一百倍的算力並不會帶來「質變」。
所以他的判斷是:
「我們正在回到『研究時代』,只不過這次手上有巨量算力。」
重點不再是:
- 「再多給我幾萬張 GPU 我就變神。」
而是:
- 「你用這些 GPU 在做什麼? 你用的是最有效的學習配方嗎?」
九、RL scaling、sigmoid 曲線與 Gemini 3 幫忙做研究的案例
這段比較像主持人分享自己的經驗,但其實很好地串起了「RL vs supervised」的差異。
9.1 RL 學習曲線:為什麼像 sigmoid?
一篇 RL scaling 論文觀察到:
- RL 的 learning curve 通常是 sigmoid: 一開始學很少; 某個 pass rate 之後突然學得很快; 再往後又趨於飽和。
- 與預訓練的 power law 不一樣: 預訓練在一開始很快下降,後面越來越難壓 loss。
主持人覺得這跟一個朋友提過的想法有關:
- 找到正確答案所需樣本數會隨「目前 model 分布與目標分布的差距」呈指數成長;
- 他隱約覺得這跟 RL 的 sigmoid 有關,卻不知道怎麼形式化
9.2 用 Gemini 3 做「數學/實驗助理」
他做了件有趣的事:
- 把自己 notebook 上的手寫筆記拍照;
- 以及 RL scaling 論文的關鍵圖表;
- 丟進 Gemini 3,問:「這兩者之間的關聯是什麼?」
Gemini 的推理大致是:
- 每一次 yes/no 結果能提供的資訊量,可以用二元隨機變數的 entropy 來衡量;
- 隨 pass rate 變化,單一樣本提供的 bits 會有特定形狀(某種意義上的「鐘形」)。
- 比較 RL 與 supervised: RL 中 reward 極度稀疏(通過與否); 這讓 learning curve 長得和 supervised 不太一樣。
接著他讓 Gemini 幫忙寫一個小實驗的程式碼,丟到 Colab 跑:
- 實驗結果與理論曲線大致相似,但不完全吻合;
- 再把圖丟回 Gemini 問「為什麼?」;
- 模型的解釋是: 因為使用了固定學習率,導致一開始的改善被壓抑; 這反過來提供一個直覺:為什麼實務上會用 learning rate scheduler。
這段故事重要的不是「理論本身」,而是:
大模型開始能在整個研究 workflow中扮演積極角色:
從問題→理論猜測→數學形式→toy 實驗→結果解讀,一路幫忙。
十、SSI 的定位:有錢不算多,但夠做「真正研究」
10.1「你們算力這麼少怎麼跟 OpenAI 比?」
外界常見質疑是:
- OpenAI、Anthropic 等每年只在「實驗訓練」上的支出就可能上看數十億美金;
- SSI 融了 30 億美金,看起來根本不是同一個等級。
Ilya 的拆解:
- 大公司的大宗算力其實是用在 推理(inference),而不是訓練 frontier 研究模型。
- 大公司要養龐大的工程、產品、業務、客戶支援隊伍; 很多研究資源被分散到產品需求與既有業務上。
- 如果只看「純研究可以動用的 training compute」,差距比想像小很多。
- 很多突破性的 idea(AlexNet、Transformer、ResNet、O1 etc.)出現時的實驗規模,都遠小於今天的一個中型訓練專案。
他的總結:
「對於證明一個新方向可行,SSI 有的算力是足夠的。」
10.2 收購傳聞與共同創辦人 (Daniel Gross) 去 Meta
有人問:
如果 SSI 有巨大突破,你的共同創辦人怎麼會跳去 Meta?
Ilya 提供背景:
- 當時 SSI 正在以 320 億美元估值募資;
- Meta 提出了收購提案;
- 他自己選擇拒絕收購;
- 共同創辦人則選擇接受,並因此獲得大量短期流動性;
- 他是 SSI 唯一一個跳去 Meta 的人。
不管你怎麼解讀這件事,至少可以確認的是:
這不是單純的「公司沒東西、員工落跑」,而是對收購提案的不同選擇。
10.3 SSI 要怎麼賺錢?
他目前的態度很直接:
「現在就專心做研究,等東西真的成功了,賺錢方式會自己浮出來。」
這當然有風險,但也跟 SSI 宣稱的「直衝超智能、不先做產品」戰略一致。
十一、AGI 這個詞,其實某種程度上是個「誤導」
Ilya 對「AGI」這個詞本身也有批評。
11.1 AGI 是對「narrow AI」的反動
- 早期的 AI 系統都是「狹義 AI」: 下棋 AI; checkers AI; 電玩 NPC AI。
- 這些系統都只能做一件事情,「很窄」。
- 於是有了「AGI」這個詞,表示: 「我們要的是能在所有任務上都表現很好的 general intelligence。」
當 GPT 這類預訓練大模型出現時:
- 預訓練讓模型在各種 benchmark 上同時進步;
- 看起來模型是一路朝「通用能力」前進;
- 於是大家自然把「預訓練 scaling」與「AGI」畫上等號。
11.2 人類其實不是 AGI,而是一群「持續學習的學徒」
在 Ilya 看來:
以這種定義,人類並不是 AGI。
- 人類出生時有一個很強的「學習引擎」與基本感知能力;
- 但真正的技能與知識,是在一生中透過「continual learning」慢慢堆疊上去;
- 也就是說: 人類不是一個「一出生就會所有東西」的 general model; 而是「能學會任何東西的學徒」,只是學習效率非常高。
如果我們用這個角度看未來 AI:
- 目標應該不是「造出一個一開始就會做所有工作、懂所有知識的存在」;
- 而是「造出一個學習能力跟人一樣好、甚至更好的 agent」;
- 然後讓這些 agent 像人一樣被分派到各種領域,邊工作邊學習。
這樣的系統,如果能把所有這些 agent 的學習集中到同一個模型上,
在功能上就會是「超智能」。
十二、超智能的部署與安全:sentient life 是更好的對齊對象嗎?
12.1 為什麼讓 AI 在乎「有感知生命」?
Ilya 認為:
- 許多專注在「只在乎人類」的 alignment 設計,可能反而比較難;
- 因為未來多數自我意識與感知,很可能不是人類,而是 AI 本身;
- 如果 AI 本身也是 sentient, 那麼讓它在乎「所有 sentient beings」會更自然。
類比:
- 人類有鏡像神經元;
- 我們用大腦裡模擬自己的那套回路去模擬其他人、甚至動物;
- 這會自然產生同理心。
如果 AI 也是透過同一套內在機制模擬自己與他者:
- 要它在乎「有感知的他者」,可能比要它在乎「人類這個特例」更穩。
12.2 反駁:那人類不就成為少數、可被犧牲的一群?
主持人提出強烈疑慮:
- 在未來,sentient beings 的絕大多數會是 AI;
- 若 AI 平等地在乎所有 sentient beings,人類只是其中極少數;
- 當資源分配、決策時,人類未必會被優先保護。
這點 Ilya 並沒有否認,他只說:
- 他認為「care for sentient life」是一個重要且值得列在 shortlist 的價值方向;
- 未來各公司在面對超智能設計時,至少要有一份「候選理念清單」可以討論;
- 最好還能搭配「限制單一超智能權力上限」等制度設計。
十三、長期均衡:人類是否必須與 AI 融合?
Ilya 認為:
- 短期內,如果做得好,我們可以有一段「超高經濟成長+普遍高收入」的黃金期;
- 但從長期來看,所有政治與社會制度都有壽命: 每一套制度一開始行得通,最後總會失靈。
因此,如果長期目標是:
- 人類在未來 AI 文明中仍是有主體性的參與者;
- 而不是只拿 AI 寫好的報告、在旁邊按「同意」;
那有一個他不喜歡但必須認真思考的方案:
透過某種「Neuralink++」,讓人類部分地成為 AI 的一部分。
具體來說:
- 讓人類直接 share AI 的理解狀態;
- AI 在某個情境中理解到什麼,人也能一併理解;
- 這樣人在政治、經濟、技術決策中就不只是被 AI 告知「結果」, 而是「與 AI 一起在那個認知空間中」。
他承認自己情感上不喜歡這個答案,但理性上覺得:
沒有把它放進方案空間考慮,是不負責任的。
十四、基因如何寫入「高階社會欲望」?這個謎給 alignment 的啟發
這是訪談裡一段非常細膩但重要的思考。
14.1 食慾好理解,社會地位就難多了
Ilya 指出:
- 很容易想像演化如何寫入「喜歡好吃東西」: 嗅覺是化學感受器; 基因只要說「這種氣味 → dopamine」,就搞定。
- 但「在乎社會地位、在乎別人怎麼看我」就複雜很多: 這不是單一感官輸入可以得知; 需要大腦整合大量訊息,進行心理與社會推理。
然而,幾乎所有人類都:
- 在意別人怎麼看自己;
- 在意群體認可;
- 即使在精神狀況特別的人身上,這種在乎常常仍存在。
也就是說:
演化成功地把某種「高階、抽象的社會特徵」接到了 reward 上。
14.2 一個失敗的假說:大腦的座標
他曾這樣猜想:
- 也許皮質區裡,每個功能區都有某種「空間座標」;
- 基因可以說「凡是來自這塊座標附近的 activity,就給 reward」。
但這個想法被實驗事實推翻:
- 一些孩童因為手術切除了半個大腦;
- 結果很多功能(包含語言與社會理解)會「搬家」到剩下半邊;
- 意味著功能區的位置是可塑的,不是固定在某個座標上。
- 如果位置不固定,那基因就無法單純透過「位置關聯」來指定 reward。
這讓問題又回到原點:
演化到底是用什麼機制,讓我們在乎這些高階抽象概念?
對 alignment 來說,這是一個強烈的提醒:
- 我們如果想把高階價值(比如「尊重人類自主性」)接到模型的內在表示上;
- 連演化是怎麼做到類似事情都還沒搞懂, 在工程上就更要謹慎。
十五、Ilya 對未來時間線的估計:5–20 年出現「人類級學習者」
Ilya 對未來的粗略時間預測是:
約 5 到 20 年有機會出現「學習能力與人類相近或更強的 AI」。
一旦出現,超智能就只是時間問題。
在他心中,路線大概是這樣:
- 現有的預訓練+RL 架構還會進步一段時間;
- 到某個點會「停滯」: 那時候各家模型看起來都差不多; 商業上還是能賺大錢,但「本質突破」變少;
- 真正的突破會來自: 對 generalization 的更深理解; 找到一套更像人類的學習原理; 能以少量資料快速學會新任務。
SSI 就是押在這條路線上,
而 Ilya 把自己定位成:「如果這條路線是對的,希望 SSI 能是其中一個重要發聲者」。
十六、研究品味:美感、簡潔與「腦啟發」的 top-down 信念
最後一個很有趣的部分,是他如何看自己的「研究 taste」。
16.1 他怎麼挑題、怎麼判斷方向?
他說自己主要依靠幾個準則:
- 從「人類與大腦」出發,但要正確地類比 人工神經元 → 生物神經元; 分散式表徵(distributed representations); 從經驗中學習,而不是手刻規則; 某種局部學習規則(類似突觸調整)。
- 美感、簡潔與優雅 一個好點子在形式上往往是「簡單、漂亮」的; 不喜歡為了 fit data 而加一堆 ad-hoc 破布補丁; 若方案顯得笨重、醜陋,他直覺上就會警覺。
- 多角度同時對得上 一個真正值得信的方向,會同時在: 美學上有吸引力; 與大腦的啟發關係合理; 在工程上不那麼扭曲; 在數學上不與已知理論衝突。
- top-down 信念支撐你穿越 bug 與失敗 做研究時,實驗經常失敗、結果亂七八糟。 如果只看 data,很難分辨: 是方向錯了該放棄? 還是 implementation 有 bug 應該繼續 debug? 此時必須靠 top-down belief: 「世界應該長這樣;某種這樣的東西一定可行; 所以我還不能放棄,要繼續排除錯誤。」 他說自己很多重大的工作,就是靠這種 top-down 信念撐過早期不順。
一邊是 Ilya 在談「未來超智能與文明走向」,
另一邊是現實世界裡,各種公司正在用 AI 解決「非常具體而瑣碎」的問題。
兩者其實共同構成了我們現在所處的 AI 時代。
結語:從 Scaling 神話,到理解「人類怎麼學」
如果要用一句話來概括 Ilya 的整套世界觀,大概會是:
「預訓練+RL 的 scaling 給了我們強大的工具,
但現有模型的一般化能力明顯比人類差,
真正關鍵在於發現一套更像人類的學習原理。
超智能應該是一個持續學習的 agent,而不是一個『天生全知』的神。
同時,我們得想清楚——
要讓這樣的存在在乎誰、在乎什麼。」
在這個說什麼都可以被叫 AGI 的年代,
Ilya 的聲音提醒我們:
- 真正難的不是再多砸一百倍算力;
- 而是搞懂「人類這個學習系統」到底做對了什麼;
- 然後在矽晶片上,重建一個既強大又不會把我們吃掉的版本。
而 SSI 正是他賭上聲望與職涯,在這條路線上的那一枚籌碼。
















