老黃:大家誤會AI只有預訓練跟推理,覺得DS的出現減少了推理的成本,但大家忘了有後訓練這一階段,甚至比預訓練更吃算力
這段訪談的含金量超過太多次法說會上的數字,能夠免費聽到DDN邀請老黃訪談的這些內容很賺。附上連結,有興趣的可以參考,老黃是從44分開始訪談
https://www.youtube.com/live/F3NJ5TwTaTI?si=B3DY_sNRBE-PN5wU
我統整了三大重點分享給大家
重點一:後訓練(Post-Training)所需的算力甚至比預訓練更大
*市場誤會LLM只有預訓練(Pre-Training)+ 推理(Inference),其實LLM是預訓練+後訓練(Post-Training)+推理(Reasoning)。大家對預訓練都很熟悉了,就是把數據導入模型開始上課讀書,但後訓練是各領域將專業知識(醫療、法律等)導入模型做商業化的訓練,也就是上課完了回家寫題庫解題,假設沒有後訓練這個動作,就沒有商業價值,有了價值之後才可以用這個能力出門上班賺錢(推理)。
*為什麼後訓練所需的算力甚至比預訓練更大?後訓練的幾個主要工作包括 SFT(用人類標註資料微調)、RLHF(強化學習+人類回饋)、Self-Refine(AI幫自己糾錯),這些動作是要來回N遍試錯,每個過程都是算力密集型的工作,沒有強大的算力。另外預訓練是一次性的訓練,後訓練是會日益增加,企業一直灌新思維進去一直調,可以是無止盡的。(而訪談中的算力需求,我認為講的是未來所需的總量,而非在此刻所需的量)
重點二:現在AI要的推理不是Inference而是更高階的Reasoning推理,算力需求會比過去更高
*市場認為 AI 已經訓練完了,未來的計算需求會大幅下降,而隨著 AI 開始進行更高階的推理(Reasoning)與決策,Reasoning AI的最終目的不只要像人類一樣理解世界還要超越人類現有頭腦的思維,推理越多答案質量越高,所以算力需求會比過去更高
*Inference和Reasoning兩種推理差別在哪裡?Inference就是模型教他什麼,他就被定型為什麼,不會學習新東西,只有標準答案,而Reasoning是會從跟人類與其他AI互動中去學新東西開始拆解問題,自己發現新的規律創造新知識,不斷產生新的假設來檢查結果。像是Reasoning AI 在醫學領域可以超越人類現有邏輯推出新的治療方法,而不只是比對既有病例去推論該如何治療。或是一般Level2的自駕系統偏向inference依賴原先設定好的地圖跟感測器做反應,如果前方有障礙物,車子就停下來,而TSLA的FSD就是Reasoning,前方有障礙物他就會像人類一樣繞道
重點三:市場忽略了代理AI+數位孿生的重要性,未來所有公司都將走入數位世界
*AI就是要產生商業價值,而AI代理相當重要,過去我們對於公司的數據有很多疑問(我白話的翻譯就是我們沒get到數據代表的含義),或是我們想像力就是不足,但AI代理會去進行數據交叉查局、生出有意義的報告來幫助企業的獲利,還省時間
*當AI代理跟數位孿生結合的時候,就能夠實現極巨突破性的事情,訪談中的舉例:在現實世界中研發某種治療疾病的藥物,成本極高,可能需要數十億美元、數年時間,還要通過 FDA審核,最後可能還是不成功。如果有 10 種不同的研究方向,無法依序或同時進行所有實驗,這時候就可以在數位孿生中建立數位分身(Digital Twins),同時去模擬這些研究方向,在虛擬環境中測試並找到最佳解決方案,從而大幅加速創新過程並降低成本
*原文:所有公司最終都會希望能夠在數位世界中運作,因為在數位世界中,一切的運行速度都更快。而 Omniverse 的概念,就是讓每家公司都能擁有自己的 數位分身(Digital Twin),這個想法非常深遠且具有革命性。然而,我不確定所有人都真正理解它的重要性。這正是我們目前的發展旅程:我們從超級運算(Supercomputing)進入企業應用(Enterprise),現在則是從企業應用邁向企業的數位分身(Digital Twin of Enterprise)
*因為目前市面上最成熟的AI代理+數位孿生大概就是PLTR,所以聽到這一段感覺就是PLTR的代名詞,等市場冷卻後我會寫PLTR的深度講解。而數位孿生最受惠的也是NVDA,他早已準備好Omniverse平台跟滿滿算力
總結來說,目前還沒看到GPU需求遞減的跡象,AI能變的花樣超越我們想像力,當然在資本市場大家還是看增速跟評價,不過以目前評20幾倍來看,不管禮拜四的財報如何,他都是一個中長期的送分題
NVDA 1year forward PE(by BBG)
你不知道這杯熱水何時會涼,但你知道他一定會涼。
2025.02.24 宋分