你們是否很興奮來到拉斯維加斯?你們喜歡我的外套嗎?我覺得在這裡,我必須穿得與眾不同。即使大家一開始不喜歡,慢慢地你們會接受它,並對此感到愉快。歡迎來到NVIDIA。
其實,你們現在正處於NVIDIA的數位孿身(Digital Twin)中,而這個環境完全由人工智慧生成。
這是一段非凡的旅程,也是一個非凡的一年,一切始於1993年。我們當時推出了NV1,目標是打造能實現一般電腦無法完成的功能的電腦。NV1讓PC擁有遊戲主機的功能。我們的程式架構名為UDA(Unified Device Architecture),最早的應用是SEGA的《Virtua Fighter》。六年後,在1999年,我們發明了可編程的GPU,這開啟了超過20年的技術進步,並奠定了GPU成為一個非凡處理器的基石。
今天,30年後,《Virtua Fighter》已經達到完全電影化的品質。這是即將推出的全新版本,我迫不及待地想與你們分享這些令人驚艷的進展。
六年之後(即2006年),我們發明了CUDA,這使我們能夠將GPU的可編程性擴展到能受益於更多演算法的豐富應用中。起初,CUDA非常難以解釋,整整花了六年才獲得廣泛的理解。直到2012年,AlexNet使用CUDA進行影像處理,並引發了人工智慧的爆發。
從此,AI快速發展,從最初的感知AI(理解圖像、文字和聲音),進一步發展到生成式AI(生成圖像、文字和聲音),甚至到現在的智能體AI(具備感知、推理、規劃和行動能力)。未來的AI將包括更多與現實世界互動的能力,即所謂的「物理AI」。
2018年,Google推出了基於Transformer架構的BERT模型,徹底改變了人工智慧的發展格局,也重新定義了計算的未來。NVIDIA認識到,Transformer架構將機器學習提升到一個新高度,並帶來了計算方式的根本性轉變。
今天,每一層技術架構都發生了巨大改變,從手工編寫CPU指令到使用機器學習來優化運算神經網路,再到GPU上的人工智慧處理。短短12年,計算方式發生了翻天覆地的變化。
我們現在能理解幾乎任何類型的數據,包括文字、圖像、聲音,甚至是氨基酸和物理數據。這些應用的可能性無窮無盡。
在AI應用中,幾乎所有應用的核心邏輯都可以總結為三個問題:學習的數據來源是什麼(輸入模態)?如何處理這些數據?生成的結果是什麼(輸出模態)?透過這些基礎問題,我們可以理解當前AI應用的範圍和潛力。
我們剛才展示的是即時的電腦圖形技術。放在過去,任何圖形學的研究者都不會相信我們能夠在這個階段對每一個像素進行光線追蹤(ray tracing)。光線追蹤模擬的是光線的物理行為,而剛剛展示的幾何數據量極為龐大,如果沒有人工智慧,這將是不可能實現的。
有兩個核心技術讓我們做到了這一點:首先是可編程著色器(programmable shading)和光線追蹤加速器(ray traced acceleration),能夠生成非常細緻的像素。其次,人工智慧被訓練來理解這些像素,並根據已知的像素生成更多像素。這些像素的生成不僅是空間上的補充,它還能根據NVIDIA超級電腦訓練的神經網路推測和預測未渲染的像素。
這個技術被稱為 DLSS(Deep Learning Super Sampling),它的最新一代不僅可以生成更多像素,還能預測未來的幀數。我們能夠在渲染一幀畫面的基礎上預測三幀,這意味著在一個4K畫面中,3,300萬個像素中只有200萬個是實際計算得出的,其餘都是透過AI生成的。這是一個運算奇蹟,因為AI大幅降低了計算需求,且生成過程極為高效。
這些進展促成了人工智慧與圖形技術的結合,也讓 GeForce 系列GPU迎來了變革。今天,我們宣布全新一代的 RTX Blackwell 系列,這款產品將再度改寫規則。
Blackwell系列的一個創新是能同時處理AI工作負載與電腦圖形負載。此外,它還具備 神經材質著色 和 神經紋理壓縮 技術,透過AI學習壓縮演算法,能夠生成極為逼真的圖像。
接下來我們展示的是全新的RTX 5090顯卡,它的設計是一個工程奇蹟,擁有兩個風扇,整個顯卡幾乎是一個大散熱器,配備最先進的電壓調節器設計。
更令人驚艷的是,我們將這些強大的GPU性能壓縮到筆記本電腦中。例如,一台RTX 5070筆記本的性能相當於一台RTX 4090的桌上型電腦,而售價僅為1,299美元。
我們剛剛看到的是即時的電腦圖形效果。沒有任何電腦圖形研究人員或科學家會告訴你,在目前的技術水平下,我們能夠為每一個像素進行光線追蹤(Ray Tracing)的模擬。光線追蹤是對光的模擬,而你剛剛看到的幾何結構之多是不可思議的,這完全不可能在沒有人工智慧的情況下實現。
我們實現了兩個關鍵技術:使用可編程著色器(Programmable Shading)和光線追蹤加速(Ray Tracing Acceleration)來生成精美的畫面;以及讓人工智慧在像素上進行條件處理與控制,生成其他像素。這些AI已經在NVIDIA的超級電腦上進行訓練,使得運行在GPU上的神經網路可以推測和預測我們沒有渲染的像素。
這項技術稱為DLSS(Deep Learning Super Sampling),最新的DLSS版本甚至能生成超越幀率(Beyond Frames)的效果。也就是說,我們能預測未來,對每一幀進行運算時生成額外的三幀。
例如,當我們渲染一段以4K解析度運行的影像(約3300萬個像素),實際計算的像素僅有其中的200萬個。這是一項奇蹟,我們透過可編程著色器和光線追蹤引擎完成了少量的計算,並讓人工智慧預測其餘的像素。最終,這大幅提升了效能,因為AI進行的計算更少,但仍需耗費大量的訓練。
正因如此,人工智慧帶來了許多不可思議的能力,也因此促成了下一代GPU的誕生——我們今天要宣布全新一代的RTX Blackwell系列。讓我們一起來看看。
這就是全新的GeForce RTX 50系列,採用Blackwell架構。這款GPU的規模相當驚人:擁有920億個電晶體、4000TOPS(每秒進行數兆次運算)、4個AI PetaFLOPS的運算能力,比上一代ADA架構高出3倍。此外,它提供了380 Ray Tracing Teraflops,以計算更美麗的畫面。
我們還引入了全新的G7記憶體,來自Micron,速度達到1.8TB/s,性能是上一代的兩倍。這一代GPU不僅能處理圖形運算,還能將AI工作負載與圖形運算相結合。
我們全新的RTX Blackwell系列還具備能處理神經網路的可編程著色器(Programmable Shader)。這使我們能發明神經材質壓縮(Neuro-Texture Compression)和神經材質著色(Neuro-Material Shading)。因此,我們能以AI學習的方式對材質進行壓縮,產生前所未有的精美影像。
這是全新RTX Blackwell 5090 GPU的亮相,即使在機械設計方面,它也堪稱奇蹟。這張顯卡配備了雙風扇,整個卡就像是一台大型風扇系統,電壓調節器的設計極為先進,展現了出色的工程設計。
接下來,我們來看與上一代的性能比較。以RTX 4090為例,這款售價1599美元的顯卡被認為是PC娛樂的最佳投資。現在,你可以透過全新的Blackwell系列,以RTX 4070的價格(549美元)獲得4090的性能。這整個家族從RTX 5070到RTX 5090都有產品,每一代的性能都進一步提升,且更具性價比。
除了桌面級顯卡,我們還將這些強大的GPU放進筆記型電腦中。例如,RTX 5070筆電僅售1299美元,但能提供4090的性能,且機身僅14.9毫米厚。這得益於人工智慧的參與,因為我們使用光線追蹤僅計算必要的像素,其餘的像素由AI生成,這大幅提升了能效。
未來的電腦圖形運算將是神經渲染(Neural Rendering),結合AI與傳統圖形技術。我們的新一代GPU產品不僅能夠支援這種技術,還能將它應用到薄型筆電中,讓你隨時隨地體驗高效能。
產業界正在競相擴展人工智慧,而擴展法則(Scaling Law)是驅動這一切的核心。根據這一經驗法則,訓練數據越多、模型越大、計算能力越高,模型的效能就越強。互聯網每年產生的數據量正以倍數增長,未來幾年,人類將產生的數據量可能會超過以往的總和。
此外,數據正變得多模態(Multimodal),包括影片、圖像和聲音,所有這些都能被用來訓練AI的基礎知識。但除了這些基礎訓練數據,還有兩個新的擴展法則正被逐漸驗證。
第二個擴展法則是「後訓練擴展法則」(Post-Training Scaling Law)。這涉及使用技術如強化學習(Reinforcement Learning)和人類反饋(Human Feedback)。基本原理是,AI在收到人類的查詢後生成答案,並根據人類的反饋進行調整。儘管這比簡單描述更複雜,但通過這樣的反饋機制,AI能在特定領域中精進,例如更擅長解數學問題或進行推理。
後訓練過程就像是接受導師或教練的指導,當AI完成基礎學校階段後,透過測試和反饋進一步提升自己。另一種技術是合成數據生成(Synthetic Data Generation),這類似於自我練習。AI不斷嘗試並改進對某些問題的解答,直到達到正確答案。例如,解幾何問題或證明定理等具挑戰性的問題,能夠通過這種方式讓AI不斷優化。
這些後訓練技術需要大量的計算資源,但最終能產生性能驚人的模型。
第三個擴展法則是「測試時擴展法則」(Test-Time Scaling Law)。它指的是AI在使用階段(也就是運行階段)進行資源分配的能力。這與推理(Reasoning)有關,AI不僅會直接生成答案,還能進行多步驟的推理,例如將問題拆解成多個步驟或生成多個方案並進行評估,最後選擇最佳方案。這種在測試階段分配更多計算資源來優化答案的方式,已被證明極為有效。
從ChatGPT到Gemini Pro等系統,所有這些都在這些擴展法則的指導下經歷了逐步演進:從預訓練到後訓練,最後到測試時擴展。
隨著計算需求的增長,我們希望社會能夠擴大計算能力,生產出更多更優秀的AI模型。智慧是我們最寶貴的資產,它能幫助解決諸多挑戰性問題。擴展法則推動了對NVIDIA計算技術和我們的Blackwell晶片的巨大需求。
現在來看看Blackwell晶片。它已進入全面生產,全球每個主要雲端服務供應商都部署了相關系統。我們目前有大約15個電腦製造商提供200多種Blackwell配置,包括液冷、風冷、x86架構、NVIDIA Grace CPU版本等,適應各類數據中心需求。
這些系統正由全球45家工廠製造,這顯示出人工智慧和新型運算模式的普及程度。隨著擴展法則的推動,我們的目標是提供更高效的計算能力。
這些NVLink系統非常強大,一個系統重達1.5噸,包含600,000個零件,相當於20輛汽車的重量,耗電量達120千瓦。它內部使用了兩英里的銅線以及5000根連接纜線。這些系統在工廠中進行液冷測試後,拆解運輸到數據中心,再重新組裝安裝。
相較於上一代,Blackwell在性能功耗比上提升了4倍,性能成本比提升了3倍。這意味著訓練AI模型的成本降低了三分之一,或者能以相同成本增大模型規模三倍。
這些系統的目標是創造一個強大的計算基礎,例如使用Blackwell GPU的系統來生成AI所需的計算能力,這些計算能力驅動了如ChatGPT或Gemini等應用所需的AI生成過程。每個數據中心的資源都受限於能源供應,而Blackwell因其每瓦性能的提升,可以使數據中心的收益潛力提升至四倍。
AI工廠系統現在已經真正成為當今的「工廠」,為了進一步提升計算能力,我們設計了72個Blackwell GPU系統,擁有144顆晶片。這相當於建造了一個巨型晶片,性能達到1.4 ExaFLOPS,超過了目前最快的超級電腦的運算能力。
這樣的系統擁有14TB的記憶體,並提供每秒1.2PB的記憶體帶寬,這相當於處理當前全球互聯網流量的能力。整個系統共有130兆個電晶體,以及2592顆CPU核心,連接上高性能的網絡設備和HBM記憶體模組,這一切使得它成為一個巨大的計算奇蹟。
這些Blackwell系統內部整合了Grace CPU和Blackwell GPU,透過NVLink技術實現高速連接。這些設計被應用於NVIDIA的機器學習平台,使得整體效率達到了前所未有的水平。我們將這些系統視為構建未來AI計算基礎的核心元素,支持從AI訓練到推論的全面需求。
此外,AI推論不僅僅是簡單生成回應,未來的AI還需要能夠內部反思與自我思考,這要求更高的生成速度和更低的成本。我們為此設計了NVLink技術,專注於高效連接以支持這種複雜的運算需求。
在企業應用中,Agentic AI(智能代理AI)是一個完美例子。這類AI系統由多個模型組成,某些模型負責與使用者交互,另一些模型則檢索信息,例如從儲存中提取數據、進行語義分析,甚至生成視覺化圖表。整個過程需要AI能夠將問題分解並逐步解決。
未來,AI在應用中會變得更加複雜,運算需求也會因此急劇上升。為了幫助業界建構這類AI系統,NVIDIA推出了一系列工具,包括CUDA加速的AI庫、軟體框架以及可應用於不同行業的AI服務。
今天,我們還宣布了一個全新的模型家族——NVIDIA Llama Nemo Tron,它是基於Meta的Llama模型進一步優化的企業級模型套件。Llama 3.1已成為業界現象,其下載量超過65萬次,並衍生出6萬多種不同版本模型。
這些模型在多個AI性能排行榜中名列前茅,例如對話能力(Chat)、指令理解(Instruction)以及檢索(Retrieval)等。
此外,我們與多家合作夥伴進行深度合作,將NVIDIA的AI技術整合到如ServiceNow、SAP、Siemens等企業的應用中。例如,在搜索技術上,我們與Perplexity合作;在軟體開發方面,Codium正利用AI助力全球3000萬名軟體工程師提升生產力。
生成式人工智慧(Generative AI)能夠透過簡單的文字指令合成出驚人的圖像,但僅依靠文字來控制圖像的構圖可能有一定挑戰。使用 NVIDIA NIM 微服務,創作者可以利用簡單的3D物件來引導AI生成圖像。以下是如何應用這項技術開發場景的流程:
透過生成式AI與NVIDIA NIM的協助,藝術家能快速實現他們的創意,並創建高品質的圖像。
全球有數億台Windows PC,我們正在將它們準備好支持AI。所有主要的PC OEM廠商都與我們合作,準備推出支持這一技術棧的AI PC。未來,AI PC將進入每個家庭。
接下來,我們來談談物理AI。假設您現在使用的是大語言模型(如Transformer),其輸入是一段文本或PDF文件,輸出是一個一個的文字標記(Token)。這些模型需要龐大的參數來處理大量的上下文,然後逐步生成下一個文字標記。這種運算需求催生了像Blackwell這樣的強大GPU。
但如果將輸入從「文字」變為「周圍環境」呢?將輸出從「文字」變為「動作」呢?例如,你告訴AI:「去那邊把箱子拿回來。」這正是未來機器人需要解決的問題,而技術已經逐漸成熟。
未來的世界模型(World Model)需要理解物理動態,例如重力、摩擦力、慣性等,還需要理解幾何和空間關係,甚至因果關係。舉例來說,當一個物體被推動時,會傾倒或掉落;物體從視線中消失時,它並不會進入另一個平行宇宙,而是仍存在於某處。
今天,我們宣布一項重大計劃:NVIDIA Cosmos。Cosmos是一個專為理解物理世界而設計的世界基礎模型(World Foundation Model)。它的設計目標是模擬現實世界的物理動態,並且讓AI能夠理解和生成物理世界的場景。
Cosmos模型採用自回歸(Autoregressive)和擴散模型(Diffusion Model),並搭載先進的數據處理管線,支持以文本、圖像或影片為輸入,生成虛擬世界的場景。
NVIDIA Cosmos的生成功能特別適用於自動駕駛與機器人領域,因為它能處理真實環境中的光線、物體持續性(Object Permanence)等細節。開發者可以利用Omniverse來構建精確的物理模擬場景,然後將其導入Cosmos以生成合成數據,支援強化學習和模型測試。
NVIDIA Cosmos 是全球首個專注於物理AI的世界基礎模型(World Foundation Model)。這款模型訓練於2000萬小時的影片數據,這些影片專注於物理動態,例如人類行走、手部操作物體、快速移動的物件,以及相機運動等場景。目的是教AI理解物理世界,而不是生成創意內容。
NVIDIA Cosmos 平台整合了自回歸模型(適合即時應用)、擴散模型(適合高品質生成)以及強大的數據管線。我們的數據管線使用CUDA和AI技術進行加速,能處理龐大的數據量,並提供高效的模型訓練能力。
Cosmos現已開放授權,並在GitHub上提供。我們希望Cosmos對機器人與工業AI的影響能像Llama 3對企業AI的貢獻一樣巨大。
Cosmos的魔力在於與Omniverse的結合。Omniverse是一個基於物理原理構建的模擬平台,提供算法驅動的物理真實性模擬。將Cosmos與Omniverse連接後,Omniverse可提供生成的真實基礎數據,確保Cosmos的生成結果具有真實性。
這類似於將大語言模型與檢索增強生成系統(Retrieval-Augmented Generation, RAG)相結合的方式,其目的是將生成結果建立在真實基礎上。
這些系統會互相配合,形成一個完整的AI生態系統。NVIDIA的策略是為工業世界提供這三種計算機系統,這也成為我們數位化未來的重要基礎。
Keyon、Accenture和NVIDIA的合作Keyon(供應鏈解決方案公司)、Accenture(全球專業服務領導者)與NVIDIA正在攜手,將物理AI引入數萬億美元規模的倉儲與配送中心市場。高效管理倉庫物流涉及應對多變的需求,包括每日和季節性的需求變化、空間限制、人力資源可用性,以及整合多樣化的機器人和自動化系統。
目前,準確預測實體倉庫的運營指標幾乎是不可能的。為了解決這一挑戰,Keyon採用了NVIDIA Omniverse MEGA藍圖,來構建工業數位分身,測試和優化機器人隊列的性能。
首先,Keyon的倉庫管理解決方案將任務分配給數位分身中的工業AI大腦,例如將負載從緩衝區移動到自動化存儲系統。這些機器人隊列透過Omniverse模擬環境感知、推理、規劃並執行動作,並在模擬環境中進行下一步動作的決策。這種迴圈模擬可以精確追蹤數位分身中所有資源的狀態。
這使得Keyon能夠在大規模的模擬中進行無限場景測試,並測量運營指標,如吞吐量、效率與利用率,而無需實際在倉庫中部署改變。這種數位分身技術徹底改變了工業自動化的方式。
自動駕駛革命已經到來。Waymo和Tesla的成功標誌著自動駕駛車輛的時代已經開始。我們提供三大核心系統支持這一產業:
目前,我們與全球大多數主要汽車製造商合作,包括Waymo、Tesla、BYD(全球最大的電動車公司)、Mercedes、Lucid、Rivian、Volvo等。此外,今天宣布,Toyota將與NVIDIA合作開發其下一代自動駕駛車。
每年全球生產1億輛汽車,累計行駛超過1兆英里。未來,這些車輛都將實現高度自動化或完全自動駕駛。自動駕駛產業可能成為第一個萬億美元規模的機器人產業。NVIDIA目前的自動駕駛業務規模已達40億美元,今年預計將達到50億美元的年營收水平。
我們今天宣布下一代車載處理器:Thor。這款處理器具有超凡性能,相較於目前業界標準的Orin處理器,其性能提升了20倍。Thor能夠處理大量感測器數據,包括20個高解析度相機、雷達和Lidar感測器等,並將其轉換為AI推理所需的標記(Token),最終生成車輛的路徑預測。
Thor不僅僅適用於汽車,它也是一款通用機器人計算機,可以用於自動移動機器人(AMR)、人形機器人等各種應用。
此外,我們的Drive OS(車載操作系統)已成為首個通過ASIL D認證(最高功能安全標準)的軟體定義可編程AI系統。這是工程師多年努力的成果,使得NVIDIA CUDA在機器人和汽車領域成為可靠的計算標準。
我們的自動駕駛技術不僅依賴於真實世界的數據,還需要合成數據來補充訓練模型。為了解決邊界場景的不足,我們推出了由NVIDIA Omniverse、AI模型和Cosmos驅動的自動駕駛數據工廠(Autonomous Vehicle Data Factory),用於生成大規模的合成駕駛場景,將數千小時的駕駛記錄擴展為數十億英里的有效訓練數據。
透過Cosmos和Nemotron視頻搜索技術,我們能將大規模的合成數據與實際駕駛數據相結合,用於訓練模型。最終,NVIDIA的AI數據工廠將數千小時的駕駛記錄轉化為數十億英里的有效數據集,為更安全的自動駕駛設立新標準。
我們即將迎來通用機器人的「ChatGPT時刻」。與傳統的輪式或履帶式機器人不同,人形機器人(Humanoid Robots)能適應現有的環境而無需進行大規模改造,這意味著它們可以直接融入我們的世界。
解決人形機器人的核心挑戰在於模仿學習(Imitation Learning)。相較於自動駕駛車輛,人類的動作數據更難收集,且收集過程較為繁瑣。為此,我們開發了NVIDIA Isaac Groot藍圖,用於大規模合成動作生成,幫助開發者從少量的演示數據中生成大量的模擬數據。
這些數據集被用於訓練機器人的決策模型。在訓練完成後,開發者可以在Isaac Sim模擬環境中進行軟體測試與驗證,最終部署到實體機器人上。
NVIDIA Isaac Groot平台
NVIDIA Isaac Groot提供的技術包括:
我們將此平台定位為推動通用機器人發展的重要工具,助力未來機器人的誕生。
NVIDIA Isaac Groot平台是為推進物理AI和通用機器人而設計的一套完整系統。它為人形機器人的開發者提供了四大核心功能:
Groot的工作流程如下:
回顧十年前,我們啟動了一個名為Project Digits的計畫,其目標是構建一款深度學習GPU智慧訓練系統(Deep Learning GPU Intelligence Training System)。在正式發布時,我們將其簡化命名為DGX,並與RTX、AGX、OVX等命名方式保持一致。
DGX-1的推出徹底革新了人工智慧計算,它為研究人員和初創公司提供了一台開箱即用的AI超級電腦。2016年,我將第一台DGX-1交付給OpenAI,當時Elon Musk和Ilya Sutskever等人親自見證了這一時刻。DGX-1的誕生成為AI計算的革命性里程碑。
如今,我們的願景是讓每一位工程師、軟體開發者和創作者都能擁有一台AI超級電腦。因此,我們推出了全新的Project Digits,這是一款針對個人用戶設計的AI超級電腦。它內部搭載了GB10晶片,這是NVIDIA目前最小的Grace Blackwell晶片。
這款設備不僅可以運行NVIDIA完整的AI技術堆疊,也支持DGX Cloud平台,甚至可作為工作站或雲端超級電腦的一部分使用。它將於5月正式上市。
2025將是令人振奮的一年,感謝所有合作夥伴和支持者!現在,讓我們一起展望未來。
想用跟法人一樣的角度來分析公司,學習與專業投資者一樣的領先思維懂得利用財務指標將成為你一大武器
由888版主阿嘉親自教授,內容絕對實用!