NVIDIA解密AI省錢術:混合專家模型如何靠NVLink實現10倍成本效益?

更新 發佈閱讀 12 分鐘

在AI的世界裡,我們似乎習慣了一個簡單的邏輯:模型越大、參數越多,就等於越聰明,但同時也越昂貴、越慢。但當我們使用這些頂尖AI服務時,成本非但沒有飛漲,反而呈現下降趨勢。這背後的魔法是什麼?答案,就藏在一個名為「混合專家模型」(Mixture-of-Experts, MoE)的架構中。

最近,NVIDIA掌管高效能運算的副總裁 Ian Buck 在一場訪談中拆解MoE的運作邏輯,以及NVIDIA的硬體,特別是NVLink,如何在其中扮演了不可或缺的關鍵角色。

raw-image

Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72

Lowering the Cost of Intelligence With NVIDIA's Ian Buck - Ep. 284

為什麼AI模型越大,反而越便宜?

傳統模型的困境:暴力美學下的成本詛咒

想像一下,一個傳統的AI模型就像一個擁有上千億個腦細胞(神經元/參數)的全才天才。無論你問他「台北今天天氣如何?」這種簡單問題,還是「請解釋量子力學的測不準原理」這種複雜問題,他都必須調動全部的上千億個腦細胞來思考,才能給出答案。

這就是所謂的「密集模型」(Dense Model)。例如,Meta的Llama 405B模型,擁有4050億個參數。每次它生成一個字,就必須啟動並計算全部4050億個參數。Ian Buck在訪談中提到,這種模型的智慧分數(在Artificial Analysis的評分)約為28分,但光是跑完評分測試,就要花費雲端服務約200美元。

這種「暴力破解」雖然能提升模型的知識廣度與深度,卻也帶來了兩個致命問題:

  1. 高昂的運算成本:每次查詢都啟動所有參數,意味著巨大的GPU算力消耗,直接反映在API的費用上。
  2. 緩慢的反應速度:計算量越大,生成答案所需的時間就越長。

MoE的解法:從「全才通識」到「專家團隊」的思維轉變

MoE架構的出現,正是為了解決這個困境。它提出了一個反直覺、卻極其高效的想法:為什麼我們需要一個什麼都懂的全才,而不是一個各有所長的專家團隊?

Ian Buck用了一個生動的比喻:一家公司不需要雇用一個愛因斯坦來處理所有業務,而是會聘請財務專家、行銷專家、法律專家。當遇到問題時,公司會將問題交給最相關的專家團隊來解決。

MoE模型就是這樣運作的:

  1. 分割成專家 (Splitting into Experts):模型不再是一個巨大的整體,而是被分割成數十、甚至數百個較小的「專家網路」。每個專家都專精於特定的知識領域或數據模式。
  2. 智慧路由器 (The Router):在這些專家前面,有一個輕量級的「路由器」網路。它的工作很簡單:分析你輸入的問題,然後判斷「這個問題,應該交給第3、第8、第27號專家來處理最適合。」
  3. 選擇性啟動 (Selective Activation):路由器會將訊號只傳遞給被選中的少數幾個專家。其他數百個專家則繼續「休眠」,完全不參與這次的計算。

結果是驚人的。Ian Buck以GPT-4o mini為例,它總參數約1200億,比Llama 405B小得多。但當它回答問題時,每次只需要啟動約50億個參數。這相當於只動用了整個大腦約4%的區域來思考。

這帶來了什麼改變?

  • 智慧分數:從28分躍升至61分,模型變得更聰明。
  • 運算成本:評分測試的成本從200美元驟降至75美元。
  • 效率提升:計算量大幅減少,速度自然更快。

這就是MoE的核心魔力:它透過「選擇性啟動」,實現了總參數數量(決定模型的知識總量與智慧上限)與即時運算量(決定成本與速度)的脫鉤。

MoE並非橫空出世,為何忽然成為AI顯學?

混合專家的概念其實在機器學習領域已存在多年,並非新發明。那為什麼直到最近,它才突然從學術界的角落,一躍成為所有頂尖AI模型的標準配備?

沉寂多年的架構與「DeepSeek時刻」的引爆點

Ian Buck在訪談中明確指出,引爆這場革命的關鍵是2025年初的「DeepSeek時刻」。

在此之前,雖然有論文探討MoE,甚至一些閉源模型(如早期的GPT)可能已經在使用,但整個開源社群始終缺乏一個具體、高效、且能與頂尖閉源模型匹敵的實作範例。大家知道這條路可能走得通,但不知道該怎麼走。

中國的DeepSeek AI團隊打破了這個僵局。他們開源了MoE模「Deepseek V3」,每一層擁有驚人的256個專家。它不僅在智慧評分上展現了世界級的水準,更重要的是,它證明了MoE架構在經過精心設計後,運行成本可以做到極致的低廉。

Ian Buck形容,DeepSeek的開源論文向全世界的研究者展示了如何有效訓練MoE模型、如何部署推論,等於是提供了一份詳細的施工藍圖。從那一刻起,整個AI社群的風向徹底改變,所有人都意識到MoE是通往更高智慧、更低成本的康莊大道。這股浪潮延續至今,使得MoE成為了當前前沿模型的代名詞。

MoE的隱藏成本:解鎖效能的關鍵在於「無阻塞通訊」

然而,天下沒有白吃的午餐。MoE在大幅降低運算量的同時,也引入了一個新的、極其棘手的通訊問題。

專家們的竊竊私語:GPU閒置就是燒錢

想像一下,一個大型MoE模型被部署在數十台GPU伺服器上。數百個「專家」散落在不同的GPU晶片中。當路由器決定要啟動第3、8、27號專家時,這幾個分處不同位置的專家必須立刻開始交換資料、協同工作,然後再將結果彙整,傳遞到模型的下一層。

這個過程就像一個極度高效的跨國團隊在開線上會議。如果網路延遲、卡頓,或者一次只能有一個人說話,那即使每個專家都才華洋溢,整個團隊的效率也會被糟糕的通訊品質拖垮。

在GPU的世界裡,時間就是金錢。你花大錢買來的頂級GPU,是為了讓它進行數學運算,而不是讓它閒置著等待來自另一顆GPU的數據。如果通訊網路成為瓶頸,GPU的閒置時間就會拉長,MoE的成本優勢將蕩然無存。

NVIDIA的答案:NVLink與NVSwitch打造GPU高速公路

這正是NVIDIA的硬體護城河所在。Ian Buck強調,傳統的伺服器內部連接方式,如PCIe匯流排,或是資料中心常用的乙太網路(Ethernet),都不是為這種極高頻、極低延遲的「專家對話」所設計的。

NVIDIA的解法是打造一個專屬的GPU高速公路系統:NVLink與NVSwitch。

  • NVLink:這是一種點對點的GPU專用高速互連技術,可以把它想像成是比PCIe寬闊數倍、速度快上數倍的私家高速公路。
  • NVSwitch:如果NVLink是公路,NVSwitch就是一個複雜的智慧交通樞紐。它能確保系統中的每一顆GPU,都能以全速、無阻塞的方式,同時與其他任何一顆GPU進行通訊。

Ian Buck解釋了這個系統的演進:

  • 在Hopper世代 (H100),NVIDIA透過NVLink和NVSwitch晶片,將一個伺服器內的8顆GPU緊密地連接成一個巨大的單一運算單元。這對於DeepSeek這類大型MoE模型的早期成功至關重要。
  • 到了Blackwell世代 (GB200),NVIDIA將這個概念推向了極致。他們將這個「無阻塞通訊網域」從伺服器內部的8顆GPU,一口氣擴展到整個機櫃的72顆GPU。這意味著72個專家可以同時、全速地互相交談,沒有任何交通堵塞。

這種不計代價、專為GPU通訊打造的硬體架構,是確保MoE模型能發揮其最大經濟效益的物理基礎。它讓專家間的「竊竊私語」變得像光速一樣快,從而將GPU的閒置時間降到最低,真正將算力用在刀口上。

極致協同設計:NVIDIA如何從硬體到軟體,壓榨出10倍的性價比?

打造出最強的硬體只是第一步。要將硬體的潛力完全轉化為用戶能感受到的成本降低,還需要軟硬體的深度整合,也就是Ian Buck口中的「極致協同設計」(Extreme Co-design)。

軟硬體一體的「組合拳」

NVIDIA有一個有趣的現象:公司的軟體工程師比硬體工程師還多。這背後的原因是,要駕馭像GB200 NVL72這樣由72顆GPU組成的怪獸,光有硬體是遠遠不夠的。

NVIDIA的團隊深入到PyTorch、JAX等AI框架的底層,與模型開發者(如OpenAI、Anthropic等)緊密合作。他們共同設計模型架構,以最大化利用NVLink的通訊能力;他們開發新的演算法,將運算和通訊的時間完美重疊;他們甚至創造出新的數據格式,在不犧牲精度的前提下,將運算量和數據傳輸量再壓縮。

這是一個正向循環:模型開發者的新架構需求,推動NVIDIA設計出像NVLink這樣的新硬體;而新硬體的出現,又讓模型開發者可以去探索更大、更複雜的MoE模型。這種從晶片、系統、網路到軟體框架、再到AI模型的端到端垂直整合,是NVIDIA能夠持續提供倍數級效能提升的核心祕密。

從Hopper到Blackwell:看得見的成本,看不見的效益

這種「極致協同設計」的成果,直接體現在驚人的經濟效益上:

  • 從Hopper升級到Blackwell,單顆GPU的成本確實增加了,系統也因為增加了更多NVSwitch而變得更昂貴。
  • 但是,由於Blackwell架構能讓72顆GPU完美協同,運行DeepSeek這類MoE模型的效能也大幅提升。
  • 一來一往,最終的結果是每個token的生成成本降低了10倍。具體來說,過去在Hopper上處理一百萬個token大約需要1美元,而在Blackwell上,這個數字降低到了10美分。

這就是NVIDIA的商業邏輯:透過在硬體技術上增加「百分之幾」的成本,換取在AI應用效能上「好幾倍」的提升,最終為客戶帶來「數量級」的成本節省。

TN科技筆記的觀點

當運算本身不再是唯一瓶頸時,晶片間的「通訊能力」就成了新的戰略制高點。NVIDIA在NVLink和NVSwitch上長達十年的巨額投資,正在此刻開花結果。無法被輕易複製的「高效能運算架構」建立了一道極深的護城河,讓競爭對手在運行頂尖MoE模型時難以望其項背。

另外為了實現高速通訊,NVIDIA已經在銅線上使用了逼近物理極限的信號技術,未來也將持續面臨在功耗、散熱、信號完整性和製造成本上的指數級挑戰。屆時,不只NVIDIA,所有AI雲端運算大廠都需要研究新的突破口,來延續這條「以更高成本換取更高倍數效能」的黃金定律。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
67會員
204內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/12/31
Meta 宣布收購通用型 AI Agent 新創 ManusAI,引發科技圈熱議。本文解析 ManusAI 是什麼、創辦人肖弘的背景,以及 Meta 這筆收購背後的戰略意圖與潛在挑戰。
Thumbnail
2025/12/31
Meta 宣布收購通用型 AI Agent 新創 ManusAI,引發科技圈熱議。本文解析 ManusAI 是什麼、創辦人肖弘的背景,以及 Meta 這筆收購背後的戰略意圖與潛在挑戰。
Thumbnail
2025/12/27
解析 Nvidia 斥資 200 億美元與 Groq 達成協議的深層動機。本文認為其目的並非獲取 LPU 或 SRAM 技術,而是為了延攬頂尖人才以探索未來,並消除一個強大的潛在競爭對手。
Thumbnail
2025/12/27
解析 Nvidia 斥資 200 億美元與 Groq 達成協議的深層動機。本文認為其目的並非獲取 LPU 或 SRAM 技術,而是為了延攬頂尖人才以探索未來,並消除一個強大的潛在競爭對手。
Thumbnail
2025/12/15
深入分析博通(Broadcom, AVGO)最新財報,探討其 730 億美元 AI 訂單背後的意義。了解客製化晶片(ASIC/XPU)如何崛起,以及博通與 NVIDIA 在 AI 基礎設施市場的競爭與未來格局。
2025/12/15
深入分析博通(Broadcom, AVGO)最新財報,探討其 730 億美元 AI 訂單背後的意義。了解客製化晶片(ASIC/XPU)如何崛起,以及博通與 NVIDIA 在 AI 基礎設施市場的競爭與未來格局。
看更多
你可能也想看
Thumbnail
我們最常聽到的 ChatGPT,背後的推手就是這家公司——OpenAI。 對我來說,OpenAI 不只是一間科技公司,它更像是一個把「未來」帶到我們「現在」生活的領航員。今天就來簡單聊聊它能為我們做什麼吧!🌿 1. OpenAI 是誰? 🤔 簡單說,它是目前全球最頂尖的人工智慧研究實驗
Thumbnail
我們最常聽到的 ChatGPT,背後的推手就是這家公司——OpenAI。 對我來說,OpenAI 不只是一間科技公司,它更像是一個把「未來」帶到我們「現在」生活的領航員。今天就來簡單聊聊它能為我們做什麼吧!🌿 1. OpenAI 是誰? 🤔 簡單說,它是目前全球最頂尖的人工智慧研究實驗
Thumbnail
過去,我們擔心的是「數位落差」,但今天,我們擔心的是「AI 落差」。AI 發展至今,已經不是誰不知道 AI,而是你會不會用,面對快速變化的適應力與韌性。本文綜合 2025 AI 人才高峰會中,Google 台灣前董事總經理簡立峰、均一平台教育基金會董事長呂冠緯等講者觀點,回顧幾個關鍵問題...
Thumbnail
過去,我們擔心的是「數位落差」,但今天,我們擔心的是「AI 落差」。AI 發展至今,已經不是誰不知道 AI,而是你會不會用,面對快速變化的適應力與韌性。本文綜合 2025 AI 人才高峰會中,Google 台灣前董事總經理簡立峰、均一平台教育基金會董事長呂冠緯等講者觀點,回顧幾個關鍵問題...
Thumbnail
輝達的成功,不僅來自技術突破,還來自戰略選擇。在 GPU 的運算潛力尚未被業界認可時,黃仁勳率先押注 AI,建立 CUDA 生態系統,讓輝達成為 AI 產業的重要一環。然而,輝達能快速崛起、抵禦市場風暴,還有更深層的原因,那就是黃仁勳的管理哲學。
Thumbnail
輝達的成功,不僅來自技術突破,還來自戰略選擇。在 GPU 的運算潛力尚未被業界認可時,黃仁勳率先押注 AI,建立 CUDA 生態系統,讓輝達成為 AI 產業的重要一環。然而,輝達能快速崛起、抵禦市場風暴,還有更深層的原因,那就是黃仁勳的管理哲學。
Thumbnail
DeepSeek 以低成本開發高效能 AI,導致市場質疑 AI 半導體投資效益,進而影響 NVIDIA 股價,單日市值蒸發 900 億美元。。DeepSeek 的崛起讓投資者重新評估 AI 投資策略,可能促進技術創新與半導體需求,美國科技巨頭仍持續加碼 AI 領域投資。
Thumbnail
DeepSeek 以低成本開發高效能 AI,導致市場質疑 AI 半導體投資效益,進而影響 NVIDIA 股價,單日市值蒸發 900 億美元。。DeepSeek 的崛起讓投資者重新評估 AI 投資策略,可能促進技術創新與半導體需求,美國科技巨頭仍持續加碼 AI 領域投資。
Thumbnail
本文透過《輝達之道》(The NVIDIA Way)探討輝達(NVIDIA)創辦人黃仁勳的創業故事,到輝達如何從一家遊戲顯卡公司,蛻變為AI巨頭。文章探討輝達的創業初衷、早期挑戰(與英特爾的競爭、NV1晶片的失敗與RIVA 128的成功)、GPGPU和CUDA平臺的開發以及其在AI領域的關鍵突破。
Thumbnail
本文透過《輝達之道》(The NVIDIA Way)探討輝達(NVIDIA)創辦人黃仁勳的創業故事,到輝達如何從一家遊戲顯卡公司,蛻變為AI巨頭。文章探討輝達的創業初衷、早期挑戰(與英特爾的競爭、NV1晶片的失敗與RIVA 128的成功)、GPGPU和CUDA平臺的開發以及其在AI領域的關鍵突破。
Thumbnail
AI PC 是將 AI 模型與傳統 PC 緊密結合的裝置,為本地 AI 運算能力,更能保護用戶的隱私和數據安全。 AI PC 具有 NPU、CPU 以及 GPU,並能夠具備高算力 AI 應用的需求,在 AI 運算性能、效率跟功耗方面,NPU 相較 CPU 與 GPU 具有大幅優勢。
Thumbnail
AI PC 是將 AI 模型與傳統 PC 緊密結合的裝置,為本地 AI 運算能力,更能保護用戶的隱私和數據安全。 AI PC 具有 NPU、CPU 以及 GPU,並能夠具備高算力 AI 應用的需求,在 AI 運算性能、效率跟功耗方面,NPU 相較 CPU 與 GPU 具有大幅優勢。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News