在AI的世界裡,我們似乎習慣了一個簡單的邏輯:模型越大、參數越多,就等於越聰明,但同時也越昂貴、越慢。但當我們使用這些頂尖AI服務時,成本非但沒有飛漲,反而呈現下降趨勢。這背後的魔法是什麼?答案,就藏在一個名為「混合專家模型」(Mixture-of-Experts, MoE)的架構中。
最近,NVIDIA掌管高效能運算的副總裁 Ian Buck 在一場訪談中拆解MoE的運作邏輯,以及NVIDIA的硬體,特別是NVLink,如何在其中扮演了不可或缺的關鍵角色。

Lowering the Cost of Intelligence With NVIDIA's Ian Buck - Ep. 284
為什麼AI模型越大,反而越便宜?
傳統模型的困境:暴力美學下的成本詛咒
想像一下,一個傳統的AI模型就像一個擁有上千億個腦細胞(神經元/參數)的全才天才。無論你問他「台北今天天氣如何?」這種簡單問題,還是「請解釋量子力學的測不準原理」這種複雜問題,他都必須調動全部的上千億個腦細胞來思考,才能給出答案。
這就是所謂的「密集模型」(Dense Model)。例如,Meta的Llama 405B模型,擁有4050億個參數。每次它生成一個字,就必須啟動並計算全部4050億個參數。Ian Buck在訪談中提到,這種模型的智慧分數(在Artificial Analysis的評分)約為28分,但光是跑完評分測試,就要花費雲端服務約200美元。
這種「暴力破解」雖然能提升模型的知識廣度與深度,卻也帶來了兩個致命問題:
- 高昂的運算成本:每次查詢都啟動所有參數,意味著巨大的GPU算力消耗,直接反映在API的費用上。
- 緩慢的反應速度:計算量越大,生成答案所需的時間就越長。
MoE的解法:從「全才通識」到「專家團隊」的思維轉變
MoE架構的出現,正是為了解決這個困境。它提出了一個反直覺、卻極其高效的想法:為什麼我們需要一個什麼都懂的全才,而不是一個各有所長的專家團隊?
Ian Buck用了一個生動的比喻:一家公司不需要雇用一個愛因斯坦來處理所有業務,而是會聘請財務專家、行銷專家、法律專家。當遇到問題時,公司會將問題交給最相關的專家團隊來解決。
MoE模型就是這樣運作的:
- 分割成專家 (Splitting into Experts):模型不再是一個巨大的整體,而是被分割成數十、甚至數百個較小的「專家網路」。每個專家都專精於特定的知識領域或數據模式。
- 智慧路由器 (The Router):在這些專家前面,有一個輕量級的「路由器」網路。它的工作很簡單:分析你輸入的問題,然後判斷「這個問題,應該交給第3、第8、第27號專家來處理最適合。」
- 選擇性啟動 (Selective Activation):路由器會將訊號只傳遞給被選中的少數幾個專家。其他數百個專家則繼續「休眠」,完全不參與這次的計算。
結果是驚人的。Ian Buck以GPT-4o mini為例,它總參數約1200億,比Llama 405B小得多。但當它回答問題時,每次只需要啟動約50億個參數。這相當於只動用了整個大腦約4%的區域來思考。
這帶來了什麼改變?
- 智慧分數:從28分躍升至61分,模型變得更聰明。
- 運算成本:評分測試的成本從200美元驟降至75美元。
- 效率提升:計算量大幅減少,速度自然更快。
這就是MoE的核心魔力:它透過「選擇性啟動」,實現了總參數數量(決定模型的知識總量與智慧上限)與即時運算量(決定成本與速度)的脫鉤。
MoE並非橫空出世,為何忽然成為AI顯學?
混合專家的概念其實在機器學習領域已存在多年,並非新發明。那為什麼直到最近,它才突然從學術界的角落,一躍成為所有頂尖AI模型的標準配備?
沉寂多年的架構與「DeepSeek時刻」的引爆點
Ian Buck在訪談中明確指出,引爆這場革命的關鍵是2025年初的「DeepSeek時刻」。
在此之前,雖然有論文探討MoE,甚至一些閉源模型(如早期的GPT)可能已經在使用,但整個開源社群始終缺乏一個具體、高效、且能與頂尖閉源模型匹敵的實作範例。大家知道這條路可能走得通,但不知道該怎麼走。
中國的DeepSeek AI團隊打破了這個僵局。他們開源了MoE模「Deepseek V3」,每一層擁有驚人的256個專家。它不僅在智慧評分上展現了世界級的水準,更重要的是,它證明了MoE架構在經過精心設計後,運行成本可以做到極致的低廉。
Ian Buck形容,DeepSeek的開源論文向全世界的研究者展示了如何有效訓練MoE模型、如何部署推論,等於是提供了一份詳細的施工藍圖。從那一刻起,整個AI社群的風向徹底改變,所有人都意識到MoE是通往更高智慧、更低成本的康莊大道。這股浪潮延續至今,使得MoE成為了當前前沿模型的代名詞。
MoE的隱藏成本:解鎖效能的關鍵在於「無阻塞通訊」
然而,天下沒有白吃的午餐。MoE在大幅降低運算量的同時,也引入了一個新的、極其棘手的通訊問題。
專家們的竊竊私語:GPU閒置就是燒錢
想像一下,一個大型MoE模型被部署在數十台GPU伺服器上。數百個「專家」散落在不同的GPU晶片中。當路由器決定要啟動第3、8、27號專家時,這幾個分處不同位置的專家必須立刻開始交換資料、協同工作,然後再將結果彙整,傳遞到模型的下一層。
這個過程就像一個極度高效的跨國團隊在開線上會議。如果網路延遲、卡頓,或者一次只能有一個人說話,那即使每個專家都才華洋溢,整個團隊的效率也會被糟糕的通訊品質拖垮。
在GPU的世界裡,時間就是金錢。你花大錢買來的頂級GPU,是為了讓它進行數學運算,而不是讓它閒置著等待來自另一顆GPU的數據。如果通訊網路成為瓶頸,GPU的閒置時間就會拉長,MoE的成本優勢將蕩然無存。
NVIDIA的答案:NVLink與NVSwitch打造GPU高速公路
這正是NVIDIA的硬體護城河所在。Ian Buck強調,傳統的伺服器內部連接方式,如PCIe匯流排,或是資料中心常用的乙太網路(Ethernet),都不是為這種極高頻、極低延遲的「專家對話」所設計的。
NVIDIA的解法是打造一個專屬的GPU高速公路系統:NVLink與NVSwitch。
- NVLink:這是一種點對點的GPU專用高速互連技術,可以把它想像成是比PCIe寬闊數倍、速度快上數倍的私家高速公路。
- NVSwitch:如果NVLink是公路,NVSwitch就是一個複雜的智慧交通樞紐。它能確保系統中的每一顆GPU,都能以全速、無阻塞的方式,同時與其他任何一顆GPU進行通訊。
Ian Buck解釋了這個系統的演進:
- 在Hopper世代 (H100),NVIDIA透過NVLink和NVSwitch晶片,將一個伺服器內的8顆GPU緊密地連接成一個巨大的單一運算單元。這對於DeepSeek這類大型MoE模型的早期成功至關重要。
- 到了Blackwell世代 (GB200),NVIDIA將這個概念推向了極致。他們將這個「無阻塞通訊網域」從伺服器內部的8顆GPU,一口氣擴展到整個機櫃的72顆GPU。這意味著72個專家可以同時、全速地互相交談,沒有任何交通堵塞。
這種不計代價、專為GPU通訊打造的硬體架構,是確保MoE模型能發揮其最大經濟效益的物理基礎。它讓專家間的「竊竊私語」變得像光速一樣快,從而將GPU的閒置時間降到最低,真正將算力用在刀口上。
極致協同設計:NVIDIA如何從硬體到軟體,壓榨出10倍的性價比?
打造出最強的硬體只是第一步。要將硬體的潛力完全轉化為用戶能感受到的成本降低,還需要軟硬體的深度整合,也就是Ian Buck口中的「極致協同設計」(Extreme Co-design)。
軟硬體一體的「組合拳」
NVIDIA有一個有趣的現象:公司的軟體工程師比硬體工程師還多。這背後的原因是,要駕馭像GB200 NVL72這樣由72顆GPU組成的怪獸,光有硬體是遠遠不夠的。
NVIDIA的團隊深入到PyTorch、JAX等AI框架的底層,與模型開發者(如OpenAI、Anthropic等)緊密合作。他們共同設計模型架構,以最大化利用NVLink的通訊能力;他們開發新的演算法,將運算和通訊的時間完美重疊;他們甚至創造出新的數據格式,在不犧牲精度的前提下,將運算量和數據傳輸量再壓縮。
這是一個正向循環:模型開發者的新架構需求,推動NVIDIA設計出像NVLink這樣的新硬體;而新硬體的出現,又讓模型開發者可以去探索更大、更複雜的MoE模型。這種從晶片、系統、網路到軟體框架、再到AI模型的端到端垂直整合,是NVIDIA能夠持續提供倍數級效能提升的核心祕密。
從Hopper到Blackwell:看得見的成本,看不見的效益
這種「極致協同設計」的成果,直接體現在驚人的經濟效益上:
- 從Hopper升級到Blackwell,單顆GPU的成本確實增加了,系統也因為增加了更多NVSwitch而變得更昂貴。
- 但是,由於Blackwell架構能讓72顆GPU完美協同,運行DeepSeek這類MoE模型的效能也大幅提升。
- 一來一往,最終的結果是每個token的生成成本降低了10倍。具體來說,過去在Hopper上處理一百萬個token大約需要1美元,而在Blackwell上,這個數字降低到了10美分。
這就是NVIDIA的商業邏輯:透過在硬體技術上增加「百分之幾」的成本,換取在AI應用效能上「好幾倍」的提升,最終為客戶帶來「數量級」的成本節省。
TN科技筆記的觀點
當運算本身不再是唯一瓶頸時,晶片間的「通訊能力」就成了新的戰略制高點。NVIDIA在NVLink和NVSwitch上長達十年的巨額投資,正在此刻開花結果。無法被輕易複製的「高效能運算架構」建立了一道極深的護城河,讓競爭對手在運行頂尖MoE模型時難以望其項背。
另外為了實現高速通訊,NVIDIA已經在銅線上使用了逼近物理極限的信號技術,未來也將持續面臨在功耗、散熱、信號完整性和製造成本上的指數級挑戰。屆時,不只NVIDIA,所有AI雲端運算大廠都需要研究新的突破口,來延續這條「以更高成本換取更高倍數效能」的黃金定律。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)

















