在過去三年,只要談到 AI 基礎設施,話題幾乎被兩個字壟斷:輝達(NVIDIA)。
GPU 是它的,軟體是它的,連data center後端網路 InfiniBand 也是它的(需要補充背景知識可爬文第29期)。
這套「GPU + 專用網路」組合,讓輝達在 AI 超級運算領域形成近乎無法撼動的封閉堡壘。但如果要替目前的 AI 基礎設施寫一句電影式標語,大概沒有比《魔鬼終結者》裡那句經典台詞更貼切的了——
“I’ll be back.”
只是這一次,回來的不是 T-800,而是那條你以為早在高速運算時代被淘汰的老兵:乙太網路(Ethernet)。這點,原本Mark也很吃驚,但我透過背景知識推理及大量資料查證,證實了這件現在進行式。
過去NVIDIA的封閉生態圈,看似牢不可破;如今,這座高牆沒倒,但城牆正在從四面八方被進攻,可想而知科技列強們有多想要吃食這塊大餅。
AI 網路的權力天平,正以肉眼可見的速度往另一端傾斜。這真的不誇張,幾個月前,我們還認為InfiniBand在data center裡不可能被撼動,如今,只能說科技進步的速度實在太快,快到即便連Mark幾近天天關注,相關電子報或群組資訊仍覺得永遠寫不完。
以下我們從幾個角度來闡述今天的議題。
想要第一時間獲得市場上的最新資訊及分析嗎?
歡迎點擊下方連結訂閱【馬克觀點MKP】電子報,在即時更新資訊的同時,獲得最深入的分析~
【InfiniBand 的盛世與代價:封閉帶來性能,但也帶來束縛】
AI訓練早在2019年就開始,在"GPT time"到今年稍早,只要你訓練的模型夠大、GPU(或其他AI加速器,詳第15期)夠多,後端網路用什麼?幾乎不用思考——答案永遠是:
InfiniBand
它的優勢無庸置疑:
- 亞微秒(低於百萬分之一秒)級延遲
- 零封包(註一)遺失
- 與 NVIDIA GPU 完美整合(詳29期)
但高性能的背面,總有代價:
- 價格高於傳統乙太網路(Ethernet,就是你家在用的) 1.5~2.5 倍
- 生態封閉&供應鏈單一
- 企業被動綁定 NVIDIA(含供貨優先權問題)
- 在data center內很強,但對外擴展性受限(詳29期)
曾經的性能優勢,很現實的,在成本與生態壓力下產生缺口。
【「乙太網路 2.0」的逆襲:UEC 開啟新時代】
真正的轉折點,出現在 UEC(Ultra Ethernet Consortium)1.0 於 2025 正式發布,並於下半年開始大量應用。
UEC 的成員包括 AMD、Intel、Broadcom、Meta、Microsoft、Cisco 等巨頭,目標不是模仿 InfiniBand,而是打造:「兼具性能、成本效率與開放性的 AI 專用乙太網路」
這不是傳統 Ethernet 的例行升級,而是從實體層(一樣參閱29期)一路重寫到軟體協議的全棧改革,接下來,我們把專業術語,用科普的方式拆解這UEC 1.0到底葫蘆裡賣什麼。
我們可以把 UEC 1.0 比喻成一場「送貨物流系統的大升級」
想像原本某快遞公司(舊的乙太網路)送貨很慢,路上還常塞車。現在,他們換了一套全新的運作方式:
- 路上不再大塞車(擁塞控制)
以前:送貨司機只要看到路口塞住,就只能跟著排隊,導致最後明明只差幾個包裹,卻總是要等好久才送到(就像我們有時醫院掛號只是要拿個藥(5分鐘解決),但前面卻剛好排了一個跟醫師一講一小時的)。
現在:這家公司的車裝了智慧導航,能提前知道哪條路快塞車了,趕快避開、並且還能主動通知交警趕快先期疏導。這樣就不會發生「前面都送到了,最後一件卻等半天」的情況,每件貨都能準時到達。 - 給大貨車開專屬快速道路(原生 RDMA, Remote Direct Memory Access,遠端直接記憶體存取)
以前:一般的貨車跟私家車都擠在同一條小路,當 AI 這種「超大型貨車」一多,交通就癱瘓了。
現在:就像某些商港專用道路一樣,直接開闢一條「大貨車專用快速道路」。這些大貨車(AI 數據)可以直接開進倉庫,不用在路口轉來轉去、等紅綠燈,送貨速度比起以往快得驚人。 - 全程監控,哪裡出問題一看就知道(內建可觀察性)
以前:客訴包裹不見了、delay了,公司要查找半天,甚至搞不好其實是哪台車壞在半路導致延遲了他們也不知道。
現在:直接在每一輛貨車和每條私人道路路口都裝了連線攝影機。主管坐在辦公室看大螢幕,就能知道幾千台車現在跑到哪、有沒有問題。管起來輕鬆多了,出錯也能秒處理。 - 拆掉重建,不再是「全能住宅改造王(笑)」(全棧重寫)
以前:舊乙太網系統就像一間老破屋,牆漏水補牆、屋頂漏水補屋頂。
現在:不修了!直接都更把舊房子拆掉,從地基開始蓋一棟全新的現代大樓。這不是加個補丁,而是從頭到尾都為了現在的高品質生活重新設計的!
這也是為什麼這套體系會用"1.0"來作為代數命名,因為是全新的開始。
換句話說:這是一個為 AI 而生的新乙太網路,而不是舊 Ethernet 的換湯不換藥。
結果如何?
2025 年,Meta 使用新Ethernet體系,連接 24,000 顆 GPU 訓練 Llama 3,性能跟 InfiniBand 僅落在誤差範圍1~3%內,但成本大幅降低,更精準的說是直接砍半!(老闆最喜歡看到這個!)
This is the first blood. 乙太網路第一次正面擊中 InfiniBand 的護城河。
更重要的是,UEC 1.0具備:
開放生態 × 多供應商 × 更容易取得(可近性增強)
這是企業在大AI模型時代最渴望的三件事。
接下來,我們不能只是憑感覺「這個好像有用」
數據交叉驗證:新乙太網路真的正在吃掉 InfiniBand市占嗎?
根據 Dell’Oro 2025 年最新研究:
- Ethernet 在 AI 後端網路出貨量首度反超 InfiniBand
- 預估 2027 年市佔率達 45%
- 2030年網速將推進至 3.2 Tbps,全面主導 AI 網路 (下一期同場加映:既然深層本是同根生,這有沒有可能往下推到家用網絡?迎來繼2000年後的第二次網路革命?)
連 NVIDIA 都必須面對這個趨勢而推出自家新乙太網平台:Spectrum-X Ethernet
而這平台確實今年Q1也為輝達貢獻 4.59 億美元,成長迅速!並且根據最新資料,在輝達內部的採用率數據已逐漸與InfiniBand持平。
Jensen Huang 也公開表示:
"產業正在從 InfiniBand 走向 Ethernet。"
當一家封閉生態圈壟斷者開始擁抱開放架構,將自己原有的護城河外圍,再試圖挖另一條河,你就知道這趨勢不是Mark幻想而已,而是現實。
AI 基礎設施的主導權,已經悄悄換人;當外界仍把焦點放在 GPU,真正的變革正在網路那層發生。
InfiniBand 的黃金年代並非結束,乃是進入少數專案的利基市場;
而UEC乙太網路正用開放、成本效率與跨供應鏈合作,重建 AI 資料中心的基底。
在這場產業遷移中,理解其中版圖變化,是投資 AI 基礎建設的必修課。
And the last thing everyone cares about is...
最後大贏家很可能會是誰?
________________
欲觀看完整版,歡迎至文章開頭表單訂閱mail電子報
第29期電子報傳送門
註一:何為"封包"
如果你原本就是網路工程師,那這段可略過;不過對於許多普通人來說,這個名詞看似熟悉卻又陌生。簡單來說,在網路通訊中,「封包」(Packet)是數據傳輸的基礎單位,當你在網路上傳送圖片、郵件或看影片時,這些資料並不是整塊直接傳送,而是被切碎成無數個小區塊,這些小區塊就稱為「封包」。
為什麼需要用封包?這裡來個生活化比喻
想像你要寄一整套厚重的百科全書給朋友。如果你直接整套寄,郵差可能會因為太重而搬不動,且一旦包裹在路上弄丟,你就得全部重寄。
而封包的做法就是將整套書拆成單本單本,每一本裝進一個包裹,分別寄出。
如果某包裹掉進水溝(網路術語叫"丟包"),你只需要補寄那一本,而不是整套書。
不同包裹可以由不同郵差、走不同的方式到達,最後朋友再按套書編號conbime起來。














