最近一連串技術新聞,在工程師社群與投資圈引發不小震盪。
AI 程式碼代理人只花 30 分鐘,就把 CUDA 後端移植到 AMD ROCm( Radeon Open Compute, 是AMD主導的open souce GPU 軟體平台)
前 AMD 架構師 Raja Koduri 所述,搭配 Claude、Codex 將 CUDA 轉到 ROCm 等並不難;既然可以完全跳過中間抽象層,為什麼不直接使用 CUDA 到 GCN .GitHub 上也出現「Co-authored-by: Claude」的 CUDA → ROCm 完整後端;這些事件被快速濃縮成一個聳動結論:
「CUDA 護城河要守不住了,NVIDIA 要被顛覆了。」
但這個推論在過去或許成立,但現在 NVIDIA 早就建立了新的護城河。
一、Claude 拆掉的是什麼?
CUDA 作為「Nvidia 的 AI 軟體護城河」,是因為過去 CUDA → ROCm 的轉換成本高.
但現在搭配 Claude、Codex 這類 agentic coding 並沒有很難繞過去,能做到:
- 將 CUDA 程式碼轉譯為 ROCm
- 繞過 Hipify 這類中介工具
- 自動理解 kernel 意圖跟處理資料佈局差異
👉 CUDA 綁 Nvidia 硬體,用 agentic coding 並不難繞過去.
二、CUDA 不是 NVIDIA 現在唯一的護城河
上面這些討論仍然停留在「單晶片、單節點」,屬於個人玩家的範疇.
但 AI 的主戰場,早已從「單晶片」轉向「系統」,也就是 rack-scale system.
對於那些「雲端服務供應商」(CSP, Cloud Service Provider)像是 AWS、Azure、Google Cloud等,這層級考慮的是:
- KV Cache 要放在哪一層記憶體
- 什麼時候該用 HBM、什麼時候該丟到 Flash
- 推論時候 Prefill 與 Decode 的資源怎麼切
- 多 session 同時在線時,誰該優先拿資源
- 哪顆 GPU 忙、哪顆閒,能不能動態調度
👉 這些是 rack-scale 系統行為層級。
而 NVIDIA 現在就是專注於把整個機架(Rack)當成一台超級電腦來設計.
在 Rack-scale system 裡:
- GPU、記憶體、Flash、NIC、DPU 都是共享資源
- 記憶體跟儲存不再「屬於某顆 GPU」
- 效能來自於「整體資源利用率」,而非單點極致
這些正是 NVIDIA 持續投入的技術方向:
- Memory pooling
- ICMSP / CXL / HBF
- NVLink / NVSwitch
- DPU 協調整個機架的資料流
這些 Rack-scale system 的技術門檻,跟 CUDA → ROCm 這種單機單晶片的層級不同。
三、所以這些新聞該怎麼解讀?
從單機玩家的角度來看,Claude、Codex 這類 agentic coding 確實讓更多人能翻過 CUDA 這道高牆。
但是從 Nvidia 的角度來看:
- CUDA 是過去 Nvidia 的護城河.
- NVIDIA 現在是往 Rack-scale system 方向去建立技術門檻.
小結:
真正值得問的是什麼?
不是「CUDA 會不會被終結?」,而是:
1️⃣ 當單機世界的CUDA轉換成本夠低時,這會不會反過來影響未來系統標準?
2️⃣ NVIDIA 把精力都集中在 Rack-scale system 時候,那個人玩家的單機這塊...
3️⃣ 有沒有可能 AI aegent 學會「整個 Rack 的 TCO 最佳化」?
但到目前為止,這三件事都還沒發生。
















