
嗨,我是 Mech Muse 👋
今天想跟大家聊一則 AI 消息。
2025/12/15,NVIDIA 宣布收購 SchedMD——也就是大家熟知的 Slurm 排程系統背後最重要的開發與維運公司。NVIDIA 的說法很直接:希望把「大型 AI / HPC 叢集怎麼排隊、怎麼分配資源」這件事做得更好、更有效率,同時也強調 Slurm 會繼續維持開源,而且不綁特定硬體(vendor-neutral)。如果你平常比較關注 GPU 規格、模型大小或算力競賽,這篇文章會帶你換個角度看事情:
為什麼一個看似低調的「排程器」,其實常常決定了 AI 訓練效率、成本結構,甚至整個基礎設施能不能順利擴張。
一、為什麼 NVIDIA 會看上 Slurm?🤔
先幫大家整理一下這次收購的三個核心重點:
第一,NVIDIA 直接把 Slurm 的主要維護者 SchedMD 收進來;
第二,NVIDIA 明確表示 Slurm 會繼續走開源、vendor-neutral 路線;
第三,這筆收購被定位為 強化開源軟體生態、推動 AI 創新的一環。
那 Slurm 到底在做什麼?
你可以把它想像成大型叢集的「工作派單系統 🧾」。當一堆人(或一堆訓練 pipeline)同時要用同一批 CPU、GPU、高速網路跟儲存設備時,系統必須決定:誰先跑、要跑多久、能拿到多少資源、資源不夠時要不要排隊,甚至還要符合企業或研究機構訂好的規則,像是專案優先權、配額、夜間批次任務等等。
NVIDIA 在官方說法裡其實講得很白:
AI 與 HPC 的工作負載越來越大,叢集越來越複雜,資源利用率就變得超級關鍵。
再來是 Slurm 的「江湖地位」。
NVIDIA 提到,在 TOP500 超級電腦排行榜裡,光是前 10 名、前 100 名,就有超過一半使用 Slurm;SchedMD 自己的資料也指出,超過 65% 的 TOP500 系統採用 Slurm。這代表 Slurm 早就不是小眾工具,而是從傳統 HPC 一路走到 AI 訓練現場的核心元件。
所以你會發現,NVIDIA 這次買的不是一個新潮框架,而是一個 大家早就用很久、而且用得非常深的底層調度系統。Reuters 也提到,SchedMD 的產品就是用來安排那些會占用資料中心大量伺服器資源的運算任務,而 Slurm 在生成式 AI 的訓練與推論環境中相當常見。
二、前因與發展時間線:Slurm 怎麼一路走到被收購?🕰️
如果把這件事拉長來看,其實脈絡非常清楚。我整理了一條時間線,讓你快速掌握 Slurm 的「累積感」:
- 2002 年:Slurm 以較簡單的資源管理工具形式釋出初版,之後逐步擴展,開始支援更多處理器架構、網路環境與 MPI。
- 2008–2010 年:隨著需求快速成長,Slurm 的功能越來越完整,到 2010 年已能作為獨立的資源管理與排程系統運作。
- 2010 年:Slurm 的主要開發者 Morris “Moe” Jette 與 Danny Auble 在美國加州 Livermore 創立 SchedMD,採取「軟體開源、公司提供工程與維運支援」的經典開源商業模式。
- 2017 年:SchedMD 搬到猶他州 Lehi,持續專注在 Slurm 的開發與企業級支援。
- 2025/12/15:NVIDIA 宣布完成對 SchedMD 的收購,同時表示雙方合作已超過十年,未來會持續投資 Slurm 的開發。
- 同日補充:Reuters 指出,這筆交易金額未公開,SchedMD 的客戶包含 CoreWeave、Barcelona Supercomputing Center 等知名單位。
把這些點連起來看,這次收購其實不像臨時起意,更像是 NVIDIA 把一個 已經合作很久、也跑在自家硬體上的關鍵排程器,正式納入自己的 AI 基礎設施布局裡,讓它能更貼近 GPU 與加速運算平台做整體最佳化。
三、SchedMD 是誰?為什麼這家公司在 HPC / AI 圈這麼關鍵?🔧

SchedMD 的存在感很有意思:公司人數不多,但位置非常核心。
Reuters 提到,SchedMD 大約只有 40 名員工,主要工作就是提供大型運算工作負載的排程技術,並透過工程與維護支援來營運。
SchedMD 自己的定位也很清楚:
他們提供 Slurm 的商業支援與持續開發,服務範圍涵蓋 HPC、HTC、AI、ML,目標只有一個——讓叢集資源用得更有效率。

如果把 Slurm 比喻成「叢集旁邊的交通系統 🚦」,那 SchedMD 就是那群每天在幫你畫路線、調號誌、修故障、還會在出大事時直接衝進現場救火的人。這也是為什麼 NVIDIA 在公告中特別強調,未來會持續提供對 SchedMD 客戶的開源軟體支援、訓練與開發服務,服務對象橫跨雲端業者、製造業、AI 公司與研究機構。
再補一個偏工程現場的觀察。
SchedMD 在產品介紹中提到,Slurm 有緊密的 GPU 整合能力、可以擴展到非常大規模,也能用複雜規則做彈性資源匹配,重點放在高效率的工作分配與資源利用。這些話聽起來像官網描述,但對真正跑訓練的人來說意義很實在:當你同時要顧 GPU 利用率、排隊時間、公平性、優先權與成本,排程器往往就在 效能與費用的交界點。
也因此,NVIDIA 會把 Slurm 定位成生成式 AI 的關鍵基礎設施之一,用來管理模型訓練與推論需求。至於大家最擔心的「開源會不會變質」,NVIDIA 至少在公開說法上給了相當清楚的承諾:持續開源、保持 vendor-neutral,讓 Slurm 能在多元硬體與軟體環境中繼續被社群使用與支持。
四、重點總結:這筆收購對 AI 基礎設施代表什麼?📌
最後幫大家快速整理今天的重點:
- 收購事件本身:2025/12/15,NVIDIA 宣布收購 SchedMD,交易金額未公開。
- Slurm 的角色:Slurm 是 HPC 與 AI 叢集常用的工作負載管理與排程系統,被 NVIDIA 視為生成式 AI 訓練與推論的關鍵基礎設施。
- 開源承諾:NVIDIA 明確表示,Slurm 將持續以開源、vendor-neutral 方式發展。
- SchedMD 的定位:由 Slurm 主要開發者創立,長期在社群與企業用戶之間扮演關鍵橋樑。
如果你平常在追 AI 產業,這則新聞不像模型發布那麼吸睛,但它更貼近現實:
當算力越堆越大,能不能把資源調度好、把 GPU 吃滿、把排隊時間壓下來,本身就會成為競爭力。
我是 Mech Muse 👋,之後也會繼續跟大家一起拆解 AI 基礎設施的關鍵變化。
如果你喜歡這類分析,記得追蹤我,我們下一篇再一起來看產業怎麼走 🚀
這篇文章如果有讓你覺得實用、有趣,也可以考慮小額贊助支持我~
👉贊助支持:贊助連結
❤️加入付費會員,每週獲得最新科技新知
Mech《AI 週一報 #004》|2025.12.09~2025.12.15
《Mech》人型機器人 週二報 #003|2025.12.03~2025.12.09
《Mech》小型核能 週三報 #003 2025.12.04~2025.12.10
《Mech》量子科技 週四報 #003| 2025.12.05~2025.12.11
《Mech》量子科技 週四報 #003| 2025.12.05~2025.12.11



























