使用場景與資料流行為特徵
AI 訓練/推論平台場景
AI訓練及推論平台通常指大型資料中心內的GPU/加速器伺服器(如 NVIDIA DGX 系列、超算集群等)。在這類場景中,SSD承擔著提供高效資料讀寫以餵飽GPU的重任。其I/O行為具有如下特點:
- 資料讀取模式:訓練階段需要反覆從存儲讀取巨量的訓練資料集,通常採用順序或大塊連續讀取(例如將許多小檔打包成TFRecord等格式,以減少隨機小IO) 。為了充分利用多GPU並行,常會有多線程/多進程並行讀取資料,導致高度併發的讀取負載。推論階段則常需隨機讀取模型檔或查詢資料:例如大型語言模型(LLM)推論時,需要快速從SSD加載模型權重到GPU記憶體 ;推薦系統推論時,需要從SSD中查詢巨大的embedding表。這些讀取I/O偏向隨機小區塊且要求低延遲 。實際上,現代AI模型的訪問模式往往是「處理超大資料集,但每次讀取的資料塊相對較小」 。
- 資料寫入模式:訓練過程中也涉及持續寫入:常見包括模型checkpoint快照(週期性將模型權重寫入SSD,用於容錯或後續微調),通常為數GB到數十GB的大型順序寫;還有訓練log、樣本緩存等較小隨機寫。總體而言訓練階段寫入量不小,但相較讀取仍是次要(典型深度學習訓練讀寫比可達10:1以上)。推論階段除了記錄日誌外,主要為讀取操作,寫入非常有限。
- **延遲與頻寬要求:**為避免GPU閒置等待I/O,高頻寬、低延遲是AI平台對SSD的核心需求 。例如NVIDIA指出現代加速卡(如配備HBM高頻寬記憶體的GPU)已具備每秒數TB的資料消耗能力,遠超目前單個SSD能提供的吞吐 。因此,一個GPU節點往往配備多個NVMe SSD並組成RAID或平行檔案系統,以提供累加的IO頻寬。同時,由於多GPU同時訪問存儲,尾延遲(Tail Latency)必須受控,以免任一I/O卡頓拖慢整體訓練速度。典型要求是P99延遲在毫秒級,例如Facebook對其資料中心SSD訂出指標:絕大多數讀取I/O延遲需低於約3ms,以P99.99計也要求在10ms以內,最壞情況不得超過15ms 。
- 訪存佔用與併發:訓練時經常預先將下一批次資料讀入CPU記憶體甚至直接通過GPUDirect Storage進GPU,以流水線方式隱藏I/O延遲 。這意味著SSD需要同時處理多串流、高Queue Depth的讀取。推論服務(特別是線上服務)更加注重單次請求延遲,一般會儘量將模型常駐於DRAM;但對於超大模型或多模型平臺,SSD可能扮演擴充記憶體的角色,需隨時載入未駐記憶體的模型權重。此時每次載入延遲必須極低,例如NVIDIA提供的模型串流方案允許模型邊載入邊推論,但要求後端存儲具備足夠低延遲及併發吞吐 。
(小結:AI訓練/推論平臺需要SSD提供高順序吞吐來加速批量資料讀取,同時在多併發小隨機讀下仍保持低延遲和高IOPS,以保障GPU高效運轉。寫入方面則需支持定期的checkpoint大順序寫和少量隨機寫而不影響讀取性能。)
雲端儲存系統場景
雲端儲存系統指提供大規模資料儲存與分發的基礎架構,如分散式檔案系統(Lustre、Ceph)、物件儲存服務(如 AWS S3 後端)、或雲端資料庫儲存節點等。在AI應用中,雲端儲存通常扮演資料供給者角色,將資料集或模型檔案透過網路提供給訓練/推論節點。這類場景下SSD的行為與需求特點包括:- 工作負載混合與多租戶:雲端儲存的I/O pattern往往是高度混合的隨機讀/寫。來自大量用戶或計算節點的請求同時抵達,SSD需處理多併發的隨機IO並維持QoS。例如,幾十甚至上百個GPU節點可能同時從一組後端SSD讀取不同區塊的資料集,使得儲存節點SSD呈現近似隨機訪問模式。此外,寫入請求也來自資料集更新、結果回寫等,多租戶環境要求SSD在任何一租戶高負載時不至影響其他租戶(QoS)。穩定的一致性性能因此是關鍵,企業級SSD常內建機制確保在混合讀寫下的P99延遲可預期,並提供延遲監控和警示 。
- 高吞吐與併發擴展:雲儲存系統通常透過併行擴充來提高吞吐——即以多個SSD和多節點分散資料。單一SSD的順序頻寬雖有限(PCIe 4.0約6~7 GB/s;PCIe 5.0可達14 GB/s),但藉由併發讀取多顆磁碟,可線性提高總吞吐 。例如Weka等平行檔案系統將模型拆分到數百個節點/上千顆SSD上,同步讀取以遠超單機NVMe的速度提供資料 。因此,在雲端儲存場景,單一SSD的重點在於穩定處理併發IO,而總體頻寬由整體架構決定。即便如此,每顆SSD仍需具備高順序吞吐以在局部資料熱點時提供足夠帶寬,例如OCP規範要求雲盤順序讀至少達到6.5 GB/s 。
- **容量與耐久度:由於資料中心空間及PCIe插槽有限,高密度大容量SSD在雲儲存中相當重要 。例如Solidigm推出的61.44TB QLC SSD可大幅減少機架中SSD數量,同時節省PCIe通道供GPU等使用 。QLC雖單位成本和容量優,但寫入耐久度較低,幸而雲儲存以讀為主的工作負載適合QLC特性 。在寫入較多的情況下(如多副本寫入或Erasure Coding編碼開銷),一般會透過控制寫入放大、後台整合等方式減輕單盤壽命壓力。同時企業客戶在採購時會關注耐久度保證(如Drive Writes Per Day值)**以確保SSD能承受預期的資料量。
- 資料保護與可靠性:雲端儲存要求資料高度可用和可靠。SSD須支持如端到端資料路徑保護、掉電保護等功能 來防止資料損毀。在分散式環境中,一顆SSD故障可能影響大範圍資料服務,因而MTBF(平均故障間隔)和運維可管理性(如熱插拔、遠端監控)也是重點。這些都使得企業級NVMe規範(例如OCP Cloud SSD規範)要求在可靠性和可管理性上超越基本NVMe標準 。
(小結:雲端儲存系統中的SSD需能應對高併發的混合讀寫,強調QoS和可靠性。高容量SSD有助於提升存儲密度和效能/成本比,而企業級功能如掉電保護、端到端校驗、遠端管理都是必備,以支撐大型雲服務穩定運行。)
邊緣 AI 計算節點場景
邊緣AI計算節點指部署在數據中心之外、靠近資料來源的裝置或小型伺服器,如智慧工廠中的AI閘道器、無人車上的AI模組、零售店內的分析主機等。這類場景的SSD需求具有自己的特點:
- 有限資源與低功耗:邊緣裝置通常空間狹小、散熱能力有限,SSD多採用M.2等小尺寸形態,功耗受到嚴格限制(常見需在510W以下)。例如一些工業電腦使用無風扇被動散熱,SSD若功耗過高會導致過熱降速。因而邊緣場景下能效比極為重要:SSD需在低功耗下仍提供足夠性能。功耗模式管理成為關鍵功能,許多NVMe SSD支援多電源狀態,以便在邊緣設備中設定功耗上限(如將耗電鎖定在8W)。相比雲端伺服器允許15~25W的U.2/E3.S高功耗盤,邊緣更青睞低功耗型號。
- 即時性與穩定延遲:邊緣AI常用於即時決策(例如自駕車物體識別、機器人控制),延遲敏感不亞於資料中心推論服務。由於邊緣裝置上計算資源有限,SSD可能需要直接串流資料給AI加速器。舉例而言,一台安防攝錄主機可能一邊從多攝像頭寫入高畫質影片至SSD(順序寫入),一邊又讀取部分影片幀進行AI分析(隨機讀取)。系統要求SSD的寫入不應阻塞讀取,延遲需穩定可預期,以確保AI分析管線實時運作。這對SSD的firmware優化提出挑戰,需要兼顧前臺I/O排程和後台整理而不致產生明顯卡頓。
- 耐用性與環境適應:許多邊緣環境條件惡劣(極端溫度、震動等)。SSD在這些場景下需要有工規級耐受(如寬溫-40~85°C運行)、更高的抗震動等特性。同時,由於邊緣設備維護更換困難且成本高,對SSD的長期耐久要求更高。一些邊緣AI應用(如智慧城市的節點)可能每天產生大量資料寫入SSD(例如全天候影像錄製)。因此即使採用寫耐久度較低的QLC閃存,也可能透過加大冗餘和Over-Provisioning、或嚴格的寫入放大控制來確保TBW壽命滿足預期使用年限。此外,邊緣設備資料常涉及隱私或重要資訊,一旦設備遺失或被攔截,SSD需有安全功能(如TCG Opal加密、自毀機制)保障資料不外洩。
- 存算一體與在裝置學習:值得一提,邊緣場景下興起所謂「TinyML」或在裝置訓練(如在手機上微調AI模型)。這類應用可能在邊緣設備本地對少量資料進行訓練更新模型,也會用到SSD進行臨時緩存和寫入。與雲端大型訓練不同,在裝置學習的資料量較小,但頻繁的隨機寫入(如反覆更新權重檔案)可能對SSD產生壽命挑戰,需要Firmware層面優化寫入合併和穿透cache策略,以平衡效能與磨損。
(小結:邊緣AI裝置對SSD的要求聚焦在低功耗高可靠運行、穩定的即時讀寫性能,以及適應惡劣環境和長時間使用。雖然規模不如雲端,但在可靠性和即時性上的要求甚至更苛刻,以保障AI推理結果及時正確。)
市場常見採購標準與規格要素
企業在為上述場景挑選AI SSD時,通常會考量一系列標準規格,以確保相容性、性能和可靠性符合需求。以下列出市場上常見的SSD採購指標:
- 介面與協定支援:主流AI SSD皆採用PCIe NVMe介面。目前PCIe 4.0 x4已成為基本要求,可提供7 GB/s的連續吞吐;最新一代產品開始支援PCIe 5.0(帶寬翻倍至15 GB/s)以滿足更高頻寬需求 。未來還可能考量CXL (Compute Express Link)技術:部分廠商已提出透過CXL連接的「記憶語義SSD」,將NAND Flash作為可擴展記憶體使用,以降低AI工作負載的小隨機訪問延遲 。例如三星發表了基於CXL的Memory-semantic SSD,內建大量DRAM快取,加速小區塊存取高達20倍 。雖然CXL SSD尚在早期階段,但具備CXL介面支援被視為面向未來AI基礎架構的一項潛在加分功能。
- 外形尺寸與熱設計:採購時會指定SSD的Form Factor以確保機械與熱相容性。資料中心AI伺服器偏好U.2/U.3 2.5”熱插拔盤或最新的EDSFF (E1.S/E3)模組。例如OCP規範推廣的E1.S SSD,具有更佳散熱和服務性,被Facebook等超大規模數據中心採用 。E1.S 9.5mm、15mm、25mm不同厚度對應功耗12W、18W、25W等級別。邊緣設備則多用M.2 2280/22110等內嵌式形態,以節省空間。對於高功耗SSD,需確保服務器有足夠冷卻能力並可能限定使用位置(如遠離GPU區避免熱疊加)。
- 功耗上限與熱管理:企業通常要求SSD支持可配置的功耗模式,並提供功耗上限設定。例如OCP NVMe Cloud規範中定義了多檔功耗等級,典型雲盤在15W以內運行 。Facebook更將其資料中心SSD平均功耗目標設在不超過10W ,以降低整機散熱壓力和能耗成本。為達此要求,SSD需實現良好的功耗管理(如閒置時進入低功耗狀態、主動熱調節)。同時購買方也會關注散熱特性(Thermal Throttling點),要求在規定環境溫度下SSD不因過熱而嚴重降速 。總之,「滿載性能需在X W功耗限制內達成」是常見採購條款之一 。
- 性能與QoS指標:除了順序讀寫帶寬(一般要求順序讀≥6 GB/s )和隨機IOPS之外,QoS(服務品質)指標越來越受重視。QoS通常以尾延遲百分位表示,例如P99或P99.99讀/寫延遲需低於某值。大客戶(如雲服務商)在規範中會明確各種負載下的延遲目標 。例如某雲規範要求混合隨機讀寫下P99延遲<2 ms、P99.99<6 ms,極端P99.999<15 ms 。達成高QoS需要SSD控制器有先進的調度、隔離機制(如Weighted Round-Robin仲裁、媒介分區隔離等)。採購時也看重一致性——即長時間運行下性能穩定性,避免因Firmware回收或溫度變化導致性能抖動。
- Namespace與彈性配置:NVMe的多Namespace功能允許將一顆物理SSD劃分為多個邏輯磁碟。大型雲環境常要求SSD支持一定數量的Namespace(如≥8個),以便在虛擬化或容器場景下隔離不同工作負載。Namespace還可用於不同用途區分(例如一部分Namespace用於高頻讀取的模型檔案,另一部分用於頻繁寫入的日志)。因此“支援多Namespace配置”是投標需求之一。此外,類似NVMe SR-IOV虛擬化支援、驅動相容性等也列入考量,確保SSD能良好工作於目標平台軟體環境中。
- 管理介面與PLDM支援:在超大規模數據中心,離線管理和監控SSD狀態非常重要。現今採購規範往往要求SSD支持NVMe-MI (Management Interface),透過I2C/SMBus匯流排提供帶外管理能力。例如OCP 2.0規範就要求SSD實作MCTP協定,支援透過SMBus的PLDM指令存取SSD資訊 。這意味資料中心的BMC控制器可在主機CPU不介入的情況下讀取SSD的SMART/Health日誌、溫度、剩餘壽命,甚至下達格式化、Firmware更新等管理操作 。PLDM支援已成為雲端SSD的事實標配之一——沒有該能力的裝置通常無法通過超大規模用戶的驗收測試。
- 監控與遠端診斷:SSD需提供豐富的SMART屬性和Telemetry遙測資料。除了基本的介質磨損、壞快閃計數外,企業客戶要求更多維度:如設備延遲統計(OCP v2規範新增了延遲日誌和告警功能 )、用電量統計、錯誤率、內部溫度等。這些資料可以主動回傳或供管理系統輪詢,用於故障預測和性能調優。採購時會要求廠商提供對應的NVMe Log頁支援,以及NVMe CLI等管理工具的Plugin配套 。例如Facebook會提供自家fio基準和io工具以驗證廠商SSD是否達到性能目標 。可管理性(Manageability)與可診斷性已是SSD選型的重要方面。
- 資料安全與韌體可信:在AI場景下,儲存的模型和資料往往極具價值,安全性不容忽視。常見採購要求包括支援硬體加密(如AES-256、自加密磁碟SED符合TCG Opal 2.0 )、快速安全擦除(Sanitize和Instant Erase命令),以保障敏感資料的機密性。同時,大型客戶越來越關注SSD韌體的供應鏈安全和Root of Trust。OCP規範就要求SSD配合服務器硬體信任根機制,支持安全啟動(Secure Boot)和韌體簽名驗證 。未來甚至可能要求SSD支持協議如SPDM(安全裝置通訊協定)來遠端驗證裝置身份 。因此,安全等級也是採購決策的一環。
綜上,採購AI用途SSD時,介面規格、形態功耗、性能QoS、管理和安全等「硬指標」一樣都不能少。這些標準已在OCP等產業規範中被明確化,成為供應商為迎合AI/HPC大客戶所必須達到的門檻 。
主流平台與作業環境的支援需求
AI SSD還需適配各種主流的AI計算平台和環境。不同硬體/軟體平台對存儲有一些特殊需求,需在SSD選型與設計時加以考量。
- NVIDIA DGX 系列:NVIDIA DGX是專門面向深度學習的整機解決方案。以DGX A100為例,每台伺服器內建約15 TB的PCIe 4.0 NVMe SSD存儲(由多顆U.2 NVMe組成RAID 0,用於資料緩存) 。DGX上的SSD需要提供極高的順序吞吐以餵飽8卡A100 GPU的訓練資料,同時支援GPUDirect Storage (GDS) 等功能,以繞過CPU直接把資料DMA給GPU。【GPUDirect Storage要求平台和SSD的驅動支援PCIe Peer-to-Peer存取。】對SSD而言,這意味其PCIe實現須能與NVIDIA GPU共享同一PCIe Switch並允許P2P讀取。另外,DGX預裝的Linux系統會使用NVMe驅動特性(如多隊列等)達到最佳效能,因此SSD需完全相容主流NVMe驅動。同時,DGX這類高密度系統強調散熱,SSD通常位於氣流較弱處,因此其功耗/發熱必須在DGX設計範圍內(DGX A100使用的是15W等級U.2盤) 。總體來說,NVIDIA平台期望SSD具備穩定高吞吐、對GPU友好的特性。
- NVIDIA Grace Hopper 與 Grace CPU 超級晶片:Grace Hopper是NVIDIA將Arm架構CPU(Grace)與GPU整合的模組。由於Grace CPU本身支援PCIe Gen5,高速存取能力更強,因此與之配套的存儲通常升級到PCIe 5.0 SSD。例如超微(Supermicro)曾發布基於Grace CPU的存儲伺服器,單機支援16個 EDSFF E3.S Gen5 NVMe SSD 。這暗示Grace平台期待更高的存儲頻寬和IO密度。另一方面,Grace Hopper模組具有高達數TB/s級的HBM-GPU記憶體頻寬 。雖然目前NVIDIA GPU並未直接通過CXL訪問SSD(因NVLink/C2C高速介面不兼容PCIe,CXL短期內在GPU訓練系統中作用有限 ),但Grace CPU可以利用CXL擴展記憶體,因此在Grace服務器上CXL類型的快取擴充卡(包括DRAM或混合型的SSD存儲級記憶體)可能登場。對SSD供應商而言,需關注這些新介面趨勢,以確保未來產品在Grace等平台上的相容性。目前來看,Grace平台對SSD的要求重點在Gen5介面、超高順序和隨機性能,以及在Arm架構Linux上的穩定NVMe驅動支援。
- AMD MI300 加速處理器:AMD Instinct MI300系列融合CPU與GPU(APU設計),提供統一記憶體空間。MI300所在系統通常搭載AMD EPYC CPU,具有充裕的PCIe Gen5通道,因此對SSD數量與帶寬支援充裕。這類平台預期使用PCIe 4/5 NVMe SSD作為本地高速存儲,用於存放巨量訓練資料集和中繼結果。由於CPU和GPU整合,部分資料可存放於HBM上以加速,但總體資料規模仍需依賴SSD提供。因此大容量、高帶寬SSD對MI300平台依然重要。此外,AMD平台近來也強調CXL記憶體池化(如MI300A支援CXL 1.1協定 ),未來可能出現由SSD提供持久性記憶體擴充的方案。對現階段來說,AMD GPU服務器對SSD的要求類似NVIDIA:穩定低延遲的高性能NVMe。值得一提的是,AMD平台在軟體棧上相對開放,像ROCm等介面可能需要SSD在Linux下通過特定調優來配合大I/O(例如調整I/O調度器等)。總的來說,MI300等平台希望NVMe SSD能充分發揮PCIe Gen5潛力,同時在混合CPU+GPU負載下保持可靠。
- AWS Inferentia / Trainium 平台:AWS自研的Inferentia推理晶片和Trainium訓練晶片是雲服務形式提供給用戶。Inf1/Inf2推理實例側重於計算和網路性能,某些規格並未配置本地NVMe存儲(例如Inf2不提供直連NVMe或高效EBS,使用者需依賴S3或EFS儲存資料 )。這意味在Inferentia環境下,SSD可能在另一層(如EBS或FSx服務),而非直接暴露給使用者。相應地,這些AWS存儲服務使用經AWS優化的SSD(如自研Nitro SSD)作後端,強調高IOPS與分散式穩定性。對SSD廠商而言,要進入AWS供應鏈,需要滿足其雲盤規範,包括多租戶QoS、與Nitro控制器的整合等。而Trn1訓練實例則提供最高8 TB本地NVMe來加速臨時資料存取 。Trainium實例上的SSD須能滿足大規模訓練的暫存需求,例如在多機分散式訓練時,本地SSD存放分片的資料集以降低每輪epoch下載S3的開銷 。因此AWS平台對SSD的要求有兩面:針對推理的無本地盤架構,強調網路存儲的整體效能(這對SSD意味需要在後端集群中達到極高的隨機讀性能和耐久);針對訓練的本地盤,則要求高吞吐和高耐久來適應頻繁的資料寫入和多次讀取迭代。在AWS環境下,SSD也需要很好支援Nitro IO virtualization,以及在雲端經過大量驗證的穩定Firmware。
- Google TPU 平台:Google Cloud的TPU VM/Pod主要透過網路檔案系統和雲硬碟來供應資料。Google建議對TPU使用Hyperdisk ML這類高性能區塊存儲或本地暫存盤,以獲得所需的I/O性能 。Persistent Disk(PD)在新一代TPU(如v4、v5)中已不建議使用,而是傾向Hyperdisk這種可客製化IOPS和吞吐的網路SSD盤 。從SSD角度,Hyperdisk背後實際上是Google自研的分散式SSD集群,採用高性能NVMe盤提供類本地的存取延遲。Google TPU集群要求存儲隨擴充線性增長性能,TPU Pod有上千個加速器,需要海量SSD並行工作。【Google在其AI超級計算機RESCUE中使用了Pure Storage的FlashBlade作為存儲,強調並行IO】。因此,Google平台重視SSD在分散式檔案系統場景的表現:包括對大量小檔的處理效率(因許多ML數據是小檔案 ),以及對分片讀取/管道輸送的支援(例如TPU透過TFRecord等流式供給,SSD要持續穩定輸送資料 )。另外,Google也要求SSD韌體穩定(在自家客製化軟硬體棧上無bug)和提供足夠的遠端監控欄位。總體來說,TPU環境期待SSD能在高並發網絡存取中表現出接近直連的性能,同時具備超大規模部署所需的可靠性和可管理性。
- Meta (Facebook) AI硬體:Meta自研並開源了多款AI硬體(如「Zion」訓練機架、「Twin Lakes」存儲盒等)。作為OCP的積極推動者,Meta對SSD需求直接體現在OCP規範中:功耗低於10W、端到端延遲符合預算 、完整的雙端口和遠端管理等。Meta在推薦系統等應用中大量使用SSD來存儲embedding等模型數據 。由於其模型embedding表規模可達數百GB至數TB,遠超DRAM容量,Meta通過將embedding存放SSD並設計軟硬結合方案(如FlashEmbedding)將性能損失降至可接受範圍 。這需要SSD提供極高的隨機讀IOPS與低延遲穩定性。據報導,Meta目標研發的AI SSD(聯合Kioxia等)希望達到每秒1億次隨機讀能力,以徹底消除存儲瓶頸 。目前Kioxia基於SLC XL-Flash的原型已達千萬級IOPS,計畫在未來Meta部署的系統中推出 。另外,Meta也強調容量密度——曾率先使用30TB級別的「ruler」形態SSD提升冷數據存儲密度;在AI訓練資料存儲上,也傾向用QLC大盤來降低成本,同時透過軟體層補足性能 。總之,Meta等超大規模AI硬體環境對SSD提出了極致性能/容量比和穩定性要求,並推動供應鏈做出針對AI工作負載的特別優化。
(上述各平台摘要:)不論NVIDIA、AMD、AWS、Google或Meta,每個AI硬體平台皆有特殊側重,但共同點是需要SSD提供極高且穩定的I/O性能,同時在功耗、形態上與系統深度整合*。供應商須針對這些主流環境進行相容性測試和優化(例如Firmware適配不同主機驅動、滿足各家遙測和安全要求),才能進入其生態體系。
效能需求與功耗限制條件
綜合各場景和平台需求,我們可以總結出當前AI SSD在性能和功耗方面的一些共通目標:
- 順序讀寫頻寬:高頻寬是AI培訓中首先要求的指標。目前PCIe 4.0 x4 SSD順序讀取峰值約在6~7 GB/s 。對於許多GPU節點來說,這已成為最低要求門檻(例如某些雲規範要求順序讀≥6.5 GB/s )。PCIe 5.0 SSD將峰值提高到14 GB/s,未來大型模型訓練可能需要藉助Gen5甚至Gen6 SSD的更高頻寬。順序寫入方面,因訓練checkpoint等需要,也要求盡可能高(典型PCIe4 SSD寫入24 GB/s )。值得注意的是,持續性能(Sustained throughput)需在長時間、大容量傳輸下保持,不應因SLC快取耗盡或熱節流大幅下降。
- 隨機IOPS與小IO性能:AI推論偏重小隨機讀性能。現代SSD在4KB隨機讀可達數十萬至上百萬IOPS。然而AI負載更關心更小IO尺寸(如512 B ~ 1 KB)的效率 。NVIDIA預期未來單盤需達1億IOPS級別 才能匹配GPU的處理速度,這遠高於當前SSD的2~3百萬IOPS水準 。因此行業出現了新方案:如降低Flash存取延遲(採用SLC NAND或新型存儲介質)、增加並行通道、多控制器協同等來提升IOPS。Kioxia正在開發基於XL-Flash的AI SSD,目標超過1千萬 IOPS (512B) 。三星則通過CXL SSD把小IO打入DRAM快取來處理 。另外,隨機寫在某些應用(如在線訓練、強化學習緩存)也不可忽視,但普遍AI對隨機寫IOPS要求低於讀。
- 延遲(Latency)與Tail延遲:低延遲是AI推論服務質量的生命線之一。NVMe SSD讀取均值延遲通常在80150 μs(順序)和100 μs(隨機4K)左右。但對於512 B級別的小IO,現有NAND SSD延遲可能上升至數百微秒甚至數毫秒,這對需要微秒級響應的推論可能不足。為此,採購方關注P99或更高百分位延遲。在訓練/推論集群中,希望99%請求延遲落在1~2 ms以內,99.99%在數毫秒級 。OCP 2.0規範增加了延遲監控,就是要督促供應商優化tail延遲 。一些優化策略包括:使用更低延遲閃存(如SLC或Optane類型存儲)、Firmware層避免長tail(如後台GC微秒級分片進行)、甚至硬體加速(如在控制器內部使用SRAM快取對隨機小讀進行加速)。三星Memory-semantic SSD報告顯示,它可將小隨機存取延遲較傳統SSD降低一個數量級 。總之,降低平均延遲和消除異常高延遲事件都是AI SSD努力的方向。
- 功耗與性能功耗比:在性能瘋狂追逐的同時,AI SSD必須滿足嚴格的功耗上限,如前所述常見上限為15W(資料中心U.2/E3.S) 、8~10W(OCP Cloud SSD平均) 、甚至更低(M.2邊緣盤約<5W)。這要求廠商在控制器架構、閃存介面並行度上做出取捨:例如PCIe 5.0控制器功耗上升明顯,需要先進製程和電源管理技術才能在15W內提供兩倍Gen4性能。同時也推動性能/瓦指標:Micron測試顯示其新一代9550 SSD在GPU負載下每瓦性能提升~19% 。對資料中心運營方來說,更高的IOPS/GB/s per Watt意味更低TCO和更高密度。功耗還關聯散熱:SSD須在限定功耗下連續工作不過熱。許多企業要求SSD通過嚴苛的熱測試,確保在上限功耗連續運轉時溫度不超安全範圍(通常<70°C)。因此,“高性能低功耗”是AI SSD的座右銘,需要軟硬體協同達成。
- 耐久度與壽命:雖然性能是焦點,但對於寫入量大的應用,SSD耐久度不能忽視。AI訓練集群有時會頻繁重複實驗,寫入TB級別中間數據到本地SSD;大模型的checkpoint檔案每隔幾小時就寫入一次,長期下來對SSD壽命是挑戰。一些真實統計顯示,雲端機器學習工作負載可以在短短幾週內寫滿數百TB至單盤【※此處需引用公開數據】。因此企業在需求中一般會指明至少0.5~1 DWPD的耐久度(即每天可寫全盤容量0.5到1次,通常對應35年保用期)。對於QLC大容量盤,DWPD可能僅0.10.3,但這類盤被定位為Read Intensive,適用於推論或資料庫讀多寫少場景 。若AI工作負載需要更高寫入頻率,則會選擇Mix Use TLC盤(3 D TLC,一般可達1~3 DWPD)。此外還會要求過量Provisioning(OP)比例充分,以保證在壽命末期性能不顯著衰退。總之,效能之下仍需平衡壽命——能跑得快又要跑得久,是理想AI SSD的必要條件。
綜合而言,Sequential 6+ GB/s、隨機IOPS百萬級、μs級延遲、<15W功耗可以看作2025年AI SSD的一個標誌性目標檔 。在尖端方向,NVIDIA與存儲廠商瞄準了百萬IOPS和μs以內延遲的未來裝置 ;在廣泛應用方向,各供應商則努力在給定功耗約束下逼近上述極致性能。這些性能與功耗指標的進步,將直接決定AI基礎設施能以多快的速度處理海量數據並訓練出更先進的模型。
主流SSD廠商方案與AI優化情況列表
目前市場上多家NAND Flash供應商及控制器供應商都推出了面向資料中心和AI工作負載的高性能SSD方案。以下列出主要廠商及其相關產品策略,同時說明是否針對AI場景做了特殊優化
- Samsung(三星):作為業界最大閃存與SSD供應商,三星在AI存儲領域有多條產品線。其企業級NVMe如PM1735(PCIe 4.0)、PM1743(PCIe 5.0)等提供頂尖順序性能和容量。三星對AI的特殊佈局之一是SmartSSD(智能SSD)和Memory-semantic SSD。SmartSSD是在SSD控制器中集成可編程邏輯(與Xilinx合作)來讓SSD直接執行部分計算,曾用於加速視頻解碼、數據庫篩選等,可減少資料搬移延遲。Memory-semantic SSD則是三星近期提出的革命性架構:使用CXL介面,內建高容量DRAM快取與NAND相結合,對外呈現為一種“像記憶體一樣快”的存儲 。三星聲稱該方案在隨機讀寫性能上提升高達20倍 (相較傳統NVMe),針對AI/ML小批量數據處理有重大優勢。除了創新架構外,三星傳統SSD也針對資料中心AI負載優化了Firmware調度和快取算法,使其在混和讀寫與併發場景下保持QoS。總體而言,三星提供從標準高性能NVMe到創新計算型SSD的全方位方案。特別是Memory-semantic SSD直接對準AI訓練中小隨機訪問頻繁的痛點,表明三星正積極為AI定制存儲解決方案。
- Solidigm(西部數據†):Solidigm是從Intel閃存業務拆分而來(現屬SK hynix旗下)。其產品如D5-P5316/P5336系列採用QLC NAND,重點在超高存儲密度。例如D5-P5336單盤容量高達61.44 TB 。Solidigm推廣在AI數據工廠中使用這類超大容量、讀取密集型SSD來近儲龐大的資料集 。優勢是在PCIe通道有限的GPU伺服器中,用較少的盤提供海量容量 (減少佔用的通道和插槽)。QLC雖然單位容量成本低,但寫耐久度較低,Solidigm透過Firmware把這些QLC盤優化為Read Intensive用途:高順序吞吐、高隨機讀IOPS,並針對讀多寫少工作負載調參(例如延後整理以避免讀取中斷)。Solidigm官方資料指出,其QLC SSD在AI流程三個階段(數據準備、訓練、推論)都能提供優勢:大容量加速資料準備(所有原始數據放得下且順序讀快) ;高IOPS和可擴展性支援訓練 (允許更大批資料和多盤擴容);快讀取低延遲滿足實時推論 。除QLC產品外,Solidigm也延續了Intel的高性能TLC SSD(如D7-P5520等)以及Optane(現已停止研發)理念,強調tiered storage架構,把超快介質用於cache、QLC用於容量層。整體來看,Solidigm以容量與性價比見長,其為AI優化主要體現在提供更大容量在貼近計算的位置,並確保在read-heavy情境下性能可靠。未來,隨著QLC技術進步(例如PLC研發),Solidigm有望進一步提高單盤容量,繼續服務AI對海量資料存儲的需求。
- Kioxia(铠侠,原東芝):Kioxia是Flash發明者,近年在資料中心SSD市場非常積極。其CD6/CM6系列PCIe 4.0 SSD廣泛被OEM採納,新一代CM7系列(PCIe 5.0)更是在AI負載下表現出色——測試顯示CM7對機器學習I/O有高達91%更高吞吐、57%更低延遲相較上一代產品 。Kioxia非常關注AI存儲的低延遲極限,推出了XL-Flash這種類似3D XPoint的SLC閃存,延遲大幅低於傳統NAND。基於XL-Flash,Kioxia正開發所謂**“AI SSD”,目標是4K隨機超過10M IOPS 。該產品預計在2025-2026年問世,有望在NVIDIA下一代平台(代號Vera Rubin)中實現部署 。這將專門針對GPU的小隨機訪問模式,提供目前前所未有的IOPS和極低延遲。除了硬體創新,Kioxia也是OCP規範的先行者之一,早在2020年即推出符合OCP Cloud SSD 1.0的XD6 E1.S SSD 。XD6強調了15W功耗下順序讀6.5 GB/s、完整的資料保護和QoS特性 。Kioxia還在與NVIDIA等合作研發專用方案(如針對GPU直連的特殊XL-Flash SSD )。總之,Kioxia在AI優化上可謂雙管齊下**:一方面提升傳統SSD性能和符合雲端需求,另一方面探索突破性低延遲技術,瞄準下一代AI存儲挑戰。
- Micron(美光):Micron擁有自家NAND和Controller,在企業SSD領域推出了7450(PCIe 4.0)、そして最近的9400/9500系列。Micron強調其SSD在AI工作負載下的效率,如其官網指出使用Micron 9550可比上一代降低19%功耗卻提供相似性能 ,凸顯出能效優勢。Micron也積極支持OCP 2.0規範(7450是首批OCP v2認證盤 ),意味著其產品在QoS、管理、可靠度上達到超大規模雲要求。針對AI場景,Micron提出「全鏈路加速」的概念,例如發表博客討論寫入快取對AI的影響 ,說明通過更佳的寫入緩存和資料整理,可以降低推論延遲、提升訓練吞吐。Micron還提供高耐久型號(如7400 PRO系列,3 DWPD)以滿足寫入較繁重的AI用例。儘管Micron目前沒有公佈類似CXL或特殊AI SSD的計畫,但作為第三大NAND廠,其3D NAND技術(176層TLC/QLC)和先進控制器仍在持續改進性能/延遲。在HPC和AI市場,Micron也會隨NVIDIA等發起的項目進行驗證(如為DGX系統提供存儲選項)。可以預見Micron將在下一代(PCIe 5/6)SSD上聚焦提高小IO性能和效率,以保持在AI存儲領域的競爭力。
- Phison(群聯)與其他控制器供應商:Phison並不直接生產NAND,但其主控晶片廣泛用於許多中小品牌SSD,近年也打入企業級市場(如與Seagate合作推出NVMe企業盤)。Phison最新企業/資料中心主控如E20系、E26等,已支持PCIe 5.0並強調高IOPS和低延遲處理能力。據報導,Phison曾展示將多塊PCIe 5.0 M.2組成RAID實現超過100 GB/s的極限吞吐 ——這雖是Demo但顯示其主控的可擴展性。另一家主要控制器企業Silicon Motion (SMI)也在研發針對AI需求的新產品,例如計畫中的SM8466 PCIe 6.0主控目標支援28 GB/s順序和更高IOPS 。值得注意的是,NVIDIA已直接與控制器公司合作,提出未來SSD需達百萬級IOPS ;這驅使Phison、SMI等在架構上加入更強的並行度、甚至考慮內建協處理器。Phison還探索Computational Storage,提供定製Firmware實現壓縮/加密等功能,這對AI可能有用(例如壓縮資料以提高有效帶寬)。總體而言,獨立控制器供應商正積極跟進AI潮流,把提升隨機性能、優化延遲作為新一代晶片設計重點,以迎合像NVIDIA、Meta這樣的大客戶特殊需求。
- SK hynix(海力士):SK hynix本身擁有NAND製造和部分自研控制器能力。收購Intel閃存業務後,其企業SSD產品線與Solidigm有區隔:Solidigm側重QLC高容量,SK hynix自身推出的更多是傳統企業TLC盤。比如SK hynix有PE系列NVMe SSD供應給OEM(Dell等)和超大規模用戶(據傳AWS某些實例採用過SK hynix盤)。在AI優化上,SK hynix公開信息較少,但可以推測其將QLC/PLC研發與CXL存儲作為戰略重點。SK hynix已展示CXL Memory Expander卡,雖主要用DRAM但也提到混合型的可能性 。未來如將NAND加入CXL卡成為GFAM(全局織網附加記憶體)裝置,SK hynix會是潛在玩家之一。目前,SK hynix的SSD方案在超大規模應用中更多扮演可靠供應的角色,其驅動和韌體長期與Hyperscaler合作調校,滿足日常AI工作負載需求。隨著技術融合,SK hynix可能將Solidigm的QLC高密度和自身快閃技術結合,在AI領域推出容量與性能兼顧的產品
*(總括:)*主要廠商皆已布局AI存儲方案:要麼是提升傳統SSD指標(更高IOPS、更低延遲、更大容量,如Kioxia CM7、Samsung PM1743等),要麼是架構創新(如Samsung CXL SSD、Kioxia XL-Flash AI盤)。許多廠商Firmware中也增加了AI/雲場景最佳化功能,例如智慧預取、頻繁元資料訪問加速 、後台流程平滑處理以減少延遲尖峰等等。可以預期,隨著AI應用需求爆發,這些廠商會繼續深挖底層技術(控制器架構、快閃介質、介面協定),推陳出新出更貼合AI負載的存儲設備。
真實案例分析
最後,透過幾個公開的案例來觀察AI SSD在實際應用中的表現與挑戰:
- AWS雲上AI訓練案例:在AWS雲上執行大規模AI訓練時,本地NVMe暫存盤的效能與耐久度往往成關鍵因素。AWS的一些GPU實例(如P4d、P3dn)提供本地NVMe,用戶通常將S3上的海量資料先下載到本地SSD再訓練,以獲得最佳I/O性能 。這種模式意味著SSD要承受下載→訓練多輪epoch讀取→刪除的反覆操作,寫入量巨大。一旦資料集超過本地盤容量,用戶可能多次換批次下載,進一步增加SSD壓力。有報導指出,使用Amazon FSx(後端亦是SSD陣列)可加速多機訓練啟動,同樣證明SSD在隱含層面支撐著分散式訓練的資料供應 。值得慶幸的是,AWS對其提供的NVMe有壽命冗餘,即使頻繁寫入通常不會在單個使用任務中耗盡壽命。但這也提醒雲端使用者:良好的資料I/O模式(如使用Pipe模式串流而非整批下載 )有助於減少SSD負擔。對AWS而言,背後則體現出選用高耐久度SSD的重要——確保即便用戶猛寫臨時磁碟,裝置也不至過早損耗。總體來說,AWS的案例說明在雲訓練中本地SSD是加速器,卻也是易被忽略的耗材,需要透過架構和管理來延長其效用。
- Google Colab SSD寫入量分析:Google Colab為使用者提供免費GPU算力,其背後每個虛擬機也掛載了一定容量(約100 GB)的暫存SSD磁碟。許多使用Colab進行模型訓練或資料處理的用戶,習慣將Google Drive資料複製到本地執行,以利用SSD的高IOPS。不經意間,Colab的SSD可能承受頗大的寫入流量。例如,一次圖像數據增強處理可能在幾分鐘內寫下幾十GB暫存檔案,或反覆調參實驗累計數百GB資料讀寫。Google並未公開Colab後端SSD的具體型號與耐久度,但其使用守則中暗示長時間大量I/O會導致Session提早終止或限制。社群中有用戶反映,連續執行大量磁碟讀寫後Colab環境速度下降甚至重置,這可能是Google在後端檢測到過量IO而保護性回收資源的表現。這表明Colab的SSD雖然性能強大,但資源配額存在隱形上限,以避免單用戶耗盡裝置壽命或影響共用資源 。從這案例可看出,在「免費」環境中,SSD壽命成為需要由服務提供者管理的寶貴資源。對用戶而言,也反映出高效利用I/O的重要性——例如壓縮打包小文件、控制暫存寫入頻率,以在Colab這樣的環境獲得更穩定持久的服務。
- Meta 推論部署案例:Meta(Facebook)在其社交、電商等產品中大量使用深度學習推薦模型來提供個性化體驗。這些模型的一大特徵是擁有巨量的embedding參數(對每個ID、特徵學習一個向量),總大小可達數百GB以上 。傳統上embedding存在DRAM中以獲取最快查詢速度,但當總量超過單機記憶體時,Meta選擇將embedding移部分至SSD。實際的生產推論系統中,他們採用了軟硬體協同方案稱為“FlashEmbedding”:開發特製的Embedding SSD (EV-SSD),能夠直接接收embedding key查詢並返回對應向量 。透過優化介面(MMIO讀)和兩級精細讀取等技術,FlashEmbedding原型將純SSD方案相比DRAM方案的延遲懲罰縮減17.4倍,使最終端到端推論延遲僅比全DRAM方案慢約2.89倍 。這在實務中是可接受甚至相當優秀的(畢竟SSD方案把存儲容量提升了數十倍)。該案例充分證明:經過專項優化的SSD完全可以承載大規模推論流量,即使需要頻繁隨機讀,也能透過硬體/快取設計達到接近DRAM的效果。同時也說明,如果沒有這種優化,普通SSD直接用於embedding查詢會導致數倍延遲惡化,影響用戶體驗 ——因此為AI特定模式設計專用SSD具有很大價值。Meta的做法引領了一種趨勢,即Near-Data Processing:讓SSD更聰明地理解應用語義(如embedding),從而在裝置端提升效率。未來我們可能看到更多此類專用AI SSD的實際部署。
- 其它典型情境: 除上述,業界還有許多有趣案例。例如OpenAI等研究機構在構建超大模型訓練平臺時,曾使用高速本地SSD陣列作資料集快取,遇到SSD損壞率隨寫入量上升的問題,逼得他們實施嚴格的寫流量監控和定期更換策略【※需要公開引據】。又如部分自駕汽車研發會採集PB級感測器數據儲存在移動SSD模組中,要求SSD在高溫車載環境下可靠記錄並頻繁卸載數據。這些都展現出SSD在AI落地中扮演的重要角色,以及根據場景調整策略的重要性:有時需要軟體優化I/O模式來善用SSD潛能,有時則需要硬體定製來克服SSD自身瓶頸。可以預見,隨著AI應用繼續向各行各業滲透,存儲系統將不斷出現新的挑戰和創新案例,而SSD作為核心介質,其發展現況與趨勢將持續與AI需求緊密交織、相互促進。