第一階段:AI 工作負載對儲存的特殊需求研究
NVIDIA 企業 AI 工作負載儲存選擇指南分析
核心儲存挑戰
根據 NVIDIA 的專家分析,AI 工作負載對儲存系統提出了前所未有的挑戰:
效能需求的不確定性:
- 現有儲存解決方案可能無法滿足新 AI 應用的需求
- 可能需要 NVMe 快閃儲存的速度或直接 GPU 記憶體存取來達到所需效能
- 對於某些應用 (如即時交易詐欺檢測),幾乎沒有「太多儲存效能」這回事
- 未來的儲存期望難以預測,因為對 AI 資料的儲存需求會隨時間增加
無一體適用解決方案:
- 沒有「一體適用」的 AI 驅動應用儲存解決方案
- 不同 AI 應用需要不同類別的儲存 (快速快閃、大型儲存快取、DMA 儲存存取、儲存級記憶體 SCM 讀取)
關鍵儲存考量因素
1. 可擴展性需求
- 訓練資料正在增長
- 推理資料正在增長
- 儲存必須能夠在容量和效能方面擴展
- 在許多情況下需要跨多個儲存節點擴展
- 今天滿足需求的儲存設備可能無法為明天的挑戰擴展
2. GPU 利用率最大化
- 隨著訓練和推理工作負載增長,容量和效能也必須增長
- IT 應該只考慮具有保持 GPU 忙碌效能的可擴展儲存解決方案
- 關鍵是確保最佳 AI 效能
企業部署的儲存決策框架
未來導向的投資策略:
- 「現在付費或稍後付費」的概念意味著在做出當前決策時最好考慮未來
- 支援 AI 或 DL 應用的儲存解決方案往往只滿足應用的即時需求,而沒有充分考慮未來成本和靈活性
- 從儲存角度來看,今天花錢為 AI 環境做未來準備可能在長期內更具成本效益
關鍵決策問題:
- 您的 AI 應用是否需要特定的儲存類別?
- 您的 AI 應用是否需要特定的儲存效能要求?
- 您的 AI 應用是否需要特定的儲存容量要求?
- 您的 AI 應用是否需要特定的儲存可用性要求?
- 您的 AI 應用是否需要特定的儲存安全要求?
- 您的 AI 應用是否需要特定的儲存合規要求?
儲存部署考量因素
根據 NVIDIA 的分析,AI 解決方案部署時需要考慮以下因素:
- 資料中心考量: DPU、現有 vs. 新建、網路、全快閃/HDD/混合
- 預算考量: 雲端和資料中心
- 互操作性考量: 物件/塊/檔案、VM 環境
- 儲存類型考量: 快閃/HDD/混合
AI 效能與 GPU 的關係
高效能 GPU 的重要性:
- AI 效能的關鍵要素是擁有高效能企業 GPU 來加速機器學習、深度學習和推理應用的訓練
- 許多資料中心伺服器沒有 GPU 來加速 AI 應用,因此最好首先尋找 GPU 加速的虛擬機或裸機伺服器
GPU 記憶體與儲存的關係:
- GPU 具有有限的記憶體容量
- 當 GPU 記憶體不足時,儲存成為關鍵瓶頸
- 儲存必須能夠快速向 GPU 提供資料以維持最佳效能
儲存效能要求:
- 儲存是一個重要考量,現有儲存解決方案在部署新 AI 應用時可能無法良好運作
- 可能需要 NVMe 快閃儲存的速度或直接 GPU 記憶體存取來達到所需效能
- 對於即時使用案例 (如交易前詐欺檢測),幾乎沒有太多儲存效能這回事
初步結論
從 NVIDIA 的分析中,我們可以看出 AI 工作負載對儲存系統提出了以下特殊需求:
- 極高的效能要求: 需要 NVMe 級別的速度,甚至直接 GPU 記憶體存取
- 動態可擴展性: 必須能夠在容量和效能方面同時擴展
- 未來適應性: 需要考慮未來需求的增長和變化
- GPU 協同優化: 儲存系統必須能夠保持 GPU 的高利用率
- 應用特定優化: 不同 AI 應用需要不同的儲存配置和優化策略
這些需求為 AI SSD 的設計和測試提供了明確的方向,特別是在理解 AI 工作負載與傳統工作負載的根本差異方面。
Quobyte AI 儲存解決方案五大需求分析
AI 儲存的定義和範圍
根據 Quobyte 的專業分析,AI 儲存是指能夠處理人工智慧工作負載的儲存解決方案,包括機器學習 (ML)、深度學習、大型語言模型 (LLMs) 和生成式 AI (GenAI)。這些儲存解決方案專門設計來處理 AI 應用產生和消耗的大量資料,提供必要的高效能、可擴展性和資料管理能力,以促進高效的模型訓練和推理。
AI 儲存的五大核心挑戰
1. 可擴展性挑戰
- 問題描述:AI 和機器學習專案通常從小規模開始,隨著成功而擴展隨著專案規模擴大,訓練這些模型所需的資料以前所未有的速度增長隨著 AI 專案中的資料增長,儲存系統的效能和容量需求都會增加
- 技術要求:需要更多效能,因為必須同時使用額外的 GPU 進行訓練需要更多容量,因為所有資料都需要儲存在一個系統中,模型需要在這些大型資料集上進行訓練可擴展的效能和容量還不夠,當 AI 專案擴展時,儲存系統的可管理性和操作也需要擴展
2. 效能挑戰
- 深度學習和 GenAI 的特殊需求:從模型訓練到調優和測試,儲存系統的效能會顯著影響 AI 訓練的每個步驟訓練 AI 模型,特別是深度學習和 GenAI,需要處理大量資料緩慢的深度學習儲存或 GenAI 儲存可能成為瓶頸,導致 GPU 和其他處理單元保持閒置,延長訓練時間並增加成本
- 檢查點 (Checkpointing) 需求:深度神經網路和 LLMs 需要高效能儲存的另一個原因:檢查點這些模型非常大且複雜,可能需要數週時間完成訓練工作檢查點是必需的,以在完成一些訓練後保存模型的當前狀態由於模型訓練是並行化的,當進行檢查點時,模型的當前狀態會同時從所有節點保存到儲存中,需要非常高的峰值吞吐量來最小化檢查點時間
3. 不可用性挑戰
- 業務影響:訓練、調優和測試期間的不可用性和停機時間會通過中斷工作流程和阻止進展來挫敗資料科學家計劃外停機時間也可能產生資料丟失或損壞,以及訓練工作中的進展丟失,對模型準確性產生負面影響
- 資源浪費:停機時間和維護窗口會造成資源和金錢的重大浪費,即 GPU 時間當無法存取資料時,昂貴的資源如 GPU、CPU 和人員變得閒置但仍然產生成本推理期間的停機時間可能導致收入損失等問題,當服務停止時
4. 複雜性挑戰
- 設備管理複雜性:許多 AI 儲存解決方案基於設備,為基礎設施的操作增加了複雜性設備涉及自定義硬體,迫使管理員學習管理新事物必須與多個設備一起工作使管理更具挑戰性,因為每個設備都有特定的配置和其他管理方法
- 擴展複雜性:複雜的儲存系統在規模和成本上都具有挑戰性擴展複雜的 AI 儲存系統總是需要更多人力,因為配置和維護隨著更多資源變得更加困難最終,複雜性迫使組織雇用更多人員或將更多時間投入到儲存管理中,而不是專注於 AI 專案
5. 資料安全挑戰
- 資料保護的重要性:資料是 AI 應用中最重要的組件,必須受到保護儲存解決方案必須納入強大的安全措施,以防止未經授權的存取並符合 HIPAA 等框架
- 安全措施要求:ACL (存取控制清單) 用於細粒度存取控制端到端資料加密多租戶支援,適用於與多個客戶或群組合作的組織儲存必須提供強大的安全功能,因為整體安全性只與組織中最薄弱的環節一樣好
AI 儲存的五大解決方案需求
#1 容量和效能的線性擴展
- 分散式訓練的必要性:擴展在機器學習中至關重要,因為訓練需要以分散式方式進行單個 GPU 甚至一箱互連的 GPU 對於大問題來說太慢,因此需要分散式訓練來提高效能分散式擴展並行檔案系統可以減少存取和處理資料所需的時間,直接加速訓練階段
- 效能擴展策略:在擴展世界中,效能是相對的;組織應該能夠通過簡單地添加更多硬體來增長其儲存系統以提供更多效能擴展儲存允許他們使用多個伺服器並聚合其效能,而不是單個更大的伺服器因此,使用擴展系統,他們不需要擔心擁有最快和最新的伺服器,因為他們可以在應用程式需要更多效能時添加標準伺服器
#2 專注於高頻寬,而非延遲
- AI 工作負載的特殊性:對於 AI 工作負載,這是一個吞吐量遊戲;這些應用程式沒有「低延遲」GPU 對於現代資料中心中的一切都太快,例如本地儲存,特別是網路上的任何東西無論網路檔案系統多快,它對 GPU 的回應總是太慢,因此必須進行預取
- 預取的重要性:預取通過預測資料需求來掩蓋延遲,因此在 AI 應用中只有頻寬重要高頻寬有助於確保資料始終進入,因此 GPU 永遠不會閒置
#3 絕不停機
- 連續運行的重要性:完全消除停機時間對 AI 工作負載至關重要,因為中斷是昂貴的滿足於缺乏可靠性的高速儲存解決方案是災難之路可靠性和對操作員錯誤寬容的系統至關重要確保儲存系統快速且可靠是維持 AI 任務連續運行和效率的關鍵
#4 更少團隊管理更多儲存
- 運營效率需求:AI 專案需要易於在數百 PB 規模運行的儲存解決方案,這是由於 AI 工作流程的獨特需求包括管理大量資料、確保高效能,以及隨著專案發展保持靈活性資料隨著 AI 專案不斷增長,因此儲存解決方案必須提供簡單的資料管理和操作,以便較小的團隊能夠有效管理它們
#5 資料安全
- 全面安全保護:資料是 AI 應用中最重要的組件,必須受到保護儲存解決方案必須納入強大的安全措施,以防止未經授權的存取並符合框架一般來說,儲存必須提供強大的安全功能,因為整體安全性只與組織中最薄弱的環節一樣好
Solidigm 計算儲存技術分析
計算儲存的技術成熟度
根據 Solidigm 的分析,計算儲存技術已經達到了重要的里程碑:
- 標準化進展:SNIA 已經制定了計算儲存的正式架構設計擁有完整的 API 來支援該工作NVM Express 工作組即將完成第一個正式命令集的協議這在五年窗口內是一個巨大的成就,作為參考,NVMe 花了更長時間才到位
- 市場前景:計算儲存確實有其歸宿,將會有歸宿,不是沒有問題的解決方案將隨著市場和技術的發展創造更好的生態系統雖然希望在 2020 年看到這項技術起飛,但毫無疑問,在本十年結束前採用率將顯著增加
計算儲存的核心概念
- 資料重力問題:計算儲存是一個平台,為用戶提供將資料本地化到儲存設備的能力儲存設備在過去 15 年中從 128GB 增長到 128TB能夠在本地管理、分析和修改該資料這是資料重力的完美解決方案——將一位資料從 A 點移動到 B 點所需的能量和時間
- 架構優勢:我們不是移除、替換或實質性改變現有架構我們只是在最需要的地方創建一個增值的計算層:資料旁邊如果可以在儲存資料之前處理資料,很好但在某個時候,您現在儲存的資料將需要新的形式,那麼為什麼不在它已經存在的地方轉換它呢?
Von Neumann 架構的演進
- 傳統架構的限制:傳統的 Von Neumann 架構:CPU + 記憶體 + 儲存隨著摩爾定律接近終點,我們已經達到了 Von Neumann 架構的終點曾經有「CPU + 記憶體 + 儲存」,現在我們在許多地方都有計算
- 新架構模式:主機計算節點通過 xPU (處理單元) 連接到具有 CPU 的儲存距離 CPU 增加的概念,顯示計算正在找到其在資料處理中的位置In-Flight CSP (計算儲存處理器) 架構,包括 Smart NIC - xPU 和 CSD (計算儲存設備)
- NVIDIA 的先見之明:NVIDIA 在正確的時間處於正確的位置,推出了他們甚至沒有意識到將成為現代計算主要產品的產品:GPU這個例子突出了計算儲存和甚至計算「任何東西」等解決方案的持續機會
計算儲存的實際應用
- 資料處理簡化:傳統方式:資料輸入,資料輸出,修改,資料重新輸入計算儲存方式:資料輸入計算儲存設備 (CSD),就地修改,恢復。流程簡化
- 多樣化解決方案:市場足夠多樣化,可以包含多種解決方案這些技術不是相互競爭,而是各自找到解決更大挑戰的位置包括 Compute Express Link (CXL) 和計算記憶體等創新解決方案
技術標準化進展
- SNIA 和 NVMe 的貢獻:計算儲存現在有來自 SNIA 的正式架構設計完整的 API 支援該工作NVM Express 工作組即將完成第一個正式命令集的協議這是一個五年窗口內的巨大成就
- 未來發展趨勢:計算儲存將存在,它是需要的,並且很快就會開始增長雖然由於疫情等因素有所延遲,但採用率將在本十年結束前顯著增加將創造一個更好的生態系統,隨著市場和技術的發展
初步結論:AI 工作負載對儲存的特殊需求
從以上分析中,我們可以總結出 AI 工作負載對儲存系統的特殊需求:
技術需求層面:
- 極高吞吐量需求:AI 工作負載是吞吐量遊戲,不是延遲遊戲
- 線性可擴展性:容量和效能必須能夠線性擴展
- 檢查點支援:需要支援大規模並行檢查點操作
- 預取機制:必須具備智慧預取能力來掩蓋延遲
- 計算儲存整合:需要在儲存層面整合計算能力
運營需求層面:
- 零停機要求:絕對不能容忍停機時間
- 簡化管理:必須能夠以較小團隊管理 PB 級儲存
- 安全保護:需要端到端加密和細粒度存取控制
- 成本效益:必須最大化 GPU 利用率,避免資源浪費
架構需求層面:
- 分散式架構:支援大規模分散式訓練
- 資料就近處理:解決資料重力問題
- 多層儲存:支援不同效能層級的儲存需求
- 標準化介面:符合 SNIA 和 NVMe 標準
這些需求為 AI SSD 的設計和測試提供了明確的技術方向,特別是在計算儲存、智慧快取、AI 加速等特殊功能的實現方面。
第二階段:AI SSD 特殊功能和技術分析
TechTarget AI SSD 企業應用分析
根據 TechTarget 的專業分析,AI 在 SSD 中的應用主要體現在三個核心領域:
AI 技術的雙重作用和頂級應用
雖然大多數人認為 AI 是一種使系統能夠自己解決問題的技術,但該技術也可以篩選大量資料集來識別趨勢。SSD 的內部 NAND 快閃管理就呈現了這種情況。磨損管理、垃圾收集的時機和過度配置都涉及許多可調參數。SSD 設計師和 SSD 控制器製造商已經開始採用 AI 來改進這些過程,從而提高 SSD 效能。
頂級應用 #1:管理 NAND
- 熱冷資料智慧管理:AI 可以在兩種不同類型的快閃晶片上管理熱資料和冷資料這種 AI 應用是許多 SSD 已經執行的過程SSD 經常將一塊 NAND 設置為單層單元 (SLC) 快閃操作,這比三層單元 (TLC) 或四層單元 (QLC) 快閃更快但價格昂貴數倍熱資料儲存在 SLC 塊中,較冷的資料移動到 TLC 或 QLC
- 具體技術實現:InnoGrit 控制器技術:InnoGrit 製造的 SSD 控制器將 AI 整合到熱冷資料管理中任何 SSD 製造商都可以使用該控制器經過短暫的訓練階段後,SSD 會適應工作負載並管理熱冷資料的放置DapuStor 預測技術:DapuStor 使用 AI 通過預測工作負載來提高 SSD 效能該公司使用儲存網路工業協會的真實世界工作負載來訓練 SSD 在特定環境中表現更好DapuStor 的演算法使用稱為長短期記憶 (LSTM) 的機器學習方法來分析當前工作負載並確定 I/O 強度由於儲存 I/O 預測是一個時間序列問題,LSTM 是一個很好的選擇該公司聲稱預測準確率為 $95\%$,應用於商業 SSD 時可提高 $20\%$ 的速度PNY 專用 SSD:PNY 推出了專門針對 Chia 挖礦和其他需要空間和時間證明的應用的 LX 系列 SSD這些應用會產生高寫入負載這些 SSD 結合了先進的 AI 引擎和低密度奇偶校驗來提高 NAND 耐久性該公司誇耀其 2TB 型號具有 54,000 TB 寫入的「Chia 繪圖評級」
頂級應用 #2:執行惡意軟體篩選
- 模式識別優勢:AI 特別擅長識別可能逃脫更成熟的模式匹配模型的模式。
- Flexxon X-PHY AI 網路安全 SSD:新加坡 SSD 製造商 Flexxon 開發了 X-PHY AI 網路安全 SSD即時監控資料流以監視惡意軟體該 SSD 將 AI 協處理器和韌體引入 SSD,創建一個機器學習系統分析低級儲存功能,如讀寫模式由於勒索軟體通常遵循可識別的資料存取模式,Flexxon 期望這種方法有助於檢測未知威脅包括零日攻擊,無需任何惡意軟體簽名
頂級應用 #3:就地預處理資料
- 計算儲存概念:與計算儲存一樣,AI 可以在從伺服器卸載資料密集型過程方面發揮有用功能。這意味著伺服器不需要向儲存匯入和匯出資料,這會浪費處理能力和能源。相反,該資料密集型功能被移動到資料,在這種情況下移動到保存該資料的 SSD。
- Marvell 和 NVIDIA 合作:SSD 控制器製造商 Marvell 推廣了使用 SSD 內部 AI 能力為 SSD 內儲存的資料生成元資料的想法Marvell 和 NVIDIA 聯合開發了一個概念驗證控制器,該控制器整合了 NVIDIA 的深度學習加速器Marvell 期望內部 AI 能力在龐大的非結構化資料集上生成標籤這是一種預處理形式,可能在視覺處理、視頻分析和文本處理中有用Marvell 在 SSD 控制器中的強勢地位意味著基於 Marvell 控制器的未來 SSD 開發很可能實現
- Samsung AI SSD 概念驗證:領先的 SSD 製造商 Samsung 展示了基於該公司 Esperanto 神經處理器晶片的 AI SSD 概念驗證模型Samsung 設計這個演示來展示如何將 AI 任務卸載到 SSD 中以減輕主機處理器的負載
其他技術發展
- Synopsys DesignWare ARC 處理器:Synopsys 是一家晶片設計 IP 公司,擁有其 DesignWare ARC 系列 SSD 處理器Synopsys 表示 ARC EV 系列處理器為 AI 提供「完全可程式設計和可擴展的解決方案」一些 SSD 製造商可能會開發專有的基於 AI 的 SSD 控制器
Microchip AI 轉變 NVMe SSD 技術分析
AI 和 ML 在 NVMe SSD 中的必要性
- 技術驅動因素:AI 正在席捲所有行業,並將世界轉變為新的技術時代不斷增長的 AI 應用涵蓋汽車、資料中心、雲端儲存、醫療保健、網路安全、語音/語言識別等多個領域AI 歸功於其使用各種演算法有效分析資料並提供準確結果的能力
- 儲存系統的挑戰:需要以更少的人工干預監控資料中心的方法來跟上所使用系統和技術的規模NVMe 固態硬碟 (SSD) 正在跟上對更高效能和資料保護需求的要求然而,它們缺乏資料丟失預防措施和任何功能退化早期檢測的技術
- AI/ML 採用的必要性:在 NVMe SSD 中採用 AI 和 ML 正成為以下方面的要求:故障和恢復機制的預測分析流量確定效能優化自適應 NAND 管理以提高可靠性整個資料中心基礎設施的普及 AI 和 ML 現在開始包括端點 SSD
AI、ML 和深度學習的技術區別
- 定義和關係:人工智慧 (AI): 可以定義為構建能夠創造性地解決複雜問題或模仿人類思維的智慧程式和機器機器學習 (ML): AI 的一個子集,為系統提供從輸入訓練資料自動學習並提供準確輸出的能力深度學習 (DL): ML 的一個子集,使用神經網路分析具有類似人類神經系統結構的各種因素
- 機器學習模型的工作原理:ML 模型從過去的資料 (也稱為訓練資料) 中學習,在沒有明確程式設計的情況下進行預測當引入新的訓練資料集時,ML 模型會使用額外資料再次訓練以提供更準確的輸出資料隨著訓練資料集中訓練資料量的增加,ML 輸出的準確性也會增加
- 機器學習的類型監督學習:學習演算法採用訓練 (輸入) 和目標標記資料集進行訓練 (學習) 並生成準確的輸出無監督學習:在沒有標記資料的情況下進行學習演算法在輸入資料集中發現模式、資料相似性或分組半監督學習:結合監督學習和無監督學習允許演算法從少量標記內容中學習,同時分類大量資料強化學習:用於在一段時間內進行訓練的學習
ML 模型的創建過程
- 兩種操作模式:訓練模式:ML 引擎具有需要用功能模型程式設計然後訓練學習和適應的神經網路節點訓練模式在 NVMe 控制器外部完成應用模式:實際部署階段的運行時模式ML 引擎不斷學習並適應真實環境並提供所需的輸出從訓練模式生成的 ML 引擎配置被程式設計到 NVMe 控制器中並在任務模式中使用
專用 ML 引擎硬體在 NVMe 控制器中的好處
- 通用 ML 引擎的多重應用:1. 計算儲存:將 SSD 轉變為計算儲存設備 (CSD)釋放計算資源並整合各種 AI 和 ML 應用2. 智慧 NAND 管理:學習 NAND 的不同行為即時選擇與每個 NAND 設備一起使用的最佳參數集3. 改進效能:通過識別 IO 請求模式來改進效能、耐久性和功耗分配和調整資料路徑資源預取並在本地記憶體中保持資料準備就緒使用先進的快取管理策略應用動態電源管理策略4. 服務品質 (QoS):通過在 SSD 內分配和優先考慮適當的資源來提供一致的效能5. 其他用途:檢測和從故障、韌體升級或安全攻擊引起的故障轉移中恢復執行其他自檢和糾正在不檢測的情況下擴展到各種需求
- 硬體實現的設計考量平衡要求:在設計 ML 引擎等硬體實現時,重要的是要記住:必須足夠通用以開發應用程式無關的 AI 和 ML 應用同時,重要的是在不損害資料完整性的情況下平衡效能、功耗、成本和易用性
Microchip 的技術實現
- Flashtec PCIe Gen 5 NVMe 4016 SSD 控制器:Microchip 宣布在其最新的 Flashtec PCIe Gen 5 NVMe 4016 SSD 控制器中提供 ML 引擎這是 AI/ML 和 NVMe SSD 兩大技術的期待已久的融合為資料中心的端點儲存設備開啟了多個創新應用
AI SSD 特殊功能技術總結
- 1. 智慧 NAND 管理:自適應磨損平衡智慧垃圾收集時機動態過度配置調整熱冷資料智慧分層
- 2. 預測性維護:故障預測和早期警告效能退化檢測自動恢復機制預防性資料保護
- 3. 工作負載優化:I/O 模式識別和預測動態快取管理資源分配優化QoS 保證機制
- 4. 安全增強:即時惡意軟體檢測異常行為識別零日攻擊防護資料完整性保護
- 5. 計算儲存能力:就地資料處理元資料生成預處理加速主機負載卸載
- 技術實現方式硬體層面:專用 ML 引擎整合神經網路處理器AI 協處理器FPGA 加速器軟體層面:機器學習演算法深度學習模型預測分析引擎自適應控制系統系統層面:訓練模式和應用模式分離即時學習和適應多層 AI 應用架構標準化 API 介面
這些特殊功能和技術使 AI SSD 能夠提供遠超傳統 SSD 的智慧化、自適應和高效能儲存解決方案,特別是在 AI 工作負載的複雜需求下。
第三階段:AI 加速器與 SSD 整合需求調查
NVIDIA GPUDirect Storage 技術深度分析
技術背景和驅動因素
- I/O 瓶頸問題:隨著 AI 和 HPC 資料集持續增大,載入資料所花費的時間開始對整體應用效能造成壓力。當考慮端到端應用效能時,快速的 GPU 越來越受到緩慢 I/O 的限制。
- 傳統 I/O 架構的限制:I/O (從儲存載入資料到 GPU 進行處理的過程) 歷史上一直由 CPU 控制隨著計算從較慢的 CPU 轉移到較快的 GPU,I/O 成為整體應用效能的更大瓶頸傳統路徑需要通過 CPU 記憶體中的彈跳緩衝區進行額外複製
GPUDirect Storage 核心技術原理
- 直接資料路徑:GPUDirect Storage 是一種新技術,能夠在本地或遠端儲存 (如 NVMe 或 NVMe over Fabric (NVMe-oF)) 與 GPU 記憶體之間建立直接資料路徑。
- 技術優勢:避免通過 CPU 記憶體中彈跳緩衝區的額外複製啟用 NIC 或儲存附近的直接記憶體存取 (DMA) 引擎在不負擔 CPU 或 GPU 的情況下,在直接路徑上將資料移入或移出 GPU 記憶體
- 頻寬提升:CPU 系統記憶體到 GPU 的頻寬在 NVIDIA DGX-2 中限制為 50 GB/s來自許多本地驅動器和許多 NIC 的系統記憶體頻寬可以組合達到近 200 GB/s 的上限
DMA 技術工作原理
- PCIe 介面特性:PCIe 介面連接高速周邊設備 (網路卡、RAID/NVMe 儲存、GPU) 到 CPUPCIe Gen3 (Volta GPU 的系統介面) 提供 16 GB/s 的聚合最大頻寬扣除協議低效率和其他開銷後,最大可達成資料速率超過 14 GB/s
- DMA 引擎優勢:DMA 使用複製引擎透過 PCIe 非同步移動大塊資料,而不是載入和儲存它卸載計算元素,讓它們自由進行其他工作GPU 和儲存相關設備 (如 NVMe 驅動器和儲存控制器) 中都有 DMA 引擎,但 CPU 中通常沒有
- 效能提升實證:使用本地 NVMe 驅動器上的 DMA 引擎與 GPU 的 DMA 引擎相比,I/O 頻寬增加到 13.3 GB/s,相對於 CPU 到 GPU 記憶體傳輸速率 12.0 GB/s,產生約 $10\%$ 的效能提升。
應用場景和 I/O 瓶頸緩解
- 資料分析應用:資料分析應用對大量資料進行操作,這些資料往往從儲存中串流輸入在許多情況下,計算與通信的比率 (可能以每位元組的浮點運算表示) 非常低,使它們成為 I/O 綁定
- 深度學習訓練:為了成功訓練神經網路,每天存取許多檔案集,每個約 10 MB,並多次讀取在這種情況下,資料傳輸到 GPU 的優化可能對訓練 AI 模型的總時間產生重大有益影響檢查點過程 (在模型訓練過程的各個階段將訓練的網路權重保存到磁碟) 是關鍵 I/O 路徑中的一部分
- 圖形分析:圖形分析 (網路互動研究) 具有高 I/O 需求當遍歷圖形以找到有影響力的節點或從這裡到那裡的最短路徑時,計算只是總解決時間的一小部分從當前節點識別下一步要去哪裡可能涉及來自 PB 級資料湖的 1 到數百個檔案的 I/O 查詢
擴展儲存和頻寬選項
- DGX-2 頻寬選項分析:DGX-2 機箱包含兩個 CPU,每個 CPU 有兩個 PCIe 子樹實例。多個 PCIe 路徑從儲存或系統記憶體通過兩級 PCIe 交換器支援到 GPU。頻寬概覽:機箱內 - 系統記憶體:總頻寬 48.0-50.0 GB/s (4 個 PCIe 路徑)機箱內 - NVMe:總頻寬 53.3 GB/s (4 個 PCIe 路徑)機箱外 - NIC:總頻寬 84.0 GB/s (8 個 PCIe 路徑)機箱外 - RAID:總頻寬 112.0 GB/s (8 個 PCIe 路徑)最大:系統記憶體 + NVMe + RAID 總頻寬 215 GB/sGPU 間頻寬: $>230$ GB/s (16 個 PCIe 路徑)架構優勢:使 DGX-2 成為 GPUDirect Storage 原型設計的良好測試載具
Micron 實際測試結果分析
- 測試配置:SuperMicro SYS-4029GP-TVRT 系統8x NVIDIA V100 GPU2x Intel Xeon 8180M CPU (每個 28 核心)8x Micron 9300 Pro 15.36TB NVMe SSD
- 4KB 隨機讀取效能:每個 GPU 從 Micron 9300 NVMe SSD 上的 1TB 檔案讀取。一對一關係:每個 GPU 專門從單個 NVMe 驅動器讀取。生產系統會將單個 CPU 上的所有驅動器配置到單個 RAID 組中。
- 資料傳輸大小對效能的影響:使用每個 GPU-NVMe 對 16 個工作者進行測試。顯示 16 個工作者剛好超過傳統資料路徑的峰值,遠在 GPUDirect Storage 資料路徑峰值之前。
- I/O 延遲分析:在小型和中型塊大小下,GPUDirect Storage 提供:總吞吐量的顯著增加延遲的顯著降低所需 CPU 核心數的顯著減少
- 結論:在小型和中型塊大小下,GPUDirect Storage 提供相當大的總吞吐量增加、延遲顯著降低和所需 CPU 核心數顯著減少。同時體驗所有這些改進標誌著 GPU I/O 領域的階躍函數變化。較大的塊傳輸在測試中沒有看到相同的好處,但使用 GPUDirect Storage 與傳統資料路徑相比沒有缺點。
AI 加速器與 SSD 整合的關鍵需求
硬體整合需求
- 1. PCIe 介面要求:支援 PCIe Gen3/Gen4/Gen5 高速介面多路 PCIe 交換器支援直接記憶體存取 (DMA) 引擎整合高頻寬、低延遲的資料路徑
- 2. 記憶體架構要求:GPU 記憶體直接存取能力避免 CPU 記憶體彈跳緩衝區支援大容量資料傳輸記憶體一致性保證
- 3. 儲存控制器要求:NVMe 控制器 DMA 引擎支援GPUDirect Storage 相容性多佇列支援錯誤檢測和恢復機制
軟體整合需求
- 1. 驅動程式支援:GPUDirect Storage 驅動程式NVMe 驅動程式優化CUDA 整合支援作業系統核心支援
- 2. API 和程式庫:cuFile API 支援RAPIDS 程式庫整合標準檔案系統 API 相容性應用程式框架支援
- 3. 檔案系統支援:GDS 啟用的檔案系統直接 I/O 支援大檔案處理能力並行存取優化
效能整合需求
- 1. 頻寬優化:最大化 PCIe 頻寬利用率多路徑聚合負載平衡頻寬監控和調整
- 2. 延遲最小化:直接資料路徑減少複製操作硬體加速即時處理能力
- 3. 並行處理:多 GPU 支援多 SSD 並行存取工作負載分散資源調度優化
可靠性整合需求
- 1. 錯誤處理:硬體錯誤檢測自動恢復機制資料完整性保護故障轉移支援
- 2. 監控和診斷:效能監控健康狀態檢查錯誤日誌記錄診斷工具支援
- 3. 維護和更新:韌體更新機制驅動程式更新相容性維護向後相容性
AI 加速器與 SSD 整合的技術挑戰
技術實現挑戰
- 1. 複雜性管理:雖然邏輯上這是一個容易解決的問題 (NVMe 驅動器、NIC 和 HBA 都有可以支援直接傳輸資料到 GPU 記憶體位址的 DMA 引擎)實際實現要複雜得多需要協調多個硬體和軟體組件
- 2. 相容性問題:不同 GPU 架構的支援多種 SSD 控制器的相容性作業系統版本差異應用程式框架整合
- 3. 效能調優:工作負載特性分析參數優化資源分配效能基準測試
標準化需求
- 1. 介面標準:GPUDirect Storage 標準化NVMe 規範擴展PCIe 標準支援API 標準化
- 2. 測試標準:效能基準測試相容性測試可靠性測試安全性測試
- 3. 認證程序:硬體認證軟體認證整合認證生態系統認證
這些整合需求和挑戰為 AI SSD 的測試計畫提供了重要的指導,特別是在相容性測試和效能測試方面,需要確保 AI SSD 能夠與各種 AI 加速器平台無縫整合並發揮最佳效能。
第四階段:AI 推理和訓練對儲存的不同需求研究
AI 解決方案的四個共同元素
根據 NVIDIA 的分析,無論使用案例如何,AI 解決方案都有四個共同元素:
- 訓練模型 (Training Model)
- 推理應用程式 (Inferencing App)
- 資料儲存 (Data Storage)
- 加速計算 (Accelerated Compute)
在這些元素中,資料儲存在規劃過程中往往最被忽視。這是因為隨著時間推移的資料儲存需求在創建和部署 AI 解決方案時並不總是被考慮。大多數 AI 部署的需求通過 POC 或測試環境快速確認,但 POC 往往只解決單一時間點的問題,而訓練或推理部署可能存在數月或數年。
AI 資料儲存階層架構
三層儲存架構
AI 的資料儲存階層包括 GPU 記憶體、資料結構和儲存設備:
1. 儲存設備 (Storage Devices) - 基礎層
- 硬碟驅動器 (HDD) 和快閃驅動器 (SSD) 位於儲存階層的基礎
- 混合陣列:HDD 可能前端配備快速快取層
- 全快閃陣列:可能使用儲存級記憶體 (SCM) 來改善讀取效能
- 當大型資料集載入 GPU 記憶體的載入時間很重要時,快速儲存很有用
- 當需要訓練不再適合儲存設備的模型時,容易擴展儲存容量
2. 資料結構 (Data Fabric) - 中間層
- 用於連接儲存設備與 GPU 記憶體
- 包括:PCIe 匯流排、網路卡、DPU、儲存和 GPU 記憶體之間資料路徑中的任何其他卡
- 可簡單視為儲存設備和 GPU 記憶體之間的直通資料層
3. GPU 記憶體 (GPU Memory) - 頂層
- 位於儲存階層頂部 (通常稱為 vRAM)
- 因為 GPU 記憶體快速且直接連接到 GPU,當整個模型駐留在記憶體中時,訓練資料集處理速度很快
- CPU 記憶體也在階層頂部,僅次於 GPU 記憶體
- GPU 記憶體是固定的,無法升級以支援更大的訓練模型和資料集
儲存階層特性
- 效能特性:在儲存階層中越高,儲存效能越快,特別是延遲儲存定義為在電源開啟或關閉時儲存資料的任何東西,包括記憶體
- 擴展性特性:儲存設備和資料結構可以擴展,但 GPU 記憶體是固定的部署計畫應包括記憶體遠超過當前需求的 GPU未來解決記憶體短缺可能很昂貴
AI 訓練對儲存的特殊需求
訓練工作負載特性
- 1. 大容量資料集需求:需要儲存大量訓練資料集多個資料集必須被儲存資料集大小持續增長
- 2. 高 I/O 頻寬需求:大型資料集載入 GPU 記憶體的載入時間很重要需要快速儲存來支援高效能訓練避免 GPU 等待資料載入
- 3. 記憶體管理需求:整個模型需要駐留在 GPU 記憶體中以獲得最佳效能模型資料可以分批發送到 GPU 記憶體大型 GPU 記憶體導致更少的批次和更快的訓練時間如果 GPU 需要遍歷資料結構到內部或外部儲存以獲取模型或資料集的任何部分,磁碟交換活動會大幅降低訓練效能
- 4. 擴展性需求:當需要訓練不再適合儲存設備的模型時,容易擴展儲存容量基礎設施必須擴展以適應不斷增長的模型和資料集公司快速擴展 AI 專案範圍時,基礎設施也必須擴展
- 5. 檢查點和模型保存:需要定期保存訓練進度模型檢查點檔案通常很大需要可靠的儲存來防止訓練進度丟失
訓練儲存最佳化策略
- 1. 快速儲存配置:使用高效能 SSD 或 NVMe 儲存配置足夠的儲存頻寬最小化資料載入延遲
- 2. 記憶體最佳化:選擇具有充足記憶體的 GPU考慮多 GPU 配置以增加總記憶體使用 NVIDIA NVLink 等技術共享 GPU 記憶體
- 3. 資料管理:實施高效的資料載入管道使用資料預處理和快取策略最佳化資料格式和壓縮
AI 推理對儲存的特殊需求
推理工作負載特性
- 1. 即時效能需求:推理是 AI 解決方案價值交付的地方需要有效的儲存來確保即時回應延遲敏感的應用需要亞毫秒級儲存效能
- 2. 擴展和擴展需求:儲存可擴展性不僅以容量衡量,還以效能衡量真正的擴展確保當容量和效能需求增加時,儲存系統提供更多容量和效能推理伺服器可以隨時間儲存大量資料儲存讀寫效能必須擴展以防止推理結果延遲
- 3. 資料寫入需求:隨著推理應用程式執行,語音、圖像、客戶檔案和其他資料被寫入磁碟需要有效儲存重新訓練資料以回饋到模型中持續的資料累積需要可擴展的儲存容量
- 4. 無縫升級需求:某些推理應用程式不能很好地容忍停機時間例如:線上商店的欺詐檢測、網店推薦引擎、客戶服務的對話 AI 應用程式24/7 視頻流分析、關鍵圖像識別應用程式除非推理可以容忍維護窗口,否則擴展容量和效能成為挑戰
- 5. 即時需求:即時推理範例:線上交易的欺詐檢測推理應用程式尋找異常行為和揭示不可接受風險的交易檔案當用戶等待交易批准時,必須在幾分之一秒內做出數百個決定低延遲儲存和高效能資料結構連接是即時交易的關鍵
推理儲存最佳化策略
- 1. 效能擴展策略:實施真正的擴展架構確保容量和效能線性增長避免單一驅動力限制 (如人力車比喻)
- 2. 高可用性設計:實施無停機升級能力設計冗餘和故障轉移機制確保 24/7 可用性
- 3. 低延遲最佳化:使用亞毫秒級儲存效能實施 NVIDIA GPUDirect Storage 等技術最佳化儲存到 GPU 記憶體的資料路徑
AI 訓練 vs 推理的儲存需求比較
容量需求差異
- 訓練階段:需要儲存完整的訓練資料集資料集通常非常大 (TB 到 PB 級)需要儲存多個版本的資料集檢查點檔案需要額外儲存空間
- 推理階段:主要儲存訓練好的模型模型檔案相對較小需要儲存推理結果和日誌累積的推理資料可能隨時間增長
效能需求差異
- 訓練階段:高吞吐量需求 (大量資料傳輸)可以容忍一定的延遲批次處理導向主要關注總體訓練時間
- 推理階段:低延遲需求 (即時回應)高 IOPS 需求 (大量小請求)即時處理導向主要關注回應時間
可用性需求差異
- 訓練階段:可以容忍計劃性停機檢查點機制提供容錯能力可以從中斷點恢復訓練對連續可用性要求較低
- 推理階段:需要 24/7 高可用性不能容忍服務中斷需要即時故障轉移對連續可用性要求極高
擴展性需求差異
- 訓練階段:主要關注容量擴展可以預先規劃儲存需求擴展通常是計劃性的可以容忍擴展過程中的停機
- 推理階段:需要容量和效能同時擴展需要動態擴展能力擴展必須是無縫的不能因擴展而影響服務
儲存技術選擇指導
訓練階段推薦技術
- 1. 高容量儲存:企業級 SSD 陣列NVMe 儲存系統分散式檔案系統物件儲存系統
- 2. 高頻寬連接:PCIe Gen4/Gen5 介面高速網路連接並行 I/O 架構GPUDirect Storage 支援
- 3. 資料管理:自動分層儲存資料壓縮和去重快照和備份功能版本控制支援
推理階段推薦技術
- 1. 低延遲儲存:NVMe SSD儲存級記憶體 (SCM)本地快取記憶體內資料庫
- 2. 高可用性架構:冗餘儲存陣列即時複製自動故障轉移負載平衡
- 3. 擴展性設計:橫向擴展架構微服務設計容器化部署雲原生儲存
AI SSD 測試計畫的啟示
測試重點差異化
- 訓練測試重點:大檔案順序讀寫效能高吞吐量持續性測試大容量資料載入測試檢查點保存和恢復測試
- 推理測試重點:小檔案隨機存取效能低延遲回應時間測試高 IOPS 並發測試即時故障轉移測試
工作負載模擬
- 訓練工作負載模擬:大型資料集載入模式批次處理 I/O 模式檢查點寫入模式長時間持續負載
- 推理工作負載模擬:即時查詢模式高並發存取模式混合讀寫模式突發負載處理
這些差異化的需求分析為 AI SSD 的測試計畫提供了重要的指導,確保測試能夠涵蓋 AI 訓練和推理的不同儲存需求場景,並驗證 AI SSD 在各種工作負載下的效能表現。