AI專案週期的五個階段(來源:Solidigm)
1. 資料攝取(Data Ingest)
- I/O特性:大量順序寫入活動
- 資料類型:原始資料(LLM的網站資料、自動駕駛的LIDAR資料、醫療影像、音頻記錄等)
- 儲存需求:高順序寫入吞吐量
2. 資料準備(Data Preparation)
- 主要活動:
- 資料發現、提取和預處理
- 資料探索和資料集分割
- 特徵提取、特徵選擇和模式挖掘
- 資料轉換
- I/O特性:隨機讀取資料,順序寫入處理後的項目
- 儲存需求:
- 小型隨機讀取的低延遲
- 高順序寫入吞吐量
3. 模型開發和訓練(Model Development and Training)
- 特點:
- 對計算資源需求極高
- 資料集持續擴展,通常達到數PB
- 多個資料科學家需要同時存取
- 大量並發作業存取相同資料集
- I/O特性:
- 隨機讀取為主
- 多主機並發隨機存取
- 高隨機讀取效能需求
- 儲存需求:
- 可擴展的容量
- 快速多主機隨機存取
- 高隨機讀取效能
- 資料共享能力
4. 模型部署和推理(Model Deployment and Inference)
- 特點:將訓練好的模型部署到生產環境
- I/O特性:需要快速回應推理請求
- 儲存需求:低延遲、高可用性
5. 歸檔(Archive)
- 特點:長期保存模型和資料
- 儲存需求:大容量、成本效益
AI儲存基礎設施的關鍵問題
- 如何讓AI加速器(GPU、CPU等)和網路設備在沒有閒置時間的情況下滿負荷運行?
- 需要高吞吐量、低延遲的網路和深度學習模型支援
AI工作負載的儲存特性
- 大資料的3V特性:容量(Volume)、速度(Velocity)、多樣性(Variety)
- 資料來源多樣化:事件日誌、交易記錄、IoT輸入、CRM、ERP、社交媒體、衛星影像等
- 資料品質要求:清理無效資料、移除重複項、標準化測量單位、按類型組織資料
AI平台規格和儲存需求
NVIDIA DGX Spark規格
- 架構:NVIDIA Grace Blackwell
- GPU:Blackwell架構
- CPU:20核心Arm(10個Cortex-X925 + 10個Cortex-A725)
- Tensor效能:1 PFLOP(FP4精度)
- 系統記憶體:128GB LPDDR5x統一系統記憶體
- 記憶體頻寬:273 GB/s
- 儲存:1或4TB NVMe M.2(自加密)
- 網路:ConnectX-7 Smart NIC、10 GbE、WiFi 7
- 支援模型:最大200億參數的AI模型
- 工作負載:
- 原型開發:開發、測試和驗證AI模型
- 微調:最大70億參數模型的微調
- 推理:最大200億參數模型的推理
- 資料科學:端到端資料科學工作流程
- 邊緣應用:機器人、智慧城市、電腦視覺
NVIDIA RTX A6000規格
- 記憶體:48GB GDDR6
- 記憶體頻寬:最高112 GB/s雙向頻寬
- CUDA核心:10,752個
- RT核心:84個
- 系統需求:
- 系統記憶體:至少32GB RAM(建議64GB或更多)
- CPU:多核心處理器
- 儲存:高速SSD用於大型資料集處理
GPUDirect Storage技術
- 定義:在本地或遠端儲存(如NVMe或NVMe-oF)與GPU記憶體之間建立直接資料路徑
- 優勢:
- 降低延遲
- 增加頻寬
- 減少CPU負載
- 直接從儲存設備到GPU記憶體的資料移動
- 應用:AI/ML工作負載的儲存I/O效能大幅提升
AI工作負載的儲存特性需求
- 高隨機讀取效能:訓練階段需要大量並發隨機存取
- 高順序寫入吞吐量:資料攝取和預處理階段
- 低延遲:推理階段需要快速回應
- 可擴展性:支援PB級資料集
- 資料共享:多工作站和伺服器間的資料共享
- 高頻寬:配合GPU的高記憶體頻寬需求
計算儲存設備(Computational Storage Devices, CSDs)
定義和核心概念
- 計算儲存:在儲存單元內嵌入處理能力,實現原地資料操作
- 優勢:最小化儲存和CPU之間的資料移動,大幅提升效能和效率
關鍵技術組件
- 子系統本地記憶體(SLM)
- 程式(Programs)
- 計算命名空間(Compute Namespaces)
效能特性比較

驗證挑戰
- 協議合規性
- 記憶體管理
- 命名空間互動
- 程式執行
- 效能評估
測試工具和方法
- NVMe驗證IP:1,800+檢查、600+合規測試
- VICS虛擬模擬:主機與嵌入式軟體協同驗證
AI SSD的特殊功能需求
- 近資料計算
- 智慧快取
- 資料壓縮與加密
- GPUDirect Storage支援
- 自適應效能調整
AI推理的儲存需求分析(來源:Micron)
推理 = IOPS的核心概念
- 特性:即時、隨需、由用戶行為驅動
- 差異:推理不是直線流程,而是循環、精煉與重新處理
- 需求:每次互動觸發大量I/O
挑戰
- 不可預測性
- 即時決策
- 高並發I/O
- 尾延遲問題
基礎設施需求
- 高IOPS
- 低延遲
- 可擴展性
市場趨勢
- 計算需求比去年高100倍
- 成本大部分來自推理服務
- 儲存是「餵養野獸」的關鍵
AI SSD技術要求總結
1. 高效能需求
- 超高IOPS
- 低延遲(5-15 μs)
- 高頻寬
2. 智慧功能
- 計算儲存
- 智慧快取
- 自適應效能
3. 整合能力
- GPUDirect Storage
- NVMe-oF支援
- 多命名空間
4. 可靠性與安全性
- 資料完整性
- 硬體加速加密
- 錯誤恢復