AI 專案週期及儲存需求深度解析:從資料攝取到推理優化

更新於 發佈於 閱讀時間約 6 分鐘

AI專案週期的五個階段(來源:Solidigm)

1. 資料攝取(Data Ingest)

  • I/O特性:大量順序寫入活動
  • 資料類型:原始資料(LLM的網站資料、自動駕駛的LIDAR資料、醫療影像、音頻記錄等)
  • 儲存需求:高順序寫入吞吐量

2. 資料準備(Data Preparation)

  • 主要活動
    • 資料發現、提取和預處理
    • 資料探索和資料集分割
    • 特徵提取、特徵選擇和模式挖掘
    • 資料轉換
  • I/O特性:隨機讀取資料,順序寫入處理後的項目
  • 儲存需求
    • 小型隨機讀取的低延遲
    • 高順序寫入吞吐量

3. 模型開發和訓練(Model Development and Training)

  • 特點
    • 對計算資源需求極高
    • 資料集持續擴展,通常達到數PB
    • 多個資料科學家需要同時存取
    • 大量並發作業存取相同資料集
  • I/O特性
    • 隨機讀取為主
    • 多主機並發隨機存取
    • 高隨機讀取效能需求
  • 儲存需求
    • 可擴展的容量
    • 快速多主機隨機存取
    • 高隨機讀取效能
    • 資料共享能力

4. 模型部署和推理(Model Deployment and Inference)

  • 特點:將訓練好的模型部署到生產環境
  • I/O特性:需要快速回應推理請求
  • 儲存需求:低延遲、高可用性

5. 歸檔(Archive)

  • 特點:長期保存模型和資料
  • 儲存需求:大容量、成本效益

AI儲存基礎設施的關鍵問題

  • 如何讓AI加速器(GPU、CPU等)和網路設備在沒有閒置時間的情況下滿負荷運行?
  • 需要高吞吐量、低延遲的網路和深度學習模型支援

AI工作負載的儲存特性

  • 大資料的3V特性:容量(Volume)、速度(Velocity)、多樣性(Variety)
  • 資料來源多樣化:事件日誌、交易記錄、IoT輸入、CRM、ERP、社交媒體、衛星影像等
  • 資料品質要求:清理無效資料、移除重複項、標準化測量單位、按類型組織資料

AI平台規格和儲存需求

NVIDIA DGX Spark規格

  • 架構:NVIDIA Grace Blackwell
  • GPU:Blackwell架構
  • CPU:20核心Arm(10個Cortex-X925 + 10個Cortex-A725)
  • Tensor效能:1 PFLOP(FP4精度)
  • 系統記憶體:128GB LPDDR5x統一系統記憶體
  • 記憶體頻寬:273 GB/s
  • 儲存:1或4TB NVMe M.2(自加密)
  • 網路:ConnectX-7 Smart NIC、10 GbE、WiFi 7
  • 支援模型:最大200億參數的AI模型
  • 工作負載
    • 原型開發:開發、測試和驗證AI模型
    • 微調:最大70億參數模型的微調
    • 推理:最大200億參數模型的推理
    • 資料科學:端到端資料科學工作流程
    • 邊緣應用:機器人、智慧城市、電腦視覺

NVIDIA RTX A6000規格

  • 記憶體:48GB GDDR6
  • 記憶體頻寬:最高112 GB/s雙向頻寬
  • CUDA核心:10,752個
  • RT核心:84個
  • 系統需求
    • 系統記憶體:至少32GB RAM(建議64GB或更多)
    • CPU:多核心處理器
    • 儲存:高速SSD用於大型資料集處理

GPUDirect Storage技術

  • 定義:在本地或遠端儲存(如NVMe或NVMe-oF)與GPU記憶體之間建立直接資料路徑
  • 優勢
    • 降低延遲
    • 增加頻寬
    • 減少CPU負載
    • 直接從儲存設備到GPU記憶體的資料移動
  • 應用:AI/ML工作負載的儲存I/O效能大幅提升

AI工作負載的儲存特性需求

  1. 高隨機讀取效能:訓練階段需要大量並發隨機存取
  2. 高順序寫入吞吐量:資料攝取和預處理階段
  3. 低延遲:推理階段需要快速回應
  4. 可擴展性:支援PB級資料集
  5. 資料共享:多工作站和伺服器間的資料共享
  6. 高頻寬:配合GPU的高記憶體頻寬需求

計算儲存設備(Computational Storage Devices, CSDs)

定義和核心概念

  • 計算儲存:在儲存單元內嵌入處理能力,實現原地資料操作
  • 優勢:最小化儲存和CPU之間的資料移動,大幅提升效能和效率

關鍵技術組件

  1. 子系統本地記憶體(SLM)
  2. 程式(Programs)
  3. 計算命名空間(Compute Namespaces)

效能特性比較

raw-image

驗證挑戰

  1. 協議合規性
  2. 記憶體管理
  3. 命名空間互動
  4. 程式執行
  5. 效能評估

測試工具和方法

  • NVMe驗證IP:1,800+檢查、600+合規測試
  • VICS虛擬模擬:主機與嵌入式軟體協同驗證

AI SSD的特殊功能需求

  1. 近資料計算
  2. 智慧快取
  3. 資料壓縮與加密
  4. GPUDirect Storage支援
  5. 自適應效能調整

AI推理的儲存需求分析(來源:Micron)

推理 = IOPS的核心概念

  • 特性:即時、隨需、由用戶行為驅動
  • 差異:推理不是直線流程,而是循環、精煉與重新處理
  • 需求:每次互動觸發大量I/O

挑戰

  1. 不可預測性
  2. 即時決策
  3. 高並發I/O
  4. 尾延遲問題

基礎設施需求

  • 高IOPS
  • 低延遲
  • 可擴展性

市場趨勢

  • 計算需求比去年高100倍
  • 成本大部分來自推理服務
  • 儲存是「餵養野獸」的關鍵

AI SSD技術要求總結

1. 高效能需求

  • 超高IOPS
  • 低延遲(5-15 μs)
  • 高頻寬

2. 智慧功能

  • 計算儲存
  • 智慧快取
  • 自適應效能

3. 整合能力

  • GPUDirect Storage
  • NVMe-oF支援
  • 多命名空間

4. 可靠性與安全性

  • 資料完整性
  • 硬體加速加密
  • 錯誤恢復
留言
avatar-img
留言分享你的想法!
avatar-img
SSD驗證工程師的告白
10會員
45內容數
針對平時SSD驗證上的感想
2025/09/06
1. AI SSD市場定義和分類研究 1.1 計算儲存設備的核心概念 AI SSD主要以計算儲存設備(Computational Storage Drive, CSD)的形式出現,這是一種在傳統SSD基礎上整合處理能力的新型儲存設備。根據Samsung SmartSSD第二代的技術實現,這類設備
2025/09/06
1. AI SSD市場定義和分類研究 1.1 計算儲存設備的核心概念 AI SSD主要以計算儲存設備(Computational Storage Drive, CSD)的形式出現,這是一種在傳統SSD基礎上整合處理能力的新型儲存設備。根據Samsung SmartSSD第二代的技術實現,這類設備
2025/08/31
本文深入探討AI訓練、推論及雲端儲存等不同場景下對SSD的需求,分析延遲、頻寬、功耗、耐久度等關鍵指標,並綜述主要SSD廠商的AI優化方案與市場趨勢。
Thumbnail
2025/08/31
本文深入探討AI訓練、推論及雲端儲存等不同場景下對SSD的需求,分析延遲、頻寬、功耗、耐久度等關鍵指標,並綜述主要SSD廠商的AI優化方案與市場趨勢。
Thumbnail
2025/08/23
很多新手工程師常問我: 「NVMe SSD 的測試流程是不是就是跑幾組 FIO?」我的答案是——不只如此,而且差得遠。 真正完整的 NVMe SSD 測試流程,涵蓋了從命令功能正確性、相容性平台測試、效能穩定性,到壽命與可靠度驗證,每一個測項都是在為產品做風險排雷。 這篇文章,我會用一個系統化的
Thumbnail
2025/08/23
很多新手工程師常問我: 「NVMe SSD 的測試流程是不是就是跑幾組 FIO?」我的答案是——不只如此,而且差得遠。 真正完整的 NVMe SSD 測試流程,涵蓋了從命令功能正確性、相容性平台測試、效能穩定性,到壽命與可靠度驗證,每一個測項都是在為產品做風險排雷。 這篇文章,我會用一個系統化的
Thumbnail
看更多
你可能也想看
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
目前使用ideogram,免費的額度一天 10 slow prompts,然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯,免費方案的也有幾款風格可以選擇,但產出的圖片只能下載非最高畫質的JPEG檔。
Thumbnail
目前使用ideogram,免費的額度一天 10 slow prompts,然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯,免費方案的也有幾款風格可以選擇,但產出的圖片只能下載非最高畫質的JPEG檔。
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
在網路速度有限的情況下,依序記錄不斷產生的資訊,能統計使用者在頁面上操作了哪些功能。
Thumbnail
在網路速度有限的情況下,依序記錄不斷產生的資訊,能統計使用者在頁面上操作了哪些功能。
Thumbnail
利用文字紀錄,明確寫下自己的採購項目......
Thumbnail
利用文字紀錄,明確寫下自己的採購項目......
Thumbnail
這篇整理了我這個月讀到關於「工具資源」和「個人品牌與行銷」相關的內容,並且幫大家附上了來源,如果你想了解我這個月發現了什麼不錯的內容都可以在這裡找到,而且我還會加上我的一點個人回饋。 另外每月資訊量不同,造成每一類的內容不一,有的內容會比較多,如果你只想看精選,我會在每一類中都挑出 3 篇我最推的
Thumbnail
這篇整理了我這個月讀到關於「工具資源」和「個人品牌與行銷」相關的內容,並且幫大家附上了來源,如果你想了解我這個月發現了什麼不錯的內容都可以在這裡找到,而且我還會加上我的一點個人回饋。 另外每月資訊量不同,造成每一類的內容不一,有的內容會比較多,如果你只想看精選,我會在每一類中都挑出 3 篇我最推的
Thumbnail
在數位的時代裡,電腦、手機、相機幾乎已是現代人不可或缺的生活必需品,各種3C的儲存單位也從GB來到TB,文檔、照片、影片和各式各樣的程式、APP,海量的資料佔據每個人的資料庫,混亂的資料庫不僅影響工作效率,也容易打亂思緒,那麼我們該如何開始做數位整理呢?
Thumbnail
在數位的時代裡,電腦、手機、相機幾乎已是現代人不可或缺的生活必需品,各種3C的儲存單位也從GB來到TB,文檔、照片、影片和各式各樣的程式、APP,海量的資料佔據每個人的資料庫,混亂的資料庫不僅影響工作效率,也容易打亂思緒,那麼我們該如何開始做數位整理呢?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News