AI 專案週期及儲存需求深度解析:從資料攝取到推理優化

更新 發佈閱讀 6 分鐘

AI專案週期的五個階段(來源:Solidigm)

1. 資料攝取(Data Ingest)

  • I/O特性:大量順序寫入活動
  • 資料類型:原始資料(LLM的網站資料、自動駕駛的LIDAR資料、醫療影像、音頻記錄等)
  • 儲存需求:高順序寫入吞吐量

2. 資料準備(Data Preparation)

  • 主要活動
    • 資料發現、提取和預處理
    • 資料探索和資料集分割
    • 特徵提取、特徵選擇和模式挖掘
    • 資料轉換
  • I/O特性:隨機讀取資料,順序寫入處理後的項目
  • 儲存需求
    • 小型隨機讀取的低延遲
    • 高順序寫入吞吐量

3. 模型開發和訓練(Model Development and Training)

  • 特點
    • 對計算資源需求極高
    • 資料集持續擴展,通常達到數PB
    • 多個資料科學家需要同時存取
    • 大量並發作業存取相同資料集
  • I/O特性
    • 隨機讀取為主
    • 多主機並發隨機存取
    • 高隨機讀取效能需求
  • 儲存需求
    • 可擴展的容量
    • 快速多主機隨機存取
    • 高隨機讀取效能
    • 資料共享能力

4. 模型部署和推理(Model Deployment and Inference)

  • 特點:將訓練好的模型部署到生產環境
  • I/O特性:需要快速回應推理請求
  • 儲存需求:低延遲、高可用性

5. 歸檔(Archive)

  • 特點:長期保存模型和資料
  • 儲存需求:大容量、成本效益

AI儲存基礎設施的關鍵問題

  • 如何讓AI加速器(GPU、CPU等)和網路設備在沒有閒置時間的情況下滿負荷運行?
  • 需要高吞吐量、低延遲的網路和深度學習模型支援

AI工作負載的儲存特性

  • 大資料的3V特性:容量(Volume)、速度(Velocity)、多樣性(Variety)
  • 資料來源多樣化:事件日誌、交易記錄、IoT輸入、CRM、ERP、社交媒體、衛星影像等
  • 資料品質要求:清理無效資料、移除重複項、標準化測量單位、按類型組織資料

AI平台規格和儲存需求

NVIDIA DGX Spark規格

  • 架構:NVIDIA Grace Blackwell
  • GPU:Blackwell架構
  • CPU:20核心Arm(10個Cortex-X925 + 10個Cortex-A725)
  • Tensor效能:1 PFLOP(FP4精度)
  • 系統記憶體:128GB LPDDR5x統一系統記憶體
  • 記憶體頻寬:273 GB/s
  • 儲存:1或4TB NVMe M.2(自加密)
  • 網路:ConnectX-7 Smart NIC、10 GbE、WiFi 7
  • 支援模型:最大200億參數的AI模型
  • 工作負載
    • 原型開發:開發、測試和驗證AI模型
    • 微調:最大70億參數模型的微調
    • 推理:最大200億參數模型的推理
    • 資料科學:端到端資料科學工作流程
    • 邊緣應用:機器人、智慧城市、電腦視覺

NVIDIA RTX A6000規格

  • 記憶體:48GB GDDR6
  • 記憶體頻寬:最高112 GB/s雙向頻寬
  • CUDA核心:10,752個
  • RT核心:84個
  • 系統需求
    • 系統記憶體:至少32GB RAM(建議64GB或更多)
    • CPU:多核心處理器
    • 儲存:高速SSD用於大型資料集處理

GPUDirect Storage技術

  • 定義:在本地或遠端儲存(如NVMe或NVMe-oF)與GPU記憶體之間建立直接資料路徑
  • 優勢
    • 降低延遲
    • 增加頻寬
    • 減少CPU負載
    • 直接從儲存設備到GPU記憶體的資料移動
  • 應用:AI/ML工作負載的儲存I/O效能大幅提升

AI工作負載的儲存特性需求

  1. 高隨機讀取效能:訓練階段需要大量並發隨機存取
  2. 高順序寫入吞吐量:資料攝取和預處理階段
  3. 低延遲:推理階段需要快速回應
  4. 可擴展性:支援PB級資料集
  5. 資料共享:多工作站和伺服器間的資料共享
  6. 高頻寬:配合GPU的高記憶體頻寬需求

計算儲存設備(Computational Storage Devices, CSDs)

定義和核心概念

  • 計算儲存:在儲存單元內嵌入處理能力,實現原地資料操作
  • 優勢:最小化儲存和CPU之間的資料移動,大幅提升效能和效率

關鍵技術組件

  1. 子系統本地記憶體(SLM)
  2. 程式(Programs)
  3. 計算命名空間(Compute Namespaces)

效能特性比較

raw-image

驗證挑戰

  1. 協議合規性
  2. 記憶體管理
  3. 命名空間互動
  4. 程式執行
  5. 效能評估

測試工具和方法

  • NVMe驗證IP:1,800+檢查、600+合規測試
  • VICS虛擬模擬:主機與嵌入式軟體協同驗證

AI SSD的特殊功能需求

  1. 近資料計算
  2. 智慧快取
  3. 資料壓縮與加密
  4. GPUDirect Storage支援
  5. 自適應效能調整

AI推理的儲存需求分析(來源:Micron)

推理 = IOPS的核心概念

  • 特性:即時、隨需、由用戶行為驅動
  • 差異:推理不是直線流程,而是循環、精煉與重新處理
  • 需求:每次互動觸發大量I/O

挑戰

  1. 不可預測性
  2. 即時決策
  3. 高並發I/O
  4. 尾延遲問題

基礎設施需求

  • 高IOPS
  • 低延遲
  • 可擴展性

市場趨勢

  • 計算需求比去年高100倍
  • 成本大部分來自推理服務
  • 儲存是「餵養野獸」的關鍵

AI SSD技術要求總結

1. 高效能需求

  • 超高IOPS
  • 低延遲(5-15 μs)
  • 高頻寬

2. 智慧功能

  • 計算儲存
  • 智慧快取
  • 自適應效能

3. 整合能力

  • GPUDirect Storage
  • NVMe-oF支援
  • 多命名空間

4. 可靠性與安全性

  • 資料完整性
  • 硬體加速加密
  • 錯誤恢復
留言
avatar-img
留言分享你的想法!
avatar-img
SSD驗證工程師的告白
11會員
52內容數
針對平時SSD驗證上的感想
2025/09/06
1. AI SSD市場定義和分類研究 1.1 計算儲存設備的核心概念 AI SSD主要以計算儲存設備(Computational Storage Drive, CSD)的形式出現,這是一種在傳統SSD基礎上整合處理能力的新型儲存設備。根據Samsung SmartSSD第二代的技術實現,這類設備
2025/09/06
1. AI SSD市場定義和分類研究 1.1 計算儲存設備的核心概念 AI SSD主要以計算儲存設備(Computational Storage Drive, CSD)的形式出現,這是一種在傳統SSD基礎上整合處理能力的新型儲存設備。根據Samsung SmartSSD第二代的技術實現,這類設備
2025/08/31
本文深入探討AI訓練、推論及雲端儲存等不同場景下對SSD的需求,分析延遲、頻寬、功耗、耐久度等關鍵指標,並綜述主要SSD廠商的AI優化方案與市場趨勢。
Thumbnail
2025/08/31
本文深入探討AI訓練、推論及雲端儲存等不同場景下對SSD的需求,分析延遲、頻寬、功耗、耐久度等關鍵指標,並綜述主要SSD廠商的AI優化方案與市場趨勢。
Thumbnail
2025/08/23
很多新手工程師常問我: 「NVMe SSD 的測試流程是不是就是跑幾組 FIO?」我的答案是——不只如此,而且差得遠。 真正完整的 NVMe SSD 測試流程,涵蓋了從命令功能正確性、相容性平台測試、效能穩定性,到壽命與可靠度驗證,每一個測項都是在為產品做風險排雷。 這篇文章,我會用一個系統化的
Thumbnail
2025/08/23
很多新手工程師常問我: 「NVMe SSD 的測試流程是不是就是跑幾組 FIO?」我的答案是——不只如此,而且差得遠。 真正完整的 NVMe SSD 測試流程,涵蓋了從命令功能正確性、相容性平台測試、效能穩定性,到壽命與可靠度驗證,每一個測項都是在為產品做風險排雷。 這篇文章,我會用一個系統化的
Thumbnail
看更多
你可能也想看
Thumbnail
目前使用ideogram,免費的額度一天 10 slow prompts,然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯,免費方案的也有幾款風格可以選擇,但產出的圖片只能下載非最高畫質的JPEG檔。
Thumbnail
目前使用ideogram,免費的額度一天 10 slow prompts,然後需要等待幾十秒到一分多鐘的時間產圖。產出來的圖片還不錯,免費方案的也有幾款風格可以選擇,但產出的圖片只能下載非最高畫質的JPEG檔。
Thumbnail
在網路速度有限的情況下,依序記錄不斷產生的資訊,能統計使用者在頁面上操作了哪些功能。
Thumbnail
在網路速度有限的情況下,依序記錄不斷產生的資訊,能統計使用者在頁面上操作了哪些功能。
Thumbnail
利用文字紀錄,明確寫下自己的採購項目......
Thumbnail
利用文字紀錄,明確寫下自己的採購項目......
Thumbnail
這篇整理了我這個月讀到關於「工具資源」和「個人品牌與行銷」相關的內容,並且幫大家附上了來源,如果你想了解我這個月發現了什麼不錯的內容都可以在這裡找到,而且我還會加上我的一點個人回饋。 另外每月資訊量不同,造成每一類的內容不一,有的內容會比較多,如果你只想看精選,我會在每一類中都挑出 3 篇我最推的
Thumbnail
這篇整理了我這個月讀到關於「工具資源」和「個人品牌與行銷」相關的內容,並且幫大家附上了來源,如果你想了解我這個月發現了什麼不錯的內容都可以在這裡找到,而且我還會加上我的一點個人回饋。 另外每月資訊量不同,造成每一類的內容不一,有的內容會比較多,如果你只想看精選,我會在每一類中都挑出 3 篇我最推的
Thumbnail
在數位的時代裡,電腦、手機、相機幾乎已是現代人不可或缺的生活必需品,各種3C的儲存單位也從GB來到TB,文檔、照片、影片和各式各樣的程式、APP,海量的資料佔據每個人的資料庫,混亂的資料庫不僅影響工作效率,也容易打亂思緒,那麼我們該如何開始做數位整理呢?
Thumbnail
在數位的時代裡,電腦、手機、相機幾乎已是現代人不可或缺的生活必需品,各種3C的儲存單位也從GB來到TB,文檔、照片、影片和各式各樣的程式、APP,海量的資料佔據每個人的資料庫,混亂的資料庫不僅影響工作效率,也容易打亂思緒,那麼我們該如何開始做數位整理呢?
Thumbnail
分享在工作場景中使用AI生成帶狀節目腳本的實際應用,並提供了關於AI腳本生成的效率革命、腳本生成流程拆解、定期內容創作的AI應用、AI腳本生成步驟拆解以及AI協作的相關內容。讓AI幫助做出精彩演出,提升工作效率,減輕負擔。
Thumbnail
分享在工作場景中使用AI生成帶狀節目腳本的實際應用,並提供了關於AI腳本生成的效率革命、腳本生成流程拆解、定期內容創作的AI應用、AI腳本生成步驟拆解以及AI協作的相關內容。讓AI幫助做出精彩演出,提升工作效率,減輕負擔。
Thumbnail
1.設計與開發 1.1 精明管家系統之儀表板 portfolio 中各標的的持有數量歷史資料,累積的資料量已經逐漸變得太大,原本存在 firestore 同一個 collection 中。因此資料在運算操作績效時,預設期間是 YTD,故將資料拆成每年一個 collection,以加快報表產生速度
Thumbnail
1.設計與開發 1.1 精明管家系統之儀表板 portfolio 中各標的的持有數量歷史資料,累積的資料量已經逐漸變得太大,原本存在 firestore 同一個 collection 中。因此資料在運算操作績效時,預設期間是 YTD,故將資料拆成每年一個 collection,以加快報表產生速度
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News