AI 真的能「實際商用」生成 1 小時以上的高畫質影片,整個硬體 stack 幾乎都要升級一個世代,不是只加一點 RAM 或多幾顆 GPU,而是「算力架構、記憶體、儲存、頻寬、散熱」全面往上拉。
撰文|AI伺服器研究團隊|2025年11月一、算力需求:GPU 等級直接往「持續算一小時」的方向設計
現在的短影片生成(幾秒~1分鐘),典型是 Diffusion / Transformer 模型,每一「幀」或每一段 latent 都要做多次迭代。
10 秒影片(例如 24fps ≈ 240 frames),已經可以吃滿多顆 GPU、跑好幾十秒~幾分鐘,還要做分段生成 + 拼接。
變成 1 小時影片會怎樣?
1 小時 = 3600 秒,以 24fps 計:3600 × 24 = 86,400 frames(現在很多 model 根本不會直接做到這麼長,都用 chunk 分段處理)
要讓敘事連貫、不崩壞,模型必須:
- 長序列注意力(long-context attention):不是只看當下幾秒,而是「全片角色、場景、光影、故事線」要一致。這會讓運算複雜度跟序列長度一起爆炸 → 逼 GPU/ASIC 要有更高的 TFLOPS + 更好的快取/記憶體架構。
- 多 GPU / 多節點協同:一小時影片幾乎一定要多 GPU pipeline / tensor parallel / sequence parallel。對硬體規格的要求:更高頻寬的 GPU 間互連(NVLink、CX8/IB 之類)。node 間網路:400G → 800G,甚至 Tb/s 級 backbone 才能撐住集群算力。
未來能做 1 小時影片生成的機房,會更像「影視渲染 farm + AI 叢集」的混合體,GPU/ASIC 的設計會更重視長時間穩定滿載 + 高頻寬互連,而不是只拼單次推論 latency。
二、記憶體(HBM / DRAM):從「塞模型」變成「塞整部片的語意狀態」
現在已經看到幾個趨勢:
- 模型本身:Foundation Model 幾十億~上百億參數(video diffusion / VLM)。
- 上下文暫存:每一段影片 latent、中間 feature map,角色姿態、camera movement、物體軌跡等「狀態」,如果要保持 1 小時的連貫,這些 state 需要長時間存在。
硬體影響:
單卡 HBM 容量,現在 HBM3/3E 走到 96GB / 144GB 等級已經是趨勢。1 小時級影片生成如果要在「較少分段」情況下跑,很容易需要多卡 HBM 疊加上 TB 級的系統 DRAM。
系統 DRAM 容量 & 頻寬,在 host 端要存更多中間結果、索引、場景圖(scene graph)。Server DRAM:從現在 1–2TB 進階到 4TB 甚至 8TB per node 會比較合理,且要搭配更高 DDR5/DDR6 頻寬。
記憶體架構演進,CXL memory pool / disaggregated memory 會更重要,因為一部片的狀態不見得塞得進單一伺服器。對硬體規格來說:需要支援 CXL、更多 PCIe lanes、更高頻寬 IO die。
三、儲存(Storage):從幾百 GB 升級到「PB 級長影片素材庫」
影片長度提升,幾個維度會被放大:
輸入素材 / prompt 相關資源
長片通常不是「一段 prompt 到底」,會有:腳本、分鏡、參考圖、lookbook、角色資料庫。模型可能需要反覆從儲存系統拉取這些 reference。
輸出影片本身
假設 4K、60fps、壓縮後平均 20–50 Mbps:1 小時 ≈ 9–22 GB / 每部。如果生成多版本、迭代修稿,很快就是 TB 級。
中間產物(latent / feature / draft clips)
training / fine-tune / iterative generation 時,會暫存大量中間 video tensor。需要高速 SSD/PCIe Gen5/Gen6 + 可能的 以 NVMe-oF / 專用 AI storage appliances。
硬體規格面:
單機 NVMe SSD 從現在 20–40TB → 80TB / 100TB 類型越來越吃香。
機櫃層級:高密度 all-flash array,專門給 AI 視訊工作負載。
IOPS & Seq. throughput 都要拉高,避免 I/O 變成瓶頸。
四、網路頻寬:生成只是第一步,「傳輸與協同」也很吃 spec
如果是雲端 AI 影片服務,1 小時影片帶來的網路壓力有:
模型內部(GPU 間 / 節點間)
前面講過:多 GPU 協同 → 需要更高速的 Infiniband / RoCE。800G/1.6T 網卡會變成高端 AI video 叢集標配。
儲存與算力之間
Data Lake / object storage 與 compute node 間要支援高吞吐。S3-compatible + RDMA / 高速 cache node 結合。
對外輸出給用戶
如果用戶要「邊看邊生成」、「生成完馬上雲端剪輯」,後端頻寬壓力更大。CDN + edge compute + 檔案壓縮編碼 (AV1、HEVC) 都要同步升級。
五、散熱與電力:1 小時影片 = 長時間滿載的「小型 HPC 任務」
生成長影片代表GPU/ASIC 長時間滿載(不是跑幾秒就結束),加上儲存、網路、CPU 也在高負載狀態。
硬體趨勢會是:
機櫃功耗
從現行 30–50kW/rack → 80–120kW,甚至更高。傳統風冷很難撐,必須進到 液冷(cold plate / rear door / MCL / CDU)。
冷卻設計
liquid-cooled GPU、CSP 自研 high-density AI racks。高算力 video generation cluster 會直接被歸類成「需要液冷」的工作負載,不太可能只靠風冷。
電力基礎建設
長影片生成如果變成主流商業服務,資料中心的 MW 級電力需求會更難壓低。也因此會推動:更高效的 power delivery、直流供電架構、甚至再生能源 PPA。
六、專用 ASIC / 新架構的可能性
當「長影片生成」成為一個穩定的商業市場後,硬體有幾個很可能的方向:
專用 Video-Gen ASIC / NPU
針對長序列視覺 + 時間建模做特化,更大的 on-chip SRAM 作為短期記憶,更高效的 attention / Conv / MoE 單元。目標是同樣電力下,生成同長度影片的速度比 GPU 快很多。
類似遊戲引擎的「AI 視覺引擎」硬體
部分邏輯交給類似 GPU RT cores / tensor cores 的專用單元處理,結合物理引擎、骨架動畫、camera path 模組,減少模型純算力壓力。
記憶體層級更多樣
HBM + GDDR + CXL RAM + NVMe 一起構成一個「分層視覺快取系統」,像遊戲讀圖一樣,只把當下片段和關鍵暫存放在最快的 HBM,其他存放在較慢但大的層級。
七、總結硬體規格的變化方向
「從能生成幾秒廣告的 AI 算力,進化成能長時間渲染一整部電影的 AI 影視工廠。」
具體就會是這樣:
- GPU/ASIC:更多算力、更高頻寬互連、為長序列優化的架構。
- 記憶體:單卡 HBM 更大、系統 DRAM 拉到多 TB、CXL 記憶體池普及。
- 儲存:高容量、高吞吐的 all-flash + AI 專用 storage。
- 網路:800G / 1.6T 級內部網路成為標準配備。
- 散熱 / 電力:機櫃功耗破 100kW,液冷成為 AI video cluster 的必然選項。



























