DeepSeek近期開源的FlashMLA是針對Hopper GPU架構設計的高效多頭潛在注意力(Multi-Head Latent Attention, MLA)解碼核心,專為可變長度序列推理場景優化。
FlashMLA通過「以計算換顯存」的設計哲學,針對Hopper架構特性實現端到端優化,成為長上下文、低延遲推理場景的專用加速方案。其生態價值在於突破Transformer模型的記憶體瓶頸,為千億參數級模型的邊緣部署提供可行性路徑。
FlashMLA 技術參數
對照基準:NVIDIA FlashAttention-2/3
一、核心技術參數

二、計算與記憶體效能
1. 記憶體相關
- 顯存佔用(32K序列長度):
- FlashMLA在DeepSeek-V2模型實現93.3%的KV Cache壓縮率,同等序列長度下顯存佔用僅為FlashAttention-2的1/15。例如處理32K長上下文時:
- FlashMLA:2.1 GB
- FlashAttention-2:31.5 GB
- 記憶體頻寬利用率(H800 GPU):
- 峰值:3000 GB/s
- 對比FlashAttention-3:2400 GB/s
2. 計算效能
FlashMLA在計算密集型場景實現580 TFLOPS,較FlashAttention-3的450 TFLOPS提升28.9%,主要來自:
- 指令級並行優化(ILP)
- 延遲隱藏技術(Latency Hiding)

三、硬體與軟體依賴
