DeepSeek近期開源的FlashMLA是針對Hopper GPU架構設計的高效多頭潛在注意力(Multi-Head Latent Attention, MLA)解碼核心,專為可變長度序列推理場景優化。
FlashMLA通過「以計算換顯存」的設計哲學,針對Hopper架構特性實現端到端優化,成為長上下文、低延遲推理場景的專用加速方案。其生態價值在於突破Transformer模型的記憶體瓶頸,為千億參數級模型的邊緣部署提供可行性路徑。
對照基準:NVIDIA FlashAttention-2/3
FlashMLA在計算密集型場景實現580 TFLOPS,較FlashAttention-3的450 TFLOPS提升28.9%,主要來自: