為何 FlashAttention 在不同 GPU 上的加速幅度差異如此巨大?── 從 HBM、SRAM 與 FLOPs

更新 發佈閱讀 7 分鐘
投資理財內容聲明

[2205.14135] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

FlashAttention 的提出,核心在於降低Transformer 注意力計算中的 記憶體讀寫成本(IO)。這一改善,使其在多數 GPU 上能獲得 2–4× 以上的速度提升。然而,一個有趣的實驗現象是:不同 GPU 上的 speedup 並不一致。例如:

  • RTX 3090:最高可達 4.5× 加速
  • A100:約 2–4×
  • NVIDIA T4:明顯較低

這並非偶然,而是深度學習運算在今日 GPU 結構下的必然結果。本文將從 HBM 記憶體頻寬、片上 SRAM 容量,以及 GPU 計算能力(FLOPs) 三大面向,解釋 FlashAttention speedup 差異的根本原因。


一、HBM 記憶體頻寬:速度差異的主要來源

Transformer 注意力運算有一個重大瓶頸:

要讀寫一個 N×N 的注意力矩陣,這使得標準 Attention 的時間主要被「記憶體頻寬」決定,而非計算量。

以下是論文中的 GPU 比較結果:

GPUHBM 帶寬FlashAttention SpeedupRTX 3090約 900 GB/s2.5× – 4.5×(最高)A100約 1.5 TB/s2× – 4×T4約 300 GB/s最小

HBM 帶寬越低,FlashAttention 的加速比反而越高。

為什麼會如此?

因為標準 Attention 是 IO-bound(記憶體頻寬限制) 的計算,當 HBM 速度不夠快時:

  • 標準 Attention 特別慢
  • FlashAttention 因大量降低 IO 需求,相對快非常多

因此 RTX 3090 雖然 FLOPs 不如 A100,但因其記憶體頻寬較低,反而更能顯現 FlashAttention 的優勢。


二、SRAM(片上快取)大小:決定 FlashAttention 的極限效益

FlashAttention 的核心技巧之一是 tiling(分塊)。所有注意力計算會被切成小區塊,在 GPU 的 SRAM(L2 cache、shared memory、register file)中完成,幾乎不從 HBM 讀寫 NxN 交互矩陣。

因此:

  • SRAM 越大 → 每次可處理越大的 block → IO reuse 越高 → speedup 越大

這也是為什麼:

  • A100 SRAM 大 → 表現穩定優秀
  • RTX 3090 SRAM 也大 → speedup 甚至比 A100 更高
  • T4 SRAM 小 → block 必須切得更碎 → speedup 明顯下降

在 T4 的實驗中,block size 的縮小使得 FlashAttention 無法充分利用 SRAM,導致加速比下降,儘管它仍比標準 Attention 省記憶體。


三、FLOPs(計算能力)並非 Speedup 的主因素

很多人直覺認為 GPU 算力越高,FlashAttention 越快。但實際上:

  • 標準 Attention 不是 Compute-bound(計算瓶頸)
  • 而是 Memory-bound(記憶體瓶頸)

FlashAttention 雖然額外做了一些重算(recomputation),增加少量 FLOPs,但這些計算量遠遠小於省下的 HBM IO,因此:

  • GPU FLOPs 高低,對 speedup 不造成主要差異
  • 決定性因素仍是 HBM 與 SRAM

這解釋了為什麼:

  • A100 的 FLOPs 遠高於 3090
  • 但 FlashAttention 在 3090 反而更快

因為:

速度決定因素不是算力,而是 IO 密度(IO intensity)能否大幅降低。


綜合分析:FlashAttention Speedup 的三要素模型

可以將加速比概念化為:

raw-image


其中:

  • 標準 Attention IO 成本:
raw-image
  • FlashAttention IO 成本:
raw-image

因此 speedup 取決於:

① HBM 帶寬越小 → Speedup 越高

(標準 Attention 更慢)

② SRAM 越大 → Speedup 越高

(FlashAttention block 越大)

③ FLOPs 幾乎不影響 speedup

(不是計算瓶頸)


結論:FlashAttention 的價值在於「IO-aware AI 計算」

FlashAttention 的成功,象徵著深度學習效能的瓶頸已經從「算力不足」轉向:

「記憶體頻寬不足 — Memory wall」。

因此其加速效果會隨不同 GPU 的記憶體子系統而變動,是可以預期的結果。

這也揭示了未來 AI 加速的方向:

  • 軟體層面:IO-aware 演算法(如 FlashAttention / FlashDecoding)
  • 硬體層面:更大 SRAM、更高帶寬、更靠近計算單元的記憶體架構

FlashAttention 不只是一個快速 attention kernel,更是 深度學習從 FLOPs 時代走向 IO 時代 的重要里程碑。


資料來源

Dao, T., Fu, D. Y., Ermon, S., Rudra, A., & Ré, C. (2022). FlashAttention: Fast and memory-efficient exact attention with IO-awareness. arXiv:2205.14135. https://arxiv.org/abs/2205.14135

留言
avatar-img
領趨投資觀點
86會員
47內容數
歡迎來到領趨投資觀點! 一起學習產業、股價的邏輯吧!
領趨投資觀點的其他內容
2025/10/22
大井泵浦工業成立於 1967 年,是台灣歷史悠久的專業水泵製造商。公司總部位於新北三芝,在台灣擁有三座生產基地,包括新北三芝廠、高雄正義廠,以及預計 2025 年第4季啟用的高雄環球新廠。
Thumbnail
2025/10/22
大井泵浦工業成立於 1967 年,是台灣歷史悠久的專業水泵製造商。公司總部位於新北三芝,在台灣擁有三座生產基地,包括新北三芝廠、高雄正義廠,以及預計 2025 年第4季啟用的高雄環球新廠。
Thumbnail
2025/10/02
晶彩科技股份有限公司(簡稱晶彩科)成立於2000年,總部位於新竹,在台中、台南設有據點,並於上海設立子公司。公司核心產品是「自動光學檢測」(AOI)及精密量測設備,早期專注於TFT-LCD面板製造的瑕疵檢測,是台灣唯一成功打入面板廠陣列段AOI設備的供應商。
Thumbnail
2025/10/02
晶彩科技股份有限公司(簡稱晶彩科)成立於2000年,總部位於新竹,在台中、台南設有據點,並於上海設立子公司。公司核心產品是「自動光學檢測」(AOI)及精密量測設備,早期專注於TFT-LCD面板製造的瑕疵檢測,是台灣唯一成功打入面板廠陣列段AOI設備的供應商。
Thumbnail
2025/09/28
台灣機器人產業正迎來跨界合作的新局面。傳統食品業者義美集團,與工業自動化廠盟立自動化、新興機器人千金股新代科技共同出資成立鞍新盟機器人製造公司,聯手進軍無人機與智慧機器人市場。
Thumbnail
2025/09/28
台灣機器人產業正迎來跨界合作的新局面。傳統食品業者義美集團,與工業自動化廠盟立自動化、新興機器人千金股新代科技共同出資成立鞍新盟機器人製造公司,聯手進軍無人機與智慧機器人市場。
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
在今年8月,群聯潘董率先喊出Flash將因AI需求而缺貨,事實證明他是這波浪潮的先知,11/22年代新聞有專訪潘董,整段影片看完,收穫良多,更加堅定續抱美光和Kioxia的決心。
Thumbnail
在今年8月,群聯潘董率先喊出Flash將因AI需求而缺貨,事實證明他是這波浪潮的先知,11/22年代新聞有專訪潘董,整段影片看完,收穫良多,更加堅定續抱美光和Kioxia的決心。
Thumbnail
這一兩年,AI 帶來的產業劇變速度之快,讓整個科技界猶如被按下「加速鍵」。從 PCB、散熱技術、機櫃軌道、交換器到伺服器供應鏈,短短時間內全都被 AI 推著往前走。而現在,這股巨浪正式推向了另一個過去不太起眼的主角——記憶體 其中,高頻寬記憶體(HBM)的全球缺料,更像是一把點燃產業鏈的野火;一旦
Thumbnail
這一兩年,AI 帶來的產業劇變速度之快,讓整個科技界猶如被按下「加速鍵」。從 PCB、散熱技術、機櫃軌道、交換器到伺服器供應鏈,短短時間內全都被 AI 推著往前走。而現在,這股巨浪正式推向了另一個過去不太起眼的主角——記憶體 其中,高頻寬記憶體(HBM)的全球缺料,更像是一把點燃產業鏈的野火;一旦
Thumbnail
“你可以有最強的算力核心,但若記憶體頻寬跟不上,那些效能只會卡在瓶頸裡等死。” — Cadence 行銷總監 Frank Ferro 隨著 AI 模型規模指數級膨脹,記憶體已從配角晉升為演算法經濟的主角。2024 年底,ChatGPT、Gemini、Claude 這些 AI 巨獸每天吞吐的參數、向
Thumbnail
“你可以有最強的算力核心,但若記憶體頻寬跟不上,那些效能只會卡在瓶頸裡等死。” — Cadence 行銷總監 Frank Ferro 隨著 AI 模型規模指數級膨脹,記憶體已從配角晉升為演算法經濟的主角。2024 年底,ChatGPT、Gemini、Claude 這些 AI 巨獸每天吞吐的參數、向
Thumbnail
在 AI 硬體競賽日益升溫之際,超微(AMD)出招不手軟。 6月12日於 Advancing AI 2025 大會上,一口氣推出全新 MI350 系列 GPU,旗艦款 MI355X 不僅具備高達 288GB 的 HBM3E 記憶體容量,更在 FP64/FP32 高精度運算效能上直指輝達。
Thumbnail
在 AI 硬體競賽日益升溫之際,超微(AMD)出招不手軟。 6月12日於 Advancing AI 2025 大會上,一口氣推出全新 MI350 系列 GPU,旗艦款 MI355X 不僅具備高達 288GB 的 HBM3E 記憶體容量,更在 FP64/FP32 高精度運算效能上直指輝達。
Thumbnail
這篇文章簡要說明如何在Windows 10及更高版本作業系統上使用SDWebUI-GPU,並提供硬體運作、安裝擴充套件以及其他補充資訊,例如使用VRAM-Estimator改善GPU記憶體使用效能,以及在老舊Macbook Pro上搭建ML系統環境的經驗分享。
Thumbnail
這篇文章簡要說明如何在Windows 10及更高版本作業系統上使用SDWebUI-GPU,並提供硬體運作、安裝擴充套件以及其他補充資訊,例如使用VRAM-Estimator改善GPU記憶體使用效能,以及在老舊Macbook Pro上搭建ML系統環境的經驗分享。
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
Thumbnail
摘要 (Abstract) DeepSeek 技術正在改變人工智慧(AI)的格局,通過提升軟體效率和採用開放存取模式,在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場,AI 模型變得更加精簡與高效,削減高端儲存材料(如 HBM)的需求;此外,與美國針對中國的技術制裁相關,中國 AI 企業正
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News