為何 FlashAttention 在不同 GPU 上的加速幅度差異如此巨大？── 從 HBM、SRAM 與 FLOPs

2025/11/24 更新2025/11/24 發佈閱讀 7 分鐘

投資理財內容聲明

[2205.14135] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

FlashAttention 的提出，核心在於降低Transformer 注意力計算中的 記憶體讀寫成本（IO）。這一改善，使其在多數 GPU 上能獲得 2–4× 以上的速度提升。然而，一個有趣的實驗現象是：不同 GPU 上的 speedup 並不一致。例如：

RTX 3090：最高可達 4.5× 加速
A100：約 2–4×
NVIDIA T4：明顯較低

這並非偶然，而是深度學習運算在今日 GPU 結構下的必然結果。本文將從 HBM 記憶體頻寬、片上 SRAM 容量，以及 GPU 計算能力（FLOPs） 三大面向，解釋 FlashAttention speedup 差異的根本原因。

一、HBM 記憶體頻寬：速度差異的主要來源

Transformer 注意力運算有一個重大瓶頸：

要讀寫一個 N×N 的注意力矩陣，這使得標準 Attention 的時間主要被「記憶體頻寬」決定，而非計算量。

以下是論文中的 GPU 比較結果：

GPUHBM 帶寬FlashAttention SpeedupRTX 3090約 900 GB/s2.5× – 4.5×（最高）A100約 1.5 TB/s2× – 4×T4約 300 GB/s最小

HBM 帶寬越低，FlashAttention 的加速比反而越高。

為什麼會如此？

因為標準 Attention 是 IO-bound（記憶體頻寬限制） 的計算，當 HBM 速度不夠快時：

標準 Attention 特別慢
FlashAttention 因大量降低 IO 需求，相對快非常多

因此 RTX 3090 雖然 FLOPs 不如 A100，但因其記憶體頻寬較低，反而更能顯現 FlashAttention 的優勢。

二、SRAM（片上快取）大小：決定 FlashAttention 的極限效益

FlashAttention 的核心技巧之一是 tiling（分塊）。所有注意力計算會被切成小區塊，在 GPU 的 SRAM（L2 cache、shared memory、register file）中完成，幾乎不從 HBM 讀寫 NxN 交互矩陣。

因此：

SRAM 越大 → 每次可處理越大的 block → IO reuse 越高 → speedup 越大

這也是為什麼：

A100 SRAM 大 → 表現穩定優秀
RTX 3090 SRAM 也大 → speedup 甚至比 A100 更高
T4 SRAM 小 → block 必須切得更碎 → speedup 明顯下降

在 T4 的實驗中，block size 的縮小使得 FlashAttention 無法充分利用 SRAM，導致加速比下降，儘管它仍比標準 Attention 省記憶體。

三、FLOPs（計算能力）並非 Speedup 的主因素

很多人直覺認為 GPU 算力越高，FlashAttention 越快。但實際上：

標準 Attention 不是 Compute-bound（計算瓶頸）
而是 Memory-bound（記憶體瓶頸）

FlashAttention 雖然額外做了一些重算（recomputation），增加少量 FLOPs，但這些計算量遠遠小於省下的 HBM IO，因此：

GPU FLOPs 高低，對 speedup 不造成主要差異
決定性因素仍是 HBM 與 SRAM

這解釋了為什麼：

A100 的 FLOPs 遠高於 3090
但 FlashAttention 在 3090 反而更快

因為：

速度決定因素不是算力，而是 IO 密度（IO intensity）能否大幅降低。

綜合分析：FlashAttention Speedup 的三要素模型

可以將加速比概念化為：

其中：

標準 Attention IO 成本：

FlashAttention IO 成本：

因此 speedup 取決於：

① HBM 帶寬越小 → Speedup 越高

（標準 Attention 更慢）

② SRAM 越大 → Speedup 越高

（FlashAttention block 越大）

③ FLOPs 幾乎不影響 speedup

（不是計算瓶頸）

結論：FlashAttention 的價值在於「IO-aware AI 計算」

FlashAttention 的成功，象徵著深度學習效能的瓶頸已經從「算力不足」轉向：

「記憶體頻寬不足 — Memory wall」。

因此其加速效果會隨不同 GPU 的記憶體子系統而變動，是可以預期的結果。

這也揭示了未來 AI 加速的方向：

軟體層面：IO-aware 演算法（如 FlashAttention / FlashDecoding）
硬體層面：更大 SRAM、更高帶寬、更靠近計算單元的記憶體架構

FlashAttention 不只是一個快速 attention kernel，更是 深度學習從 FLOPs 時代走向 IO 時代 的重要里程碑。

資料來源

Dao, T., Fu, D. Y., Ermon, S., Rudra, A., & Ré, C. (2022). FlashAttention: Fast and memory-efficient exact attention with IO-awareness. arXiv:2205.14135. https://arxiv.org/abs/2205.14135

#記憶體

#GPU

#Flash

留言

領趨投資觀點

95會員

50內容數

歡迎來到領趨投資觀點！一起學習產業、股價的邏輯吧！

領趨投資觀點的其他內容

2025/10/22

大井泵浦（6982）：AI 伺服器液冷應用發展潛力投資分析

大井泵浦工業成立於 1967 年，是台灣歷史悠久的專業水泵製造商。公司總部位於新北三芝，在台灣擁有三座生產基地，包括新北三芝廠、高雄正義廠，以及預計 2025 年第4季啟用的高雄環球新廠。

2025/10/22

大井泵浦（6982）：AI 伺服器液冷應用發展潛力投資分析

2025/10/02

晶彩科（3535）：由面板AOI走向先進封裝的成長曲線

晶彩科技股份有限公司（簡稱晶彩科）成立於2000年，總部位於新竹，在台中、台南設有據點，並於上海設立子公司。公司核心產品是「自動光學檢測」（AOI）及精密量測設備，早期專注於TFT-LCD面板製造的瑕疵檢測，是台灣唯一成功打入面板廠陣列段AOI設備的供應商。

2025/10/02

晶彩科（3535）：由面板AOI走向先進封裝的成長曲線

2025/09/28

台灣機器人產業新勢力：鞍新盟機器人、新代科技(7750)、盟立自動化(2464)與義美集團分析

台灣機器人產業正迎來跨界合作的新局面。傳統食品業者義美集團，與工業自動化廠盟立自動化、新興機器人千金股新代科技共同出資成立鞍新盟機器人製造公司，聯手進軍無人機與智慧機器人市場。

2025/09/28

台灣機器人產業新勢力：鞍新盟機器人、新代科技(7750)、盟立自動化(2464)與義美集團分析

看更多

你可能也想看

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

vocus 慶祝推出 App，舉辦 2026 全站慶。推出精選內容與數位商品折扣，訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包，以及全站徵文，並邀請你一起來回顧過去的一年， vocus 與創作者共同留下了哪些精彩創作。

#vocus#2026#vocus2026

2026/01/26

方格子 vocus 官方沙龍

【 vocus 全站慶，更好的 2026 上線了！】折扣碼 x 抽紅包 x 新手禮 x App 登場！

#vocus#2026#vocus2026

2026/01/26

理性分析;感性生活

在AI浪潮下，記憶體需求如「無底洞」：群聯潘董揭示5個顛覆你想像的產業真相

在今年8月，群聯潘董率先喊出Flash將因AI需求而缺貨，事實證明他是這波浪潮的先知，11/22年代新聞有專訪潘董，整段影片看完，收穫良多，更加堅定續抱美光和Kioxia的決心。

#群聯#Flash#雲端

2025/11/23

理性分析;感性生活

在AI浪潮下，記憶體需求如「無底洞」：群聯潘董揭示5個顛覆你想像的產業真相

#群聯#Flash#雲端

2025/11/23

SSD驗證工程師的告白

AI 時代的真正關鍵：不是 GPU，而是記憶體？——從 HBM 熱潮看台灣的下一步

這一兩年，AI 帶來的產業劇變速度之快，讓整個科技界猶如被按下「加速鍵」。從 PCB、散熱技術、機櫃軌道、交換器到伺服器供應鏈，短短時間內全都被 AI 推著往前走。而現在，這股巨浪正式推向了另一個過去不太起眼的主角——記憶體其中，高頻寬記憶體（HBM）的全球缺料，更像是一把點燃產業鏈的野火；一旦

#記憶體#GPU#伺服器

2025/11/16

SSD驗證工程師的告白

AI 時代的真正關鍵：不是 GPU，而是記憶體？——從 HBM 熱潮看台灣的下一步

#記憶體#GPU#伺服器

2025/11/16

MimiVsJames的美股投資分享

產業報告：受惠於AI，資料儲存板塊正迎來結構性上升的機會，是繼AI高速傳輸之後的下一個投資重點

最看好的重點個股分析及投資建議

#GPU#SSD#資料中心

2025/09/08

MimiVsJames的美股投資分享

產業報告：受惠於AI，資料儲存板塊正迎來結構性上升的機會，是繼AI高速傳輸之後的下一個投資重點

最看好的重點個股分析及投資建議

#GPU#SSD#資料中心

2025/09/08

Tx3 Research｜掌握關鍵洞察

【記憶體世代轉折點】AI 訓練與推論最佳 DRAM 解密：HBM 為王，LPDDR 異軍突起

“你可以有最強的算力核心，但若記憶體頻寬跟不上，那些效能只會卡在瓶頸裡等死。” — Cadence 行銷總監 Frank Ferro 隨著 AI 模型規模指數級膨脹，記憶體已從配角晉升為演算法經濟的主角。2024 年底，ChatGPT、Gemini、Claude 這些 AI 巨獸每天吞吐的參數、向

#AI晶片#DRAM#記憶體

2025/06/23

Tx3 Research｜掌握關鍵洞察

【記憶體世代轉折點】AI 訓練與推論最佳 DRAM 解密：HBM 為王，LPDDR 異軍突起

#AI晶片#DRAM#記憶體

2025/06/23

Tx3 Research｜掌握關鍵洞察

AMD 拿出殺手鐧，MI355X 記憶體力壓輝達，AI 晶片之戰白熱化！

在 AI 硬體競賽日益升溫之際，超微（AMD）出招不手軟。 6月12日於 Advancing AI 2025 大會上，一口氣推出全新 MI350 系列 GPU，旗艦款 MI355X 不僅具備高達 288GB 的 HBM3E 記憶體容量，更在 FP64／FP32 高精度運算效能上直指輝達。

#AI晶片#AMD#AI伺服器

2025/06/17

Tx3 Research｜掌握關鍵洞察

AMD 拿出殺手鐧，MI355X 記憶體力壓輝達，AI 晶片之戰白熱化！

#AI晶片#AMD#AI伺服器

2025/06/17

D&Y熊繪生的沙龍

SD-WebUI｜VRAM-Estimator｜GPU記憶體不足嗎？安裝擴充套件

這篇文章簡要說明如何在Windows 10及更高版本作業系統上使用SDWebUI-GPU，並提供硬體運作、安裝擴充套件以及其他補充資訊，例如使用VRAM-Estimator改善GPU記憶體使用效能，以及在老舊Macbook Pro上搭建ML系統環境的經驗分享。

#stablediffusion#rtx4060#nividaGPU

2025/04/24

D&Y熊繪生的沙龍

SD-WebUI｜VRAM-Estimator｜GPU記憶體不足嗎？安裝擴充套件

#stablediffusion#rtx4060#nividaGPU

2025/04/24

分析師的市場觀點

外資大摩MS看DeepSeek如何影響記憶體產業

摘要 (Abstract) DeepSeek 技術正在改變人工智慧（AI）的格局，通過提升軟體效率和採用開放存取模式，在不依賴龐大硬體資源的情況下推動 AI 發展。在中國市場，AI 模型變得更加精簡與高效，削減高端儲存材料（如 HBM）的需求；此外，與美國針對中國的技術制裁相關，中國 AI 企業正

#投資#台股#外資報告

2025/03/06

分析師的市場觀點

外資大摩MS看DeepSeek如何影響記憶體產業

#投資#台股#外資報告

2025/03/06

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News