結論直接看
- m7a.large 幾乎全面領先 m7i.large:在科學計算、影音編碼、壓縮、AI 引擎、以及編譯/核心建構等大量 CPU 工作上,多數項目 +20% 到 +70% 不等,部分(如 Radiance SMP、Sysbench)更高。
- 例外是
ctx_clock
(以 cycles 報告的 thread context switch 微基準)—m7i 的 cycles 顯著更低。這代表 m7i 在「每次切換需要的週期數」上比較省;但實際延遲(ns)還會受時脈影響,且多數你的工作負載並非被 context switch 所支配,所以綜觀整體效能仍是 m7a 勝出。
如果你是要做資料大量運算,Database 之類的東西。可以選擇大的 m7i 系列,如裸機或是 m7i.48xlarge。效能應該會很不錯。
但如果你是 Web 仔,或是容器仔。閉著眼睛選 m7a 就對了。
我收回這個評論 詳見為省錢 m6i 換 m6a,在 Web 場景下真的划算嗎?
- CPU-bound 批次任務(影音轉碼、編譯、AI 推理)m7a 性價比高,優勢明顯。
- 高併發 Web/容器服務 m7i 更適合,因為 context switch latency 更低,能保證 tail latency。
- 大型 DB/OLAP 視 workload 而定,Intel 在大機型仍然有競爭力。
Wei 啥的結論
m7i.large $0.1008/hr,m7a.large $0.11592/hr。
但能得到的效能遠超過這個價差。如果考慮同一 EC2 instance type 世代的情況下,直接秒選 AMD。
Intel 這場輸在架構天生就不適合這個 vCPU 雲端運算、Container 時代。如果他本來是 8 核心的情況下,m7i.large 就只切了 1 顆實體核心給你。整個電路繞一圈才能拿到 L3 內的東西做計算。AMD 則是利用超高工藝直接把 L3 埋在實體核心旁邊,相當於隨手就有食物吃,Intel 還要出門去賣場買這樣。
但有趣就在這,如果你是一開始就要一整顆 CPU 來做 Database 或是大量運算,Intel 說不定會打得有來有回。AMD 這架構會讓每個核心交換資料的時候手忙腳亂,造成大麻煩。
如果你是要做資料大量運算,Database 之類的東西。可以選擇大的 m7i 系列,如裸機或是 m7i.48xlarge。效能應該會很不錯。
但如果你是 Web 仔,或是容器仔。閉著眼睛選 m7a 就對了。
後續的研究文章會打臉我這個結論
起因
上一篇寫完 AWS m8i.large vs m7i.large 效能評測與成本分析:升級策略建議 以後,Credit 還沒燒完。老實說 m8i.large 升級的必要性並沒有這麼高。那麼就想,m7a.large 呢?這顆匣挾帶著台積電工藝、全新的架構升級、滿滿的大核心以及 AMD 真香的 CPU 到底有多恐怖。
一樣用 phoronix-test-suite 來跑跑看,有興趣的可以去 Github 上看看。
測試的 Region 選在 Oregon。
OS 選擇 Amazon Linux 2023 AMI 2023.8.20250915.0 x86_64 HVM kernel-6.1。
EBS 選用普遍的 gp3 IOPS 3000,Throughput 125。
用 lscpu 來看 CPU 參數。
過程
安裝 phoronix-test-suite
# 需要 git 與 php-cli
sudo yum install -y php-cli php-xml git gcc unzip wget
# clone 最新版
git clone https://github.com/phoronix-test-suite/phoronix-test-suite.git
cd phoronix-test-suite
# 安裝
sudo ./install-sh
m7i 與 m7a 的差別
光科技樹整個就不同了
m7i 的 Sapphire Rapids 是 Intel 的第四代 Xeon,Golden Cove,支援 DDR5-4800。
m7a 的 Bergamo 是 AMD 的 Zen 4C,支援 DDR5-5600。
- m7i.large:Sapphire Rapids(Intel Xeon Platinum 8488C)
- m7a.large:Bergamo(Intel EPYC 9R14)
Intel 方是祖傳的 1 核 / 2 執行緒(SMT/HT 開啟),AMD 不演了都給真實核心。
我已經可以聞到單方面吊著打的味道...再加上用了 GG 的五奈米,可以塞更多的核心進去。
工藝方面:
- Intel 8488C / Sapphire Rapids (m7i)
- Intel 7(10nm 等級),偏向高時脈、AI 指令支援。
- 功耗較高、效能密度較差,但單核延遲表現較穩定。
- AMD 9R14 / Zen 4C (m7a)
- TSMC 5nm EUV,效能密度與能效優勢明顯。
- 適合多核、多執行緒 workload(編譯、壓縮、影音處理)。
- 記憶體速度更快,能效表現比 Intel 同世代好一截。
LLC 方面:
- Intel m7i (8488C) → L3 Cache 集中共享,延遲低,適合需要頻繁核心間溝通的工作(如 HPC、資料庫)。
- AMD m7a (9R14) → L3 Cache 分散 CCD,總量更大但跨 CCD latency 高,適合 高度平行化工作(如影音編碼、壓縮、編譯)。
Intel 的 CPU 用環形把所有的核心(CCD)圈起來,然後共享 105 MB 的 L3 快取。
AMD 則用台積電的神秘封裝魔法,把 16 MB 的 L3 直接封裝在核心旁邊。
Intel 所有核心共用一個武器庫,AMD 則是每顆核心旁邊自帶一個武器庫。
如果說所有核心需要溝通,那 Intel 的效率會比較好。
但如果不需要溝通,所有核心都單打,那 AMD 的效率比較好。
當你選了 2 vCPU 的 large 時,AMD 已經佔了上風了。等等測試可以看到慘況。
如何分別真實核心與超執行緒
我個人認為藏得有點深,老實說應該在 Launch instance 的時候就提示。但 AWS 選擇用一個 vCPU 來表示,沒錯但總覺得資訊不足。
要查 Instance Type 是否為真實核心可以這樣看。官方有給文件 "Supported CPU options for Amazon EC2 instance types",但用一種需要點理解門檻的方式表示。

白話解釋:m7a.large 給你 2 vCPU,實體的核心數是 2,每個核心裡面只有 1 個執行緒。你得到 2 顆實體物理核心。

白話解釋:m7i.large 給你 2 vCPU,實體的核心數是 1,每個核心裡面可以跑 2 條執行緒(SMT/HT 開啟)。你得到 1 顆實體物理核心。
跑分比較
EC2 m7i.large vs m7a.large
科學計算類
- Rodinia LavaMD:模擬分子動力學計算,考驗浮點數效能,越低越好。
- 1418.234 vs 909.090 (m7a.large 快 56%)
- Rodinia CFD Solver:計算流體力學求解器,測試記憶體與計算效能,越低越好。
- 102.381 vs 86.561(m7a.large 快 18%)
- NAMD ATPase / STMV:分子動力學模擬,模擬蛋白質與病毒,單位 ns/day 越高越好。
- ATPase:0.23382 vs 0.28523 (m7a.large 快 22%)
- STMV:0.06755 vs 0.08286(m7a.large 快 23%)
影音編碼
- Kvazaar (HEVC/H.265 Encoder):影片編碼效能,Frames Per Second 越高越好。
- 4K Slow:1.10 vs 1.90(m7a.large 快 73%)
- 4K Medium:1.12 vs 1.94(m7a.large 快 73%)
- 1080p Slow:6.19 vs 10.50(m7a.large 快 70%)
- 1080p Medium:6.40 vs 10.84(m7a.large 快 69%)
- 4K Very Fast:2.75 vs 4.64(m7a.large 快 69%)
- 4K Ultra Fast:4.53 vs 7.52(m7a.large 快 66%)
- 1080p Very Fast:12.76 vs 21.56(m7a.large 快 69%)
- 1080p Ultra Fast:21.26 vs 34.17(m7a.large 快 61%)
- x264 / x265:常用影片編碼器 (H.264 / H.265),測 CPU 多媒體處理效能。
- x264 4K:3.51 vs 5.59(m7a.large 快 59%)
- x264 1080p:15.84 vs 23.71(m7a.large 快 50%)
- x265 4K:2.87 vs 4.64(m7a.large 快 62%)
- x265 1080p:12.68 vs 21.01 (m7a.large 快 66%)
壓縮與解壓縮
- 7-Zip Compression / Decompression:壓縮與解壓縮速度,MIPS 越高越好。
- 壓縮:10588 vs 15233 (m7a.large 快 44%)
- 解壓:6413 vs 9974(m7a.large 快 55%)
AI / 演算法類
- Stockfish 16.1:國際象棋 AI,每秒節點數 (Nodes/s) 越高越好。
- 1,545,789 vs 2,412,294(m7a.large 快 56%)
- asmFish:另一款高效象棋引擎,測演算法與記憶體效能。
- 3,005,961 vs 4,863,104(m7a.large 快 62%)
編譯與建構
- GCC Compilation:C/C++ 編譯時間,越低越好。
- 5369.764 vs 4258.185 (m7a.large 快 26%)
- Linux Kernel Compilation (defconfig / allmodconfig):核心編譯,測試系統 I/O 與 CPU 整體效能。
- defconfig:764.419 vs 527.479(m7a.large 快 45%)
- allmodconfig:11585.143 vs 7979.575(m7a.large 快 45%)
- POV-Ray:光線追蹤渲染,模擬 3D 場景,越低越好。
- 305.723 vs 248.581(m7a.large 快 23%)
- Radiance (Serial / SMP):建築光照模擬,單執行緒與多執行緒效能。
- Serial:537.702 vs 520.187(m7a.large 快 3%)
- SMP:516.022 vs 301.900(m7a.large 快 71%)
系統測試
- ctx_clock:系統 context switch(上下文切換)時間,越低越好。
- 171 vs 806(m7i.large 勝,代表他來回一趟更快。m7a.large 跨核心極度拉垮)
- Sysbench CPU:CPU 基準運算效能,Events/s 越高越好。
- 3321.30 vs 8392.24(m7a.large 快 153%)
結論
- m7a.large 幾乎全面領先 m7i.large:在科學計算、影音編碼、壓縮、AI 引擎、以及編譯/核心建構等大量 CPU 工作上,多數項目 +20% 到 +70% 不等,部分(如 Radiance SMP、Sysbench)更高。
- 例外是
ctx_clock
(以 cycles 報告的 thread context switch 微基準)—m7i 的 cycles 顯著更低。這代表 m7i 在「每次切換需要的週期數」上比較省;但實際延遲(ns)還會受時脈影響,且多數你的工作負載並非被 context switch 所支配,所以綜觀整體效能仍是 m7a 勝出。