— 解析 AWS re:Invent 2025 與新一代 AI 基礎設施的演進邏輯—
在過去幾年的生成式 AI 浪潮中,市場焦點主要集中於模型訓練與標記(Token)生成的速率,這使得擅長平行運算的 GPU 成為絕對的主角。然而,本周(2025/12/01~05)即將結束的AWS re:Invent 2025中,AWS強調 Agentic AI(代理式 AI)時代開啟,一口氣丟出超過30 項與生成式AI、代理式AI 相關的新服務與更新,可以觀察到 AI 的應用型態發生了本質上的變化,逐漸被大眾遺忘的CPU重要性似乎已逐步回歸。
AWS re:Invent 2025 為全球最大雲端技術盛會,今年12 月初在拉斯維加斯登場。 議程聚焦Agentic AI、量子安全與開發者創新,為技術專家提供前瞻洞察與實踐路徑,共同形塑雲端運算的未來版圖。 每年大約在這個時節,全球雲端運算社群都會在拉斯維加斯經歷一場技術朝聖之旅。

CPU重要性回歸:進入Agentic AI世代推升對高核心 CPU 的需求
AI系統「管理與調度」的效率推升CPU重要性
—Agentic AI 的核心特徵在於「行動」與「互動」,而非僅止於「生成」。—如果將傳統的生成式 AI 比喻為一位專注於創作的數位藝術家(GPU),那麼 Agentic AI 則更像是一個需要協調多方資源的專案經理(CPU)。
- 藝術家(GPU)負責繪製圖像或撰寫文案(高強度矩陣運算)。
- 專案經理(CPU)負責理解客戶需求、拆解任務、查詢資料庫、調用外部工具(API),並確保最終交付成果符合邏輯與規範。
在這個協作體系中,雖然「創作」本身至關重要,但「管理與調度」的效率往往決定了整個系統的反應速度與穩定性。
技術解析:為何 Agent 需要更強的 CPU?
根據最新的學術研究與效能分析,Agentic Workflow(代理工作流)的引入,顯著改變了伺服器的負載特徵。
工具處理(Tool Processing)的延遲佔比
近期一篇名為《A CPU-Centric Perspective on Agentic AI》的研究指出,在某些複雜的 Agent 應用場景中,CPU 負責的工具處理階段可能佔據端到端延遲的相當比例,在極端測試案例中影響甚至可高達 90%。
這是因為 Agent 在執行任務時,並非總是處於「推論」狀態,而是頻繁地進行以下操作:
- 字串處理與格式化: 將用戶模糊的指令轉換為模型可理解的結構化 Prompt。
- 序列化與反序列化(Serialization): 處理工具(Tools)回傳的 JSON 或 XML 格式資料,這類資料解析是典型的 CPU 密集型任務。
- 邏輯判斷與分支: 根據上一步的結果決定下一步行動(例如:若搜尋結果為空,則改換關鍵字重新搜尋)。
Python 執行環境與並發挑戰
目前主流的 AI Agent 開發框架多基於 Python 生態系,但Python 的全域直譯器鎖(英語:Global Interpreter Lock,縮寫GIL)特性可能會限制多核心的效率。
為了維持高吞吐量,企業級的 Agent 系統會需要採用多進程(Multi-processing)架構,這將直接增加了對 CPU 核心數的需求。
檢索增強生成(RAG)的運算瓶頸
Agentic AI 依賴 RAG 技術來獲取最新資訊。在這個過程中:
- 向量檢索: 雖然部分可由 GPU 加速,但在大規模資料庫中,基於 CPU 的索引遍歷仍是主流且具成本效益的選擇。
- 文檔重排序: 為了精準度,系統通常會先檢索大量文檔,再由 CPU 進行初步過濾與邏輯排序,以減輕昂貴 GPU 的負擔。
產業觀察:基礎設施的調整
科技巨頭在硬體佈局上的最新動態,也反映了這種「算力平衡」的趨勢;近期AWS 與 NVIDIA 等廠商並非單方面堆疊 GPU,而是開始強調 CPU 與 GPU 的協同效應。
AWS re:Invent 2025 與 Graviton5
Amazon Web Services 在其年度大會上重點展示了 Graviton5 處理器。這款晶片擁有高達 192 個核心,並採用單插槽(Single-socket)設計以降低 NUMA(非統一記憶體存取)延遲。
這顯示出雲端服務商已預見到,未來的推論節點需要一顆強大的「大腦」來餵養 GPU。若 CPU 處理數據前置作業(Pre-processing)的速度跟不上 GPU 的推論速度,將導致昂貴的 GPU 資源閒置,這是企業極力避免的成本浪費。
NVIDIA 的架構思維:Grace CPU
而NVIDIA 也在 GB200 架構中整合了 Grace CPU。
- 統一記憶體(Unified Memory): 透過高速互連技術,CPU 與 GPU 可以共享記憶體空間。這對於 Agent 處理長文本或大型資料庫時極為關鍵,因為 CPU 可以快速存取 GPU 運算所需的上下文,減少資料搬運的延遲。
- 卸載管理: 將 KV Cache 管理等非矩陣運算任務卸載給 CPU,能釋放更多 GPU 記憶體用於核心生成任務。
實務案例:差旅規劃 Agent
為了具體說明,我們可以拆解一個「差旅規劃 Agent」的執行流程,觀察 CPU 在其中的介入點:

拆解差旅規劃 Agent執行流程
在此案例中,步驟 3、4、5 雖然不涉及深度的神經網絡運算,但卻是影響用戶等待時間(Latency)的關鍵環節;若 CPU 效能不足,即便生成速度再快,用戶仍會感覺系統反應遲鈍。
CPU為AI系統協調中樞
Agentic AI 的興起,標誌著 AI 應用從「單點突破」走向「系統整合」:在這個階段,CPU 已不再是只是配角,而是成為系統的協調中樞。
後續我們可以關注以下趨勢:
- 基礎設施配置的再平衡: 在採購 AI 伺服器時,除了關注 GPU 規格,應重新評估 CPU 的核心數與記憶體頻寬,以避免「小馬拉大車」造成的瓶頸。
- 關注推論成本優化: 對於邏輯判斷多於內容生成的任務,適度將工作負載轉移至現代化的高效能 CPU,可能是比全 GPU 架構更具成本效益的選擇。
- 軟體架構的優化: 開發 Agent 時,重視非同步處理(Async I/O)與資料序列化的效率,往往是提升效能重要事項。
總而言之,隨著 AI 發展變得更具「代理」性質時,接下來我們將見證一個GPU與CPU更加緊密協作的時代。
透過NotebookLM影片摘要功能了解本篇文章
延伸閱讀
Frontier agents, Trainium chips, and Amazon Nova: key announcements from AWS re:Invent 2025,20251204,AWS官網新聞。
AWS Graviton5 Strikes A Different Balance For Server CPUs,20251204,THE NEXT PLATFORM,Timothy Prickett Morgan。
AWS AI 版圖大爆發!拆解新自研晶片、可客製化 LLM、AI 工廠的背後野心,20251203,科技報橘,廖紹伶。
A CPU-Centric Perspective on Agentic AI,202511,Ritik Raj†、Hong Wang 、Tushar Krishna。




























