在去年六月舉行的 AMD Advancing AI 活動中,AMD 董事長暨執行長蘇姿丰博士將代理式 AI(Agentic AI)形容為「全新的使用者類型」:這類系統能夠持續運作,並不斷存取資料、應用程式與各項服務,以進行決策並完成複雜任務。
這類系統雖仰賴高效能 GPU 即時生成洞察,但其周邊基礎設施同樣至關重要。隨著代理式 AI 應用持續增加,高效能 CPU 負責協調工作流程、處理與傳輸資料,並管理模型在運行過程中所涉及的各項作業。
雖然 GPU 擅長 AI 訓練以及許多推論任務所需的高吞吐量平行運算,但現代 AI 部署仍仰賴平衡的系統架構。CPU、GPU、網路與軟體各司其職,共同實現大規模運算所需的整體效能。
在此環境下,CPU 負責協調工作負載、管理記憶體與資料傳輸,並支援與生產環境 AI 模型並行的企業級應用程式。因此,在現代 AI 基礎設施的整體效能表現中,CPU 的效能與效率比以往更加關鍵。
根據最新發布的數據,搭載第 5 代 AMD EPYC CPU 的系統,與同級 NVIDIA Grace Superchip 系統相比,每核心效能預計可提升高達 2.1 倍註1。此外,在 SPECpower 基準測試中,與同級 NVIDIA Grace Superchip 系統相比,AMD EPYC CPU 系統的每瓦運算效能預計可提升高達 2.26 倍註2。
同樣重要的是,x86 CPU 架構為客戶帶來廣泛且成熟的軟體產業體系優勢,多數企業工作負載都已能在地端(on-prem)和雲端環境中原生運作,無需像導入 Arm 架構系統時常需進行程式碼重構、重新編譯或維護多套程式碼庫。

CPU與GPU如何協同運作
在 AI 資料中心中,CPU 與 GPU 的關係恰似總教練與一群敏捷運動員之間的分工合作。
CPU 就像總教練負責制定戰術、因應對手變化、掌握時間,並確保所有運動員朝正確方向推進。GPU 則是運動員,專注在特定環節以極高效率完成單一戰術中的特定動作。
伺服器 CPU 專為處理複雜工作任務與協調系統中的 GPU 而設計。CPU 從記憶體載入資料,為 GPU 準備就緒,協調資料的即時傳遞,並處理 GPU 執行任務所需的指令和資料。而 GPU 憑藉其數量眾多的精簡核心,能以極高速度反覆執行簡單且重複的運算任務。
訓練與推論間的角色變化
訓練是 GPU 和高吞吐運算能力大顯身手的領域。類神經網路高度仰賴大規模資料網格的運算,而 AI 訓練需要 GPU 團隊反覆處理這些資料,以供系統學習。
在訓練期間,CPU 負責管理並提供資料給 GPU,以確保其維持最佳運作效率。CPU 同時負責執行作業系統、管理記憶體並排程任務。儘管工作量繁重,但對 CPU 而言仍能輕鬆應對。
隨著 AI 工作的重心轉向推論,CPU 的角色也從單純的組織者,轉變為更注重結果的管理者。GPU 仍負責處理大部分繁重的類神經網路數學運算,CPU 則承擔更繁重的思考任務,包括收集資料、傳遞資訊、解讀結果並決定最終行動。在推論階段中,CPU 的角色更為關鍵,需要同時進行控制、協調和複雜的決策。
這彰顯架構設計的重要性。AMD 是小晶片(chiplet)設計的領導者,這種模組化方法賦予 AMD 靈活調整運算能力、I/O、記憶體頻寬與功耗配置,從核心企業應用程式和虛擬化,到 GPU 編排與多步驟代理式 AI 工作流程,提供合適規模的運算能力。
代理式AI更加依賴CPU
隨著代理式 AI 的問世,人工智慧能夠在最少人為干預下,進行規劃、決策並採取行動,CPU 因此必須具備前所未有的處理能力。在 AI 代理的世界中,CPU 投入更多時間與邏輯運算來評估結果,而不像傳統推論一般僅限於一問一答。許多情況下,CPU 甚至會將問題再次交回 GPU,在調整指令後重新運算,直到最終結果產生。
除了既有職責外,代理式 AI 系統的 CPU 需管理工具調用(tool calls)、API 請求與記憶體查詢。在理想情況下,CPU 在執行這些任務的同時,仍需保持 GPU 持續運作。隨著 CPU 在 AI 代理、企業應用與資料湖(data lakes)之間移動資料,代理式 AI 的興起將顯著提升對 CPU 運算週期的需求。
CPU 作為總教練,不僅在最後兩分鐘指揮比賽,更透過不斷嘗試新戰術以求得分。CPU 所做的每項決策都影響 GPU 的使用效率、整體運算吞吐量,以及對於 AI 服務供應商來說至關重要的總體持有成本。
AMD EPYC伺服器CPU為AI奠定關鍵基礎
代理式 AI 正擴展 AI 的潛力,再次印證了每位資料中心架構師熟知的真理:最佳 AI 成效來自於平衡的系統。GPU 將持續驅動運算效能,但 CPU 對於編排、效率和整體資料中心整合,將變得日益關鍵,以便在不增加空間或功耗的前提下,容納更多 AI 系統。
AI 效能正愈發由系統層級定義,AMD 憑藉其獨特優勢,能夠最佳化從 CPU、GPU 到網路與開放軟體堆疊的整體架構,以最大化叢集層級的每系統瓦特效能。AMD EPYC CPU 與 AMD Instinct GPU 緊密整合,透過 AMD ROCm 軟體堆疊結合整個系統,實現高效的 GPU 管理。
AMD 在此基礎上持續發展。代號為 “Venice” 的下一代 AMD EPYC CPU 將為即將推出的 “Helios” 機架級 AI 架構挹注動能,預計將進一步擴展 AMD 在 AI 與通用運算工作負載上的效能、密度與能源效率領先地位。
AI 正全面加速運算需求,並驅動全球伺服器更新週期。憑藉 AMD EPYC 處理器,AMD 正提供客戶所需的 CPU 基礎,以支援下一階段的擴展需求,並為所有高效能 GPU 提供「教練」般的協調能力。
如欲了解 AMD 如何推動代理電腦的發展,請參閱部落格文章。
註1:9xx5-210: SPECrate®2017_int_base效能比較,基於截至2025年6月1日已發布和預估的測試結果。配置:雙處理器(2P) AMD EPYC™ 9755(2,840 SPECrate®2017_int_base,256核心,https://www.spec.org/cpu2017/results/res2025q2/cpu2017-20250407-47519.html)以及雙處理器(2P) AMD EPYC™ 9575F(1,700 SPECrate®2017_int_base,128核心,https://www.spec.org/cpu2017/results/res2025q1/cpu2017-20250310-46819.html),對比雙處理器(2P) NVIDIA Grace™ CPU Superchip (預估740 SPECrate®2017_int_base,144 核心,根據 NVIDIA聲明:https://developer.nvidia.com/blog/inside-nvidia-grace-cpu-nvidia-amps-up-superchip-engineering-for-hpc-and-ai/)。
註2:9xx5-217: 截至 2025年5月29日,雙處理器(2P) AMD EPYC™ 9755系統(128核心)在SPECpower_ssj® 2008基準測試中,整體ssj_ops/watt相較於雙處理器 (2P) NVIDIA Grace™ CPU Superchip系統(144核心)提升2.26倍;而雙處理器(2P) AMD EPYC™ 9965系統(192核心)相較於相同Grace系統,則提升 3.34倍。
配置資訊:
雙處理器(2P) EPYC 9755:29,950整體ssj_ops/watt:https://www.spec.org/power_ssj2008/results/res2024q4/power_ssj2008-20240924-01460.html。
雙處理器(2P) EPYC 9965:44,168整體ssj_ops/watt:https://www.spec.org/power_ssj2008/results/res2025q2/power_ssj2008-20250407-01522.html。
雙處理器(2P) NVIDIA Grace Superchip:13,218整體ssj_ops/watt:https://www.spec.org/power_ssj2008/results/res2024q3/power_ssj2008-20240515-01413.html。
SPEC®和SPECpower_ssj® 2008 為標準效能評估公司(Standard Performance Evaluation Corporation)的註冊商標。更多資訊請參考www.spec.org。測試結果基於SPECpower_ssj2008加權平均值(100%–10% 負載)
測試結果可能因多種因素而異,包括但不限於BIOS與作業系統設定及版本、軟體版本,以及工作負載配置。
