全新EPYC處理器為廣泛的資料中心工作負載提供破紀錄的效能和效率
AMD EPYC CPU持續保持強勁的發展動能,搭載於全球超過950個公共執行個體(instance)以及OXM超過350個平台
AMD(NASDAQ: AMD)宣布推出第 5 代 AMD EPYC™處理器,先前代號為 “Turin”,為企業、人工智慧(AI)和雲端帶來全球最強大的伺服器 CPU註1。
AMD EPYC 9005 系列處理器採用 “Zen 5” 核心架構,相容於廣泛部署的 SP5 平台註2,並提供 8 核心到 192 核心的廣泛核心數量,延續先前世代處理器破紀錄的效能註3和能源效率優勢,最高階的 192 核心 CPU 效能比競爭對手提升高達 2.7 倍註4。
新增至 AMD EPYC 9005 系列 CPU 的是 64 核心的 AMD EPYC 9575F,專為需要極致主機 CPU 功能的 GPU AI 解決方案所設計。AMD EPYC 9575F 提升頻率高達 5GHz註5,與競爭對手的 3.8GHz 相比,速度提升高達28%,讓 GPU 能夠滿足要求嚴苛的 AI 工作負載之資料需求。
AMD 資深副總裁暨伺服器事業群總經理 Dan McNamara 表示,AMD 為全球最快的超級電腦、各大企業,以及最大型超大規模供應商(hyperscalers)挹注動能,贏得了重視效能、創新和能源效率之客戶的信任。憑藉著 5 代處理器均按照產品藍圖如期執行,AMD 已證明其能夠滿足資料中心市場需求,並為客戶提供資料中心效能、效率,以及雲端、企業和 AI 工作負載的解決方案和功能之標準。
企業、AI和雲端工作負載的全球最強大CPU
現代資料中心運行各種工作負載,從支援企業 AI 支援計畫,到為大規模雲端基礎設施提供動能,再到託管最嚴苛的商業關鍵型應用。全新第 5 代 AMD EPYC 處理器為當今推動商業 IT 發展的廣泛伺服器工作負載提供領先業界的效能和功能。
對比 “Zen 4” 核心,全新 “Zen 5” 核心架構為企業與雲端工作負載提供高達 17% 的 IPC 提升,並於 AI 及高效能運算(HPC)方面帶來高達 37% 的 IPC 提升註6。
在各種真實應用與工作負載中,伺服器搭載 AMD EPYC 9965 處理器較 Intel Xeon® 8592+ 處理器帶來顯著效能提升,包括:
· 商業型應用例如視訊轉碼速度提升高達 4 倍註7。
· 獲得科學和 HPC 應用洞察的時間縮短多達 3.9 倍,從而解決世界上最具挑戰性的問題註8。
· 虛擬化基礎設施(infrastructure)中每核心效能提升高達 1.6 倍註9。
除了在通用型工作負載擁有效能和效率的領先優勢之外,第 5 代 AMD EPYC 處理器更讓客戶無論使用 CPU 或 CPU + GPU 解決方案,都能夠快速獲得 AI 部署的洞察與部署。
與競爭對手相比:
· 192 核心 EPYC 9965 CPU 在 TPCx-AI(衍生)等端對端 AI 工作負載上,效能提升高達 3.7 倍,對於推動高效率的生成式 AI 方案至關重要註10。
· 在 Meta Llama 3.1-8B 等中小型企業級生成式 AI 模型中,EPYC 9965 提供的吞吐量效能是競爭對手的 1.9 倍註11。
· EPYC 9575F CPU 專為 AI 主機節點所設計,憑藉其 5GHz 的最大頻率來讓 1,000 個節點的 AI 叢集能夠每秒驅動多達超過 70 萬個推論 token,更快地完成更多任務註12。
藉由對搭載全新處理器的資料中心進行現代化改造,以實現 391,000 單位的 SPECrate®2017_int_base 通用運算效能,客戶可以在各種工作負載中獲得令人讚嘆的效能,同時能夠減少約 71% 的功耗以及約 87% 的伺服器註13 ,從而讓資訊長能夠靈活地節省空間和功耗,或提升日常 IT 任務的效能,同時提供令人驚艷的 AI 效能。
AMD EPYC CPU推動新一波創新浪潮
憑藉經過驗證的效能以及合作夥伴和客戶的深入產業體系支援,EPYC CPU 被廣泛採用,為最嚴苛的運算任務挹注動能。AMD EPYC CPU 領先業界的效能、功能和密度,幫助客戶快速且有效率地在資料中心和 IT 環境中創造價值。
第5代AMD EPYC處理器功能
第 5 代 AMD EPYC 處理器全線產品現已上市,並得到思科、戴爾、HPE、聯想、美超微(Supermicro)等各大 ODM 及雲端服務供應商支援,為尋求運算和 AI 領先地位的企業提供簡單的升級路徑。
AMD EPYC 9005系列CPU的進階功能包括:
· 領先業界的核心數選項,每個 CPU 從 8 到 192 個核心
· “Zen 5” 及 “Zen 5c” 核心架構
· 每 CPU 具備 12 通道的 DDR5 記憶體
· 支援高達 DDR5-6400 MT/s註14
· 領先業界、高達 5GHz 的提升頻率註5
· 具有完整 512b 資料路徑的 AVX-512
· 用於機密運算的可信任 I/O,以及正進行該系列中每個部份的 FIPS 認證
註1:EPYC-029C:根據截至2024年10月10日目前出貨伺服器的執行緒密度、效能、功能、製程技術和內建安全功能進行比較。EPYC 9005系列CPU提供最高的執行緒密度[EPYC-025B],以500多項效能世界記錄[EPYC-023F]領先業界,並在Java®每秒操作數效能方面領先業界,創下企業級效能世界記錄[EPYCWR-20241010-260],頂尖的HPC領先地位,具有浮點吞吐量效能[EPYCWR-2024-1010-381]、AI端對端效能和TPCx-AI效能[EPYCWR-2024-1010-525]以及最高能源效率得分[EPYCWR-20241010-326] ]。此外,第5代EPYC系列具有增加50%的DDR5記憶體通道[EPYC-033C]、增加70%的記憶體頻寬[EPYC-032C],並支援增加70%的PCIe® Gen5通道以實現I/O吞吐量[ EPYC-035C],高達5倍的每核心L3快取[EPYC-043C],可實現更快的資料存取,採用先進的3-4奈米技術,並提供安全記憶體加密、安全加密虛擬化(SEV)、SEV加密狀態、SEV安全嵌套分頁安全功能。有關更多訊息,請參閱AMD EPYC架構白皮書(https://library.amd.com/l/3f4587d147382e2/)。
註2:AMD EPYC™ 9005處理器採用SP5插槽。系統相容性取決於多項因素。請諮詢您的伺服器製造商,以確定配置先前推出的AMD EPYC 9004系列CPU的系統是否支援該處理器。
註3:EPYC-022F:有關世界紀錄的完整列表,請參閱:http://amd.com/worldrecords。
註4:9xx5-002C:SPECrate®2017_int_base比較根據截至2024年10月10日www.spec.org發布的分數。
2P AMD EPYC 9965 (3000 SPECrate®2017_int_base, 384 Total Cores, 500W TDP, $14,813 CPU $), 6.060
SPECrate®2017_int_base/CPU W, 0.205 SPECrate®2017_int_base/CPU $, https://www.spec.org/cpu2017/results/res2024q3/cpu2017-20240923-44833.html)
2P AMD EPYC 9755 (2720 SPECrate®2017_int_base, 256 Total Cores, 500W TDP, $12,984 CPU $), 5.440
SPECrate®2017_int_base/CPU W, 0.209 SPECrate®2017_int_base/CPU $, https://www.spec.org/cpu2017/results/res2024q4/cpu2017-20240923-44837.pdf)
2P AMD EPYC 9754 (1950 SPECrate®2017_int_base, 256 Total Cores, 360W TDP, $11,900 CPU $), 5.417
SPECrate®2017_int_base/CPU W, 0.164 SPECrate®2017_int_base/CPU $, https://www.spec.org/cpu2017/results/res2023q2/cpu2017-20230522-36617.html)
2P AMD EPYC 9654 (1810 SPECrate®2017_int_base, 192 Total Cores, 360W TDP, $11,805 CPU $), 5.028
SPECrate®2017_int_base/CPU W, 0.153 SPECrate®2017_int_base/CPU $, https://www.spec.org/cpu2017/results/res2024q1/cpu2017-20240129-40896.html)
2P Intel Xeon Platinum 8592+ (1130 SPECrate®2017_int_base, 128 Total Cores, 350W TDP, $11,600 CPU $) 3.229 SPECrate®2017_int_base/CPU W, 0.097 SPECrate®2017_int_base/CPU $, http://spec.org/cpu2017/results/res2023q4/cpu2017- 20231127-40064.html)
2P Intel Xeon 6780E (1410 SPECrate®2017_int_base, 288 Total Cores, 330W TDP, $11,350 CPU $) 4.273 SPECrate®2017_int_base/CPU W, 0.124 SPECrate®2017_int_base/CPU $, https://spec.org/cpu2017/results/res2024q3/cpu2017-20240811-44406.html)
SPEC®、SPEC CPU®和SPECrate®是標準效能評估公司的註冊商標。請參閱www.spec.org以了解更多資訊。Intel CPU TDP請參閱https://ark.intel.com/。
註5:GD-150:提升時脈頻率是運行突發工作負載的CPU可以實現的最大頻率。提升時脈的可實現性、頻率和可持續性將根據多種因素而變化,包括但不限於:溫度條件以及應用程式和工作負載的變化。
註6:9xx5-001:基於截至2024年9月10日的AMD內部測試,固定頻率下的幾何平均效能提升(IPC)。
第5代EPYC CPU企業和雲端伺服器工作負載使用一組選定的36個工作負載,世代IPC提升了1.170倍(幾何平均值),是 SPECrate®2017_int_base總分和所有子集估計分數的幾何平均值(geomean)、SPECrate®2017_fp_base的總分和所有子集的估計分數(幾何平均)、伺服器端Java多執行個體每秒最大操作數的分數、代表性雲端伺服器工作負載(幾何平均)、和代表性的企業伺服器工作負載(幾何平均)。
“Genoa”配置(所有NPS1):EPYC 9654 BIOS TQZ1005D 12c12t(12+1中的1c1t/CCD)、FF 3GHz、12x DDR5-4800 (2Rx4 64GB)、32Gbps xGMI;“Turin”配置(所有NPS1):EPYC 9V45 BIOS RVOT1000F 12c12t(12+1中的1c1t/CCD)、FF 3GHz、12x DDR5-6000 (2Rx4 64GB)、32Gbps xGMI。
在具備6.8.0-40通用核心作業系統的Ubuntu® 22.04上針對所有工作負載利用效能確定論和效能調節器。
使用選定的24個工作負載集,第5代EPYC的世代ML/HPC伺服器工作負載IPC提升1.369倍(幾何平均),並且是代表性機器學習伺服器工作負載(幾何平均)和代表性HPC伺服器工作負載(幾何平均)的幾何平均值。
“Genoa”配置(所有NPS1):EPYC 9654 BIOS TQZ1005D 12c12t(12+1中的1c1t/CCD)、FF 3GHz、12x DDR5-4800 (2Rx4 64GB)、32Gbps xGMI;“Turin”配置(所有NPS1):EPYC 9V45 BIOS RVOT1000F 12c12t(12+1中的1c1t/CCD)、FF 3GHz、12x DDR5-6000 (2Rx4 64GB)、32Gbps xGMI。
在Ubuntu 22.04 w/ 6.8.0-40-generic kernel OS上使用效能決定論和效能調控器來處理所有工作負載,除了使用24.04 w/ 6.8.0-40-generic kernel的LAMMPS、HPCG、NAMD、OpenFOAM 、Gromacs。
SPEC®、SPEC CPU®和SPECrate®是標準效能評估公司的註冊商標。請參閱www.spec.org以了解更多資訊。
註7:9xx5-006:AMD內部測試截至2024年9月1日,針對FFMPEG(原始到VP9、1080P、302幀、每執行緒1個執行個體,來源:https://media.xiph.org/video/derf/ y4m /ducks_take_off_1080p50.y4m)。
系統配置:2P AMD EPYC™ 9965參考系統(2 x 192C)1.5TB 24x64GB DDR5-6400、運行速度為6000MT/s、SAMSUNG MZWLO3T8HCLS-00A07、NPS=4、Ubuntu 22.04.3 LTS、Kernel Linux 5.15.0-119-generic、BIOS RVOT1000C(determinism enable=power)、10825484.25幀/小時中位數。
2P AMD EPYC™ 9654量產系統(2 x 96C)1.5TB 24x64GB DDR5-5600、SAMSUNG MO003200KYDNC、NPS=4、Ubuntu 22.04.3 LTS、Kernel Linux 5.15.0-119-generic、BIOS 1.56(determinism enable=power)、5154133.333幀/小時中位數。
2P Intel Xeon Platinum 8592+生產系統(2 x 64C)1TB 16x64GB DDR5-5600、3.2 TB NVME、Ubuntu 22.04.3 LTS、Kernel Linux 6.5.0-35-generic、BIOS ESE122V-3.10、2712701.754幀/小時中位數。
AMD EPYC 9965與Intel Xeon Platinum 8592+系統相比,效能提升3.99倍。
AMD EPYC 9654的效能是Intel Xeon Platinum 8592+系統的1.90倍。
結果可能會因各因素而有所不同,包括但不限於BIOS和作業系統設定和版本、軟體版本和使用的資料。
註8:9xx5-022:來源:https://www.amd.com/content/dam/amd/en/documents/epyc-technical-docs/performance-briefs/amd- epyc-9005-pb-gromacs.pdf。
註9:9xx5-071:VMmark® 4.0.1主機/節點FC SAN比較是根據截至2024年10月10日的「獨立發布」結果。
配置:
2節點、搭載2P AMD EPYC 9575F(總共128個核心)的伺服器,執行VMware ESXi8.0 U3,3.31 @ 4 tiles,https://www.infobellit.com/BlueBookSeries/VMmark4-FDR-1003。
2節點、搭載2P AMD EPYC 9554(共128個核心)的伺服器,執行VMware ESXi8.0 U3,2.64 @ 3 tiles,https://www.infobellit.com/BlueBookSeries/VMmark4-FDR-1002。
2節點、搭載2P Intel Xeon Platinum 8592+(共128個核心)的伺服器,執行VMware ESXi8.0 U3,2.06 @ 2.4 Tiles,https://www.infobellit.com/BlueBookSeries/VMmark4-FDR-1001。
VMmark是VMware在美國及其他國家的註冊商標。
註10:9xx5-012:TPCxAI @SF30多執行個體32C執行個體尺寸吞吐量,結果是根據截至2024年9月5日執行多個虛擬機器執行個體的AMD內部測試。聚合端對端AI吞吐量測試源自TPCx-AI基準測試,因此與已發布的TPCx-AI結果不可比較,因為端對端AI吞吐量測試結果不符合TPCx-AI規格。
2P AMD EPYC 9965(總共384個核心)、12個32C執行個體、NPS1、1.5TB 24x64GB DDR5-6400(6000 MT/s)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB三星MZWLO3T8HCLS-00A07 NVMe®、Ubuntu® 22.04.4 LTS、6.8.0-40-generic(tuned-adm設定檔吞吐量效能、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT1000C (SMT=off、Determinism=Power、Turbo Boost =啟用)。
2P AMD EPYC 9755(總共256個核心)、8個32C執行個體、NPS1、1.5TB 24x64GB DDR5-6400(6000 MT/s)、1DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB三星MZWLO3T8HCLS-00A07 NVMe®,Ubuntu 22.04.4 LTS、6.8.0-40-generic(tuned-adm設定檔吞吐量效能、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT0090F(SMT=off、Determinism=Power, Turbo Boost=啟用)。
2P AMD EPYC 9654(總共192個核心)、6個32C執行個體、NPS1、1.5TB 24x64GB DDR5-4800、1DPC、2 x 1.92 TB、三星MZQL21T9HCJR-00A07 NVMe、Ubuntu 22.04.3 LTS、BIOS 1006C(SMT=關閉、Determinism=Power)。
對比2P Xeon Platinum 8592+(總共128個核心)、4個32C執行個體、AMX On、1TB 16x64GB DDR5-5600、1DPC、1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe、3.84 TB KIOXIA KCMYXRUG3T84 NVMe、Ubuntu 22.04.4 LTS、6.5.0-35 generic(tuned-adm設定檔吞吐量效能、ulimit -l 132065548、ulimit -n 1024、ulimit -s 8192)、BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost=啟用)。
結果:
CPU Median Relative Generational
Turin 192C, 12 Inst 6067.531 3.775 2.278
Turin 128C, 8 Inst 4091.85 2.546 1.536
Genoa 96C, 6 Inst 2663.14 1.657 1
EMR 64C, 4 Inst 1607.417 1 NA
結果可能因系統配置、軟體版本和BIOS設定等因素而有所不同。TPC、TPC Benchmark和TPC-C是事務處理績效委員會的商標。
註11:9xx5-009:Llama3.1-8B吞吐量結果根據截至2024年9月5日的AMD內部測試。
Llama3-8B設定:IPEX.LLM 2.4.0、NPS=2、BF16、批次大小4、使用案例輸入/輸出token配置:[摘要= 1024/128、聊天機器人= 128/128、翻譯= 1024/1024、論文= 128/1024,標題= 16/16]。
2P AMD EPYC 9965(總共384個核心)、6個64C執行個體、1.5TB 24x64GB DDR5-6400(6000 MT/s)、1 DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu® 22.04.3 LTS、6.8.0-40-generic(tuned-adm設定檔吞吐量效能、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT1000C、(SMT= off、Determinism=Power、Turbo Boost =啟用),NPS=2。
2P AMD EPYC 9755(總共256個核心)、4個64C執行個體、1.5TB 24x64GB DDR5-6400(6000 MT/s)、1 DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu® 22.04.3 LTS、6.8.0-40-generic(tuned-adm設定檔吞吐量效能、ulimit -l 198096812、ulimit -n 1024、ulimit -s 8192)、BIOS RVOT1000C、(SMT= off、Determinism=Power、Turbo Boost =啟用),NPS=2。
2P AMD EPYC 9654(總共192個核心)、4個48C執行個體、1.5TB 24x64GB DDR5-4800、1 DPC、1.0 Gbps NetXtreme BCM5720 Gigabit Ethernet PCIe、3.5 TB Samsung MZWLO3T8HCLS-00A07 NVMe®、Ubuntu® 22.04.3 LTS、5.15.85-051585-generic(tuned-adm設定檔吞吐量效能、ulimit -l 1198117616、 ulimit -n 500000、ulimit -s 8192)、BIOS RVI1008C、(SMT= off、Determinism=Power、Turbo Boost =啟用),NPS=2。
對比2P Xeon Platinum 8592+(總共128個核心)、2個64C執行個體、AMX On、1TB 16x64GB DDR5-5600、1DPC、1.0 Gbps NetXtreme BCM5719 Gigabit Ethernet PCIe、3.84 TB KIOXIA KCMYXRUG3T84 NVMe、Ubuntu 22.04.4 LTS、6.5.0-35 generic(tuned-adm設定檔吞吐量效能、ulimit -l 132065548、ulimit -n 1024、ulimit -s 8192)、BIOS ESE122V (SMT=off, Determinism=Power, Turbo Boost=啟用)。
結果:
CPU 2P EMR 64c 2P Turin 192c 2P Turin 128c 2P Genoa 96c
Average Aggregate Median Total Throughput 99.474 193.267 182.595 138.978
Competitive 1 1.943 1.836 1.397
Generational NA 1.391 1.314 1
結果可能會因系統配置、軟體版本和BIOS設定等因素而有所不同。
註12:9xx5-087:截至2024年10月10日;此情境包含若干假設和估計,雖然基於AMD內部研究和最佳近似值,但應視為僅供參考的範例,而不應用作實際測試決策的基礎。
參考9XX5-056A:搭載2P AMD EPYC 9575F的伺服器和8個AMD Instinct MI300X GPU運行Llama3.1-70B特定FP8精度的推論工作負載,與2P Intel Xeon Platinum 8592+支援的伺服器和8個AMD Instinct MI300X GPU支援的FP8精度推論工作負載相比,在特定的推論案例中,總體吞吐量增加了約8%,8763.52個token/秒(9575F)與8,048.48個token/秒相比(8592+),在 128個輸入/2048個輸出token,500 prompts為1.089倍的token/秒或715.04個token/秒。
1節點 = 2 CPUs and 8 GPUs。
假設1000節點叢集,1000 * 715.04 = 715,040 token/秒。
每秒約70萬以上token。
結果可能會因系統配置、軟體版本和BIOS設定等因素而有所不同。
註13:9xx5TCO-001a:此情境包含許多假設和估計,雖然基於AMD 內部研究和最佳近似值,但應視為僅供參考的範例,而不應用作實際測試決策的基礎。AMD伺服器和溫室氣體排放TCO(總擁有成本)估算工具 – 版本 1.12,比較截至10月10日提供39100個SPECrate2017_int_base效能 TOTAL_PERFORMANCE所需的選定AMD EPYC™和Intel® Xeon® CPU伺服器解決方案。此情境將基於傳統2P Intel Xeon 28核心Platinum_8280的伺服器(得分為391)與2P EPYC 9965 (192C)支援的伺服器(得分為3030)進行比較(https://spec.org/cpu2017/results/res20243/ cpu2017-20240923 -44833.pdf),並比較升級到基於2P Intel Xeon Platinum 8592+ (64C)的伺服器(得分為1130)(https://spec.org/cpu2017/results/res2024q3/cpu2017/cpu24017-2024074 pdf)。2P EPYC 9965的實際SPECrate®2017_int_base分數將根據OEM而有所不同。
運用這些數據進行環境影響估算,使用2024年國際國家特定電力係數10中的國家/地區特定電力係數,2024年7月,以及美國環保署「溫室氣體當量計算器」。
更多細節請參考https://www.amd.com/en/claims/epyc5#9xx5TCO-001a。
註14:9xx5-083:第5代EPYC處理器支援DDR5-6400 MT/s,適合目標客戶和配置。第5代生產SKU支援高達DDR5-6000 MT/s,可在所有OEM平台上啟用廣泛的DIMM,並保持SP5平台相容性。