- 最新的加速器提供領先市場的HBM3E記憶體容量,並獲得戴爾科技集團、HPE、聯想、Supermicro等合作夥伴和客戶的支援
- AMD Pensando Salina DPU較上一代產品提供2倍的效能提升,AMD Pensando Pollara 400為業界首款UEC就緒NIC
AMD(NASDAQ: AMD)宣布推出 AMD Instinct™ MI325X 加速器、AMD Pensando™ Pollara 400 NIC 以及 AMD Pensando Salina DPU 等最新加速器和網路解決方案,將為新一代人工智慧(AI)基礎設施提供大規模支援。AMD Instinct MI325X 加速器為生成式 AI 模型及資料中心設立全新效能標準。

AMD Instinct MI325X 加速器基於 AMD CDNA™ 3 架構,旨在為基礎模型訓練、微調和推論等要求嚴苛的 AI 任務提供卓越的效能和效率。全新產品將協助 AMD 客戶和合作夥伴在系統、機架和資料中心層級打造高效能和最佳化的 AI 解決方案。
AMD 執行副總裁暨資料中心解決方案事業群總經理 Forrest Norrod 表示,AMD 持續執行我們的產品藍圖,為客戶提供所需的效能和選擇,以更快的速度將 AI 基礎設施大規模推向市場。憑藉全新 AMD Instinct 加速器、EPYC 處理器和 AMD Pensando 網路引擎、開放軟體產業體系的持續成長,以及將這一切整合至最佳化 AI 基礎設施中的能力,AMD 展現建置和部署世界級 AI 解決方案的關鍵專業知識與能力。
AMD Instinct MI325X擴展AI效能的領先優勢
AMD Instinct MI325X 加速器提供領先業界的記憶體容量及頻寬,包括 256GB HBM3E 記憶體容量支援 6.0TB/s,提供比 H200 高 1.8 倍的容量和 1.3 倍的頻寬註1,以及 1.3 倍的 FP16 理論峰值和 FP8 運算效能註1。
AMD Instinct MI325X 加速器的記憶體和運算能力可較 H200 提供高達 1.3 倍的 Mistral 7B FP16 推論效能註2、1.2 倍的 Llama 3.1 70B FP8 推論效能註3,以及 1.4 倍的 Mixtral 8x7B FP16 推論效能註4。
AMD Instinct MI325X 加速器目前如期在 2024 年第 4 季量產出貨,預計將於 2025 年第 1 季起,由戴爾科技集團、Eviden、技嘉、HPE、聯想、美超微(Supermicro)等平台供應商廣泛提供。
AMD 持續履行年度產品藍圖的節奏,預覽了下一代 AMD Instinct MI350 系列加速器。相對於 AMD CDNA 3 架構的加速器,基於 AMD CDNA 4 架構的 AMD Instinct MI350 系列加速器將帶來 35 倍推論效能提升註5。
AMD Instinct MI350 系列將持續鞏固記憶體容量的領先地位,每加速器容量高達 288GB HBM3E 記憶體,將如期於 2025 年下半年推出。
AMD新一代AI網路解決方案
AMD 正在運用超大規模供應商(hyperscalers)部署最廣泛的可程式化 DPU 來為新一代 AI 網路提供動能。AI 網路分為兩部分:前端(向 AI 叢集提供資料和資訊)和後端(管理加速器和叢集之間的資料傳輸),對於確保 CPU 和加速器在 AI 基礎設施中高效利用至關重要。
為了有效管理這兩個網路並推動整個系統的高效能、可擴展性和效率,AMD 推出用於前端的 AMD Pensando™ Salina DPU 和用於後端、業界首款 UEC 就緒的 AMD Pensando™ Pollara 400 AI NIC。
AMD Pensando Salina DPU 是全球效能最強大可程式化 DPU 的第 3 代產品,與前一代 DPU 相比,效能、頻寬和規模提升高達 2 倍。AMD Pensando Salina DPU 支援 400G 吞吐量以實現快速資料傳輸速率,是 AI 前端網路叢集的關鍵元件,為資料驅動的 AI 應用帶來最佳化的效能、效率、安全性和可擴展性。

UEC 就緒的 AMD Pensando Pollara 400 由 AMD P4 可程式化引擎提供動能,是業界首款 UEC 就緒的 AI NIC,支援新一代 RDMA 軟體,並由開放的網路產業體系提供支援。AMD Pensando Pollara 400 對於在後端網路中提供領先的效能、可擴展性和加速器間通訊的效率至關重要。
AMD Pensando Salina DPU 和 AMD Pensando Pollara 400 於 2024 年第 4 季送樣,並將如期在 2025 年上半年推出。

AMD AI軟體為生成式AI提供全新功能
AMD 持續推進軟體功能和開放產業體系的發展,在 AMD ROCm™開放軟體堆疊中提供強大的全新特性和功能。
在開放軟體社群中,AMD 正推動 PyTorch、Triton、Hugging Face 等最為廣泛採用的 AI 框架、函式庫和模型對 AMD 運算引擎的支援。這項工作為 AMD Instinct 加速器提供了即時效能與支援,適用於 Stable Diffusion 3、Meta Llama 3、3.1 和 3.2 等熱門的生成式 AI 模型,以及 Hugging Face 超過 100 萬個模型。
除了社群之外,AMD 持續推進其 ROCm 開放軟體堆疊,帶來支援生成式 AI 工作負載訓練和推論的最新功能。ROCm 6.2 現在對 FP8 資料類型、Flash Attention 3、Kernel Fusion 等關鍵 AI 功能提供支援。憑藉這些新增功能,ROCm 6.2 較 ROCm 6.0 提供高達 2.4 倍的推論效能提升註6以及 1.8 倍的大型語言模型(LLM)訓練效能提升註7。
註1:MI325-002:截至2024年5月28日,AMD效能實驗室對AMD Instinct™ MI325X GPU進行的測試結果為1307.4 TFLOPS理論峰值半精度(FP16)、1307.4 TFLOPS理論峰值BF16、2614.9 TFLOPs理論峰值FP8、2614.9 TOPS INT8浮點效能。實際效能根據最終規格和系統配置而有所不同。
在Nvidia H200 SXM (141GB) GPU上發布的結果:989.4 TFLOPS理論峰值半精度Tensor(FP16 Tensor)、989.4 TFLOPS理論峰值BF16 Tensor、1,978.9 TFLOP理論峰值FP8、1,978.9 TOPs理論峰值INT8浮點效能。Nvidia使用稀疏性發布BFLOAT16 Tensor Core、FP16 Tensor Core、FP8 Tensor Core和INT8 Tensor Core效能。為進行比較,AMD透過除以2將這些數字轉換為非稀疏性/密集。
Nvidia H200來源:https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446以及 https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024。請注意:Nvidia H200 GPU 具有與H100產品相同的FLOP效能https://resources.nvidia.com/en-us- tensor-core/。
註2:MI325-005:基於AMD效能實驗室於2024年9月28日完成的測試,該測試使用FP16資料類型測量Mistral-7B模型的總延遲。使用128個token的輸入長度和 128個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。
1x MI325X在1000瓦的vLLM效能:0.637秒延遲(以秒為單位)對比1x H200在700瓦及TensorRT-LLM:0.811秒延遲(以秒為單位)。
配置:
AMD Instinct™ MI325X參考平台:1x AMD Ryzen™ 9 7950X 16核心處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;
對比NVIDIA H200 HGX平台:美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU [測試中只適用1 GPU]、Ubuntu 22.04、CUDA 12.6。伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。
註3:MI325-006:基於AMD效能實驗室於2024年9月28日完成的測試,該測試使用FP8資料類型測量LLaMA 3.1-70B模型的總體延遲。使用2048個token的輸入長度和2048個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。
1x MI325X在1000瓦的vLLM效能:48.025秒延遲(以秒為單位)對比1x H200在700瓦及TensorRT-LLM:62.688秒延遲(以秒為單位)。
配置:
AMD Instinct™ MI325X參考平台:1x AMD Ryzen™ 9 7950X 16核心處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;
對比NVIDIA H200 HGX平台:美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU、Ubuntu 22.04、CUDA 12.6。
伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。
註4: MI325-004:基於AMD效能實驗室於2024年9月28日完成的測試,使用FP16資料類型測量Mixtral-8x7B模型的文字產生吞吐量。使用128個token的輸入長度和4096個token的輸出長度對AMD Instinct™ MI325X GPU加速器和NVIDIA H200 SXM GPU加速器的以下配置進行測試。
1x MI325X在1000瓦的vLLM效能:每秒4598輸出token對比1x H200在700瓦及TensorRT-LLM:每秒2700.7輸出token。
配置:
AMD Instinct™ MI325X參考平台:1x AMD Ryzen™ 9 7950X處理器、1x AMD Instinct MI325X (256GiB, 1000瓦) GPU、Ubuntu® 22.04、and ROCm™ 6.3 pre-release;
對比NVIDIA H200 HGX平台:美超微(Supermicro)SuperServer搭載2x Intel Xeon® Platinum 8468處理器、8x Nvidia H200 (140GB, 700瓦) GPU [測試中只適用1 GPU]、Ubuntu 22.04、CUDA® 12.6。
伺服器製造商可能會改變配置,產生不同的結果。效能可能會因使用最新驅動程式和最佳化而有所不同。
註5:CDNA4-03:截至2024年5月31日的推論效能預測,使用基於未來AMD CDNA 4架構的Instinct MI350系列加速器的設計工程估算作為預計AMD CDNA™ 4效能。評估1.8T GPT MoE模型時假設token-to-token延遲= 70毫秒實時,第一個token延遲=5秒,輸入序列長度=8k,輸出序列長度=256,假設4×8模式MI350系列(CDNA 4)與8x MI300X每GPU效能比較。實際效能將根據多種因素而有所不同,包括但不限於生產晶片的最終規格、系統配置以及所使用的推論模型和尺寸。
註6:MI300-62:由AMD效能實驗室截至2024年9月29日進行的測試,在配備8個AMD Instinct™ MI300X GPU並搭配Llama 3.1-8B、Llama 3.1-70B、 Mixtral-8x7B、Mixtral-8x22B Qwen 72B模型。
採用vLLM 0.5.5的ROCm 6.2效能與採用vLLM 0.3.3的ROCm 6.0效能進行比較,並在1至256的批次大小和128至2048的序列長度上進行測試。
配置:1P AMD EPYC™ 9534 CPU伺服器,配備8個AMD Instinct™ MI300X (192GB,750瓦)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽1個NUMA)、1.5 TiB 24 DIMMs、4800 mts記憶體、64 GiB/DIMM、4x 3.49TB美光7450儲存、BIOS版本1.8、ROCm 6.2.0-00、vLLM 0.5.5、PyTorch 2.4.0、Ubuntu® 22.04 LTS以及Linux Kernel 5.15.0-119-generic。
對比1P AMD EPYC 9534 CPU伺服器,配備8個AMD Instinct™ MI300X (192GB,750瓦)GPU、Supermicro AS-8125GS-TNMR2、NPS1(每插槽1個NUMA)、1.5TiB 24 DIMMs、4800 mts記憶體、64 GiB/DIMM、4x 3.49TB美光7450儲存、BIOS版本1.8、ROCm 6.0.0-00、vLLM 0.3.3、PyTorch 2.1.1、Ubuntu 22.04 LTS以及Linux Kernel 5.15.0-119-generic。
伺服器製造商可能會改變配置,從而產生不同的結果。效能可能會因各種因素而有所不同,包括但不限於不同版本的配置、vLLM和驅動程式。
註7:MI300-61:AMD AI產品管理團隊在AMD Instinct™ MI300X GPU上進行的測量,用於比較LLM效能與截至2024年9月28日在Llama 3.1-70B和Llama 3.1-405B和vLLM 0.5.5上啟用與關閉最佳化方法的差異。
系統配置:AMD EPYC 9654 96核心處理器、8個AMD MI300X、ROCm™ 6.1、Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux,頻率提升:啟用。
效能可能因各因素而異,包括但不限於不同版本的配置、vLLM和驅動程式。