AMD Ryzen™ AI 300系列處理器釋放消費級大型語言模型的巔峰效能

News 11/07/2024

語言模型自 GPT-2 以來已取得大幅進步，使用者現在可以藉由 LM Studio 等消費級應用程式快速且輕鬆地部署高度複雜的大型語言模型（LLM）。透過與 AMD 合作，這些工具讓每個人都能使用人工智慧（AI），且無需任何編碼或技術知識。

llama.cpp和LM Studio概述

LM Studio 基於 llama.cpp 項目，是一個廣受歡迎的框架，用於快速且輕鬆地部署語言模型。LM Studio 沒有相依性（dependencies），僅使用 CPU 即可進行加速，亦支援 GPU 加速功能。LM Studio 使用 AVX2 指令集來加速基於 x86 CPU 的現代 LLM。

效能對比：吞吐量和延遲

20241107 amd01 — ▲採用Zen 5架構的AMD Ryzen AI 9 HX 375在消費級LLM應用程式中帶來高達27%的效能提升

AMD Ryzen™ AI 為這些最先進的工作負載進行加速，在 x86 筆電上運行 LM Studio 等基於 llama.cpp 的應用程式提供領先業界的效能^註1。值得注意的是，LLM 通常對記憶體速度非常敏感。

在我們的對比測試中，Intel 筆電的 RAM 實際上速度較快，達到 8533 MT/s，而 AMD 筆電的 RAM 為 7500 MT/s。儘管如此，AMD Ryzen™ AI 9 HX 375 處理器的每秒 token 生成速度（tokens per second）比競爭對手快出高達 27%。參考資料顯示 tokens per second (tk/s) 是測量 LLM 輸出 token 速度的指標，大約對應於每秒在螢幕上顯示的字數。

AMD Ryzen™ AI 9 HX 375 處理器在 Meta Llama 3.2 1b Instruct（4-bit量化）中可實現每秒高達 50.7 個 token 的效能。

對大型語言模型進行基準測試的另一個指標是「輸出首個 token 的時間（time to first token）」，測量從提交提示（prompt）至模型開始生成 token 之間的延遲時間。在較大模型中，基於 AMD “Zen 5” 架構的 Ryzen™ AI HX 375 處理器的速度相較競爭對手的同級處理器快出高達 3.5 倍^註1。

20241107 amd02 — ▲採用Zen 5架構的AMD Ryzen AI 9 HX 375在消費級LLM應用程式中延遲降低達3.5倍

在Windows中使用可變顯示記憶體（VGM）來提高模型吞吐量

AMD Ryzen™ AI CPU 中的三個加速器各自擁有特定的工作負載專業化和擅長的情境。基於 AMD XDNA™ 2 架構的 NPU 在執行 Copilot+ 工作負載時為持續的 AI 功能提供卓越的功耗效率，CPU 為工具和框架提供廣泛的覆蓋範圍和相容性，而內顯（iGPU）通常根據需求處理 AI 任務。

LM Studio 提供 llama.cpp 的連接埠（port），可使用與供應商無關（vendor-agnostic）的 Vulkan API 來加速框架。此加速通常取決於硬體功能和 Vulkan API 的驅動程式最佳化的組合。與僅使用 CPU 模式相比，在LM Studio 中開啟 GPU offload 後 Meta Llama 3.2 1b Instruct 的效能平均提升 31%。Mistral Nemo 2407 12b Instruct 等較大模型在 token 生成階段由於受到頻寬限制，平均效能提升 5.1%。

我們觀察到在 LM Studio 中使用基於 Vulkan 的 llama.cpp 版本並開啟 GPU offload 時，與僅使用 CPU 的模式相比，競爭對手處理器除了其中一個模型外，其餘測試模型的平均效能皆明顯較低。因此，為了保持對比測試的公平性，我們沒有將 Intel Core Ultra 7 258v 在 LM Studio 中使用基於 Vulkan 之 Llama.cpp 的 GPU-offload 效能納入比較。

AMD Ryzen™ AI 300 系列處理器還包括一項名為可變顯示記憶體（VGM）的功能。通常程式會利用為 iGPU 分配的 512 MB 專用記憶區塊，以及位於系統 RAM「共享」部分的第二個記憶區塊。VGM 讓使用者將 512 MB 的「專用」分配擴展到高達 75% 的可用系統 RAM 容量。這種連續記憶體的分配顯著提升了對記憶體敏感應用程式的吞吐量。

在開啟 VGM（16GB）後，Meta Llama 3.2 1b Instruct 的效能平均提升 22%，與使用 iGPU 加速並結合 VGM 的 CPU 模式相比，平均速度共提升 60%。Mistral Nemo 2407 12b Instruct 等更大模型相較僅使用 CPU 的模式，帶來高達 17% 的效能提升。

同步比較：Mistral 7b Instruct 0.3

儘管競爭對手的筆電在 LM Studio 中使用基於 Vulkan 的 Llama.cpp 版本沒有提供加速，我們仍使用 Intel AI Playground 應用程式（基於 IPEX-LLM 和 LangChain）來比較 iGPU 效能，力求在最佳的消費級 LLM 體驗之間進行公平的比較。

20241107 amd04 — ▲Mistral 7b Instruct 0.3測試

我們使用 Intel AI Playground 提供的模型，即 Mistral 7b Instruct v0.3 和 Microsoft Phi 3.1 Mini Instruct。在LM Studio 中使用可比較的量化後，我們發現 AMD Ryzen™ AI 9 HX 375 在 Phi 3.1 的速度比競爭對手快 8.7%，在 Mistral 7b Instruct 0.3 的速度則快 13%。

20241107 amd05 — ▲AMD Ryzen AI 9 HX 375的iGPU加速效能

AMD 致力於推進 AI 技術的發展，讓每個人皆能使用 AI。若最新的 AI 進展被設置在高門檻的技術或編碼技能，這目標將無法實現，這就是為何 LM Studio 等應用如此重要。除了能夠快速且輕鬆地在本地部署 LLM 外，這些應用程式讓使用者在 llama.cpp 項目支援該架構的情況下，第一時間體驗最先進的模型。

AMD Ryzen™ AI 加速器提供卓越效能，開啟 VGM 等功能可為 AI 使用案例提供更好的效能。所有因素結合起來後，為 x86 筆電上的語言模型提供了令人驚豔的使用者體驗。

欲親自體驗 LM Studio，請參閱此連結。

▼Side by Side Comparison: Mistral 7b Instruct v0.3

^{註1：在此次比較中，我們選擇採購當時在北美市場上最好的14吋筆電。
註2：STX-98：截至2024年10月由AMD進行的測試。對於樣本提示「用五行解釋熵的概念」進行3次執行的平均效能。所有測試均在LM Studio 0.3.4上進行。測試的模型包括：Meta Llama 3.2 1b Instruct、Meta Llama 3.2 3b Instruct、Microsoft Phi 3.1 4k Mini Instruct、Google Gemma 2 9b Instruct、Mistral Nemo 2407 13b Instruct。（所有模型均為Q4 K M量化）。Intel的特定配置：8個CPU執行緒。AMD的特定配置：12個執行緒。（Llama.cpp建議將執行緒設置為物理核心的數量）。搭載AMD Ryzen AI 9 HX 375的HP OmniBook Ultra筆電，32GB 7500 MT/s RAM，開啟VBS，Windows 11 Pro 24H2。搭載Intel Core Ultra 7 258V的ASUS Zenbook S14 UX5406SA 14吋筆電腦，32GB 8533 MT/s RAM，啟用VBS，Windows 11 Pro 24H2。效能可能會改變。
註3：STX-99：截至2024年10月由AMD進行的測試。對於樣本提示「用五行解釋熵的概念」進行3次執行的平均效能。所有測試均在LM Studio 0.3.4上進行。測試的模型包括：Meta Llama 3.2 1b Instruct、Meta Llama 3.2 3b Instruct、Microsoft Phi 3.1 4k Mini Instruct、Google Gemma 2 9b Instruct、Mistral Nemo 2407 13b Instruct。（所有模型均為Q4 K M量化）。12個CPU執行緒。（Llama.cpp建議將執行緒設置為物理核心的數量）。GPU offload = MAX。VGM在VGM執行期間設置為16GB。搭載AMD Ryzen AI 9 HX 375的HP OmniBook Ultra筆電，32GB 7500 MT/s RAM，啟用VBS，Windows 11 Pro 24H2。效能可能會改變。
註4：STX-100：截至2024年10月由AMD進行的測試。對於樣本提示「從10公尺高處掉落的球需要多久時間才能落地？」，「用五行解釋熵的概念」。所有測試均在AMD筆電上使用LM Studio 0.3.4進行。所有測試均在Intel筆電上使用Intel AI Playground 1.21b進行。測試的模型包括：Mistral 7b Instruct v0.3 Q4 K M、Mistral 7b Instruct v0.3 sym_int4、Microsoft Phi 3.1 4k Mini Instruct Q4 K M、Microsoft Phi 3.1 4k Mini Instruct sym_int4。AMD的特定配置：12個執行緒。（Llama.cpp建議將執行緒設置為物理核心的數量）。GPU offload = MAX。VGM在VGM 測試期間設置為16GB。搭載AMD Ryzen AI 9 HX 375的HP OmniBook Ultra筆電，32GB 7500 MT/s RAM，開啟VBS，Windows 11 Pro 24H2。搭載Intel Core Ultra 7 258V的ASUS Zenbook S14 UX5406SA 14吋筆電，32GB 8533 MT/s RAM，啟用VBS，Windows 11 Pro 24H2。效能可能會改變。
註5：STX-101：截至2024年10月由AMD進行的測試。對於樣本提示「用五行解釋熵的概念」進行3次執行的平均效能。所有測試均在AMD筆電上使用LM Studio 0.3.4進行。所有測試均在Intel筆電上使用Intel AI Playground 1.21b進行。測試的模型包括：Mistral 7b Instruct v0.3 Q4 K M、Mistral 7b Instruct v0.3 sym_int4。AMD的特定配置：12個執行緒。（Llama.cpp建議將執行緒設置為物理核心的數量）。GPU offload = MAX。VGM在VGM測試期間設置為16GB。搭載AMD Ryzen AI 9 HX 375的HP OmniBook Ultra筆電，32GB 7500 MT/s RAM，開啟VBS，Windows 11 Pro 24H2。搭載Intel Core Ultra 7 258V的ASUS Zenbook S14 UX5406SA 14吋筆電，32GB 8533 MT/s RAM，啟用VBS，Windows 11 Pro 24H2。效能可能會改變。
註6：GD-220c：Ryzen™ AI被定義為專用AI引擎、AMD Radeon™顯示引擎和Ryzen處理器核心的組合，使得AI功能得以實現。需要OEM 和ISV的支援，某些AI功能可能尚未針對Ryzen AI處理器進行最佳化。Ryzen AI與以下產品相容：(a)除了Ryzen 5 7540U、Ryzen 5 8540U、Ryzen 3 7440U和Ryzen 3 8440U處理器以外的所有AMD Ryzen 7040和8040系列處理器；(b)所有AMD Ryzen AI 300系列處理器；(c)除了Ryzen 5 8500G/GE和Ryzen 3 8300G/GE的所有AMD Ryzen 8000G系列桌上型處理器。請在購買前向系統製造商確認功能的可用性。}