唯有AMD能全方位推動AI進程,整合領先業界的GPU、CPU、網路解決方案和開放式軟體,提供無與倫比的靈活性與卓越效能
Meta、OpenAI、xAI、Oracle、微軟、Cohere、HUMAIN、Red Hat、Astera Labs及Marvell等合作夥伴分享如何與AMD合作推動AI解決方案
AMD(NASDAQ: AMD)在 Advancing AI 2025 中,發表全面的端對端整合式 AI 平台願景,並推出基於業界標準所建構的開放式、可擴展機架級 AI 基礎設施。
AMD 攜手合作夥伴共同展示:
· 如何運用全新 AMD Instinct™ MI350 系列加速器,建構開放式 AI 產業體系
· AMD ROCm™產業體系的持續蓬勃發展
· AMD 強大、創新且開放式機架級設計與藍圖,預計將至 2027 年後持續提供領先業界的機架級AI效能
AMD 董事長暨執行長蘇姿丰博士表示,AMD 正以劃時代的速度引領 AI 創新,此一進程顯著體現於我們所發布的 AMD Instinct MI350 系列加速器、新一代 AMD “Helios” 機架級解決方案所帶來的突破性進展,以及 ROCm 開放軟體堆疊日益壯大的發展動能。我們正邁入 AI 發展的下一階段,其核心驅動力來自於開放標準、共同創新,以及 AMD 在廣泛的硬體與軟體合作夥伴產業體系中持續擴展的領導地位,共同擘劃 AI 的未來願景。

AMD提供領先業界的解決方案以加速開放式AI產業體系發展
AMD 宣布推出廣泛的硬體、軟體和解決方案產品陣容,以全面推動AI進程:
· AMD 發表 Instinct MI350 系列 GPU,為生成式 AI 和高效能運算樹立效能、效率和可擴展性的全新標竿。MI350 系列包含 Instinct MI350X 和 MI355X GPU 及平台,相較於上一代產品,提供 4 倍的 AI 運算能力提升註1及 35 倍的推論能力躍進註2,助力各產業實現變革性 AI 解決方案。MI355X 在性價比方面亦帶來顯著提升,相較於競爭對手解決方案,每美元可產生多達 40% 的 Token註3。詳情請參閱 AMD 人工智慧事業群資深副總裁 Vamsi Boppana 的部落格文章。
· AMD 展示端對端、開放標準的機架級 AI 基礎設施,搭載 AMD Instinct MI350 系列加速器、第 5 代 AMD EPYC™處理器和 AMD Pensando™ Pollara NIC,已部署於 Oracle Cloud Infrastructure (OCI) 等超大規模雲端供應商(hyperscaler)環境中,並預計於 2025 年下半年廣泛上市。
· AMD 亦預覽了新一代 AI 機架 “Helios”,將搭載新一代 AMD Instinct MI400 系列 GPU、“Zen 6” 架構的AMD EPYC “Venice” CPU 和 AMD Pensando “Vulcano” NIC。相較於上一代產品,AMD Instinct MI400 系列 GPU 預計在混合專家模型上運行推理的效能將提升高達 10 倍註4。詳情請參閱此部落格文章。
· 最新版本的 AMD 開源 AI 軟體堆疊 ROCm 7,旨在滿足生成式 AI 和高效能運算工作負載日益增長的需求,同時全面顯著提升開發人員體驗。ROCm 7 具備更完善的業界標準框架支援、擴展的硬體相容性,以及全新的開發工具、驅動程式、API 和函式庫,以加速 AI 開發和部署。詳情請參閱 AMD AI 軟體開發全球副總裁 Anush Elangovan 的部落格文章。
· Instinct MI350 系列超越了 AMD 將 AI 訓練和高效能運算節點能源效率提升 30 倍的 5 年目標,最終實現了 38 倍的顯著提升註5。AMD 更公布了 2030 年全新目標,以 2024 年為基準年,將機架級能源效率提升 20 倍註6,使目前需要超過 275 個機架的典型 AI 模型到 2030 年能在少於一個全面運用的機架中進行訓練,並減少 95% 的電力消耗註7。詳情請參閱 AMD 資深副總裁暨院士 Sam Naffziger 的部落格文章。
· AMD 同步宣布 AMD Developer Cloud 將廣泛提供予全球開發人員和開源社群。此平台專為快速、高效能 AI 開發而設計,使用者將能存取功能齊全的雲端環境,具備所需工具和靈活性以啟動 AI 專案,並實現無限成長。透過 ROCm 7 和 AMD Developer Cloud,AMD 正持續擴大新一代運算的存取權限並使其更易於實現。與 Hugging Face、OpenAI 和 Grok 等領導者的策略合作,證明了共同開發開放式解決方案的強大力量。

廣泛的合作夥伴產業體系展示由AMD挹注動能的AI進展
全球前 10 大模型建構商與 AI 公司中,已有 7 家在其生產工作負載中採用 AMD Instinct 加速器。其中,Meta、OpenAI、微軟和 xAI 等攜手 AMD 及其他合作夥伴於 Advancing AI 大會中深入探討其如何與 AMD 合作推動 AI 解決方案訓練當今領先的 AI 模型、大規模推動推論以及加速 AI 探索與開發:
· Meta 詳述如何廣泛部署 Instinct MI300X 於 Llama 3 和 Llama 4 推論。Meta 對於 MI350 及其運算能力、每總體擁有成本(TCO)的效能表現,以及新一代記憶體感到非常振奮。Meta 將持續與 AMD 密切合作,推動 AI 藍圖,其中包括 Instinct MI400 系列平台的相關計畫。
· OpenAI 執行長 Sam Altman 闡述硬體、軟體與演算法全面最佳化的重要性,並強調 OpenAI 與 AMD 在 AI 基礎設施方面的緊密合作,包括採用 MI300X 開發 Azure 研究及 GPT 模型,以及在 MI400 系列平台上的深度設計合作。
· Oracle Cloud Infrastructure (OCI) 是首批採用搭載 AMD Instinct MI355X GPU 之 AMD 開放式機架級 AI 基礎設施的業界領導者之一。OCI 運用 AMD CPU 和 GPU 為 AI 叢集提供平衡、可擴展的效能,並宣布將推出由最新 AMD Instinct 處理器加速的 Zettascale AI 叢集,搭載高達 131,072 個 MI355X GPU,協助客戶實現大規模的 AI 建構、訓練和推論。
· HUMAIN 分享其與 AMD 簽訂的里程碑式協議,旨在運用唯獨 AMD 才能提供的全方位運算平台,建構開放、可擴展、具彈性且具成本效益的 AI 基礎設施。
· 微軟宣布 Instinct MI300X 現已為在 Azure 上專屬和開源模型提供生產力。
· Cohere 指出其高效能、可擴展的 Command 模型已部署在 Instinct MI300X 上,以高吞吐量、效率和資料隱私為企業級 LLM 推論提供動能。
· Red Hat 描述其與 AMD 擴大的合作如何實現生產就緒的 AI 環境,透過 Red Hat OpenShift AI 上的 AMD Instinct GPU,在混合雲環境中提供強大、高效率的 AI 處理。
· Astera Labs 強調開放的 UALink 產業體系如何加速創新並為客戶帶來更大的價值,並分享了提供全面的 UALink 產品組合以支援新一代 AI 基礎設施的計畫。
· 作為 UALink 聯盟的成員,Marvell 與 AMD 攜手合作共同開發開放的互連技術,為 AI 基礎設施帶來極致的靈活性。
註1:根據AMD效能實驗室於2025年5月的測試結果,使用FP16、FP8、FP6和FP4資料類型搭配矩陣運算,以確定8個AMD Instinct™ MI355X和MI350X GPU(平台)以及8個AMD Instinct MI325X、MI300X、MI250X和MI100 GPU(平台)的峰值理論精度效能。伺服器製造商的配置可能有所不同,從而產生不同的結果。結果可能因使用最新的驅動程式和最佳化而異。MI350-004
註2:基於AMD於2025年6月9日的內部測試結果。使用8個GPU的AMD Instinct™ MI355X平台,測量線上生成的文字,以服務Llama 3.1-405B聊天模型(FP4)的推論吞吐量,並與8個GPU的AMD Instinct™ MI300X平台的效能(FP8)進行比較。測試使用32768個token的輸入長度和1024個token的輸出長度,並將並行性設定為每個平台上可用的最佳吞吐量,以在每個平台上達到60毫秒,MI300X平台為1(35.3毫秒),MI355X平台為64毫秒(50.6毫秒)。伺服器製造商的配置可能有所不同,從而產生不同的結果。效能可能因使用最新的驅動程式和最佳化而異。MI350-044
註3:基於AMD實驗室截至2025年6月6日的效能測試結果,使用FP4資料類型搭配各種輸入、輸出token長度組合,在AMD Instinct™ MI355X 8x GPU上測量LLaMA 3.1-405B模型生成的文字推論吞吐量,並與NVIDIA B200 HGX 8xGPU的已發佈結果進行比較。每美元效能的計算方式是根據Coreweave網站上NVIDIA B200的現行價格以及預期的基於Instinct MI355X的雲端執行個體價格。伺服器製造商的配置可能有所不同,從而產生不同的結果。效能可能因使用最新的驅動程式和最佳化而異。目前的客戶價格截至2025年6月10日,可能隨時變更。MI350-049
註4:截至2025年6月5日的效能預測,基於未來AMD Instinct MI400系列GPU的設計,使用工程估算值與Instinct MI355x進行比較,採用2K和16K預填充搭配TP8、EP8以及預測的推論效能,並使用以GEMM和Attention演算法評估Instinct MI400系列的GenAI訓練模型。產品上市後的實際結果可能有所不同。MI400-001
註5:此計算包含1) Koomey Analytics於2025年根據現有研究和數據進行的基準案例千瓦時使用量預測,其中包含特定區塊預計的2025年部署量和資料中心電源使用效率(PUE),包括GPU HPC和機器學習(ML)安裝量,以及2) AMD CPU和GPU節點功耗,其中納入特定區塊的使用率(活動與閒置)百分比,並乘以PUE以確定實際總能源使用量,用於計算每瓦效能。38倍是使用以下公式計算得出的:(2025年基準案例HPC節點千瓦時使用量預測 * AMD 2025 年使用DGEMM和TEC的每瓦效能改進 + 2025年基準案例ML節點千瓦時使用量預測 * AMD 2025年使用ML數學和TEC的每瓦效能改進) / (2025年基準案例預測的千瓦時使用量)。更多資訊請參閱 https://www.amd.com/en/corporate/corporate-responsibility/data-center-sustainability.html。EPYC-030a
註6:基於AMD藍圖,推估每年(2024年至2030年)用於AI訓練/推論的AMD先進機架,同時檢視歷史趨勢,以提供機架設計選擇和技術改進的資訊,使預測目標與歷史趨勢一致。2024年的機架基於 MI300X節點,與Nvidia H100相當,並反映了2024/2025年期間AI部署的現行常見做法。2030年的機架基於該時間範圍內AMD系統和晶片設計的預期。在每種情況下,AMD都指定了GPU、CPU、DRAM、儲存裝置、散熱和通訊等元件,並追蹤元件和定義的機架特性,以了解功耗和效能。計算不包括用於機架外部冷卻空氣或供水的功耗,但包括機架內部風扇和泵的功耗。效能改進的估計值基於運算輸出(交付的持續FLOPS,而非峰值FLOPS)、記憶體(HBM)頻寬和網路(擴展)頻寬的進展,以指數表示,並由以下訓練和推論因素加權。
FLOPS HBM BW 向上擴展BW
訓練 70.0% 10.0% 20.0%
推論 45.0% 32.5% 22.5%
每個機架的效能和功耗共同暗示了訓練和推論隨時間推移的每瓦效能趨勢,然後以50:50的權重加權訓練和推論進展的指數,以得出AMD預計到2030年進展(20倍)的最終估計值。效能數據假設AI模型在利用低精度數學格式進行訓練和推論方面持續進步,這會導致有效FLOPS增加,以及每個FLOP所需的頻寬減少。
註7:AMD根據EPOCH AI數據(https://epoch.ai)估計訓練典型重要AI模型所需的機架數量。在此計算中,我們基於這些數據假設,一個典型模型需要10的25次方浮點運算來訓練(基於2025年數據的中位數),並且此訓練過程需要一個月時間。所需的FLOPs = 10^25 FLOPs / (秒/月) /模型FLOPs使用率(MFU)= 10^25 / (2.6298*10^6) / 0.6。機架數量=所需FLOPs / (2024年和2030年每個機架的FLOPS)。根據AMD藍圖的運算效能估計值,在2025年使用MI300X產品(假設每個機架22.656 PFLOPS,MFU為60%),大約需要276個機架才能在一個月內訓練一個典型模型,而在2030年使用基於AMD藍圖預測的機架配置,訓練相同模型則需要不到1個完全使用的機架。這些計算意味著在這6年期間,訓練相同模型所需的機架數量減少了276倍以上。使用MI300X系統以2024年的機架完全訓練一個已定義的2025年AI模型的用電量經計算約為7 GWh,而未來的2030年AMD系統可以使用約350 MWh訓練相同模型,減少了95%。然後,AMD應用了國際能源署2024年世界能源展望(https://www.iea.org/reports/world-energy-outlook-2024)中每千瓦時的碳強度。IEA提出的政策案例提供了2023年和2030年的碳強度。我們確定了從2023年到2030年強度的年平均變化,並將其應用於2023年的強度,以得出2024年的強度(434 CO2克/千瓦時)與2030年的強度(312 CO2克/千瓦時)。2024年基準情境的排放量為7 GWh x 434 CO2克/千瓦時,約等於3000公噸二氧化碳,而未來的2030年情境為350 MWh x 312 CO2克/千瓦時,約等於100公噸二氧化碳。