英特爾在美國丹佛 Super Computing 年度展會(SC23)上展示了藉由 AI 加速的高效能運算(HPC),產品組合橫跨 Intel® Data Center GPU Max 系列、Intel® Gaudi®2 AI 加速器、Intel® Xeon®處理器,皆展現出 HPC 和 AI 工作負載的領先效能。英特爾也分享與美國阿貢國家實驗室(Argonne National Laboratory, ANL)合作 Aurora 生成式 AI 計畫的相關進展,內容包括在 Aurora 超級電腦上參數量高達 1 兆的 GPT-3 大型語言模型(LLM)最新發展,這些進展獲益於 Max 系列 GPU 獨特架構和 Aurora 超級電腦的系統能力。英特爾和阿貢國家實驗室合作,透過 Aurora 早期科學計畫(Aurora Early Science Program)和Exascale 運算專案(Exascale Computing Project, ECP)的各項應用,加速科學發展,並同步揭示 Intel® Gaudi3 AI 加速器和 Falcon Shores 的發展藍圖。
英特爾企業副總裁暨資料中心 AI 解決方案總經理 Deepak Patil 表示:「英特爾持續致力於提供創新技術解決方案,以滿足 HPC 和 AI 社群的需求。Xeon CPU、Max GPU 和 CPU 卓越的效能表現都有助於推進相關研究和科學發展,搭配 Gaudi 加速器更能全面展現出英特爾的領先技術能夠為客戶帶來更值得信賴的選擇,以滿足多元的工作負載需求。」

為什麼重要:針對科學研究的生成式 AI 及其最新效能和基準測試結果,突顯出英特爾提供的客製化解決方案足以滿足 HPC 和 AI 客戶的特定需求。英特爾透過軟體定義的方式,採用 oneAPI 規範與 HPC 和 AI 增強工具套件,協助開發人員跨越架構框架,無縫轉移程式碼,加速科學研究。此外,Max 系列 GPU 和 CPU 也將布署在多組即將上線的超級電腦之中。
阿貢國家實驗室分享了以 Aurora 超級電腦推動科學研究生成式 AI 計畫的進展。透過 Aurora 生成式 AI 計畫,阿貢國家實驗室、英特爾及合作夥伴將攜手創建最先進的 AI 模型,奠定科學發展基礎。這些模型將使用超過 1 兆參數規模的科學文本、程式碼和科學資料集進行訓練,涵蓋多門科學領域。生成式 AI 計畫將利用 Megatron 和 DeepSpeed 的基礎技術,服務生物、癌症研究、氣候科學、宇宙科學和材料科學等多門科學領域。
Intel Max 系列 GPU 架構和 Aurora 超級電腦系統擁有優秀的性能,只需 64 節點即可高效率處理 1 兆個參數的模型,遠低於一般所需。阿貢國家實驗室以 256 個節點處理四個實例,展現出 Aurora 平行處理多實例的能力;也能夠加速訓練擴展未來超過 1 萬節點上數兆 token 的參數模型。

關於英特爾和阿貢國家實驗室:
英特爾和阿貢國家實驗室展示 Aurora 超級電腦上如何透過系統功能和軟體堆疊實現大規模加速科學研究。工作負載實例包括:
透過 Connectomics ML 實現規模化的大腦連接組重建,在 500 多個 Aurora 節點上顯示具競爭力的推論產出率。
通用原子和分子電子結構系統(GAMESS)採用 Intel Max GPU 可實現超過 Nvidia A100 兩倍的競爭效能,可針對藥物和催化劑設計的複雜化學過程進行建模,透過 Aurora 超級電腦解開分子科學的秘密。
Hardware/Hybrid Accelerated Cosmology Code,(HACC)已在超過 1,500 個 Aurora 節點上展示運行,實現具象化理解宇宙物理及演化。
藥物篩選 AI 推論應用是 Aurora 藥物探索早期科學計畫(ESP)的一部分;僅使用 256 個節點就能完成超過 200 億種最常見化學合成物質的篩選,實現巨量化學資料集的高效篩選。
英特爾同時展示新的 HPC 和 AI 效能以及跨硬體和應用程式的軟體優化:
英特爾和戴爾共同發布 STAC-A2 的結果,STAC-A2 是基於真實市場風險分析工作負載的獨立基準測試套件,展現應用於金融產業的出色表現。與 8 顆 Nvidia H100 PCIe GPU 的架構相比,4 個顆 Intel® Data Center GPU Max 1550 達成了高出 26% 的希臘值 10-100k-1260 效能,空間效率也提高了 4.3 倍。
■在各種 HPC 工作負載上,Intel® Data Center GPU Max 1550 的效能比 Nvidia H100 PCIe 卡平均高出 36%(1.36 倍)。
■英特爾 Data Center GPU Max 系列加強了對 AI 模型的支援,包括 GPT-J 和 LLAMA2 等多種大型語言模型(LLM)。
■Intel® Xeon® CPU Max 系列是唯一具有高頻寬記憶體(HBM)的 x86 處理器,與 AMD Epyc Genoa 處理器相比,效能平均提高 19%。
■MLCommons2 於上週發布了用於訓練 AI 模型的業界標準 MLPerf training v3.1 基準測試結果。透過在 v3.1 訓練 GPT-3 基準測試中啟用 FP8 功能,英特爾 Gaudi2 展示 2 倍的效能增益。
o 英特爾將於 2024 年推出 Intel Gaudi3 AI 加速器。Gaudi3 AI 加速器將基於與 Gaudi2 相同的高效能架構,預計提供 4 倍運算能力(BF16)、雙倍的網路頻寬,以實現更高的橫向擴展效能,以及 1.5 倍的內嵌 HBM 記憶體,輕鬆滿足對 LLM 高效能、高效率運算不斷增長的需求,且同時兼顧效能。
■如同 LAMMPS-Copper 所展示,第 5 代 Intel® Xeon®處理器將在 HPC 應用程式上提供高達 1.4 倍的效能提升。
o Granite Rapids 是下世代 Intel Xeon 處理器,將透過 Intel® Advanced Matrix Extensions(Intel® AMX)提供更多的核心數量和內建加速器,且支援 MCR DIMMs。Granite Rapids 的 DeepMD+LAMMPS AI 推論性能將提高 2.9 倍。MCR 基於 DDR5 可實現 8,800 MT/s 的傳輸速度,並在雙插槽系統中實現超過1.5 TB/s 的記憶體頻寬,這對於滿足現代 CPU 快速增長的核心數量並實現效率和靈活性至關重要。
關於oneAPI的新進展:英特爾公布了 2024 年軟體開發工具套件的功能,藉此推動由 oneAPI 多架構程式支援的開放式軟體開發。新工具可協助開發人員在英特爾 CPU 和 GPU 上擴展新的 AI 和 HPC 功能,涵蓋範圍更廣,包括使用標準 Python 實現數位負載更快的效能和布署,以及編譯器增強功能,交付近乎完整的 SYCL 2020,提高生產力和程式碼卸載。
此外,德州先進運算中心(TACC)宣布 oneAPI卓越中心將專注於開發及優化地震成像基準程式碼的計畫。全球共 32 座英特爾 oneAPI 卓越中心共同推動此軟體及硬體創新與研究的產業發展。
下一步:英特爾強調其對 AI 和 HPC 的投入,凸顯市場的強勁動能。目前採用英特爾 Max 系列 GPU 和 CPU 技術的新超級電腦布署包括 Aurora、Dawn Phase 1、SuperMUC-NG Phase 2、Clementina XX1 等系統,以及一台以 Stability AI 為主要客戶,採用英特爾 Gaudi2 加速器新系統的大型 AI 超級電腦。
這些動能將奠定英特爾對於 AI 和 HPC 的次世代 GPU-Falcon Shores 的研發基礎。Falcon Shores 將採用 oneAPI 開放標準建構的單一 GPU 程式設計介面,應用在 Intel Gaudi 和 Intel Xe 的 IP。讓目前建構在 Intel Gaudi AI 加速器以及 Intel Max 系列 GPU 的應用程式,未來也能輕鬆轉移到 Falcon Shores。