從嚴苛要求記憶體再到生成式AI等各類高效能運算(HPC)和人工智慧(AI)工作負載
英特爾在2023年國際超級電腦大會詳細介紹其具競爭力的產品效能,並推出新的科學LLM計畫,藉此達成AI民主化
英特爾公司副總裁暨超級運算事業部總經理 Jeff McVeigh 表示:「英特爾致力為 HPC 和 AI 社群提供產品服務,協助客戶和終端使用者能夠更快達成突破性的發展。我們的產品組合橫跨 Intel Xeon CPU Max 系列、Intel Data Center GPU Max 系列、第 4 代 Intel Xeon 可擴充處理器和 Habana Gaudi 2,於多項工作負載表現均優於競爭對手,提供能源和總擁有成本優勢,讓 AI 民主化的同時,還提供選擇性、開放性和靈活性。」

大規模硬體效能提升

在英特爾的特別演說中,McVeigh 聚焦於橫跨硬體範疇的最新、具競爭力的效能結果,並與客戶分享強勁的態勢。
- Intel Data Center GPU Max系列在多樣化的工作負載表現,比NVIDIA H100 PCIe卡平均高出30%1,獨立軟體供應商Ansys則展示在AI加速HPC應用上,Max系列GPU相較H100更快50%。2
- Xeon Max系列CPU是唯一具備高頻寬記憶體的x86處理器,在High Performance Conjugate Gradients(HPCG)基準測試當中,比AMD的Genoa處理器提升65%1,且耗電量更少。高頻寬記憶體已被視為HPC客戶最需要的功能之一。3
- 在HPC當中應用最廣的第4代Intel Xeon可擴充處理器,比AMD的Milan平均速度提升50%4,能源公司BP的最新第4代Intel Xeon HPC叢集,比起前一代處理器的效能提升8倍,並改善了能源效率。2
- Gaudi2深度學習加速器在深度學習訓練和推論方面的表現頗具競爭力,其效能比NVIDIA A100快2.4倍。1

英特爾客戶近日公開使用第 4 代 Intel Xeon 和 Max 系列處理器的新安裝部署:
- 日本京都大學正在為Laurel 3和Cinnamon 3部署第4代Xeon,並為Camphor 3部署Xeon Max系列處理器。
- 義大利Cineca部署使用第4代Intel Xeon處理器的Leonardo。
- 美國羅徹斯特大學-雷射能量學實驗室正在部署使用第4代Xeon處理器的叢集。
- 阿根廷國家氣象局將部署一款同時包含Max系列CPU和GPU的系統。
此外,英國劍橋大學的 Cambridge Open Zettascale 實驗室已在英國部署首個 Max GPU 測試平台,並於分子動力學和生物成像應用方面看到正向的早期成果。日本理化學研究所(RIKEN)也宣布與英特爾簽屬合作備忘錄(MOU),將專注於 AI、HPC 和量子運算等先進運算技術領域,加速聯合研究與開發。作為合作備忘錄的其中一項內容,理化學研究所還將與英特爾晶圓代工服務合作,打造這些全新解決方案的原型。

為各項工作負載提供具有競爭力的處理器
動態、新興的 HPC 和 AI 工作負載需要一個完整的硬體與軟體解決方案產品組合。McVeigh 綜述英特爾的各項資料中心產品,這些產品為 HPC 社群提供許多選擇和解決方案,協助實現 AI 民主化。
McVeigh 在演說中介紹英特爾的次世代處理器,將能夠滿足高記憶體頻寬需求。英特爾所引領的生態系為Granite Rapids開發一款新型 DIMM-Multiplexer Combined Ranks(MCR)。MCR 在 DDR5 的基礎上達成 8,800MT/s 速度,在雙插槽系統中實現大於 1.5TB/s 的記憶體頻寬能力。提升此類的記憶體頻寬,對於滿足現代 CPU 快速成長的核心數量,以及實現效率和靈活性而言十分重要。
英特爾還公開 Supermicro 推出的新款、針對 AI 最佳化的 x8 Max 系列 GPU 子系統,專為加速深度學習訓練而設計。除了今年稍晚可透過 Intel Developer Cloud beta 使用該系統之外5,多家 OEM 將提供包含 Max 系列 GPU x4 和 x8 OAM 子系統和 PCIe 卡的解決方案,這些解決方案預計於今夏上市。
英特爾的次世代 Max 系列 GPU-Falcon Shores,能夠為客戶提供靈活性,實現系統級的 CPU 和獨立 GPU 組合,以因應未來新興且快速變化的工作負載。Falcon Shores 使用模組化、晶片磚架構,其特色如下:
- 支援 HPC 和 AI 資料格式,從 FP64 到 BF16 再到 FP8。
- 支援最高達 288GB 的 HBM3 記憶體,總頻寬最高達 9.8TB/s,大幅度提升高速 I/O。
- 能夠使用 CXL 程式設計模型。
- 透過 oneAPI 提供統一的 GPU 程式設計介面。

用於科學領域的生成式AI
美國阿貢國家實驗室與英特爾和 HPE 合作,宣布計畫為科學研究社群建立一系列生成式 AI 模型。
美國阿貢國家實驗室副實驗室主任 Rick Stevens 表示:「該計畫旨在充分汲取 Aurora 超級電腦的全部潛力,藉此產出可用於能源部實驗室以及與其它單位合作,以便進行後續科學研究的資源。」
這些用於科學的生成式 AI 模型,將使用一般文字、程式碼、科學文本,以及來自生物學、化學、材料科學、物理學、醫學和其它來源的結構化科學資料進行訓練。
由此產生的模型(多達 1 兆個參數)將被用在各式各樣的科學應用,其中包含分子和材料設計,並從數百萬個來源綜合知識,提出系統生物學、高分子化學與能源材料、氣候科學、宇宙學等領域的新奇實驗。該模型還會用於加速辨識癌症和其它疾病有關的生物過程(biological process),並提出藥物設計目標。
阿貢實驗室正在帶領國際合作、推進計畫,合作夥伴包含英特爾、HPE、美國能源部實驗室、美國與國際間的大學、非營利組織以及日本理化學研究所等國際合作夥伴。
此外,英特爾和阿貢實驗室亦說明 Aurora 的安裝進度、系統規格和早期效能結果:
- 英特爾已完成 Aurora 超級電腦的實體交機,共計超過 10,000 台刀鋒伺服器。
- 使用 HPE Cray EX 超級電腦建構完整的 Aurora 系統,將有 63,744 個 GPU、21,248 個 CPU 以及 1,024 個儲存節點。並且將使用 HPE Slingshot 高效能乙太網路。
- 早期測試結果顯示,於真實世界的科學和工程工作負載具有領先的效能表現,可高達 AMD MI250 GPU 效能的 2 倍,在 QMCPACK 量子力學應用比 H100 提升 20%;擴展至數百個節點時,其效能增加比例接近線性提升。2
Aurora 預計在今年推出時,可提供超過 2 exaFLOPS 的峰值雙精度運算效能。

oneAPI實現高生產力、開放的加速運算
全球約有 90% 的開發者,使用或是受益於為英特爾開發或最佳化的軟體。6自 2020 年推出 oneAPI 程式設計模型以來,開發者已在來自多個硬體供應商,不同的 CPU、GPU、FPGA 和 AI 晶片上展示 oneAPI,解決單一供應商把持加速程式設計模型的挑戰。最新的 Intel oneAPI 透過 OpenMP GPU卸載進而加速 HPC 應用,延伸支援 OpenMP 和 Fortran,並透過最佳化框架來加速 AI 深度學習,包含 TensorFlow、PyTorch 以及相關 AI 工具,讓效能獲得數個量級的提升。
為了讓程式設計師更容易開發 oneAPI 多架構程式,oneAPI 實作 SYCL,並由 Codeplay 開發針對 NVIDIA 和 AMD 處理器的外掛程式,以及 Intel DPC++ 相容性工具(使用開放原始碼 SYCLomatic);這款工具可以將 CUDA 轉換至 SYCL 和C++,一般而言可自動轉換 90%〜95% 程式碼。7透過這種方式產生的 SYCL 程式碼,可比擬在 NVIDIA 和 AMD 原生系統語言上執行相同程式碼的效能。資料顯示,於 Max 系列 GPU 執行 DPEcho 天文物理學應用 SYCL 程式碼,其效能相較在 NVIDIA H100 執行同樣的 CUDA 程式碼更高出 48%。1
擁抱 SYCL 的生態系正在蓬勃發展。Atos 旗下的 Eviden 宣布與英特爾合作推出 CEPP one+,這是一款使用 Eviden 卓越效能程式設計中心(CEPP)的 HPC∕AI 程式碼現代化服務。CEPP one+ 將專注接納 SYCL 和 OpenMP,為社群做好異質運算環境的準備,同時透過開放標準提供硬體選擇的自由。

1 Visit the International Supercomputing Conference (ISC’23) page on intel.com/performanceindex for workloads and configurations. Results may vary.
2 Intel does not control or audit third-party data. You should consult other sources to evaluate accuracy.
3 Hyperion Research HPC Market Update, Nov. 2022.
4 Intel® Xeon® 8480+ has 1.5x higher geomean HPC performance across 27 benchmarks and applications than AMD EPYC 7763. Results may vary.
5 The Intel Developer Cloud beta is currently available to select prequalified customers.
6 According to Intel estimates.
7 Intel estimates as of March 2023. Based on measurements on a set of 85 HPC benchmarks and samples, with examples like Rodinia, SHOC, PENNANT. Results may vary.