業界動態

英特爾打破使用限制，為企業生成式AI市場提供新選擇

News 04/10/2024

延續Gaudi 2的效能和可擴充性，Intel Gaudi 3 AI加速器為全球企業提供生成式AI新選擇

英特爾在 Vision 2024 大會上，宣布推出 Intel® Gaudi® 3 AI 加速器，與前代產品相比，Gaudi 3 為 BF16 提供 4 倍 AI 運算能力、1.5 倍記憶體頻寬以及 2 倍網路頻寬，可擴充大規模系統，將有助大型語言模型（LLM）和多模態模型的 AI 訓練和推理，大幅提升效能和生產力。Intel® Gaudi® 2 AI 加速器是市場上唯一通過MLPerf基準測試的LLM解決方案，效能和效率皆通過驗證。英特爾透過開源社群軟體和符合業界標準的乙太網絡，為客戶提供可靈活擴充系統的新選擇。

英特爾執行副總裁暨資料中心與 AI 解決方案總經理 Justin Hotard 表示：「AI 市場瞬息萬變，但產品間仍存在巨大差距。不論是來自客戶還是更廣泛市場的回饋，皆反映對更多選擇的渴望。企業須權衡可用性、可擴充性、效能、成本和能源效率等因素。Intel Gaudi 3 作為生成式 AI 的新選擇，憑藉性價比、系統可擴充性和時間成本優勢的完美結合脫穎而出。」

金融、製造和醫療保健等關鍵領域的企業，目前正快速提升 AI 的普及化，並積極將生成式 AI 計畫從試驗階段轉為全面實施。為了因應轉型、推動創新並達成營收成長目標，企業需要開放、符合成本效益且更節能的解決方案和產品，以符合投資報酬率（ROI）和營運效率需求。

Intel Gaudi 3 加速器將滿足這些需求，並透過開放社群軟體和開放標準的乙太網路，協助企業靈活擴充 AI 系統和應用。

20240410 intel02 — ▲Intel tackles the generative AI gap by introducing the Intel Gaudi 3 AI accelerator at the Intel Vision event on April 9, 2024, in Phoenix, Arizona. Gaudi 3 gives customers choice with open community-based software and industry-standard Ethernet networking to scale their systems more flexibly. (Credit: Intel Corporation)

客製化基礎架構如何提升生成式AI效能和效率：Intel Gaudi 3 加速器專為高效的大規模 AI 運算打造，採用相較前一代產品更先進的 5 奈米製程。其設計允許同時啟動所有引擎以提升速度，包括矩陣乘法引擎（MME）、張量處理器核心（TPC）和網路介面卡（NIC），進而實現更高速、高效的深度學習運算和規模擴充。Gaudi 3 加速器的主要特點包括：

AI專用運算引擎：Intel Gaudi 3 加速器專為高效能、高效率的生成式 AI 運算所打造。每台加速器都有專屬的異質運算引擎，由 64 個 AI 自訂和可編程 TPC 和 8 個 MME 組成。每個 Intel Gaudi 3 MME 皆能執行 64,000 個平行運算，運算效率極高，並擅於處理複雜的矩陣運算，這也是深度學習演算法的基礎運算。此獨特的設計大幅提升平行 AI 運算的速度和效率，並支援多種資料類型，包括 FP8 和 BF16。
提升記憶體容量，滿足LLM容量需求：Intel Gaudi 3 搭載 128 GB 的 HBMe2 記憶體容量、3.7 TB 的記憶體頻寬和 96 MB 的 on-board 靜態隨機存取記憶體（SRAM），因此能夠在更少的 Intel Gaudi 3 上，提供處理大型生成式 AI 資料集所需的足夠記憶體，且特別適用於大型語言和多模態模型，有助於提升工作負載效能和資料中心的成本效率。
為企業提供生成式AI高效系統擴充：每個 Intel Gaudi 3 加速器皆整合 24 個 200 GB 的乙太網路連接埠，提供靈活的開放標準網路，實現高效擴充，以支援大型運算集，並克服專有網路架構的供應商限制。Intel Gaudi 3 加速器實現單一節點到上千節點的高效擴充，以滿足生成式 AI 模型的廣泛要求。
開放產業軟體提升開發人員生產力：Intel Gaudi 軟體整合 PyTorch 框架，並提供基於 Hugging Face 社群的最佳化模型，是目前生成式 AI 開發人員最常用的 AI 框架，使生成式 AI 開發人員能夠在高度抽象層上進行操作，提升易用性和生產力，並可輕鬆地將模型轉移到不同硬體類型上。
Gaudi 3 PCIe：Gaudi 3 高速 PCIe 附加卡是全新產品，外型規格專為實現高效率並降低功耗設計，適用於微調、推理和檢索增強生成（RAG）等工作，配備功率 600 瓦的標準（Full-height ）封裝，128GB的記憶體容量，且頻寬達到每秒 3.7TB。

Intel Gaudi 3 加速器將為領先生成式 AI 模型的訓練和推理，帶來顯著的效能提升。與 Nvidia H100 相比，Gaudi 3 加速器的平均效能預期將為：

在 Llama2 7B 和 13B 參數以及GPT-3 175B參數模型的訓練時間加快 50%¹。
在 Llama 7B 和 70B 以及 Falcon 180B 參數模型上，推論吞吐量提升 50%²，推論能源效率提升 40%³。在較長的輸入和輸出序列中，具有更大的推理效能優勢。
與 Nvidia H200 相比，在 Llama 7B 和 70B 以及 Falcon 180B 參數模型的推理速度提升 30%⁴。

Intel Gaudi 3 加速器將於 2024 年第二季，向 OEM 提供通用基板和開放加速器模型（Open accelerator module, OAM）的業界標準配置。包含戴爾科技、慧與科技（HPE）、聯想和美超微等知名 OEM，都將採用 Gaudi 3。Intel Gaudi 3 加速器預計於 2024 年第三季全面上市，Intel Gaudi 3 PCIe 附加卡預計於 2024 年第四季上市。

Intel Gaudi 3 加速器也將支援多個高成本效益 LLM 基礎架構，協助訓練和推理，並為包括 NAVER 在內的組織提供性價比優勢和選擇。

開發者從今日起即可存取 Intel Developer Cloud 上以Intel Gaudi 2為基礎的實例，以學習、建立原型、測試和執行應用程式與工作負載。

Intel Gaudi 3 加速器的發展將為英特爾下一代針對 AI 和高效能運算的 GPU Falcon Shores 奠下基石。Falcon Shores 將整合 Intel Gaudi 和 Intel® Xe 的智慧財產權（IP），以及建立在 Intel® oneAPI 規範的單一 GPU 可程式化界面。

^{1 NV H100 comparison based on: https://developer.nvidia.com/deep-learning-performance-training-inference/training, Mar 28th 2024 à “Large Language Model” tab Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-13B & GPT3-175B as of 3/28/2024. Results may vary
2 NV H100 comparison based on https://nvidia.github.io/TensorRT-LLM/performance.html#h100-gpus-fp8 , Mar 28th, 2024. Reported numbers are per GPU. Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-70B & Falcon 180B projections. Results may vary.
3 NV comparison based on https://nvidia.github.io/TensorRT-LLM/performance.html#h100-gpus-fp8 , Mar 28th, 2024. Reported numbers are per GPU. Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-70B & Falcon 180B Power efficiency for both Nvidia and Gaudi 3 based on internal estimates. Results may vary.
4 NV H200 comparison based on https://nvidia.github.io/TensorRT-LLM/performance.html#h100-gpus-fp8 , Mar 28th, 2024. Reported numbers are per GPU.Vs Intel® Gaudi® 3 projections for LLAMA2-7B, LLAMA2-70B & Falcon 180B projections. Results may vary.}