部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5執行個體經過充分優化,可以利用NVIDIA Hopper GPU加速生成式AI的大規模訓練和推論
Amazon Web Services(AWS)和NVIDIA(輝達)宣佈了一項多方合作,致力於建構全球最具可擴展性且隨需付費的人工智慧(AI)基礎設施,以便訓練日益複雜的大型語言模型(LLM)和開發生成式 AI 應用程式。
借助於 NVIDIA H100 Tensor Core GPU 支持的下世代 Amazon Elastic Compute Cloud(Amazon EC2)P5 執行個體,以及 AWS 最先進的網路和可擴展性,此次合作將提供高達 20 exaFLOPS 的運算效能來協助建構和訓練更大規模的深度學習模型。P5 執行個體將是第一個利用 AWS 第二代 Amazon Elastic Fabric Adapter(EFA)網路技術的 GPU 執行個體,可提供 3200 Gbps 的低延遲和高頻寬網路輸送量。因此客戶能夠在 Amazon EC2 UltraCluster 中拓展多達 2 萬個 NVIDIA H100 GPU,滿足隨需訪問超級電腦的 AI 效能需求。
「AWS和NVIDIA 合作已超過 12 年,為人工智慧、機器學習、圖形、遊戲和高效能運算(HPC)等各種應用提供了大規模、低成本的 GPU 解決方案。」AWS 執行長 Adam Selipsky 表示,「AWS 在交付基於 GPU 的執行個體方面擁有無比豐富的經驗,每一代執行個體都大幅強化可擴展性,如今眾多客戶將機器學習訓練工作負載拓展到 1 萬多個 GPU。借助第二代 EFA,客戶能夠將其 P5 執行個體拓展到超過 2 萬個 H100 GPU,為包括新創公司、大企業在內的所有規模客戶提供所需的超級運算能力。」
「加速運算和人工智慧已經到來,而且適逢其時。加速運算提升效能的同時,降低了成本和功耗,讓企業事半功倍。生成式 AI 已促使企業重新思考產品和商業模式,力求成為顛覆者,而不是被顛覆。」NVIDIA 創辦人暨執行長黃仁勳表示,「AWS 是 NVIDIA 的長期合作夥伴,也是首家提供 NVIDIA GPU 的雲端服務提供者。我們很高興能夠結合各自的專長、規模和業務範圍,協助客戶利用加速運算和生成式 AI 抓住未來的大好機遇。」

新的超級運算叢集
新的 P5 執行個體建構於 AWS 和 NVIDIA 十多年來在 AI 和 HPC 基礎設施交付方面的合作基礎之上,也立足於雙方在P2、P3、P3dn 和 P4d(e) 前四代執行個體方面的合作。P5 執行個體是基於 NVIDIA GPU 的第五代 AWS 產品,與最初部署的NVIDIA GPU(始於 CG1 執行個體)已相隔近 13 年。
P5 執行個體非常適合對日益複雜的 LLM 和電腦視覺模型進行訓練和運行推理,並應用於要求嚴苛的運算密集型生成式 AI 應用程式,包括問題回答、代碼生成、影片圖像生成和語音辨識等領域。
對於致力於以可擴展和安全的方式將 AI 賦能的創新推向市場的企業和新創公司而言,P5 執行個體是不二之選。P5 執行個體採用 8 個 H100 GPU,能夠在一個 Amazon EC2 執行個體中實現 16 petaFLOPs 的運算效能、640 GB 的高頻寬記憶體和 3200 Gbps 的網路效能(比上一代執行個體高出 8 倍)。P5 執行個體效能的提升使機器學習模型訓練時間加快了 6 倍(將訓練時間從數天縮短到數小時),額外的 GPU 記憶體可幫助客戶訓練更龐大更複雜的模型。預計 P5 執行個體的機器學習模型訓練成本將比上一代降低 40%。相比靈活性較差的雲端產品或昂貴的本地端系統,它為客戶提供了更高的效率。
P5 執行個體部署在 EC2 UltraCluster 的超大規模叢集中,該叢集由雲端最高效能的運算、網路和儲存系統組成。每個EC2 UltraCluster 都是世界上功能最強大的超級電腦之一,助力客戶運行最複雜的多節點機器學習訓練和分散式 HPC 工作負載。它們採用 PB 級無阻塞網路,基於 EFA,這種針對 Amazon EC2 執行個體的網路介面使客戶能夠在 AWS 上運行需要在大規模高級節點間通訊的應用程式。
EFA 的客製化作業系統繞過硬體介面,並與 NVIDIA GPUDirect RDMA 整合,可降低延遲、提高頻寬使用率,進而提升執行個體間通訊效能,這對於在數百個 P5 節點上拓展深度學習模型的訓練至關重要。藉由 P5 執行個體和 EFA,機器學習應用程式可以使用NVIDIA Collective Communications Library(NCCL)拓展到多達 2 萬個 H100 GPU。因此,客戶可以透過AWS的隨需彈性和靈活拓展能力,獲得本地 HPC 叢集的應用效能。
除了這些出色的運算能力外,客戶可以使用業界最廣泛最深入的服務組合,比如物件導向儲存的 Amazon S3、針對高效能檔案系統的 Amazon FSx,以及用於建構、訓練和部署深度學習應用的Amazon SageMaker。P5 執行個體將在今後幾周提供有限預覽版。欲瞭解詳情,請參考https://pages.awscloud.com/EC2-P5-Interest.html。

借助新的P5執行個體, Hugging Face和Pinterest等客戶將能夠大規模建構和訓練最龐大的機器學習模型。基於其它幾代Amazon EC2執行個體的合作將助力新創公司、大企業和研究人員無縫拓展來滿足各自的機器學習需求。
Hugging Face 的使命是將優秀的機器學習普及化。「作為發展最快速的機器學習開源社群,我們如今在針對 NLP、電腦視覺、生物學和強化學習等領域的平臺上提供逾 15 萬個預訓練模型和 2.5 萬個資料集。」Hugging Face 技術長暨聯合創辦人 Julien Chaumond 表示,「鑒於大型語言模型和生成式 AI 技術的顯著進步,我們正與 AWS 合作,以建構和貢獻未來的開源模型。我們希望在結合 EFA 的 EC2 UltraCluster 叢集中透過大規模 Amazon SageMaker 使用 P5 執行個體,加快為所有客戶提供新的基礎 AI 模型。」
如今,全球超過 4.5 億人透過 Pinterest 尋找視覺靈感,以購買符合自己品味的個性化產品、尋求可實體化的創意,並發現最有才華的創作者。「我們廣泛使用深度學習技術,比如對上傳到我們平臺上的數十億張照片進行標記和分類,以及讓用戶獲得從靈感到付諸行動的視覺搜尋能力。」Pinterest 架構師 David Chaiken 表示,「我們使用 P3 和最新的 P4d 等 AWS GPU 執行個體建構和部署這些應用場景。我們希望使用由 H100 GPU、EFA 和 Ultracluster 加持的 Amazon EC2 P5 執行個體,加快產品開發,為我們的客戶提供同理心 AI(Empathetic AI)體驗。」
為可擴展、高效能AI採用新的伺服器設計
在 H100 GPU 發佈之前,NVIDIA 和在熱力、電機和機械領域擁有專業知識的 AWS 工程團隊合作設計了伺服器,以利用GPU 提供大規模 AI,重點關注 AWS 基礎設施的能源效率。在某些 AI 工作負載下,GPU 的能效通常是 CPU 的 20 倍,對於 LLM 而言,H100 GPU 的能效比 CPU 高 300 倍。
雙方的合作包括開發系統散熱設計、整合安全和系統管理、與 AWS Nitro 硬體加速虛擬機器管理程式一起實現安全性,以及針對 AWS 客製化 EFA 網路結構的 NVIDIA GPUDirect 優化技術。
在 AWS 和 NVIDIA 專注於伺服器優化的基礎上,兩家公司已開始合作開發未來的伺服器設計,以借助新一代系統設計、冷卻技術和網路可擴展性提高擴展效率。