- AWS將提供基於NVIDIA Grace Blackwell GPU的Amazon EC2執行個體和NVIDIA DGX Cloud,以加速建立及執行數萬億參數規模的大型語言模型的效能
- AWS Nitro系統、Elastic Fabric Adapter加密,以及與Blackwell加密整合的AWS KMS金鑰管理服務,為客戶提供從訓練資料到模型權重的端到端控制,為客戶在AWS上的AI應用提供更強的安全保障
- 「Ceiba專案」為一台完全搭建於AWS、採用DGX Cloud的AI超級電腦,搭載了20,736顆GB200超級晶片,能夠提供414 exaflops的處理能力,專為NVIDIA自身的AI研發工作設計
- Amazon SageMaker與NVIDIA NIM推論微服務整合,以幫助客戶進一步優化在GPU上執行基礎模型的性價比
- AWS與NVIDIA之間的合作加速了在醫療保健和生命科學領域的AI創新

AWS 和 NVIDIA 宣布,AWS 將支援 NVIDIA 在 2024 年 GTC 大會上推出的新一代 NVIDIA Blackwell GPU 平台。AWS 將提供 NVIDIA GB200 Grace Blackwell Superchip 超級晶片和 B100 Tensor Core GPU,並延續雙方長期的策略合作夥伴關係,旨在為客戶提供安全、先進的基礎設施、軟體及服務,助力客戶啟動新一代生成式 AI 的能力。
NVIDIA 與 AWS 將持續提供各自的領先技術,包括具備NVIDIA最新多節點系統的下一代 NVIDIA Blackwell 平台和 AI 軟體,以及 AWS 的 Nitro 系統、具備領先安全性的 AWS Key Management Service(AWS KMS)金鑰管理服務、千萬億位元級的 Elastic Fabric Adapter(EFA)網路和 Amazon EC2 UltraCluster 超大規模叢集等技術。基於上述技術打造的基礎設施和工具,使客戶能夠在 Amazon EC2 上以更快速度、更大規模、更低成本地對其建構和執行數萬億參數的大型語言模型(LLMs)進行即時推論,效能相較於配備前一代 NVIDIA GPU 的 EC2 執行個體有顯著改進。
AWS 執行長 Adam Selipsky 表示:「我們雙方的深入合作可以追溯到 13 年前,當時我們共同推出了世界上第一個 AWS 上的 GPU 雲端執行個體,而今天我們為客戶提供了最廣泛的 NVIDIA GPU 解決方案。NVIDIA的下一代Grace Blackwell處理器是生成式 AI 和 GPU 運算領域的標誌性事件。當結合 AWS 強大的 EFA 網路、Amazon EC2 UltraClusters 的超大規模叢集功能,以及我們獨有的 AWS Nitro 高級虛擬化系統及其安全功能時,我們就能夠使客戶更快、更大規模且更安全地建構和執行具有數萬億參數的大型語言模型。」
NVIDIA 創辦人暨執行長黃仁勳表示:「人工智慧正在以前所未有的速度推動新應用、新商業模式和跨產業的創新。我們與 AWS 的合作正在加速新的生成式 AI 能力的發展,並為客戶提供前所未有的運算能力,以開創無限可能。」
AWS與NVIDIA的新合作將顯著加速數萬億參數前沿大型語言模型的訓練
AWS 將提供配置 GB200 NVL72 的 NVIDIA Blackwell 平台,它配備 72 顆 Blackwell GPU 和 36 顆 Grace CPU,透過第五代 NVIDIA NVLink 互連。當與 AWS 強大的 EFA 網路、AWS Nitro 高級虛擬化系統和Amazon EC2 UltraClusters超大規模叢集等技術結合時,客戶能夠輕鬆擴展至數千個 GB200 超級晶片。NVIDIA Blackwell 在 AWS 上的應用,使得該平台能加速針對資源密集型和數萬億參數語言模型等的推論工作負載。
基於先前搭載 NVIDIA H100的Amazon EC2 P5 執行個體的成功(客戶可透過Amazon EC2 Capacity Blocks for ML功能短期使用這些執行個體),AWS 計畫提供配備 B100 GPU 的新 Amazon EC2 執行個體,並支援在Amazon EC2 UltraClusters中部署,以加速超大規模生成式 AI 的訓練和推論。GB200 也將在 NVIDIA DGX Cloud上可用,此為在AWS上雙方共同開發的 AI 平台,為企業開發者提供了建構和部署先進生成式 AI 模型所需的專用基礎設施和軟體。在 AWS 上推出的基於 Blackwell 的 DGX Cloud 執行個體將加速前沿生成式 AI 和超過一萬億參數的大語言模型的開發。
提升AI安全性:AWS Nitro系統、AWS KMS、EFA加密與Blackwell加密技術緊密整合
隨著 AI 技術應用越來越廣泛,企業需要確保整個訓練過程中,資料都被安全地處理。保護模型權重的安全至關重要,模型權重是模型在訓練過程中學習到的參數,影響模型做出預測的能力。確保模型權重的安全,對客戶來說是保護智慧財產權、防止模型被篡改以及維護模型的完整性。
AWS 的 AI 基礎設施和服務已經具備安全性,客戶能夠控制並確保資料不會與合作廠商模型提供者共用。AWS Nitro 系統和 NVIDIA GB200 的結合能阻止未授權個體存取模型權重,進而把 AI 安全性提升到新的高度。GB200 支援對 GPU 之間的 NVLink 連接進行物理加密,以及對 Grace CPU 到 Blackwell GPU 的資料傳輸進行加密,同時 EFA 也能夠對伺服器之間的分散式訓練和推論過程的資料進行加密。GB200 還將受益於 AWS Nitro 系統,該系統將主機 CPU/GPU 的 I/O 功能卸載至專門的硬體上,以提供更加一致的效能,其增強的安全性可以在用戶端和雲端全程保護客戶的程式碼和資料處理過程中的安全。這一獨有的功能已經獲得了領先的網路安全公司NCC Group的獨立驗證。
透過在 Amazon EC2 上使用 GB200,AWS 客戶能夠使用 AWS Nitro Enclaves 和 AWS KMS,在其 EC2 執行個體旁建立一個可信賴的執行環境。AWS Nitro Enclaves 允許客戶使用 AWS KMS 控制的金鑰來加密訓練資料和權重。從 GB200 執行個體內部可以載入安全區(enclave),並且可以直接與 GB200 超級晶片通訊。這使 AWS KMS 能夠以加密安全的方式直接與安全區通訊,並直接傳遞金鑰資訊。然後,安全區可以將該資訊傳遞給 GB200,這樣做能夠保護客戶執行個體中的資料,防止 AWS 操作人員存取金鑰、解密訓練資料或模型權重,進而賦予客戶對資料最大的控制權。
「Ceiba專案」利用Blackwell在AWS上推動NVIDIA未來生成式AI創新
在 2023 年 AWS re:Invent 大會上宣布的「Ceiba專案」,是 NVIDIA 與 AWS 合作建造的世界上最快的 AI 超級電腦之一。這台專為 NVIDIA 自身的研究和開發而打造的超級電腦,獨家託管在 AWS 上。此超級電腦首創擁有 20,736 顆 GB200 GPU,採用新型 NVIDIA GB200 NVL72 配置建構,其特有的第五代 NVLink 將連接 10,368 顆 NVIDIA Grace CPU。系統透過 AWS 第四代 EFA 網路進行擴展,為每個超級晶片提供高達 800 Gbps 的低延遲、高頻寬網路傳輸量,能夠處理高達 414 exaflops的 AI 運算量,與之前計畫在 Hopper 架構上建構 Ceiba 相比,效能提升了 6 倍。NVIDIA 的研發團隊將利用 Ceiba 推動大型語言模型、圖形(圖像/影片/3D生成)與模擬、數位生物學、機器人技術、自動駕駛汽車、NVIDIA Earth-2 氣候預測等領域的 AI 技術,以幫助 NVIDIA 推動未來生成式 AI 的創新。
AWS與NVIDIA的合作推動生成式AI應用開發、醫療健康與生命科學領域的應用進展
AWS 與 NVIDIA 聯手,透過 Amazon SageMaker 與 NVIDIA NIM 推論微服務的整合,提供了高效能、低成本的生成式 AI 推論解決方案,並作為 NVIDIA AI 企業版的一部分提供。客戶可以利用此組合在 Amazon SageMaker 中快速部署和執行已預編譯且對 NVIDIA GPU 進行優化的基礎模型,縮短生成式 AI 應用的推出時間。
AWS 與 NVIDIA 也在電腦輔助的藥物開發領域進行合作拓展,推出了新的 NVIDIA BioNeMo基礎模型,用於生成化學與蛋白質結構預測,以及理解藥物分子與目標的相互作用。這些新模型將在 Amazon HealthOmics 上提供,此服務專為醫療保健和生命科學組織設計,提供儲存、查詢以及分析基因組與轉錄組等組學資料的功能。
Amazon HealthOmics 和 NVIDIA 醫療保健團隊還合作推出生成式 AI 微服務,以推動藥物開發、醫療技術和數位健康領域的發展,該服務提供一個 GPU 加速的新雲端服務目錄,涵蓋生物學、化學、成像和醫療保健資料,以便醫療業者能夠在 AWS 上使用生成式 AI 的最新成果。