NVIDIA Spectrum-X技術使10萬個NVIDIA Hopper架構GPU的超大型系統成真

NVIDIA 今日宣布 xAI 在美國田納西州孟菲斯市使用 NVIDIA Spectrum-X™ 乙太網路平台打造出規模龐大、搭載 10 萬個 NVIDIA Hopper Tensor 核心 GPU 的 Colossus 超級電腦叢集。NVIDIA Spectrum-X™平台為多租戶、超大規模 AI 工廠提供卓越性能而設計,使用標準乙太網路作為其遠端直接記憶體存取(RDMA)網路。
Colossus 是全球最大的人工智慧(AI)超級電腦,用於訓練 xAI 的 Grok 系列大型語言模型,並為 X Premium 用戶提供聊天機器人功能。xAI 正在將 Colossus 的規模擴大一倍,總計將搭載 20 萬個 NVIDIA Hopper GPU。
xAI 與 NVIDIA 在短短 122 天內就建置出相關配套設施與 Colossus 這具最先進的超級電腦,這種規模的系統通常要用到幾個月到幾年的時間建置。從安裝第一個機架到開始訓練 AI 僅歷時 19 天。
Colossus 超級電腦在訓練規模極為龐大的 Grok 模型時,展現出前所未有的網路效能。在所有三層網路結構中,系統都未因流量碰撞而出現應用程式延遲或封包遺失的情況。Colossus 超級電腦藉由 Spectrum-X 壅塞控制功能,保有 95% 的資料輸送量。
標準乙太網路會無法大規模達到這樣的效能水準,會造成上千次的流量碰撞,又只能提供 60% 的資料輸送量。
NVIDIA 網路事業部資深副總裁 Gilad Shainer 表示:「AI 正成爲關鍵業務,需要更高的效能、安全性、擴充能力和成本效益。設計 NVIDIA Spectrum-X 乙太網路平台的目的,就是要為 xAI 這一類創新公司能夠更快速處理、分析和執行 AI 工作負載,以加速開發、部署 AI 解決方案,並且更快推向市場。」
Elon Musk 在 X 上表示:「Colossus 是世界上最強大的訓練系統。xAI 團隊、NVIDIA 及我們的眾多合作夥伴與供應商表現非常出色。」
xAI 的發言人表示:「xAI 建造出世界上最大、最強大的超級電腦。NVIDIA 的 Hopper GPU 加上 Spectrum-X 讓我們能夠突破大規模訓練 AI 模型的界限,並在乙太網路標準基礎上,建造一個擁有超級加速、並最佳化的 AI 工廠。」
Spectrum-X 平台的核心是 Spectrum SN5600 乙太網路交換器,它支援高達 800Gb/s 的連接埠速度,並且採用 Spectrum-4 交換器 ASIC。xAI 選擇將 Spectrum-X SN5600 交換器搭配 NVIDIA BlueField-3® SuperNIC 使用,以獲得前所未有的效能。
適用於 AI 的 Spectrum-X 乙太網路技術帶來了先進功能,能提供先前僅在 InfiniBand 提供帶有低延遲和短尾延遲特性的高效且可擴充的頻寬。包括採用 NVIDIA Direct Data Placement 技術的自適應性路由、壅塞控制,以及更強大的 AI 架構可視性和效能隔離等功能,都是多租戶生成式 AI 雲端環境及大型企業環境的重點需求。