全新傳輸協定MRC率先在NVIDIA Spectrum-X乙太網路硬體上經過驗證及最佳化,現已正式向業界開放

在打造全球最強大人工智慧(AI)工廠的競逐中,網路技術必須跟上 AI 雄心的發展速度。
NVIDIA Spectrum-X 乙太網路橫向擴展基礎設施,作為當今最先進的 AI 網路技術,正位居這場競逐的最前線,並已獲得無法在效能、韌性或規模上妥協的業界領導廠商所部署採用。
這其中包括 OpenAI、微軟及 Oracle。
NVIDIA、微軟及 OpenAI 等公司透過推出 Multipath Reliable Connection(MRC),展現了業界領導地位。MRC 是一項 RDMA 傳輸協定,可讓單一 RDMA 連線將流量分散至多條網路路徑,進而提升大規模 AI 訓練網路架構的資料輸送量、負載平衡與可用性。
MRC 可以被想像成,將一條貫穿城鎮的單線道路,替換為設計精巧的街道網格系統,並搭配即時交通應用程式,讓駕駛能在遇到壅塞或道路封閉時立即改道。
OpenAI 工業運算業務主管 Sachin Katti 表示:「在 Blackwell 世代部署 MRC 非常成功,而這得益於我們與 NVIDIA 的緊密合作。MRC 的端到端途徑讓我們得以避免許多典型的網路相關延遲與中斷,並在大規模前沿訓練的執行期間維持效率。」
此外,微軟與 NVIDIA 長期合作,致力於推動下一代 AI 所需基礎設施的發展。全球最大AI工廠中的兩座 — 微軟的Fairwater 及 Oracle Cloud Infrastructure(OCI)的 Abilene 資料中心,是專為訓練與部署領先的前沿大型語言模型而打造,並仰賴 MRC 來滿足其效能、規模與效率需求。NVIDIA Spectrum-X 乙太網路適用於此類環境,協助提供必要的網路基礎,讓大規模 AI 模型與應用程式得以自信地運行。
MRC 率先在生產環境中完成驗證,並在 NVIDIA Spectrum-X 乙太網路硬體上完成效能最佳化。如今,MRC 已透過開放運算計畫(Open Compute Project)以開放規格形式發布,展現 Spectrum-X 乙太網路平台的強大能力:專用硬體、深度遙測技術與智慧網狀架構控制相互協作,將一項全新協定從概念推向兆級 AI 生產應用。所謂協定,是指控制資料如何在網路中兩個系統之間傳輸的一組規則。
MRC 透過在所有可用路徑間平衡流量負載,實現高水準的 GPU 使用率,確保每顆 GPU 在整個訓練過程中都能獲得所需的頻寬。即使在網路壅塞情況下,MRC 也能即時動態避開過載路徑,維持高頻寬。
當發生資料遺失時,智慧的重新傳輸功能可實現快速且精準的復原,將短暫中斷對長時間工作負載造成的影響降至最低,進而協助避免 GPU 閒置時間。
管理員也能取得細緻的流量路徑可視性與控制能力,從而簡化營運作業,並加速大規模的故障排除。
部署於 Spectrum-X 乙太網路上的 MRC,經過最佳化並專為實現大規模的韌性而設計。其故障繞行技術可在短短數微秒內偵測到網路路徑故障,並在硬體中自動重新導引流量。
這項故障繞行技術對 AI 訓練叢集至關重要,因為在這類叢集中,數千顆 GPU 必須保持同步,即使短暫的網路中斷也可能導致整個訓練工作變慢或中斷。Spectrum-X 乙太網路可透過硬體速度即時回應,確保流量在兆級 AI 網路架構中沿著精準的路徑持續傳輸。
實現兆級 AI 工廠的另一項關鍵創新在於多平面網路設計。OpenAI 便將其與 Spectrum-X 乙太網路與 MRC 結合部署。多平面網路由多個獨立網路架構或平面組成,每個平面皆提供 GPU 間的替代通訊路徑。
NVIDIA Spectrum-X Multiplane 功能進一步強化此網路架構,支援跨平面的硬體加速負載平衡,同時在不犧牲效能的前提下提升韌性與規模。這使得在擴展至數十萬顆 GPU 時,仍維持可預測的低延遲。
透過 Spectrum-X 乙太網路,客戶可選擇不同的 RDMA 傳輸模型。Spectrum-X 乙太網路 Adaptive RDMA 與 MRC 協定,以及其他客製化協定,皆可在 NVIDIA ConnectX SuperNIC 與 Spectrum-X 乙太網路交換器上原生運行,並支援兆級的多平面網路設計。
這樣一來,驅動當今最大規模 AI 叢集的 Spectrum-X 乙太網路硬體與軟體基礎設施,能讓用戶靈活選擇最適合其工作負載的傳輸方案。
MRC 傳輸協定是業界如何運用 Spectrum-X 乙太網路作為彈性、可組合的平台,並整合至現代 AI 基礎設施完整範疇的最新例證。
隨著 AI 工廠持續擴展,網路不僅必須快速移動資料,更必須具備智慧、韌性,並建立於開放標準之上。NVIDIA Spectrum-X 乙太網路兼具這三項能力,並透過 MRC 持續為先進 AI 網路技術樹立標準。
MRC 是由 NVIDIA 與 AMD、Broadcom、Intel、微軟及 OpenAI 共同合作開發。
