在美國加州帕羅奧圖舉行的Hot Chips大會上,NVIDIA專家將深入解析NVIDIA NVLink與Spectrum-X乙太網路技術,以及Blackwell與CUDA如何加速全球數百萬AI工作流程的推論
人工智慧(AI)推理、推論及網路技術將是 Hot Chips 大會的焦點議題。
8 月 24 至 26 日在史丹佛大學舉辦的 Hot Chips 大會,是產業與學術界處理器與系統架構人員的重要論壇活動,展示推動 AI 工廠發展及驅動上兆美元等級資料中心運算市場的最新創新技術。

在這場盛會上,NVIDIA 與 Google、微軟等產業領袖一同參與 8 月 24 日舉行的「教學(tutorial)」活動,探討資料中心的機架級架構設計。
此外,NVIDIA 專家團隊還將在四場演講及一場教學活動詳細說明:
- ● 包括 NVIDIA ConnectX-8 SuperNIC 在內的 NVIDIA 網路技術,如何在機架與資料中心規模下實現 AI 推理(由 NVIDIA 網路介面卡與系統單晶片首席架構師 Idan Burstein 主講)。
- ● 由包括 NVIDIA GeForce RTX 5090 GPU 在內的 NVIDIA Blackwell 架構所帶動的神經渲染技術進步與推理效能大幅躍進,將繪圖與模擬能力提升到全新高度(由 NVIDIA 架構資深總監 Marc Blackstein 主講)。
- ● 整合矽光子技術的共同封裝光學(CPO)交換器以光纖取代傳統銅線,資料傳輸的速度更快、能源消耗也更少,可實現建置高效率、高效能、千兆瓦規模的 AI 工廠。本場演講也將介紹 NVIDIA Spectrum-XGS 乙太網路技術,這是一項全新的跨域擴展技術,可將分散式資料中心統一為 AI 超級工廠(由 NVIDIA 網路部門資深副總裁 Gilad Shainer 主講)。
- ● NVIDIA GB10 超級晶片是 NVIDIA DGX Spark 桌上型超級電腦的引擎(由 NVIDIA 資深傑出工程師 Andi Skende 主講)。
這一切都體現了 NVIDIA 的最新技術如何加速推論,從而推動無所不在、涵蓋各種規模的 AI 創新。
NVIDIA網路技術推動大規模AI創新
AI 推理,也就是 AI 系統透過多重 AI 推理流程分析並解決複雜問題,需要機架等級的運算效能,才能高效率地提供最佳的使用者體驗。
在支援當前 AI 工作負載的資料中心中,網路扮演著中樞神經系統的角色,將伺服器、儲存裝置與其他硬體等所有元件,串連成為一個完整、緊密結合又強大的運算單元。
Burstein 在 Hot Chips 大會的演講活動將深入探討 NVIDIA 的網路技術,特別是 NVIDIA ConnectX-8 SuperNIC,如何實現高速、低延遲的多 GPU 通訊,以提供領先業界的大規模 AI 推理效能。
作為 NVIDIA 網路平台的一部分,NVIDIA NVLink、NVLink Switch 與 NVLink Fusion 提供垂直擴展的連結能力,連接伺服器內部及伺服器間的 GPU 與運算元件,實現超低延遲與高頻寬的資料交換。
NVIDIA Spectrum-X 乙太網路 則提供水平擴展的架構,能將整個叢集連結起來,快速將大量資料集串流至 AI 模型,並在資料中心內協調 GPU 與 GPU 之間的通訊。Spectrum-XGS 乙太網路的跨域擴展技術,更進一步擴展了 Spectrum-X 的極致效能與規模,將多個分散式資料中心進行互連,從而打造出具備千兆級智慧能力的 AI 超級工廠。
作為 Spectrum-X 乙太網路的核心,CPO 交換器突破大規模 AI 基礎設施的效能與效率極限,Shainer 將在演講中針對這項技術詳細介紹。
NVIDIA GB200 NVL72 是採用單一機架的百萬兆級(exascale)電腦,配備 36 個 NVIDIA GB200 超級晶片,每個晶片整合兩個 NVIDIA B200 GPU 與一個 NVIDIA Grace CPU,這些運算單元透過有史以來最大的 NVLink 網域彼此互連,並由 NVLink Switch 為 AI 與高效能運算工作負載提供每秒 130 TB 的低延遲 GPU 通訊。
基於 NVIDIA Blackwell 架構打造的 GB200 NVL72 系統,在推理與推論效能方面實現大幅躍進。
NVIDIA Blackwell與CUDA將AI帶給數百萬開發者
Blackstein 將在演講中深入介紹同樣採用 Blackwell 架構的 NVIDIA GeForce RTX 5090 GPU,透過 NVIDIA DLSS 4 技術,使當今遊戲的效能翻倍。
NVIDIA DLSS 4 技術還能為遊戲加入神經渲染功能,從而將效能提升高達 10 倍、追跡效果放大 10 倍及設計週期縮短 10 倍,進一步強化電腦圖形與模擬的真實感。這不僅能以更低能耗提供流暢而靈敏的視覺體驗,角色與特效的逼真程度也可大幅提升。
NVIDIA CUDA 是全球應用最普及的運算基礎架構,讓使用者能夠在任何地方使用 NVIDIA Blackwell 部署並運行 AI 模型。
全球已有數億的 GPU 運行 CUDA,從 NVIDIA GB200 NVL72 機架規模系統,一直到搭載 GeForce RTX 及 NVIDIA RTX PRO 的個人電腦與工作站,而在 Skende 的演講中討論、NVIDIA GB10 驅動的 NVIDIA DGX Spark 也即將推出。
從演算法到AI超級電腦,為大型語言模型最佳化而生
DGX Spark 以精巧的外型,提供強大的效能與功能,讓開發人員、研究人員、資料科學家與學生能在桌面端突破生成式 AI 的極限,並且加速推動各產業處理工作負載。
作為 NVIDIA Blackwell 平台的一部分,DGX Spark 支援 NVFP4,NVFP4 是一種低精度數值格式,可實現高效的代理型 AI 推論,特別是大型語言模型(LLM)。如欲了解更多關於 NVFP4 的資訊,請參閱 NVIDIA 技術部落格。
開源協作推動推論創新
NVIDIA 加速了多項開源函式庫與框架,以加速並最佳化大型語言模型與分散式推論的 AI 工作負載。這些函式庫與框架包括 NVIDIA TensorRT-LLM、NVIDIA Dynamo、TileIR、Cutlass、NVIDIA Collective Communication Library 及 NIX,目前已整合至數百萬個工作流程中。
為了讓開發者能以自行選擇的框架進行建置,NVIDIA 與頂尖的開源框架供應商合作,為 FlashInfer、PyTorch、SGLang、vLLM 等提供模型最佳化。
此外,NVIDIA NIM 微服務也已支援 OpenAI 的 gpt-oss、Llama 4 等多個熱門的開源模型,讓開發者能輕鬆操作託管型 API,並在其首選的基礎架構上享有自我託管模型的靈活性與安全性。
歡迎參加 NVIDIA 在 Hot Chips 大會的各項活動,以了解更多關於推論與加速運算領域的最新進展。