來自Artificial Analysis的最新AgentPerf結果顯示,加速計算系統處理現實世界的代理工作負載,NVIDIA GB300 NVL72每兆瓦運行的代理數量比NVIDIA Hopper多20倍

Artificial Analysis 推出的 AgentPerf 是業界首個智慧體 AI 基準測試工具,它為開發者、企業和基礎設施供應商提供了一種清晰的方式來比較智慧體 AI 系統。在首輪公佈的結果中,NVIDIA Blackwell Ultra NVL72 平台在所有測試的智能體 AI 工作負載中均表現出色,每兆瓦運行的智能體數量是 NVIDIA Hopper 的 20 倍。
智能體人工智慧與對話式人工智慧的工作負載截然不同。一次完整的聊天任務相當於一次衝刺:一次大型語言模型(LLM)調用,一次回應。而智能體的工作方式更像是接力賽:它將目標分解成多個步驟,並持續進行直至任務完成。

這導致數十到數百個 LLM 調用串聯在一起,每次調用都會將不斷增長的上下文傳遞給下一個調用,每次交接都會調用諸如程式碼編譯和執行、資料庫搜尋和網頁瀏覽等工具。這種複雜性不是簡單的疊加,而是倍增的。
這種區別對於性能評估至關重要。現有的 AI 推理基準測試衡量的是單次 LLM 呼叫:LLM 對單一請求的回應速度以及系統能夠同時處理多少個請求。這些基準測試並非為智能體工作負載而設計,在智能體工作負載中,鍊式 LLM 調用、工具調用延遲以及不斷增長的上下文資訊對加速計算系統的壓力,與單次 LLM 調用所帶來的壓力截然不同。
對於大規模建置和部署代理程式的公司而言,了解代理程式的回應速度、可以同時部署多少代理程式以及人工智慧基礎設施每投入一美元和一瓦特可以帶來多少有用的工作量,都非常重要。
NVIDIA GB300 NVL72每兆瓦功耗可運作的代理數量是原來的20倍
在第一輪測試中,AgentPerf 使用 DeepSeek V4 Pro 來衡量智能體的表現。 DeepSeek V4 Pro 是一款大型混合專家 (MoE) 模型,代表了目前最強大的智能體所使用的前沿模型。在此工作負載下,NVIDIA GB300 NVL72 在基準測試中表現最佳,每兆瓦功耗下運行的智能體數量是 NVIDIA HGX H200 系統的 20 倍。

性能優勢源自於全端的極致協同設計。 GB300 NVL72 將 72 個 GPU 整合到單一機架級系統中,使 DeepSeek V4 Pro 等大型 MoE 模型能夠高效地大規模分配模型執行。
CUDA 核心透過重疊通訊和計算進一步加速這一過程,因此協調專家的成本被吸收,而不是增加到延遲。
隨著並發代理會話數量的增加,NVIDIA TensorRT LLM 能夠保持效率。例如,它將輸入處理與輸出產生分離,使兩者可以獨立最佳化。
這些結果是基於從零開始建構的基準方法,旨在反映智慧體人工智慧在生產環境中的實際運作方式。
人工智慧分析AgentPerf:基於真實世界的智慧體工作負載構建
AgentPerf 是基於真實的編碼代理軌跡構建:代理接收任務、讀取文件、編寫和編輯程式碼、執行命令並根據結果進行迭代——所有這些都取材於涵蓋 12 種以上程式語言的真實公共程式碼庫。較長的序列長度、工具呼叫模式和延遲都代表了真實世界的編碼工作流程。
AgentPerf 會測量平台在滿足預設的反應速度和輸出令牌速率效能閾值的前提下,能夠同時支援多少個此類代理任務。工具呼叫並非實際執行,而是使用代表性的 CPU 處理時間進行模擬,因此結果差異僅反映加速運算效能的提升。
研究結果直接影響基礎設施決策:每個加速器每兆瓦電力可以同時運作多少個智能體任務。對於大規模部署人工智慧智慧體的企業而言,這些數字決定了特定基礎設施投資實際上能帶來多少生產力。
NVIDIA生態系統合作夥伴利用Blackwell的領先效能
包括 Baseten、DeepInfra 和 Together AI 在內的領先推理提供者已經在 NVIDIA Blackwell 上的 DeepSeek V4 Pro 等前沿模型上為代理工作負載提供服務,並為當今的生產代理應用程式提供支援。
Together AI 為 Cursor (一個基於 AI 的智能體編碼平台)在 NVIDIA Blackwell 平台上 提供即時推理功能。 Cursor 的智能體可以調試問題、生成功能並執行重構,而開發人員則可以繼續工作。
DeepInfra 為 Pam.ai 提供技術支持, Pam.ai 是一個面向汽車經銷商的 AI 勞動力平台,它部署代理來預約服務、處理電話和開展外呼銷售活動,所有這一切都完全基於 NVIDIA Blackwell。
隨著 NVIDIA 和開源生態系統不斷優化推理軟體,智能體工作負載的效能和效率必將持續提升。 NVIDIA Vera Rubin 架構現已全面投入生產,帶來新一代基礎架構容量,以滿足大規模智慧體 AI 日益增長的需求。
