- ● NVIDIA Cosmos 3 是一款稱霸排行榜的全新開放式物理 AI 基礎模型,採用劃時代的 Mixture-of-Transformer 架構,專為物理 AI 推理、世界模擬及動作生成而設計。
- ● Cosmos 3 是全球首款完全開放的全模態模型,具備原生視覺推理能力,並能跨文字、影像、影片、環境聲音與動作進行多模態生成,可實現最先進的合成資料生成與物理 AI 策略模型開發。
- ● NVIDIA 與各大 AI 實驗室和機器人技術領導者,包括 Agile Robots、Black Forest Labs、Dyna Robotics、Generalist、LTX、Runway 與 Skild AI,共同打造 NVIDIA Cosmos 聯盟,致力推動下一代開放世界模型發展。

NVIDIA 今日發布 NVIDIA Cosmos™ 3,這是一款專為物理人工智慧(AI)打造的開放世界基礎模型,建構於劃時代的 Mixture-of-Transformer 架構之上,將視覺推理、世界生成與動作預測整合於單一系統。
Cosmos 3 是全球首款完全開放的全模態模型,能夠原生理解並生成文字、影像、影片、環境聲音與動作,並具備領先業界的物理精確度,將物理 AI 的訓練與評估週期從數月縮短至數天。
NVIDIA 同時推出 NVIDIA Cosmos 聯盟,這是一個由全球模型製造商與 AI 開發者組成的全球合作計畫,包括 Agile Robots、Black Forest Labs、Dyna Robotics、Generalist、LTX、Runway 與 Skild AI,合力推動下一代世界模型發展。
NVIDIA 創辦人暨執行長黃仁勳表示:「在多模態推理語言、視覺與世界模型的各項突破推動下,物理 AI 的『大爆炸』時代即將來臨。Cosmos 3 系列開放式前沿全模態模型,將使開發者在打造機器人、自駕車及視覺 AI 方面實現跨世代躍進,讓這些系統能在物理世界感知、推理、規劃並採取行動。」
物理AI的全新架構
Cosmos 3 解決了物理 AI 的根本性挑戰,那就是幫助機器人、自駕車(AV)或視覺代理,在訓練資料有限且模擬堆疊零散的情況下,仍能在真實世界舉一反三。
該模型採用 Mixture-of-Transformer 架構,以推理 Transformer 搭配專家生成 Transformer,讓 Cosmos 3 得以在生成影片和動作軌跡前,先理解物體互動、運動及時空關係。
這款模型運用目前規模最大的多模態物理 AI 資料集之一進行訓練,包括數十億筆文字、圖像、影片、聲音與動作軌跡樣本,為開發者提供強大的預訓練基礎,使其能以更少的資料和更低的訓練成本建構物理 AI 系統。
開發者可以下列方式使用 Cosmos 3:
Cosmos 3 模型在物理 AI 基準測試的成績名列前茅。所有開放模型中,其在衡量世界生成準確度的 Artificial Analysis、Physics-IQ、PAI-Bench 與 R-Bench、行動策略的 RoboLab 與 RoboArena,以及視覺理解的 VANTAGE-Bench 與 TAR 排行榜皆排名第一。
Cosmos 3 系列為開發者提供適用於物理 AI 開發不同階段的選擇:
- ● Cosmos 3 Super 適用於需要最高物理精確度與生成品質的機器人及自動駕駛模型後訓練階段。
- ● Cosmos 3 Nano 可在轉瞬之間完成高品質的影片與動作推理。
- ● 即將問世的 Cosmos 3 Edge 可在邊緣即時推論。
Cosmos聯盟加速開放式世界模型開發
Cosmos 聯盟是由世界模型製造商、AI 開發者與物理 AI 領導者組成的全球性合作組織,目標在各產業推動開放式世界模型發展。成員既能運用 Cosmos 3 技術、訓練工具與 NVIDIA DGX™ Cloud 基礎設施進行大規模訓練,亦可對模型、研究與評估技術貢獻一己之力。
聯盟創始成員包括 Agile Robots、Black Forest Labs、Dyna Robotics、Generalist、LTX、Runway 與 Skild AI。透過開放的方式開發,並在共享的生態系貢獻一己之力,該聯盟希望推動更快速的創新,以及物理 AI 領域更廣泛的互通性與加速進展。
開發者運用Cosmos
Cosmos 平台驅動 NVIDIA 的物理 AI 堆疊,加速各產業的訓練與評估工作流程。該平台現已新增涵蓋機器人、物理、人體動作、自動駕駛、倉儲安全與空間推理等領域的資料集,並推出用於神經場景重建、瑕疵影像生成與影片增強專用的全新物理 AI 代理技能。
各產業的物理 AI 開發者正採用 Cosmos 平台,包括專注機器人技術的 Agile Robots、斗山機器人、LG 電子、三星與 Skild AI;專注自駕車發展的理想汽車;以及專注視覺 AI 代理的 Centific、Fogsphere、鑫蘊林科、Milestone Systems 與聰泰科技,以驅動工業 AI 與智慧空間應用。
上市時程
Cosmos 3 Super 與 Cosmos 3 Nano 現已推出,而用於即時推論的 Cosmos 3 Edge 亦將問世。開發者可在 build.nvidia.com 試用 Cosmos 3、從 Hugging Face 下載開放式模型,並運用 Hugging Face Diffuser 與 GitHub 上的資源客製化模型並生成合成資料,然後以 NVIDIA NIM™ 微服務形式部署模型。
透過推論服務與雲端基礎設施合作夥伴,包括 Baseten、CoreWeave、Microsoft Azure、Nebius、Deep Infra 與 Classmethod,模型建置商與軟體供應商可在 GitHub 利用物理 AI 代理技能,加速存取、客製化及部署 Cosmos,以處理關鍵推理與合成資料生成工作負載。
觀看黃仁勳的主題演講,並在 NVIDIA GTC Taipei 了解更多細節,也歡迎進一步探索物理 AI 的主題講座。
