NVIDIA發表用於語音、安全與自動駕駛的全新 AI 工具,包括全球首款產業級的開放式推理視覺語言動作模型NVIDIA DRIVE Alpamayo-R1,全新獨立基準測試亦認可NVIDIA Nemotron模型與資料集的開放性與透明度
全球研究人員皆仰賴開源技術作為其工作基礎。為了讓該社群具備最新的數位和物理人工智慧(AI)能力,NVIDIA 正持續擴展其開放式 AI 模型、資料集和工具庫組合,而這些資源可應用於幾近所有研究領域。
在世界頂尖 AI 會議之一的 NeurIPS 上,NVIDIA 發布開放式的物理 AI 模型和工具來支援相關研究,其中包括全球首款專為自動駕駛設計的產業級開放式推理視覺語言動作(VLA)模型 Alpamayo-R1。在數位 AI 領域,NVIDIA 也將同步釋出用於語音與 AI 安全的全新模型及資料集。
NVIDIA 研究人員將在本次大會上發表超過 70 篇論文、舉辦演講和研討會,分享涵蓋 AI 推理、醫學研究、自駕車(AV)開發等領域的創新專案。
這些計畫深化了 NVIDIA 對開源的承諾,同時更獲得 AI 基準測試機構 Artificial Analysis最新發布的Openness Index 認可。該指數根據模型授權的合法性、資料透明度和技術細節的可用性,將 NVIDIA Nemotron 系列用於頂尖 AI 開發的開放技術,評為 AI 生態系中最開放的技術之一。

NVIDIA DRIVE Alpamayo-R1開啟自動駕駛研究新篇章
NVIDIA DRIVE Alpamayo-R1(AR1)是全球首款用於自動駕駛研究的開放式推理視覺語言動作(VLA)模型,該模型將思維鏈(chain-of-thought)AI推理與路徑規劃相結合。路徑規劃是提升自駕車在複雜道路場景中的安全性,並實現 Level 4自動駕駛的關鍵要素。
以往的自動駕駛模型在處理行人密集的十字路口、即將出現的封閉車道或自行車道上的併排停車等複雜場景時,經常面臨困境。推理技術賦予自駕車類似於人類駕駛的常識判斷能力。
AR1 透過分解場景並逐步進行推理來實現這一點,透過評估所有場景發展可能,再運用情境資料選擇最佳路線。
舉例而言,透過 AR1 實現的思維鏈推理,自駕車行經行人密集區且鄰近自行車道時,車輛得以即時整合路徑資料、納入推理軌跡作為採取特定行動的決策依據,進而規劃後續路徑,例如遠離自行車道或為可能違規穿越馬路的行人預作停車準備。
基於 NVIDIA Cosmos Reason 的 AR1 開放型基礎,讓研究人員可以根據自身的非商業用途客製化模型,無論是用於基準測試,或是建立實驗性的自動駕駛應用。
對於後訓練的 AR1,強化學習已被證明特別有效。研究人員觀察到,與預訓練模型相比,AR1 的推理能力顯著提升。
NVIDIA DRIVE Alpamayo-R1 模型將發布於 GitHub 與 Hugging Face,其用於訓練和評估該模型的資料子集亦發布於 NVIDIA Physical AI Open Dataset。NVIDIA 也發布開源的 AlpaSim框架,用於評估 AR1。
了解更多用於自動駕駛的推理視覺語言動作模型相關資訊。
為任何物理AI應用場景客製化NVIDIA Cosmos
開發人員可以透過 Cosmos Cookbook 中提供的逐步教學、快速入門推論範例和進階後訓練工作流程,學習如何使用基於 Cosmos 的模型並進行後訓練。這份指南專為物理 AI 開發人員打造,涵蓋 AI 開發的每個環節,包括資料整理、合成資料生成與模型評估。
基於 Cosmos 的應用將擁有無限的可能性。NVIDIA 的最新應用範例包括:
● LidarGen,全球首個能夠為自動駕駛(AV)模擬產生光學雷達資料的世界模型。
● Omniverse NuRec Fixer,用於自動駕駛和機器人模擬的模型,該模型透過 NVIDIA Cosmos Predict 近乎即時地修正神經重建資料中的瑕疵,例如來自新視角或雜訊資料的模糊和缺損。
● Cosmos Policy,一個將大型預訓練影片模型轉換為健全機器人策略(policy)的框架。此策略是一組用於規範機器人行為的規則。
● ProtoMotions3,基於 NVIDIA Newton 和 Isaac Lab 打造的開源、GPU 加速框架,用於訓練物理模擬的數位人類和人形機器人,其訓練的逼真場景由 Cosmos 世界基礎模型(WFM)生成。

策略模型可以在 NVIDIA Isaac Lab 與 Isaac Sim 中進行訓練,而從策略模型生成的資料能夠進一步用於對 NVIDIA GR00T N 機器人模型進行後訓練。

NVIDIA 生態系合作夥伴正運用 Cosmos 世界基礎模型開發最新技術。
自駕車開發商 Voxel51 正為 Cosmos Cookbook 貢獻模型配方。物理 AI 開發商 1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI 和 X-Humanoid 皆運用世界基礎模型開發最新物理 AI 應用。此外,蘇黎世聯邦理工學院(ETH Zurich)的研究人員也將在NeurIPS大會上發表一篇論文,重點介紹如何使用 Cosmos 模型創建逼真且連貫的 3D 場景。
NVIDIA Nemotron新增功能強化數位AI開發人員工具組
NVIDIA 同時推出多重發言者語音AI模型、具備推理能力及 AI 安全資料集的新模型,以及用於生成高品質合成資料集,來強化學習和特定領域模型客製化的開放工具。這些工具包括:
● MultiTalker Parakeet:用於串流音訊的自動語音辨識模型,即使在對話重疊或語速很快的情況下,也能理解多位發言者。
● Sortformer:能夠即時準確地區分音訊串流中多個說話者,亦稱為自動分段標記(diarization)的先進模型。
● Nemotron Content Safety Reasoning:基於推理的 AI 安全模型,可在跨領域動態執行客製化策略。
● Nemotron Content Safety Audio Dataset:用於訓練模型以偵測不安全音訊內容的合成資料集,實現跨文字和音訊模態的安全防護機制開發。
● NeMo Gym:一個開源函式庫,可加速並簡化為大型語言模型訓練開發的強化學習環境。NeMo Gym 同時收錄日益擴展的即用型訓練環境集合,以支援基於可驗證獎勵的強化學習(RLVR)。
● NeMo Data Designer Library:該函式庫現已採用 Apache 2.0 授權開源,並提供端到端解決方案,用於生成、驗證及最佳化生成式 AI 所需的高品質合成資料集,包含特定領域的模型客製化與評估。
CrowdStrike、Palantir 和 ServiceNow 等 NVIDIA 生態系合作夥伴正在使用 NVIDIA Nemotron 和 NeMo 工具建立安全、專業的代理型 AI。
NeurIPS 大會的與會者可於美西時間 12 月 1 日下午 4 點至 8 點舉行的 Nemotron Summit 上探索這些創新成果,NVIDIA 深度學習應用研究副總裁 Bryan Catanzaro 將發表開幕演說。
NVIDIA研究團隊推動語言AI創新
NVIDIA在NeurIPS大會上發表了數十篇研究論文,以下為幾篇聚焦語言模型發展的亮點成果:
● Audio Flamingo 3: Advancing Audio Intelligence With Fully Open Large Audio Language Models:這款大型音訊語言模型能夠對語音、聲音和音樂進行推理。它可以理解和推理長達 10 分鐘的音訊片段,並在 20 多個基準測試中取得最先進的結果。
● Minitron-SSM: Efficient Hybrid Language Model Compression Through Group-Aware SSM Pruning:該研究介紹一種能壓縮混合模型的剪枝方法,透過剪枝與蒸餾將 Nemotron-H 8B 模型參數由 80 億壓縮至 40 億。最終產出模型的準確率不僅超越同等規模的模型,同時推理輸送量速度也提高至 2 倍。
● Jet-Nemotron: Efficient Language Model With Post Neural Architecture Search:這項研究提出一套高成本效益的後訓練流程,用於開發新型高效語言模型架構,並介紹利用該流程生成的混合架構模型系列。這些模型在實現生成輸送量顯著提高的同時,其準確率與頂尖的全注意力基線(full-attention baseline)模型相當,甚至更高。
● Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models:本專案提出全新的小型語言模型(SLM)架構,以實際應用中的延遲而非參數數量為核心進行重新設計,實現頂尖的速度與準確率。
● ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models:長時間強化學習(ProRL)是延長模型訓練時間周期的技術。在 NeurIPS 大會發表的研究成果中,NVIDIA 研究人員闡述此方法如何使模型在推理能力上始終超越基礎模型。
查看NeurIPS的完整活動列表,大會將於美國聖地牙哥舉行至 12 月 7 日(星期日)。
