共同建構強化學習基礎設施,解鎖更高層次的智慧
強化學習智能體——透過反覆試驗進行學習的人工智慧系統——可以將運算結果轉化為新知識。
這是英偉達 (NVIDIA) 與 Ineffable Intelligence 之間新的工程級合作的重點。 Ineffable Intelligence 是一家位於倫敦的人工智慧實驗室,由 AlphaGo 架構師 David Silver 創立,該公司於上周正式對外公佈。
英偉達創辦人兼執行長黃仁勳表示:「人工智慧的下一個前沿領域是超級學習者——能夠持續從經驗中學習的系統。我們很高興能與 Ineffable Intelligence 合作,共同設計大規模強化學習的基礎設施,助力他們拓展人工智慧的邊界,開創新一代智慧系統。”
Silver 是強化學習的先驅之一,強化學習此方法徹底改變了人工智慧研究。他致力於將這種方法進一步發展成為一種新的範式。
「研究人員已經基本解決了人工智慧中比較容易解決的問題:如何建立一個能夠掌握人類已知一切知識的系統,」西爾弗說。 “但現在我們需要解決人工智慧中更難的問題:如何建立能夠自主發現新知識的系統。這需要一種截然不同的方法——建立能夠從經驗中學習的系統。”
這種學習方式需要強大且高度優化的流程來支援。與預訓練(系統中會運行固定的人類資料資料集)不同,強化學習工作負荷會動態產生資料。
該系統必須在緊密的 循環中持續進行行動、觀察、評分和更新,這對互連、記憶體頻寬和服務能力提出了預訓練所不具備的壓力。此外,該系統將基於與人類語言和其他人類資料截然不同的豐富經驗進行訓練,這可能需要全新的模型架構和訓練演算法。
這就是 NVIDIA 和 Ineffable 目前技術工作的重點:建構一個能夠大規模為強化學習系統提供訓練資料的管道。兩家公司的工程師已經攜手合作,探索建立這項訓練管道的最佳方案。
這項工作在 NVIDIA Grace Blackwell 平台上啟動,並將成為第一批探索即將推出的 NVIDIA Vera Rubin 平台的計畫之一。其目標是了解隨著人工智慧領域從依賴人類數據轉向透過模擬和經驗學習的模型,下一代硬體和軟體將如何發展。
完善這項基礎設施將釋放前所未有的強化學習規模,使其能夠在高度複雜和豐富的環境中發揮作用,使智能體能夠在所有知識領域取得突破性進展。

