Google新推出的開放式語言模型在TensorRT-LLM的加速下,可在包括本地端RTX AI PC等NVIDIA AI平台上高速運行
NVIDIA 與 Google 合作本週推出了在所有 NVIDIA AI 平台上適用於 Gemma 模型的最佳化功能。Gemma 是 Google 最先進的新款輕量級開放式語言模型,擁有 20 億個和 70 億個參數,並可在任何地方運行,不僅可以降低成本,也能加快在特定領域使用場景上的創新。

NVIDIA 與 Google 雙方團隊進行密切合作,透過適用於最佳化大型語言模型推論作業的開源函式庫 NVIDIA TensorRT-LLM,在資料中心或雲端環境運行的 NVIDIA GPU,以及搭載 NVIDIA RTX GPU 的 PC 上,加速了 Gemma 的運行效能。值得一提的是,Gemma 使用與開發 Gemini 模型相同的研究成果和技術。
如此一來,開發者便能鎖定全球高效能 AI PC 上可用的超過一億顆 NVIDIA RTX GPU 的安裝基礎進行開發。
開發者還能以雲端環境裡的 NVIDIA GPU 運行 Gemma 模型,包括在搭載 H100 Tensor 核心 GPU 的 Google Cloud A3 實體上運行,以及 Google 未來將引入的 NVIDIA H200 Tensor 核心 GPU,該 GPU 擁有 141GB HBM3e 記憶體,每秒執行速度為 4.8 TB。
企業開發人員也可以運用 NVIDIA 豐富的工具生態系統來微調 Gemma,包括配備 NeMo 框架和 TensorRT-LLM 的 NVIDIA AI Enterprise,並且在其生產應用程式中部署經過最佳化調整的模型。
深入了解 TensorRT-LLM 如何加快 Gemma 的推論速度,以及更多提供給開發人員的資訊。這包括 Gemma 的多個模型檢查點及模型的 FP8 量化版本,全都使用 TensorRT-LLM 完成最佳化調整。
敬請使用網頁瀏覽器開啟 NVIDIA AI Playground,便能直接體驗 Gemma 2B 及 Gemma 7B 的強大威力。
Chat With RTX即將支援Gemma
Chat with RTX 是一項使用檢索增強生成和 NVIDIA TensorRT-LLM 軟體的 NVIDIA 技術展示內容,讓用戶在自己本地端有搭載 RTX 支援的 Windows PC 上就可以使用生成式人工智慧(AI)功能。這項工具也將加入支援 Gemma。
Chat with RTX 讓用戶可以輕鬆將 PC 上的本機端檔案連接到大型語言模型,使用自己的資料打造個人專屬的聊天機器人。
由於模型以本機端的方式運行,可以快速提供運行結果,並能夠讓使用者資料留在裝置上。Chat with RTX 與依賴雲端環境的 LLM 服務不同,讓用戶可以在本地端的 PC 上處理敏感資料,無需將資料分享給第三方或是連接到網路。