共綻光芒：經最佳化調整後的Google Gemma模型可在NVIDIA GPU上運行

News 02/23/2024

Google新推出的開放式語言模型在TensorRT-LLM的加速下，可在包括本地端RTX AI PC等NVIDIA AI平台上高速運行

NVIDIA 與 Google 合作本週推出了在所有 NVIDIA AI 平台上適用於 Gemma 模型的最佳化功能。Gemma 是 Google 最先進的新款輕量級開放式語言模型，擁有 20 億個和 70 億個參數，並可在任何地方運行，不僅可以降低成本，也能加快在特定領域使用場景上的創新。

NVIDIA 與 Google 雙方團隊進行密切合作，透過適用於最佳化大型語言模型推論作業的開源函式庫 NVIDIA TensorRT-LLM，在資料中心或雲端環境運行的 NVIDIA GPU，以及搭載 NVIDIA RTX GPU 的 PC 上，加速了 Gemma 的運行效能。值得一提的是，Gemma 使用與開發 Gemini 模型相同的研究成果和技術。

如此一來，開發者便能鎖定全球高效能 AI PC 上可用的超過一億顆 NVIDIA RTX GPU 的安裝基礎進行開發。

開發者還能以雲端環境裡的 NVIDIA GPU 運行 Gemma 模型，包括在搭載 H100 Tensor 核心 GPU 的 Google Cloud A3 實體上運行，以及 Google 未來將引入的 NVIDIA H200 Tensor 核心 GPU，該 GPU 擁有 141GB HBM3e 記憶體，每秒執行速度為 4.8 TB。

企業開發人員也可以運用 NVIDIA 豐富的工具生態系統來微調 Gemma，包括配備 NeMo 框架和 TensorRT-LLM 的 NVIDIA AI Enterprise，並且在其生產應用程式中部署經過最佳化調整的模型。

深入了解 TensorRT-LLM 如何加快 Gemma 的推論速度，以及更多提供給開發人員的資訊。這包括 Gemma 的多個模型檢查點及模型的 FP8 量化版本，全都使用 TensorRT-LLM 完成最佳化調整。

敬請使用網頁瀏覽器開啟 NVIDIA AI Playground，便能直接體驗 Gemma 2B 及 Gemma 7B 的強大威力。