從RTX到Spark：NVIDIA加速Gemma 4以實現本地智能體AI

News 04/03/2026

小巧、快速且功能全面——Gemma 4將強大的推理、編碼和多模態AI直接帶到NVIDIA RTX PC、DGX Spark和邊緣設備

開放模式正在推動新一輪設備端人工智慧浪潮，將創新從雲端延伸到日常設備。隨著這些模型的進步，它們的價值越來越依賴對本地即時環境資訊的訪問，從而將有意義的洞察轉化為實際行動。

為了應對這種轉變，Google 最新推出的 Gemma 4 系列產品推出了一系列小巧、快速且功能全面的型號，旨在有效地在各種設備上進行本地執行。

Google 和 NVIDIA 合作優化了 Gemma 4 以適配 NVIDIA GPU，從而在各種系統中實現高效性能——從資料中心部署到 NVIDIA RTX 驅動的 PC 和工作站，再到 NVIDIA DGX Spark 個人 AI 超級電腦和 NVIDIA Jetson Orin Nano 邊緣 AI 模組。

Gemma 4：針對NVIDIA GPU最佳化的緊湊型型號

Gemma 4 系列開放式模型的最新成員 —— 涵蓋 E2B、E4B、26B 和 31B 變體 —— 旨在實現從邊緣設備到高效能 GPU 的高效部署。

所有配置均使用 Q4_K_M 量化，BS = 1，ISL = 4096 和 OSL = 128，在 NVIDIA GeForce RTX 5090 和 Mac M3 Ultra 桌上型電腦上進行測量。令牌產生吞吐量使用 llama-bench 工具在 llama.cpp b7789 版本上進行測量。

新一代緊湊型機型支援多種任務，包括：

　● 推理能力： 在解決複雜問題方面表現出色。
　● 編碼： 為開發人員工作流程產生和偵錯程式碼。
　● 代理： 原生支援結構化工具的使用（函數呼叫）。
　● 視覺、視訊和音訊功能： 支援豐富的多模態交互，用於物件辨識、自動語音識別以及文件或視訊智慧分析。
　● 交錯式多模態輸入： 在單一提示中以任意順序混合文字和圖像。
　● 多語言： 開箱即用支援 35 種以上語言，預訓練語言超過 140 種。

E2B 和 E4B 模型專為邊緣的超高效、低延遲推理而構建，可在包括 Jetson Nano 模組在內的許多設備上完全離線運行，延遲接近零。

26B 和 31B 模型專為高效能推理和以開發者為中心的工作流程而設計，因此非常適合智慧體人工智慧。這些模型經過最佳化，可提供先進且易於使用的推理功能，並可在 NVIDIA RTX GPU 和 DGX Spark 上高效運行，從而為開發環境、編碼助理和智慧體驅動的工作流程提供支援。

隨著本地智慧 AI 的持續發展， OpenClaw 等應用程式正在 RTX PC、工作站和 DGX Spark 上實現全天候 AI 助理。最新的 Gemma 4 型號相容於 OpenClaw，使用戶能夠建立功能強大的本地智能體，從個人文件、應用程式和工作流程中提取上下文信息，從而實現任務自動化。了解如何在RTX GPU和DGX Spark上免費運行OpenClaw，或使用 DGX Spark OpenClaw操作手冊。

請查看 Google DeepMind 的公告，以了解有關 Gemma 4 系列最新成員的更多資訊。

入門指南：RTX GPU和DGX Spark上的Gemma 4

NVIDIA 與 Ollama 和 llama.cpp 合作，為每款 Gemma 4 型號提供最佳的本地部署體驗。

要在本地使用 Gemma 4，使用者可以下載 Ollama 來運行 Gemma 4 模型，或安裝 llama.cpp 並將其與 Gemma 4 GGUF Hugging Face 檢查點配合使用。此外， Unsloth 還提供首日支持，透過 Unsloth Studio 提供最佳化和量化的模型，以便有效率地進行本地微調和部署。立即在 Unsloth Studio 中運行並微調Gemma 4。

在 NVIDIA GPU 上運行 Gemma 4 系列等開源模型可實現最佳效能，因為 NVIDIA Tensor Core 可加速 AI 推理工作負載，從而為本地執行提供更高的吞吐量和更低的延遲。此外，CUDA 軟體堆疊確保了與主流框架和工具的廣泛相容性，使新模型能夠從一開始就有效運作。

這種組合使得像 Gemma 4 這樣的開放式模型能夠擴展到各種系統——從邊緣的 Jetson Orin Nano 到 RTX PC、工作站和 DGX Spark——而無需進行大量的優化。

ICYMI：RTX AI PC的最新更新

請關注 RTX AI Garage 部落格，了解 NVIDIA GTC 大會上發布的眾多智能體 AI 相關公告，例如面向本地智能體的新開放模型。這些模型包括 NVIDIA Nemotron 3 Nano 4B 和 Nemotron 3 Super 120B，以及針對 Qwen 3.5 和 Mistral Small 4 的最佳化。

NVIDIA 最近推出了 NVIDIA NemoClaw，這是一個開源堆疊，它透過提高安全性和支援本機模型來優化 NVIDIA 裝置上的 OpenClaw 體驗。

Accomplish.ai 發布了 Accomplish FREE，這是其開源桌面 AI 代理的免費版本，內建多種模型。它利用 NVIDIA GPU 在本地運行開源權重模型，同時混合路由器可在本地 RTX 硬體和雲端之間動態平衡工作負載，從而實現快速、私密、零配置的執行，且無需應用程式介面金鑰 (API)。

_{本文作者：Michael Fukuyama}