小巧、快速且功能全面——Gemma 4將強大的推理、編碼和多模態AI直接帶到NVIDIA RTX PC、DGX Spark和邊緣設備
開放模式正在推動新一輪設備端人工智慧浪潮,將創新從雲端延伸到日常設備。隨著這些模型的進步,它們的價值越來越依賴對本地即時環境資訊的訪問,從而將有意義的洞察轉化為實際行動。
為了應對這種轉變,Google 最新推出的 Gemma 4 系列產品 推出了一系列小巧、快速且功能全面的型號,旨在有效地在各種設備上進行本地執行。
Google 和 NVIDIA 合作優化了 Gemma 4 以適配 NVIDIA GPU,從而在各種系統中實現高效性能——從資料中心部署到 NVIDIA RTX 驅動的 PC 和工作站,再到 NVIDIA DGX Spark 個人 AI 超級電腦和 NVIDIA Jetson Orin Nano 邊緣 AI 模組。

Gemma 4:針對NVIDIA GPU最佳化的緊湊型型號
Gemma 4 系列開放式模型的最新成員 —— 涵蓋 E2B、E4B、26B 和 31B 變體 —— 旨在實現從邊緣設備到高效能 GPU 的高效部署。

所有配置均使用 Q4_K_M 量化,BS = 1,ISL = 4096 和 OSL = 128,在 NVIDIA GeForce RTX 5090 和 Mac M3 Ultra 桌上型電腦上進行測量。令牌產生吞吐量使用 llama-bench 工具在 llama.cpp b7789 版本上進行測量。
新一代緊湊型機型支援多種任務,包括:
- ● 推理能力: 在解決複雜問題方面表現出色。
- ● 編碼: 為開發人員工作流程產生和偵錯程式碼。
- ● 代理: 原生支援結構化工具的使用(函數呼叫)。
- ● 視覺、視訊和音訊功能: 支援豐富的多模態交互,用於物件辨識、自動語音識別以及文件或視訊智慧分析。
- ● 交錯式多模態輸入: 在單一提示中以任意順序 混合文字和圖像。
- ● 多語言: 開箱即用支援 35 種以上語言,預訓練語言超過 140 種。
E2B 和 E4B 模型專為邊緣的超高效、低延遲推理而構建,可在包括 Jetson Nano 模組在內的許多設備上完全離線運行,延遲接近零。
26B 和 31B 模型專 為高效能推理和以開發者為中心的工作流程而設計,因此非常適合智慧體人工智慧。這些模型經過最佳化,可提供先進且易於使用的推理功能,並可在 NVIDIA RTX GPU 和 DGX Spark 上高效運行,從而為開發環境、編碼助理和智慧體驅動的工作流程提供支援。
隨著本地智慧 AI 的持續發展, OpenClaw 等應用程式 正在 RTX PC、工作站和 DGX Spark 上實現全天候 AI 助理。最新的 Gemma 4 型號相容於 OpenClaw,使用戶能夠建立功能強大的本地智能體,從個人文件、應用程式和工作流程中提取上下文信息,從而實現任務自動化。了解如何 在RTX GPU和DGX Spark上免費運行OpenClaw,或使用 DGX Spark OpenClaw操作手冊。
請查看 Google DeepMind 的公告,以了解有關 Gemma 4 系列最新成員的 更多資訊。
入門指南:RTX GPU和DGX Spark上的Gemma 4
NVIDIA 與 Ollama 和 llama.cpp 合作,為每款 Gemma 4 型號提供最佳的本地部署體驗。
要在本地使用 Gemma 4,使用者可以 下載 Ollama 來運行 Gemma 4 模型 ,或 安裝 llama.cpp 並將其與 Gemma 4 GGUF Hugging Face 檢查點配合使用。 此外, Unsloth 還提供首日支持,透過 Unsloth Studio 提供最佳化和量化的模型,以便有效率地進行本地微調和部署。 立即在 Unsloth Studio 中運行並 微調Gemma 4。
在 NVIDIA GPU 上運行 Gemma 4 系列等開源模型可實現最佳效能,因為 NVIDIA Tensor Core 可加速 AI 推理工作負載,從而為本地執行提供更高的吞吐量和更低的延遲。此外,CUDA 軟體堆疊確保了與主流框架和工具的廣泛相容性,使新模型能夠從一開始就有效運作。
這種組合使得像 Gemma 4 這樣的開放式模型能夠擴展到各種系統——從邊緣的 Jetson Orin Nano 到 RTX PC、工作站和 DGX Spark——而無需進行大量的優化。
ICYMI:RTX AI PC的最新更新
請關注 RTX AI Garage 部落格,了解 NVIDIA GTC 大會上發布的眾多智能體 AI 相關公告,例如面向本地智能體的新開放模型。這些模型包括 NVIDIA Nemotron 3 Nano 4B 和 Nemotron 3 Super 120B,以及針對 Qwen 3.5 和 Mistral Small 4 的最佳化。
NVIDIA 最近推出了 NVIDIA NemoClaw, 這是一個開源堆疊,它透過提高安全性和支援本機模型來優化 NVIDIA 裝置上的 OpenClaw 體驗。
Accomplish.ai 發布了 Accomplish FREE,這是其開源桌面 AI 代理的免費版本,內建多種模型。它利用 NVIDIA GPU 在本地運行開源權重模型,同時混合路由器可在本地 RTX 硬體和雲端之間動態平衡工作負載,從而實現快速、私密、零配置的執行,且無需應用程式介面金鑰 (API)。
本文作者:Michael Fukuyama
