NVIDIA加速Gemma 4在RTX PC與DGX Spark的地端部署，推進代理AI應用

News 04/08/2026

Gemma 4小巧、快速、全能多模態能力，可將強大的推理、程式開發與多模態AI直接帶到NVIDIA RTX PC、DGX Spark與邊緣裝置

開放模型正推動新一波裝置端 AI 浪潮，將創新從雲端延伸至日常裝置。隨著模型持續進化，其價值愈發取決於是否能存取地端即時脈絡資訊，將有意義的洞察轉化為可執行的行動。

為因應趨勢，Google 的 Gemma 4 家族系列加入全新模型，主打「小巧、快速、全能多模態（omni-capable）」，可在多種裝置上高效率地端運行。

Google 也與 NVIDIA 合作，將 Gemma 4 針對 NVIDIA GPU 進行最佳化，讓其可在多種系統上發揮高效能，涵蓋範圍包括資料中心部署、搭載 NVIDIA RTX 的 PC 與工作站、NVIDIA DGX Spark 個人 AI 超級電腦，以及 NVIDIA Jetson Orin Nano 邊緣 AI 模組。

20260408 news nvidia01 — ▲NVIDIA 宣布與 Google 合作，針對全新 Gemma 4 開放模型進行最佳化，讓其可在 NVIDIA AI 基礎架構上高效率執行

Gemma 4：為NVIDIA GPU最佳化的精巧模型

Gemma 4 開放模型家族的最新成員包含 E2B、E4B、26B 和 31B 等版本，專為從邊緣裝置到高效能 GPU 的高效率部署而設計。

20260408 news nvidia02 — ▲所有配置均採用 Q4_K_M 量化、BS = 1、ISL = 4096 和 OSL = 128，在 NVIDIA GeForce RTX 5090 與 Mac M3 Ultra 桌上型電腦進行測試。Token 生成吞吐量數據是以 llama.cpp b7789 為基礎，並使用 llama-bench 工具測得

新一代精巧模型可支援多種任務，包括：

　● 推理：在複雜問題解題任務中展示出色表現。
　● 程式開發：面向開發者工作流程的程式碼生成與除錯。
　● 代理：原生支援結構化工具使用（function calling）。
　● 視覺、影片和音訊能力：支援物件辨識、自動語音辨識，以及文件或影片理解等多模態互動。
　● 交錯式多模態輸入：可在單一指令中，以任意順序混合文字與影像。
　● 多語言：開箱即用，支援超過 35 種語言，並已在超過 140 種語言上進行預先訓練。

E2B 和 E4B 模型專為超高效率、低延遲的邊緣推理打造，可在包括 Jetson Nano 模組在內的多種裝置上，以接近零延遲的方式完全離線執行。26B 和 31B 模型則專為高效能推理與以開發者為中心的工作流程設計，非常適合代理 AI 任務。該批模型已針對 NVIDIA RTX GPU 和 DGX Spark 完成高效率運行準備，可用於驅動開發環境、程式助理及代理驅動的工作流程。

隨著地端代理 AI 持續升溫，OpenClaw 等應用使得 RTX PC、工作站和 DGX Spark 上「隨時待命」的 AI 助理成為現實。最新的 Gemma 4 模型也相容於 OpenClaw，讓使用者能建構從個人檔案、應用程式與工作流程中擷取脈絡的地端智慧代理，以實現任務自動化。

查看頁面了解如何在 RTX GPU 和 DGX Spark 上免費運行 OpenClaw，或查看 DGX Spark OpenClaw playbook。如欲了解 Gemma 4 家族最新成員的更多資訊，請參閱 Google DeepMind 公告部落格。

如何開始？在RTX GPU和DGX Spark上運行Gemma 4

NVIDIA 亦與 Ollama 和 llama.cpp 合作，為各款 Gemma 4 模型提供更完善的地端部署體驗。若要在地端使用 Gemma 4，用戶可以下載 Ollama 來運行 Gemma 4 模型，或安裝 llama.cpp，並搭配 Gemma 4 的 GGUF Hugging Face checkpoint 使用。此外，Unsloth 也同步支援，透過 Unsloth Studio 提供已最佳化與量化的模型，實現高效率的地端微調與部署。現在即可在 Unsloth Studio 中執行及微調 Gemma 4。

在 NVIDIA GPU 上運行 Gemma 4 系列等開放模型可獲得更理想的效能表現。NVIDIA Tensor Core 可加速 AI 推論工作負載，進而為地端運行提供更高吞吐量和更低延遲。同時 CUDA 軟體堆疊可確保與主流框架及工具廣泛相容，讓模型自發佈首日起即可高效率執行。

這樣的組合讓 Gemma 4 等開放模型可在多種系統上擴展部署，涵蓋範圍從邊緣端的 Jetson Orin Nano 到 RTX PC、工作站和 DGX Spark，都能在不需大量額外最佳化的情況下運行。

請參閱 NVIDIA 技術部落格，了解如何在 NVIDIA GPU 上開始使用 Gemma 4 的更多細節，並進一步認識 NVIDIA 在開放模型領域的相關工作。

NVIDIA RTX AI PC的最新進展

請參閱 RTX AI Garage 部落格，了解 NVIDIA GTC 期間發布的一系列代理 AI 更新，包括適用於地端智慧代理的全新開放模型：NVIDIA Nemotron 3 Nano 4B、Nemotron 3 Super 120B，以及針對 Qwen 3.5 和 Mistral Small 4 的最佳化版本。

NVIDIA 近期也推出了 NVIDIA NemoClaw 開源技術堆疊，可透過提升安全性並支援地端模型，最佳化 NVIDIA 裝置上的 OpenClaw 體驗。

Accomplish.ai 宣布推出 Accomplish FREE 免費版本開源桌面 AI 代理，其內建模型可直接使用。利用 NVIDIA GPU 在地端執行開放權重模型，並透過混合路由器在本地 RTX 硬體與雲端之間動態平衡工作負載，無需 API Key 即可實現快速、私密、零設定的使用體驗。

歡迎透過 Facebook、Instagram、TikTok 與 X 關注 NVIDIA AI PC，並訂閱 RTX AI PC 電子報掌握最新資訊。也歡迎在 LinkedIn 與 X 上追蹤 NVIDIA Workstation。