業界動態

DiffusionGemma：文字產生速度提升4倍

News 06/14/2026

我們最新的開放實驗模型在專用 GPU 上實現了高達 4 倍的推理速度提升，並為探索對速度要求極高的互動式本地工作流程打開了大門

今天，我們推出 DiffusionGemma，這是一個探索文本擴散的實驗性開放模型，它是一種速度極快的文本生成方法。該模型採用 Apache 2.0 授權發布，是一個 260 億個混合專家 (MoE) 模型，它突破了傳統自回歸大型語言模型 (LLM) 逐詞序處理的傳統方式。 DiffusionGemma 可以同時產生整個文字區塊，在 GPU 上實現高達 4 倍的文字產生速度提升。

DiffusionGemma 基於我們業界領先的 Gemma 4 系列的參數智慧和前沿的 Gemini Diffusion 研究成果，整合了一種旨在最大限度提高生成速度的新型擴散頭。雖然自回歸 Gemma 4 模型仍然是高品質生產輸出的標準，但 DiffusionGemma 專為探索對速度要求極高的互動式局部工作流程（例如內聯編輯、快速迭代和生成非線性文本結構）的研究人員和開發人員而設計。

為開發者釋放新的價值

開發者在建立即時互動式 AI 應用程式時，常常會遇到本地推理的延遲瓶頸。 DiffusionGemma 直接針對這些挑戰進行了最佳化，但也做出了一些關鍵的權衡：

　● 極速推理：透過將解碼瓶頸從記憶體頻寬轉移到運算，DiffusionGemma 在專用 GPU 上產生速度提升高達 4 倍的 token 輸出。（在單一 NVIDIA H100 上每秒 1000 多個 token，在 NVIDIA GeForce RTX 5090 上每秒 700 多個 token）。
　● 硬體佔用空間小： DiffusionGemma 作為一個總共 260 億個專家混合模型 (MoE) 運行，在推理過程中僅激活 38 億個參數，量化後可輕鬆適應高端專用消費級 GPU 的 18GB VRAM 限制。
　● 雙向注意力機制：在每次前向傳播過程中並行產生 256 個標記，使得每個標記都能關注其他所有標記。這為非線性領域（例如線上編輯、程式碼填充、氨基酸序列或數學圖）提供了顯著優勢。
　● 智能自糾錯：此模型迭代地改進自身的輸出，使其能夠一次評估整個文字區塊，從而即時修正錯誤。
　● 實驗狀態及生產建議：由於 DiffusionGemma 優先考慮速度和平行佈局生成，其整體輸出品質低於標準 Gemma 4。對於要求最高品質的應用，我們建議部署標準 Gemma 4。

你可以透過微調來提升 DiffusionGemma 在特定任務上的表現。在下面的例子中，Unsloth 對 DiffusionGemma 進行了微調，使其能夠玩數獨——自回歸模型在數獨任務上表現不佳，因為每個標記都依賴未來的標記。DiffusionGemma 的雙向注意力機制使得這項工作變得更加容易。

20260613 news google05 — ▲經過微調的 DiffusionGemma 求解數獨

為什麼文本傳播如此重要？

儘管人工智慧研究界多年來一直在探索基於擴散的文本生成技術，但將其應用於大型模型仍然是一個挑戰。 DiffusionGemma 透過改變模型使用硬體的方式，解決了這個難題。

■ 與傳統模型的權衡

大多數語言模型的工作方式就像打字機一樣，從左到右一次產生一個詞元。在雲端，這種方式效率很高，因為伺服器可以將成千上萬的用戶請求批量處理，從而分擔硬體負載。但是，當在本地為單一使用者運行時，這種逐字處理的方式會導致專用 GPU 或 TPU 的使用率不足——它們大部分時間都花在等待下一個「按鍵」上。

DiffusionGemma 扭轉了這種低效局面。它並非按順序預測單詞，而是同時產生一個包含 256 個詞元的完整段落。透過一次性將更大的工作量分配給電腦處理器，DiffusionGemma 可以充分發揮硬體的效能。它將模型推理從一台單次順序運行的打字機升級為一台能夠同時列印整段文字的大型印刷機。

▲Hugging Face 出品的 DiffusionGemma 文字轉 3D SVG 示範，逐步生成過程

這意味著 DiffusionGemma 的加速功能是為本地和低並發推理而設計的。在高 QPS 雲端服務中，自回歸模型可以有效地部署以充分利用運算資源，因此 DiffusionGemma 的平行解碼收益遞減，並可能導致更高的服務成本。在單一加速器上，對於中低批次大小，吞吐量優勢最為顯著。

■ 文本傳播的工作原理

與從靜態圖像開始並迭代地將其細化成清晰圖像的 AI 圖像生成器類似，DiffusionGemma 將這種方法應用於文字：

　1. 畫布：模型從一個包含隨機佔位標記的畫布開始。
　2. 迭代改進：該模型進行多次迭代，鎖定正確的標記，並將它們用作上下文線索來改進其餘部分。
　3. 最後潤飾：文字最終形成高品質的輸出。

由於模型可以在生成過程中處理整個段落，因此它解鎖了新的模型行為模式，例如完美地閉合複雜的 Markdown 格式或近乎即時地生成和渲染程式碼。

立即開始

　● 下載權重：立即在 Hugging Face 上存取實驗模型權重（根據寬鬆的 Apache 2.0 授權發布）。
　● 整合與學習：在我們的 DiffusionGemma 開發者指南中了解更多。或深入閱讀《DiffusionGemma 視覺化指南》，了解其底層機制。
　● 使用您喜愛的開發工具：利用 MLX、vLLM （ Red Hat 已支援整合）和 Hugging Face Transformers 高效地部署模型。為了方便快速實驗，我們發布了一個使用 Hackable Diffusion 的微調教程，Hackable Diffusion 是一個專為可組合性而設計的模組化 JAX 工具箱。您也可以探索使用 Unsloth 和 NVIDIA NeMo 進行微調。此外，對 llama.cpp 的官方支援即將推出。
　● 體驗優化性能：我們與 NVIDIA 合作，對其整個硬體堆疊進行最佳化，確保與消費級配置（針對 GeForce RTX 5090 和 4090 GPU 進行量化）以及企業級系統（採用先進 NVFP4 內核的 Hopper 和 Blackwell）的高效能相容，包括用於本地桌面部署的 NVIDIA DGXTX 和 AIX，以及 PROXTX 專對 NVFP4（4 位元浮點）的原生支援可加速運算吞吐量，使模型能夠以更快的速度運行，同時保持近乎無損的精確度。
　● 嘗試以下方法：在您的桌面專用 GPU 上運行，或透過 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在雲端運行。