加速Gemma 4：利用Multi-Token Prediction (MTP) drafters實現更快的推理

News 05/05/2026

透過使用 Multi-Token Prediction (MTP) 產生器，Gemma 4 模型減少了延遲瓶頸，並為開發人員實現了更高的反應速度。

就在幾週前，我們推出了迄今為止功能最強大的開放式 Gemma 4。短短幾週內，Gemma 4 的下載量就超過了 6,000 萬次，為開發者工作站、行動裝置和雲端帶來了前所未有的參數級智慧。今天，我們將效率提升到一個新的高度。

我們發布了適用於 Gemma 4 系列的 Multi-Token Prediction (MTP) 代碼草稿器。這些程式碼草稿器採用專門的推測性解碼架構，可在不降低輸出品質或推理邏輯的前提下，實現高達 3 倍的速度提升。

20260505 news gemma402 — ▲每秒令牌數的速度有所提高，並已在採用 LiteRT-LM、MLX、Hugging Face Transformers 和 vLLM 的硬體上進行了測試

為什麼採用推測性解碼？

技術上的現實是，標準的 LLM 推理受限於記憶體頻寬，從而造成嚴重的延遲瓶頸。處理器的大部分時間都花在將數十億個參數從顯存（VRAM）傳輸到運算單元，而這只是為了產生一個 Token Prediction。這會導致運算資源利用率不足和高延遲，尤其是在消費級硬體上。

推測性解碼將 Token Prediction 產生與驗證解耦。透過將一個複雜的目標模型（例如 Gemma 4 31B）與一個輕量級的產生器（MTP 模型）配對，我們可以利用閒置的計算資源，讓產生器同時「預測」多個未來的令牌，其耗時甚至比目標模型處理單一 Token Prediction 所需的時間還要短。然後，目標模型並行驗證所有這些預測的 Token Prediction。

推測性解碼的工作原理

標準的大型語言模型採用自回歸的方式產生文本，每次只產生一個詞元。雖然這種方法有效，但它在預測顯而易見的後續內容（例如預測「行動勝於雄辯…」之後的「詞語」）和解決複雜的邏輯難題時，所消耗的計算量幾乎相同。

MTP 透過推測性解碼來緩解這種效率低下的問題。推測性解碼是 Google 研究人員在《透過推測性解碼從 Transformer 中快速推理》一文中提出的技術。如果目標模型認同草稿，它會在一次前向傳播中接受整個序列，甚至在過程中產生額外的標記。這意味著您的應用程式可以在通常產生一個標記所需的時間內，輸出完整的草稿序列以及一個額外的標記。

從邊緣到工作站，解鎖更快速的人工智慧

對於開發者而言，推理速度通常是生產部署的主要瓶頸。無論您是建立編碼助理、需要快速多步驟規劃的自主代理，還是完全在設備端運行的響應式行動應用程序，每一毫秒都至關重要。

透過將 Gemma 4 模型與其對應的繪圖軟體搭配使用，開發人員可以實現以下目標：

　● 提高回應速度：大幅降低近即時聊天、沉浸式語音應用和代理工作流程的延遲。
　● 超強本地開發：在個人電腦和消費級 GPU 上以空前的速度運行我們的 260 億 MoE 和 310 億 Dense 模型，從而實現無縫、複雜的離線編碼和代理工作流程。
　● 增強設備端性能：透過更快產生輸出，最大限度地發揮 E2B 和 E4B 型號在邊緣設備上的效用，從而節省寶貴的電池壽命。
　● 品質零下降：由於主要的 Gemma 4 模型保留了最終驗證，因此您可以獲得相同的前沿推理和準確性，只是交付速度快得多。

▲在 NVIDIA RTX PRO 6000顯示卡上使用Gemma 4 26B進行測試。左圖為標準推理，右圖為MTP Drafter，單位為每秒令牌數。輸出品質相同，等待時間縮短一半

您可以在這裡深入了解MTP製圖程序

為了讓這些 MTP 草圖產生器擁有極高的速度和準確性，我們在底層引入了多項架構改進。草圖模型能夠無縫利用目標模型的啟動值並共享其鍵值緩存，這意味著它們無需浪費時間重新計算大型模型已經識別的上下文。對於我們的 E2B 和 E4B 邊緣模型，由於最終的 logit 運算成為效能瓶頸，我們甚至在嵌入器中實現了一種高效的聚類技術，以進一步加速生成過程。

我們也一直在密切分析針對特定硬體的最佳化。例如，雖然在 Apple Silicon 上，26B 混合專家模型在批次大小為 1 時會帶來獨特的路由挑戰，但同時處理多個請求（例如，批次大小為 4 到 8）可以在本地實現高達約 2.2 倍的速度提升。我們在 Nvidia A100 上也觀察到了類似的效能提升，即增加批次大小。

想了解其具體運作原理嗎？我們發布了一篇深入的技術說明文章，詳細解讀了這些繪圖器背後的視覺化架構、KV 快取共享和高效嵌入器。

如何開始

適用於 Gemma 4 系列的 MTP 模型產生器現已發布，採用與 Gemma 4 相同的開源 Apache 2.0 授權。請閱讀文檔，以了解如何將 MTP 與 Gemma 4 結合使用。現在您即可在 Hugging Face 和 Kaggle 上下載模型權重，並開始嘗試使用 Transformer、MLX、VLLM 、SGLang 和 Ollama 進行更快的推理，或者直接在適用於 Android 或 iOS 的 Google AI Edge Gallery 上進行嘗試。

我們迫不及待地想看看這種新獲得的速度將如何加速你在 Gemmaverse 中的下一個創作。

_{(本文為 Google 英文新聞稿翻譯)}