DiffusionGemma 发布:Google 开源文本扩散模型,单 GPU 推理速度提升 4 倍
2026 年 6 月 10 日,Google 发布了 DiffusionGemma,一款实验性的开源文本扩散模型。与传统的自回归 LLM 逐 token 顺序生成不同,DiffusionGemma 采用并行文本块生成方式,在单 GPU 上实现了最高 4 倍推理加速——在 H100 上达到 1000+ tokens/秒,在 RTX 5090 上达到 700+ tokens/秒。
这不是一次简单的模型更新。DiffusionGemma 代表了一种基础架构路线的转变:从「逐词打字」的自回归范式,转向「整段印刷」的并行生成范式。本文带你看懂它的原理、性能表现和适用场景。
一、关键性能数据一览
| 指标 | DiffusionGemma | 说明 |
|---|---|---|
| 模型规模 | 26B MoE(3.8B 激活参数) | 推理时仅激活 3.8B 参数 |
| 推理速度 | 1000+ tok/s (H100) / 700+ (RTX 5090) | 相比同规模自回归模型快 4 倍 |
| 显存需求 | ~18GB(量化后) | 消费级 GPU 可运行 |
| 单次并行量 | 256 tokens | 每次前向传播生成一整块 |
| 注意力机制 | 双向注意力 | 每个 token 可见所有其他 token |
| 许可证 | Apache 2.0 | 完全开源 |
| 发布渠道 | Hugging Face | 立即下载 |
二、文本扩散的工作原理
传统 LLM 的工作方式像打字员——从左到右逐词生成,每个词只能依赖它之前的词。这种顺序依赖在云端批量处理时效率很高(因为可以并行处理数千个请求),但在本地单用户场景下,GPU 大部分时间都处于等待状态。
DiffusionGemma 改变了这一模式。它的生成过程分为三步:
- 初始化:模型从一张「随机占位符」的画布开始,填充 256 个随机 token
- 迭代精炼:模型多次「扫过」整段文本,逐步锁定正确的 token,已确认的 token 作为上下文线索帮助精炼剩余部分
- 收敛:经过多轮迭代,文本从模糊的「静态噪点」收敛为清晰的高质量输出
Google 在博客中做了一个形象类比:「自回归模型是打字机,DiffusionGemma 是印刷机——它一整块一整块地印出文本,而不是逐字敲击。」
双向注意力的独特优势
因为模型可以同时看到整段文本的所有 token,DiffusionGemma 在某些任务上具有天然优势:
- 代码补全 / 行内编辑:需要理解前后文关系,双向注意力天然适配
- 复杂 Markdown 格式生成:可以完美闭合标签和嵌套结构
- 非线性的结构化输出:如氨基酸序列、数学图、SVG 生成
Hugging Face 团队还演示了一个有趣的例子:使用 DiffusionGemma 生成 SVG 格式的 3D 图形,每次迭代从模糊到清晰,直观展示了文本扩散的过程。
三、上手使用
DiffusionGemma 的模型权重已发布在 Hugging Face,采用 Apache 2.0 许可证:
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("google/diffusion-gemma-26b")
tokenizer = AutoTokenizer.from_pretrained("google/diffusion-gemma-26b")
Google 提供了基于 JAX + Kauldron 的微调教程,适合想做领域适配的开发者。比如在博客演示中,他们通过微调让 DiffusionGemma 学会了玩数独(Sudoku)——这是一个自回归模型天然不擅长的任务,因为每个数字的决策依赖于后续位置的值,而双向注意力恰好能解决这个问题。
对于推理部署,官方确认 llama.cpp 的支持即将到来,届时可以在 llama.cpp 生态中直接使用 DiffusionGemma,配合 GGUF 量化在更多消费级硬件上运行。
NVIDIA 方面也提供了硬件级优化:Hopper 和 Blackwell 架构通过 NVFP4(4-bit 浮点) 内核加速推理,在 DGX Spark 和 DGX Station 上可获得接近无损的量化性能。
推荐部署场景
| 场景 | 适用模型 | 理由 |
|---|---|---|
| 生产级文本生成 | Gemma 4(标准) | 输出质量最高 |
| 实时行内编辑 / 代码补全 | DiffusionGemma | 低延迟 + 双向注意力 |
| 结构化输出(SVG / 序列) | DiffusionGemma | 非线性生成优势 |
| 高并发云端服务 | Gemma 4(标准) | 批处理效率更高 |
| 本地单用户实验 | DiffusionGemma | 充分利用单 GPU |
四、重要局限与注意事项
DiffusionGemma 是实验性模型,而非 Gemma 4 的替代品。Google 明确指出了几个关键限制:
- 质量不如自回归模型:由于优先考虑速度,输出质量低于标准 Gemma 4。追求最高质量的场景应使用标准 Gemma 4
- 云端优势不显著:在高 QPS 云端部署中,自回归模型可以通过请求批处理充分利用硬件,DiffusionGemma 的并行解码优势降低,甚至可能增加服务成本
- Apple Silicon 可能不适用:加速依赖于 GPU 的计算密集度。Apple Silicon 的统一内存架构在推理时受内存带宽限制而非计算限制,可能看不到同样的加速效果
- 需要微调才能发挥潜力:默认模型的特定任务能力有限,需要通过领域微调来释放其并行生成的优势
五、行业影响展望
DiffusionGemma 的价值不在于替代现有的自回归模型,而在于开辟了一个新的技术方向。HN 社区对此反响热烈(327 点,88 条评论),许多开发者认为这是未来本地推理的重要方向。
对于 AI Agent 开发者来说,DiffusionGemma 最重要的启示是:本地推理的瓶颈正在从「能不能跑」转向「跑得快不快」。当单 GPU 可以做到 1000+ tok/s 时,许多之前因延迟过高而无法落地的实时交互场景(如行内补全、实时代码审查、交互式编辑)将变得可行。
Google 在博客中引用了 Jevons 悖论:更高的效率往往带来更多的使用。DiffusionGemma 让本地推理变得更便宜、更快,这可能会加速 AI Agent 从云端 API 向本地模型的迁移趋势。