DiffusionGemma 发布:文本扩散模型实现 4 倍推理加速,开源 Apache 2.0
Google 于 6 月 10 日发布了 DiffusionGemma——一款实验性的开放权重文本扩散模型。与传统的自回归 LLM 逐 token 生成不同,DiffusionGemma 采用并行块生成方式,一次性生成 256 个 token,在专用 GPU 上实现最高 4 倍推理加速。
是什么让 DiffusionGemma 与众不同
传统 LLM 像打字机一样逐字从左到右生成文本。这种模式在云端高效,因为服务器可以批量处理数千个用户请求。但在本地单用户场景下,GPU 大部分时间都在等待下一个 token,利用率极低。
DiffusionGemma 反其道而行之:它一次性草拟整个 256-token 段落,然后通过多轮迭代逐步优化。这就像把打字机升级成了印刷机——一次性整块输出。
它的工作流程分为三步:
- 初始化:模型从一个随机占位 token 的”画布”开始
- 迭代精炼:每次前向传播,模型锁定正确的 token,用它们作为上下文线索优化剩余部分
- 收敛:文本逐步收敛为高质量输出
由于每一步都能”看到”整段内容,DiffusionGemma 在需要双向上下文的场景中表现出色,比如代码中间补全、数学推理链条等。
关键参数与性能数据
| 属性 | 值 |
|---|---|
| 总参数量 | 26B MoE(3.8B 激活参数) |
| 许可证 | Apache 2.0 |
| 推理速度 | 1000+ tokens/s(H100),700+ tokens/s(RTX 5090) |
| 显存需求 | < 18GB(量化后) |
| 并行粒度 | 256 tokens/步 |
| 加速比 | 最高 4x vs 自回归 Gemma 4 |
DiffusionGemma 基于 Gemma 4 系列构建,集成了新型扩散头(diffusion head)以最大化生成速度。26B Mixture of Experts 架构中每次推理仅激活 3.8B 参数,配合量化后可在高端消费级 GPU 的 18GB 显存内运行。
适用场景
DiffusionGemma 并不是取代 Gemma 4 的全能选手——它的输出质量低于标准自回归版本。Google 明确推荐在追求极致质量的生产场景中使用标准 Gemma 4。
它的真正舞台在于速度关键的本地交互式工作流:
- 内联代码编辑与补全:IDE 中的实时代码生成和填充,DiffusionGemma 的双向注意力天然适合 code infill 任务
- 快速迭代原型:开发者需要快速尝试多种 prompt 方向时,4 倍速度意味着更流畅的交互体验
- 非线性文本结构:SVG 生成、Markdown 格式校正、复杂嵌套结构——传统自回归模型从左到右生成这些结构时容易出错,DiffusionGemma 的全局视野带来了显著优势
- 学术研究:微调 DiffusionGemma 做特定任务——Google 的实验展示了微调后的模型能够玩数独,这是自回归模型难以做到的(因为每一步依赖后续 token)
局限性
- Apple Silicon 加速有限:DiffusionGemma 的加速依赖高计算密集度(arithmetic intensity),而 Apple Silicon Macs 在推理时属于内存带宽瓶颈而非计算瓶颈,加速效果不如专用 GPU 明显
- 云端低并发场景倒退:在高 QPS 的云端服务中,自回归模型可以通过批处理高效利用计算资源,DiffusionGemma 的并行解码在此场景下的加速收益递减
- 质量折衷:实验性状态,输出质量低于标准 Gemma 4。Google 建议质量导向的应用继续使用自回归版本
如何上手
DiffusionGemma 的权重已发布在 Hugging Face(google/diffusion-gemma-26b),采用 Apache 2.0 许可证。开发者可以通过以下方式开始使用:
- Gemma.cpp:Google 官方提供 C++ 推理支持,适合本地部署
- JAX 微调教程:Google 发布了基于 JAX 的微调教程,用于快速实验
- llama.cpp 即将支持:官方确认对 llama.cpp 的支持即将到来,届时可以在更广泛的硬件上运行
- NVIDIA 优化:NVIDIA 合作提供了 NVFP4(4-bit 浮点)内核优化,在 Hopper 和 Blackwell 架构上实现高速推理,同时支持 DGX Spark 和 DGX Station 桌边部署
Hugging Face 还发布了一个有趣的演示——DiffusionGemma 文本到 3D SVG 生成,展示了模型在非传统文本任务上的能力。
与 Mercury 等扩散模型的对比
有意思的是,HN 上有用户提到 Mercury(另一个扩散文本模型)的使用体验——”不是因为聪明而是因为快,更像结对编程而非等待 slot machine”。这种”快而非智能”的取舍恰恰定义了扩散文本模型的独特生态位:它不是替代前沿模型的工具,而是填补了速度敏感场景的空白。
总结
DiffusionGemma 是 Google 在文本扩散领域的重要一步。26B MoE(3.8B 活跃参数)配合 4 倍推理加速,让本地实时 AI 交互变得可行。它的最大价值不在于取代现有 LLM,而在于为「速度优先」的交互场景提供了一种全新的架构选择。
如果你是开发者,正在寻找一种在本地 GPU 上实现低延迟文本生成的方式,DiffusionGemma 值得一试——Apache 2.0 许可证意味着你可以在自己的项目中自由使用它。
技术博客:blog.google 模型权重在 Hugging Face 搜索 “DiffusionGemma” 即可找到