AI 2026年6月11日 1 分钟阅读

DiffusionGemma 发布：文本扩散模型实现 4 倍推理加速，开源 Apache 2.0

tinyash 0 条评论

文章信息

Google 于 6 月 10 日发布了 DiffusionGemma——一款实验性的开放权重文本扩散模型。与传统的自回归 LLM 逐 token 生成不同，DiffusionGemma 采用并行块生成方式，一次性生成 256 个 token，在专用 GPU 上实现最高 4 倍推理加速。

是什么让 DiffusionGemma 与众不同

传统 LLM 像打字机一样逐字从左到右生成文本。这种模式在云端高效，因为服务器可以批量处理数千个用户请求。但在本地单用户场景下，GPU 大部分时间都在等待下一个 token，利用率极低。

DiffusionGemma 反其道而行之：它一次性草拟整个 256-token 段落，然后通过多轮迭代逐步优化。这就像把打字机升级成了印刷机——一次性整块输出。

它的工作流程分为三步：

由于每一步都能”看到”整段内容，DiffusionGemma 在需要双向上下文的场景中表现出色，比如代码中间补全、数学推理链条等。

DiffusionGemma 基于 Gemma 4 系列构建，集成了新型扩散头（diffusion head）以最大化生成速度。26B Mixture of Experts 架构中每次推理仅激活 3.8B 参数，配合量化后可在高端消费级 GPU 的 18GB 显存内运行。

DiffusionGemma 并不是取代 Gemma 4 的全能选手——它的输出质量低于标准自回归版本。Google 明确推荐在追求极致质量的生产场景中使用标准 Gemma 4。

它的真正舞台在于速度关键的本地交互式工作流：

内联代码编辑与补全：IDE 中的实时代码生成和填充，DiffusionGemma 的双向注意力天然适合 code infill 任务
快速迭代原型：开发者需要快速尝试多种 prompt 方向时，4 倍速度意味着更流畅的交互体验
非线性文本结构：SVG 生成、Markdown 格式校正、复杂嵌套结构——传统自回归模型从左到右生成这些结构时容易出错，DiffusionGemma 的全局视野带来了显著优势
学术研究：微调 DiffusionGemma 做特定任务——Google 的实验展示了微调后的模型能够玩数独，这是自回归模型难以做到的（因为每一步依赖后续 token）

Apple Silicon 加速有限：DiffusionGemma 的加速依赖高计算密集度（arithmetic intensity），而 Apple Silicon Macs 在推理时属于内存带宽瓶颈而非计算瓶颈，加速效果不如专用 GPU 明显
云端低并发场景倒退：在高 QPS 的云端服务中，自回归模型可以通过批处理高效利用计算资源，DiffusionGemma 的并行解码在此场景下的加速收益递减
质量折衷：实验性状态，输出质量低于标准 Gemma 4。Google 建议质量导向的应用继续使用自回归版本

DiffusionGemma 的权重已发布在 Hugging Face（google/diffusion-gemma-26b），采用 Apache 2.0 许可证。开发者可以通过以下方式开始使用：

Gemma.cpp：Google 官方提供 C++ 推理支持，适合本地部署
JAX 微调教程：Google 发布了基于 JAX 的微调教程，用于快速实验
llama.cpp 即将支持：官方确认对 llama.cpp 的支持即将到来，届时可以在更广泛的硬件上运行
NVIDIA 优化：NVIDIA 合作提供了 NVFP4（4-bit 浮点）内核优化，在 Hopper 和 Blackwell 架构上实现高速推理，同时支持 DGX Spark 和 DGX Station 桌边部署

Hugging Face 还发布了一个有趣的演示——DiffusionGemma 文本到 3D SVG 生成，展示了模型在非传统文本任务上的能力。

有意思的是，HN 上有用户提到 Mercury（另一个扩散文本模型）的使用体验——”不是因为聪明而是因为快，更像结对编程而非等待 slot machine”。这种”快而非智能”的取舍恰恰定义了扩散文本模型的独特生态位：它不是替代前沿模型的工具，而是填补了速度敏感场景的空白。

DiffusionGemma 是 Google 在文本扩散领域的重要一步。26B MoE（3.8B 活跃参数）配合 4 倍推理加速，让本地实时 AI 交互变得可行。它的最大价值不在于取代现有 LLM，而在于为「速度优先」的交互场景提供了一种全新的架构选择。

如果你是开发者，正在寻找一种在本地 GPU 上实现低延迟文本生成的方式，DiffusionGemma 值得一试——Apache 2.0 许可证意味着你可以在自己的项目中自由使用它。

技术博客：blog.google 模型权重在 Hugging Face 搜索 “DiffusionGemma” 即可找到

AI AI 工具 AI 编程 LLM 开源教程