AI 2026年6月16日 1 分钟阅读

DiffusionGemma 发布：Google 开源文本扩散模型，单 GPU 推理速度提升 4 倍

tinyash 0 条评论

文章信息

发布时间 2026年6月16日
作者 tinyash
阅读时长 1 分钟阅读

2026 年 6 月 10 日，Google 发布了 DiffusionGemma，一款实验性的开源文本扩散模型。与传统的自回归 LLM 逐 token 顺序生成不同，DiffusionGemma 采用并行文本块生成方式，在单 GPU 上实现了最高 4 倍推理加速——在 H100 上达到 1000+ tokens/秒，在 RTX 5090 上达到 700+ tokens/秒。

这不是一次简单的模型更新。DiffusionGemma 代表了一种基础架构路线的转变：从「逐词打字」的自回归范式，转向「整段印刷」的并行生成范式。本文带你看懂它的原理、性能表现和适用场景。

一、关键性能数据一览

指标	DiffusionGemma	说明
模型规模	26B MoE（3.8B 激活参数）	推理时仅激活 3.8B 参数
推理速度	1000+ tok/s (H100) / 700+ (RTX 5090)	相比同规模自回归模型快 4 倍
显存需求	~18GB（量化后）	消费级 GPU 可运行
单次并行量	256 tokens	每次前向传播生成一整块
注意力机制	双向注意力	每个 token 可见所有其他 token
许可证	Apache 2.0	完全开源
发布渠道	Hugging Face	立即下载

二、文本扩散的工作原理

传统 LLM 的工作方式像打字员——从左到右逐词生成，每个词只能依赖它之前的词。这种顺序依赖在云端批量处理时效率很高（因为可以并行处理数千个请求），但在本地单用户场景下，GPU 大部分时间都处于等待状态。

DiffusionGemma 改变了这一模式。它的生成过程分为三步：

初始化：模型从一张「随机占位符」的画布开始，填充 256 个随机 token
迭代精炼：模型多次「扫过」整段文本，逐步锁定正确的 token，已确认的 token 作为上下文线索帮助精炼剩余部分
收敛：经过多轮迭代，文本从模糊的「静态噪点」收敛为清晰的高质量输出

Google 在博客中做了一个形象类比：「自回归模型是打字机，DiffusionGemma 是印刷机——它一整块一整块地印出文本，而不是逐字敲击。」

双向注意力的独特优势

因为模型可以同时看到整段文本的所有 token，DiffusionGemma 在某些任务上具有天然优势：

代码补全 / 行内编辑：需要理解前后文关系，双向注意力天然适配
复杂 Markdown 格式生成：可以完美闭合标签和嵌套结构
非线性的结构化输出：如氨基酸序列、数学图、SVG 生成

Hugging Face 团队还演示了一个有趣的例子：使用 DiffusionGemma 生成 SVG 格式的 3D 图形，每次迭代从模糊到清晰，直观展示了文本扩散的过程。

三、上手使用

DiffusionGemma 的模型权重已发布在 Hugging Face，采用 Apache 2.0 许可证：

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("google/diffusion-gemma-26b")
tokenizer = AutoTokenizer.from_pretrained("google/diffusion-gemma-26b")

Google 提供了基于 JAX + Kauldron 的微调教程，适合想做领域适配的开发者。比如在博客演示中，他们通过微调让 DiffusionGemma 学会了玩数独（Sudoku）——这是一个自回归模型天然不擅长的任务，因为每个数字的决策依赖于后续位置的值，而双向注意力恰好能解决这个问题。

对于推理部署，官方确认 llama.cpp 的支持即将到来，届时可以在 llama.cpp 生态中直接使用 DiffusionGemma，配合 GGUF 量化在更多消费级硬件上运行。

NVIDIA 方面也提供了硬件级优化：Hopper 和 Blackwell 架构通过 NVFP4（4-bit 浮点） 内核加速推理，在 DGX Spark 和 DGX Station 上可获得接近无损的量化性能。

场景	适用模型	理由
生产级文本生成	Gemma 4（标准）	输出质量最高
实时行内编辑 / 代码补全	DiffusionGemma	低延迟 + 双向注意力
结构化输出（SVG / 序列）	DiffusionGemma	非线性生成优势
高并发云端服务	Gemma 4（标准）	批处理效率更高
本地单用户实验	DiffusionGemma	充分利用单 GPU

四、重要局限与注意事项

DiffusionGemma 是实验性模型，而非 Gemma 4 的替代品。Google 明确指出了几个关键限制：

质量不如自回归模型：由于优先考虑速度，输出质量低于标准 Gemma 4。追求最高质量的场景应使用标准 Gemma 4
云端优势不显著：在高 QPS 云端部署中，自回归模型可以通过请求批处理充分利用硬件，DiffusionGemma 的并行解码优势降低，甚至可能增加服务成本
Apple Silicon 可能不适用：加速依赖于 GPU 的计算密集度。Apple Silicon 的统一内存架构在推理时受内存带宽限制而非计算限制，可能看不到同样的加速效果
需要微调才能发挥潜力：默认模型的特定任务能力有限，需要通过领域微调来释放其并行生成的优势

五、行业影响展望

DiffusionGemma 的价值不在于替代现有的自回归模型，而在于开辟了一个新的技术方向。HN 社区对此反响热烈（327 点，88 条评论），许多开发者认为这是未来本地推理的重要方向。

对于 AI Agent 开发者来说，DiffusionGemma 最重要的启示是：本地推理的瓶颈正在从「能不能跑」转向「跑得快不快」。当单 GPU 可以做到 1000+ tok/s 时，许多之前因延迟过高而无法落地的实时交互场景（如行内补全、实时代码审查、交互式编辑）将变得可行。

Google 在博客中引用了 Jevons 悖论：更高的效率往往带来更多的使用。DiffusionGemma 让本地推理变得更便宜、更快，这可能会加速 AI Agent 从云端 API 向本地模型的迁移趋势。

DiffusionGemma 发布：Google 开源文本扩散模型，单 GPU 推理速度提升 4 倍

一、关键性能数据一览

二、文本扩散的工作原理

双向注意力的独特优势

三、上手使用

推荐部署场景

四、重要局限与注意事项

五、行业影响展望

相关链接

发表评论取消回复

一、关键性能数据一览

二、文本扩散的工作原理

双向注意力的独特优势

三、上手使用

推荐部署场景

四、重要局限与注意事项

五、行业影响展望

相关链接

发表评论 取消回复

发表评论取消回复