2026年6月16日 1 分钟阅读

DiffusionGemma 发布:Google 开源文本扩散模型,单 GPU 推理速度提升 4 倍

tinyash 0 条评论

2026 年 6 月 10 日,Google 发布了 DiffusionGemma,一款实验性的开源文本扩散模型。与传统的自回归 LLM 逐 token 顺序生成不同,DiffusionGemma 采用并行文本块生成方式,在单 GPU 上实现了最高 4 倍推理加速——在 H100 上达到 1000+ tokens/秒,在 RTX 5090 上达到 700+ tokens/秒。

这不是一次简单的模型更新。DiffusionGemma 代表了一种基础架构路线的转变:从「逐词打字」的自回归范式,转向「整段印刷」的并行生成范式。本文带你看懂它的原理、性能表现和适用场景。

一、关键性能数据一览

指标DiffusionGemma说明
模型规模26B MoE(3.8B 激活参数)推理时仅激活 3.8B 参数
推理速度1000+ tok/s (H100) / 700+ (RTX 5090)相比同规模自回归模型快 4 倍
显存需求~18GB(量化后)消费级 GPU 可运行
单次并行量256 tokens每次前向传播生成一整块
注意力机制双向注意力每个 token 可见所有其他 token
许可证Apache 2.0完全开源
发布渠道Hugging Face立即下载

二、文本扩散的工作原理

传统 LLM 的工作方式像打字员——从左到右逐词生成,每个词只能依赖它之前的词。这种顺序依赖在云端批量处理时效率很高(因为可以并行处理数千个请求),但在本地单用户场景下,GPU 大部分时间都处于等待状态。

DiffusionGemma 改变了这一模式。它的生成过程分为三步:

  1. 初始化:模型从一张「随机占位符」的画布开始,填充 256 个随机 token
  2. 迭代精炼:模型多次「扫过」整段文本,逐步锁定正确的 token,已确认的 token 作为上下文线索帮助精炼剩余部分
  3. 收敛:经过多轮迭代,文本从模糊的「静态噪点」收敛为清晰的高质量输出

Google 在博客中做了一个形象类比:「自回归模型是打字机,DiffusionGemma 是印刷机——它一整块一整块地印出文本,而不是逐字敲击。」

双向注意力的独特优势

因为模型可以同时看到整段文本的所有 token,DiffusionGemma 在某些任务上具有天然优势:

  • 代码补全 / 行内编辑:需要理解前后文关系,双向注意力天然适配
  • 复杂 Markdown 格式生成:可以完美闭合标签和嵌套结构
  • 非线性的结构化输出:如氨基酸序列、数学图、SVG 生成

Hugging Face 团队还演示了一个有趣的例子:使用 DiffusionGemma 生成 SVG 格式的 3D 图形,每次迭代从模糊到清晰,直观展示了文本扩散的过程。

三、上手使用

DiffusionGemma 的模型权重已发布在 Hugging Face,采用 Apache 2.0 许可证:

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("google/diffusion-gemma-26b")
tokenizer = AutoTokenizer.from_pretrained("google/diffusion-gemma-26b")

Google 提供了基于 JAX + Kauldron 的微调教程,适合想做领域适配的开发者。比如在博客演示中,他们通过微调让 DiffusionGemma 学会了玩数独(Sudoku)——这是一个自回归模型天然不擅长的任务,因为每个数字的决策依赖于后续位置的值,而双向注意力恰好能解决这个问题。

对于推理部署,官方确认 llama.cpp 的支持即将到来,届时可以在 llama.cpp 生态中直接使用 DiffusionGemma,配合 GGUF 量化在更多消费级硬件上运行。

NVIDIA 方面也提供了硬件级优化:Hopper 和 Blackwell 架构通过 NVFP4(4-bit 浮点) 内核加速推理,在 DGX Spark 和 DGX Station 上可获得接近无损的量化性能。

推荐部署场景

场景适用模型理由
生产级文本生成Gemma 4(标准)输出质量最高
实时行内编辑 / 代码补全DiffusionGemma低延迟 + 双向注意力
结构化输出(SVG / 序列)DiffusionGemma非线性生成优势
高并发云端服务Gemma 4(标准)批处理效率更高
本地单用户实验DiffusionGemma充分利用单 GPU

四、重要局限与注意事项

DiffusionGemma 是实验性模型,而非 Gemma 4 的替代品。Google 明确指出了几个关键限制:

  1. 质量不如自回归模型:由于优先考虑速度,输出质量低于标准 Gemma 4。追求最高质量的场景应使用标准 Gemma 4
  2. 云端优势不显著:在高 QPS 云端部署中,自回归模型可以通过请求批处理充分利用硬件,DiffusionGemma 的并行解码优势降低,甚至可能增加服务成本
  3. Apple Silicon 可能不适用:加速依赖于 GPU 的计算密集度。Apple Silicon 的统一内存架构在推理时受内存带宽限制而非计算限制,可能看不到同样的加速效果
  4. 需要微调才能发挥潜力:默认模型的特定任务能力有限,需要通过领域微调来释放其并行生成的优势

五、行业影响展望

DiffusionGemma 的价值不在于替代现有的自回归模型,而在于开辟了一个新的技术方向。HN 社区对此反响热烈(327 点,88 条评论),许多开发者认为这是未来本地推理的重要方向。

对于 AI Agent 开发者来说,DiffusionGemma 最重要的启示是:本地推理的瓶颈正在从「能不能跑」转向「跑得快不快」。当单 GPU 可以做到 1000+ tok/s 时,许多之前因延迟过高而无法落地的实时交互场景(如行内补全、实时代码审查、交互式编辑)将变得可行。

Google 在博客中引用了 Jevons 悖论:更高的效率往往带来更多的使用。DiffusionGemma 让本地推理变得更便宜、更快,这可能会加速 AI Agent 从云端 API 向本地模型的迁移趋势。

相关链接

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。