2026年6月9日 1 分钟阅读

Gemma 4 QAT 发布:将 Google 最新模型压缩至 1GB,跑在手机和笔记本上

tinyash 0 条评论

Google 在 I/O 2026 发布 Gemma 4 两周后,今天推出了 QAT(Quantization-Aware Training,量化感知训练) 版本。这不是简单的后训练量化——它在训练阶段就把量化过程整合进去,把 Gemma 4 E2B 的内存占用压到 不到 1GB,真正让这套模型能在手机和消费级 GPU 上本地运行。

为什么需要 QAT?

量化(Quantization)是让大模型跑在消费级硬件上的关键技术。标准做法是后训练量化(PTQ)——训练完成后再压缩权重。但 PTQ 在把精度从 16-bit 降到 4-bit 时,质量损失有时不可忽略。QAT 的做法是在训练过程中模拟量化行为,让模型自己学会在低精度下保持准确。

Google 的博客数据对比很清楚:QAT 版本在 Q4_0 格式下的质量比标准 PTQ 更高——差距虽然不大,但对需要在边缘设备上做推理的生产环境来说,这点差距可能影响结果可靠性。

内存对比(近似值):

模型BF16(未量化)Q4_0 QAT
Gemma 4 2B~4 GB~1.6 GB
Gemma 4 E2B(文本版)~9 GB<1 GB
Gemma 4 12B~24 GB~7 GB

E2B 文本版压到 1GB 以下是最亮眼的数据——这意味着主流手机(8GB+ 内存)可以本地运行 Gemma 4 级别的多模态模型。

移动端专属量化方案

Google 没有直接套用 Q4_0 通用格式了事——他们为边缘设备做了一套专门的量化 schema,包含以下优化:

  1. 预计算缩放因子:通常在推理时,处理器需要实时计算如何反量化数据。QAT 版本在训练阶段预计算好这些参数,手机芯片直接复用,省掉这个计算开销。
  1. 对齐移动加速器的数据布局:压缩后的张量布局适配了手机端 ML 加速器的原生数据格式,避免运行时做格式转换。这个”慢操作”的消除对端到端延迟影响显著。
  1. 分层精度策略:生成 token 的部分(LM Head)压缩到 2-bit,核心推理层保持更高精度。翻译成人话:模型”说话”的部分极度压缩,”思考”的部分保持准确。
  1. Embedding & KV Cache 优化:词汇表和短期记忆(KV Cache)是内存占用的主要来源。QAT 版本重点压缩这两个区域,让长对话不因内存耗尽而中断。

如何上手

Google 已经和主流推理框架做了对接。几种最直接的上手方式:

llama.cpp(GGUF 格式)

llama-cli -m gemma-4-E2B-it-q4_0.gguf \
  -p "Write a Python script to parse JSON logs" \
  -n 512

Google LiteRT(移动端部署)

uvx litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --prompt="Explain quantum computing in simple terms"

这个来自 Simon Willison 的 HN 评论——他已经在 Mac 上成功运行了 QAT 版本。LiteRT 是 Google 针对移动和边缘设备优化过的推理运行时。

vLLM

vllm serve google/gemma-4-2B-Q4_0 \
  --dtype auto \
  --max-model-len 8192

MTP(多 Token 预测)+ QAT 组合

MTP(Multi-Token Prediction)是 Gemma 4 的一个关键特性——每一步预测多个 token 来加速推理。QAT 版本也包含 MTP QAT checkpoints,让你在量化模型的同时保留 MTP 的加速效果。这对边缘部署的意义很大:量化省内存,MTP 提速度,两者同时生效时,手机上的推理体验才有可能和云端接近。

Unsloth 社区的表现

HN 评论区中 satvikpendem 提到了 Unsloth 的量化版本,声称在部分基准上比 Google 官方 QAT 更接近 BF16 无损质量。如果你已经在用 Unsloth 微调 Gemma 4,可以直接用他们的 QAT 转换工具输出移动端兼容格式,不需要改 workflow。

适用场景总结

  1. 手机端 AI 应用:E2B 文本版 <1GB,可以在旗舰手机上离线运行多模态推理
  2. 消费级 GPU 推理:12B QAT 版本仅需 ~7GB VRAM,RTX 4070(12GB)即可运行
  3. 边缘设备 Agent:QAT 版本的 Gemma 4 可以嵌入到 AI Agent 的边缘运行层,减少云端依赖
  4. MTP 加速 + QAT 省内存同时生效的组合适合实时性要求高的场景(语音助手、实时翻译)

所有模型权重已上传 Hugging Face,格式涵盖 GGUF(llama.cpp)、压缩张量(vLLM)和未量化 checkpoint(自定义量化)。Google 还提供了 Keras 和 MLX 的集成教程,Apple Silicon 用户可以直接跑。

总结

Gemma 4 QAT 的发布不是简单的模型更新——它实际定义了”移动端 AI 模型应该怎么做”的一条新路径:在训练阶段就考虑部署时的量化约束。配合 MTP 加速和 LiteRT 运行时,2026 年下半年我们可能会看到更多完全本地运行的 AI Agent 出现在手机上。

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。