Gemma 4 QAT 发布:将 Google 最新模型压缩至 1GB,跑在手机和笔记本上
Google 在 I/O 2026 发布 Gemma 4 两周后,今天推出了 QAT(Quantization-Aware Training,量化感知训练) 版本。这不是简单的后训练量化——它在训练阶段就把量化过程整合进去,把 Gemma 4 E2B 的内存占用压到 不到 1GB,真正让这套模型能在手机和消费级 GPU 上本地运行。
为什么需要 QAT?
量化(Quantization)是让大模型跑在消费级硬件上的关键技术。标准做法是后训练量化(PTQ)——训练完成后再压缩权重。但 PTQ 在把精度从 16-bit 降到 4-bit 时,质量损失有时不可忽略。QAT 的做法是在训练过程中模拟量化行为,让模型自己学会在低精度下保持准确。
Google 的博客数据对比很清楚:QAT 版本在 Q4_0 格式下的质量比标准 PTQ 更高——差距虽然不大,但对需要在边缘设备上做推理的生产环境来说,这点差距可能影响结果可靠性。
内存对比(近似值):
| 模型 | BF16(未量化) | Q4_0 QAT |
|---|---|---|
| Gemma 4 2B | ~4 GB | ~1.6 GB |
| Gemma 4 E2B(文本版) | ~9 GB | <1 GB |
| Gemma 4 12B | ~24 GB | ~7 GB |
E2B 文本版压到 1GB 以下是最亮眼的数据——这意味着主流手机(8GB+ 内存)可以本地运行 Gemma 4 级别的多模态模型。
移动端专属量化方案
Google 没有直接套用 Q4_0 通用格式了事——他们为边缘设备做了一套专门的量化 schema,包含以下优化:
- 预计算缩放因子:通常在推理时,处理器需要实时计算如何反量化数据。QAT 版本在训练阶段预计算好这些参数,手机芯片直接复用,省掉这个计算开销。
- 对齐移动加速器的数据布局:压缩后的张量布局适配了手机端 ML 加速器的原生数据格式,避免运行时做格式转换。这个”慢操作”的消除对端到端延迟影响显著。
- 分层精度策略:生成 token 的部分(LM Head)压缩到 2-bit,核心推理层保持更高精度。翻译成人话:模型”说话”的部分极度压缩,”思考”的部分保持准确。
- Embedding & KV Cache 优化:词汇表和短期记忆(KV Cache)是内存占用的主要来源。QAT 版本重点压缩这两个区域,让长对话不因内存耗尽而中断。
如何上手
Google 已经和主流推理框架做了对接。几种最直接的上手方式:
llama.cpp(GGUF 格式)
llama-cli -m gemma-4-E2B-it-q4_0.gguf \ -p "Write a Python script to parse JSON logs" \ -n 512
Google LiteRT(移动端部署)
uvx litert-lm run \ --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \ gemma-4-E2B-it.litertlm \ --backend=gpu \ --prompt="Explain quantum computing in simple terms"
这个来自 Simon Willison 的 HN 评论——他已经在 Mac 上成功运行了 QAT 版本。LiteRT 是 Google 针对移动和边缘设备优化过的推理运行时。
vLLM
vllm serve google/gemma-4-2B-Q4_0 \ --dtype auto \ --max-model-len 8192
MTP(多 Token 预测)+ QAT 组合
MTP(Multi-Token Prediction)是 Gemma 4 的一个关键特性——每一步预测多个 token 来加速推理。QAT 版本也包含 MTP QAT checkpoints,让你在量化模型的同时保留 MTP 的加速效果。这对边缘部署的意义很大:量化省内存,MTP 提速度,两者同时生效时,手机上的推理体验才有可能和云端接近。
Unsloth 社区的表现
HN 评论区中 satvikpendem 提到了 Unsloth 的量化版本,声称在部分基准上比 Google 官方 QAT 更接近 BF16 无损质量。如果你已经在用 Unsloth 微调 Gemma 4,可以直接用他们的 QAT 转换工具输出移动端兼容格式,不需要改 workflow。
适用场景总结
- 手机端 AI 应用:E2B 文本版 <1GB,可以在旗舰手机上离线运行多模态推理
- 消费级 GPU 推理:12B QAT 版本仅需 ~7GB VRAM,RTX 4070(12GB)即可运行
- 边缘设备 Agent:QAT 版本的 Gemma 4 可以嵌入到 AI Agent 的边缘运行层,减少云端依赖
- MTP 加速 + QAT 省内存同时生效的组合适合实时性要求高的场景(语音助手、实时翻译)
所有模型权重已上传 Hugging Face,格式涵盖 GGUF(llama.cpp)、压缩张量(vLLM)和未量化 checkpoint(自定义量化)。Google 还提供了 Keras 和 MLX 的集成教程,Apple Silicon 用户可以直接跑。
总结
Gemma 4 QAT 的发布不是简单的模型更新——它实际定义了”移动端 AI 模型应该怎么做”的一条新路径:在训练阶段就考虑部署时的量化约束。配合 MTP 加速和 LiteRT 运行时,2026 年下半年我们可能会看到更多完全本地运行的 AI Agent 出现在手机上。