Google Gemma 4 QAT 模型发布:1GB 跑 E2B,量化感知训练让移动端 AI 部署更高效
6 月 5 日,Google DeepMind 团队发布了 Gemma 4 系列的 QAT(Quantization-Aware Training,量化感知训练) 检查点,将旗舰模型的显存需求大幅降低——E2B 模型压缩至最低 1GB,12B 版本仅需 6.7GB。这不是普通的量化版本,而是一次从训练阶段就深度优化的模型压缩方案。
之前发布的 Gemma 4 12B(encoder-free 多模态模型)已经让开发者能在笔记本上运行 12B 级模型,但 QAT 版本更进一步——它不仅让模型更小,还让质量损失降到最低。
QAT 与 PTQ:为什么这次不一样
大多数开源模型的量化都是 PTQ(Post-Training Quantization)——训练完成后,把权重从 FP16/BF16 压缩到 INT4 或 INT8。这种做法简单快捷,但精度损失不可控,尤其在小模型上的表现差异明显。
QAT 则是在训练过程中就模拟量化误差,让模型自己学会「适应」压缩后的精度。Google 的 QAT 检查点相比标准 PTQ 基线,在质量上更进一步。
简单对比:
| 方案 | 精度损失 | 部署复杂度 | 适用场景 |
|---|---|---|---|
| BF16(原始) | 无 | 高(需 16GB+) | 服务器、研究 |
| PTQ Q4_0 | 较低 | 低 | 通用笔记本 |
| QAT Q4_0 | 更低 | 低 | 笔记本、消费级 GPU |
| QAT 移动格式 | 可控 | 低 | 手机、平板 |
显存需求一览
Google 给出的 QAT 模型大致显存需求(Q4_0 格式):
| 模型 | QAT Q4_0 显存 | 原始 BF16 显存 | 节省比例 |
|---|---|---|---|
| Gemma 4 E2B | ~1 GB | ~4 GB | 75% |
| Gemma 4 E4B | ~2 GB | ~8 GB | 75% |
| Gemma 4 12B | ~6.7 GB | ~24 GB | 72% |
| Gemma 4 26B MoE | ~13 GB | ~50 GB | 74% |
对于只有 8GB 显存的 RTX 4070 或 M 系列 16GB 统一内存的 MacBook,现在可以流畅运行 Gemma 4 12B QAT,甚至在手机端运行 E2B。
移动端专用量化方案
Google 没有简单套用 Q4_0 到移动端,而是重新设计了移动芯片专用的量化格式:
预计算缩放因子:标准量化需要在推理时实时计算反量化参数,这对移动芯片的算力是额外的负担。QAT 版本在训练阶段就把缩放因子固化下来,移动端推理时直接使用,省去动态计算步骤。
计算单元对齐:压缩后的数据结构与手机 NPU/GPU 的原生计算单元对齐,避免额外的数据重排,让推理过程保持原生速度。
分层精度:Token 生成层用 2-bit 高度压缩,核心推理层保持更高精度——这种「刀法」让存储大幅缩减,同时不影响模型的「智商」。
Embedding 和 KV Cache 优化:词汇表(词汇量大的部分通常占参数量的 10-15%)和短期记忆(KV Cache)是显存消耗大户。QAT 版本在这两个模块上做了针对性压缩,长对话的显存增长明显放缓。
如果你只需要文本能力(不需要视觉编码器),Gemma 4 E2B 的纯文本版本甚至能压到 1GB 以下。
快速上手:本地部署
Google 已与生态工具深度合作,QAT 检查点发布即支持主流框架。
llama.cpp(推荐)
Q4_0 GGUF 格式已经可用:
wget https://huggingface.co/google/gemma-4-12b-qat-Q4_0-GGUF/resolve/main/gemma-4-12b-q4_0.gguf llama-cli -m gemma-4-12b-q4_0.gguf \ -p "用三句话解释什么是 Quantization-Aware Training" \ -n 256
配合 MTP 加速(Multi-Token Prediction),即使量化后的模型也能保持两倍以上的推理加速。Google 特别提供了 MTP QAT 检查点,让量化版本仍能利用 MTP 加速能力。
vLLM
vLLM 也直接支持 QAT 压缩张量格式:
vllm serve google/gemma-4-12b-qat \ --dtype auto \ --max-model-len 8192
Ollama
Ollama 用户可以通过自定义 Modelfile 导入 GGUF:
FROM ./gemma-4-12b-q4_0.gguf
TEMPLATE "{{ .Prompt }}"
PARAMETER num_ctx 8192
实战场景:移动端 Agent
QAT 的最大意义不是让桌面端再快一点,而是让 手机能跑 Agent。
Gemma 4 E2B QAT(1GB)配合 Apple Core ML 或 Android NNAPI,可以在手机上实现:
- 本地代码补全:配合手机端的编辑器(如 Working Copy / Code Editor),离线完成函数补全和简单重构
- 隐私敏感的数据分析:医疗、金融数据不需要上传云端,手机本地完成分类和摘要
- 低延迟语音助手:本地推理的响应延迟在百毫秒级别,不需要等待云端的网络往返
import coremltools as ct
import numpy as np
model = ct.models.MLModel("Gemma4_E2B_QAT.mlpackage")
prompt = "Classify this transaction: $47.99 at Starbucks"
output = model.predict({"input": tokenize(prompt)})
print(decode(output)) # "Food & Drink"
Unsloth 社区表现
HN 社区中已有开发者用 Unsloth 测试了 QAT 版本——Unsloth 的量化方案在质量上甚至超过 Google 官方 QAT。在 E2B 和 E4B 上,Unsloth 的量产版本能达到 接近 BF16 原始模型的 100% 精度,而 Google 官方 QAT 版本虽然在压缩上更激进(1GB vs Unsloth 的 ~1.5GB),但精度略低。
如果你更看重质量而不是极致压缩,可以关注 Unsloth 的 Gemma 4 QAT 版本。
注意事项
- GGUF 可用性问题:有 HN 用户反馈,部分 QAT 检查点的 GGUF 格式可能尚未完全就绪——Google 承诺了 GGUFs 支持,但实际仓库中可能还未上传。如果遇到
model file not found,可以稍等 24-48 小时等待同步,或先使用 Hugging Face Transformers 直接加载 PyTorch 版本。 - 手机端优化仍在迭代:移动专用量化格式目前主要面向 Android(Google 自家的生态),iOS 的 Core ML 支持需要社区适配,预计 1-2 周内会有社区 PR。
总结
Gemma 4 QAT 是 Google 在「让模型真正跑在普通硬件上」这条路上迈出的重要一步。相比 PTQ 的「压缩后凑合用」,QAT 从源头设计就考虑到了压缩——结果是 1GB 跑 E2B、6.7GB 跑 12B,且质量损失可控。对于需要本地部署 AI Agent、隐私敏感场景或移动端推理的开发者来说,这是目前性价比最高的选择之一。
模型权重下载:Hugging Face – google/gemma-4-qat Google 原博客:Gemma 4 with Quantization-Aware Training HN 讨论:Gemma 4 QAT models