Google 发布 Gemma 4 QAT:量化和训练优化让大模型在手机上只需 1GB 内存
就在 Gemma 4 12B 和 MTP(多 Token 预测)发布不久,Google 又放出了新大招 —— 专门为边缘设备优化的 Gemma 4 QAT(Quantization-Aware Training,量化感知训练)版本。这次更新的核心是:通过将量化过程融入训练阶段,大幅减少模型内存占用,让 Gemma 4 能在普通消费级 GPU 和手机上流畅运行。
QAT 是什么?为什么比传统量化更强?
通常的量化做法是 Post-Training Quantization(PTQ,训练后量化):先把模型训练好,再拿工具去压缩它。这种方式虽然简单,但精度损失明显 —— 模型在训练时完全不知道后面会被量化。
QAT 的思路正好相反:在训练过程中模拟量化操作,让模型学会在低精度下保持准确性。Google 这次推出的 QAT 检查点有两个版本:
- Q4_0 格式:面向消费级 GPU(笔记本、台式机),兼容 llama.cpp 和 vLLM 等主流推理框架
- 移动端专用格式:面向手机和平板,专门为移动处理器量身定制
内存占用有多低?
官方给出的近似内存需求:
| 模型 | 原始 BF16 | QAT Q4_0 | QAT 移动格式 |
|---|---|---|---|
| Gemma 4 E2B (2.6B) | ~5GB | ~1.9GB | <1GB |
| Gemma 4 E4B (9B) | ~18GB | ~5.4GB | ~3.9GB |
| Gemma 4 12B | ~24GB | ~6.7GB | – |
| Gemma 4 26B MoE | ~52GB | ~14.6GB | – |
最令人印象深刻的是 E2B 的移动格式版本,不到 1GB 的显存 —— 意味着可以轻松塞进手机。而 12B 模型 Q4_0 仅需 6.7GB VRAM,HN 用户实测在 RTX 5060(8GB)上运行流畅。
移动端专属量化优化
Google 针对移动处理器做了三层底层优化:
预计算缩放因子:普通量化在推理时需要动态计算缩放参数。Google 将这些参数在训练阶段就预先计算好,推理时直接复用,减少移动芯片的计算负担。
数据结构适配移动加速器:将压缩后的数据排列成与移动端 NPU/GPU 原生格式对齐,避免每次计算前都需要格式转换。手机可以直接”原生”运行这些张量运算。
2-bit 生成层压缩 + 高精度推理层:对模型输出层采用 2-bit 极致压缩,而核心推理层保留较高精度。模型输出速度几乎不受影响,但总存储大幅下降。
此外,Embedding 和 KV Cache 也做了针对性优化 —— 词汇表和短期记忆部分被压缩到极致,长对话场景下不会因 KV Cache 膨胀耗尽内存。如果不需要视觉/音频能力,可只部署文本模块,E2B 纯文本模型可进一步压到 1GB 以下。
生态支持
Google 这次和整个推理生态做了深度合作:
- llama.cpp / Ollama:GGUF 格式 QAT 检查点
- vLLM:压缩张量格式,适合高效服务部署
- MLX:Apple Silicon 优化
- LiteRT:轻量级运行时,适合边缘设备部署
- MediaPipe:移动端 Web 部署
- Hugging Face Transformers:直接微调
- Unsloth:第三方量化工具,声称其 QAT 精度超越官方
Simon Willison 在 HN 上演示了一行命令运行:
uvx litert-lm run \ --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \ gemma-4-E2B-it.litertlm \ --backend=gpu \ --prompt="Generate an SVG of a pelican riding a bicycle"
实战:用 Ollama 运行 Gemma 4 12B QAT
ollama pull hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0 ollama run hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0
对硬件要求更低的 E2B 版本:
ollama pull hf.co/google/gemma-4-E2B-it-qat-q4_0-gguf:Q4_0 ollama run hf.co/google/gemma-4-E2B-it-qat-q4_0-gguf:Q4_0
值得关注的启示
- MTP + QAT 组合:Google 提供了 MTP QAT 检查点,可以同时享受 MTP 的 3x 推理加速和 QAT 的内存优化。这可能是目前边缘部署性价比最高的方案。
- 社区量化工具反超官方:Unsloth 的 QAT GGUF 版本在多项指标上接近 BF16 原始模型的 100% 精度,甚至超越了官方 QAT 版本。
- WWDC 前的时机:发布紧挨着 WWDC 2026,Apple 刚宣布基于 Google 模型的 Siri 改进。Google 在 Apple 大会前展现实力的意图明显。
总结
Gemma 4 QAT 是一次务实的更新:不改变模型架构,不增加参数规模,而是通过量化感知训练把模型压缩到可部署的状态。12B 模型 6.7GB、E2B 不到 1GB 的显存需求,让本地大模型不再是高端硬件的专利。