2026年6月6日 2 分钟阅读

Google Gemma 4 QAT 模型发布:1GB 跑 E2B,量化感知训练让移动端 AI 部署更高效

tinyash 0 条评论

6 月 5 日,Google DeepMind 团队发布了 Gemma 4 系列的 QAT(Quantization-Aware Training,量化感知训练) 检查点,将旗舰模型的显存需求大幅降低——E2B 模型压缩至最低 1GB,12B 版本仅需 6.7GB。这不是普通的量化版本,而是一次从训练阶段就深度优化的模型压缩方案。

之前发布的 Gemma 4 12B(encoder-free 多模态模型)已经让开发者能在笔记本上运行 12B 级模型,但 QAT 版本更进一步——它不仅让模型更小,还让质量损失降到最低。

QAT 与 PTQ:为什么这次不一样

大多数开源模型的量化都是 PTQ(Post-Training Quantization)——训练完成后,把权重从 FP16/BF16 压缩到 INT4 或 INT8。这种做法简单快捷,但精度损失不可控,尤其在小模型上的表现差异明显。

QAT 则是在训练过程中就模拟量化误差,让模型自己学会「适应」压缩后的精度。Google 的 QAT 检查点相比标准 PTQ 基线,在质量上更进一步。

简单对比:

方案精度损失部署复杂度适用场景
BF16(原始)高(需 16GB+)服务器、研究
PTQ Q4_0较低通用笔记本
QAT Q4_0更低笔记本、消费级 GPU
QAT 移动格式可控手机、平板

显存需求一览

Google 给出的 QAT 模型大致显存需求(Q4_0 格式):

模型QAT Q4_0 显存原始 BF16 显存节省比例
Gemma 4 E2B~1 GB~4 GB75%
Gemma 4 E4B~2 GB~8 GB75%
Gemma 4 12B~6.7 GB~24 GB72%
Gemma 4 26B MoE~13 GB~50 GB74%

对于只有 8GB 显存的 RTX 4070 或 M 系列 16GB 统一内存的 MacBook,现在可以流畅运行 Gemma 4 12B QAT,甚至在手机端运行 E2B。

移动端专用量化方案

Google 没有简单套用 Q4_0 到移动端,而是重新设计了移动芯片专用的量化格式:

预计算缩放因子:标准量化需要在推理时实时计算反量化参数,这对移动芯片的算力是额外的负担。QAT 版本在训练阶段就把缩放因子固化下来,移动端推理时直接使用,省去动态计算步骤。

计算单元对齐:压缩后的数据结构与手机 NPU/GPU 的原生计算单元对齐,避免额外的数据重排,让推理过程保持原生速度。

分层精度:Token 生成层用 2-bit 高度压缩,核心推理层保持更高精度——这种「刀法」让存储大幅缩减,同时不影响模型的「智商」。

Embedding 和 KV Cache 优化:词汇表(词汇量大的部分通常占参数量的 10-15%)和短期记忆(KV Cache)是显存消耗大户。QAT 版本在这两个模块上做了针对性压缩,长对话的显存增长明显放缓。

如果你只需要文本能力(不需要视觉编码器),Gemma 4 E2B 的纯文本版本甚至能压到 1GB 以下

快速上手:本地部署

Google 已与生态工具深度合作,QAT 检查点发布即支持主流框架。

llama.cpp(推荐)

Q4_0 GGUF 格式已经可用:

wget https://huggingface.co/google/gemma-4-12b-qat-Q4_0-GGUF/resolve/main/gemma-4-12b-q4_0.gguf

llama-cli -m gemma-4-12b-q4_0.gguf \
  -p "用三句话解释什么是 Quantization-Aware Training" \
  -n 256

配合 MTP 加速(Multi-Token Prediction),即使量化后的模型也能保持两倍以上的推理加速。Google 特别提供了 MTP QAT 检查点,让量化版本仍能利用 MTP 加速能力。

vLLM

vLLM 也直接支持 QAT 压缩张量格式:

vllm serve google/gemma-4-12b-qat \
  --dtype auto \
  --max-model-len 8192

Ollama

Ollama 用户可以通过自定义 Modelfile 导入 GGUF:

FROM ./gemma-4-12b-q4_0.gguf
TEMPLATE "{{ .Prompt }}"
PARAMETER num_ctx 8192

实战场景:移动端 Agent

QAT 的最大意义不是让桌面端再快一点,而是让 手机能跑 Agent

Gemma 4 E2B QAT(1GB)配合 Apple Core ML 或 Android NNAPI,可以在手机上实现:

  • 本地代码补全:配合手机端的编辑器(如 Working Copy / Code Editor),离线完成函数补全和简单重构
  • 隐私敏感的数据分析:医疗、金融数据不需要上传云端,手机本地完成分类和摘要
  • 低延迟语音助手:本地推理的响应延迟在百毫秒级别,不需要等待云端的网络往返
import coremltools as ct
import numpy as np

model = ct.models.MLModel("Gemma4_E2B_QAT.mlpackage")

prompt = "Classify this transaction: $47.99 at Starbucks"
output = model.predict({"input": tokenize(prompt)})
print(decode(output))  # "Food & Drink"

Unsloth 社区表现

HN 社区中已有开发者用 Unsloth 测试了 QAT 版本——Unsloth 的量化方案在质量上甚至超过 Google 官方 QAT。在 E2B 和 E4B 上,Unsloth 的量产版本能达到 接近 BF16 原始模型的 100% 精度,而 Google 官方 QAT 版本虽然在压缩上更激进(1GB vs Unsloth 的 ~1.5GB),但精度略低。

如果你更看重质量而不是极致压缩,可以关注 Unsloth 的 Gemma 4 QAT 版本。

注意事项

  • GGUF 可用性问题:有 HN 用户反馈,部分 QAT 检查点的 GGUF 格式可能尚未完全就绪——Google 承诺了 GGUFs 支持,但实际仓库中可能还未上传。如果遇到 model file not found,可以稍等 24-48 小时等待同步,或先使用 Hugging Face Transformers 直接加载 PyTorch 版本。
  • 手机端优化仍在迭代:移动专用量化格式目前主要面向 Android(Google 自家的生态),iOS 的 Core ML 支持需要社区适配,预计 1-2 周内会有社区 PR。

总结

Gemma 4 QAT 是 Google 在「让模型真正跑在普通硬件上」这条路上迈出的重要一步。相比 PTQ 的「压缩后凑合用」,QAT 从源头设计就考虑到了压缩——结果是 1GB 跑 E2B、6.7GB 跑 12B,且质量损失可控。对于需要本地部署 AI Agent、隐私敏感场景或移动端推理的开发者来说,这是目前性价比最高的选择之一。

模型权重下载:Hugging Face – google/gemma-4-qat Google 原博客:Gemma 4 with Quantization-Aware Training HN 讨论:Gemma 4 QAT models

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。