2026年6月12日 1 分钟阅读

Google 发布 Gemma 4 QAT:量化和训练优化让大模型在手机上只需 1GB 内存

tinyash 0 条评论

就在 Gemma 4 12B 和 MTP(多 Token 预测)发布不久,Google 又放出了新大招 —— 专门为边缘设备优化的 Gemma 4 QAT(Quantization-Aware Training,量化感知训练)版本。这次更新的核心是:通过将量化过程融入训练阶段,大幅减少模型内存占用,让 Gemma 4 能在普通消费级 GPU 和手机上流畅运行

QAT 是什么?为什么比传统量化更强?

通常的量化做法是 Post-Training Quantization(PTQ,训练后量化):先把模型训练好,再拿工具去压缩它。这种方式虽然简单,但精度损失明显 —— 模型在训练时完全不知道后面会被量化。

QAT 的思路正好相反:在训练过程中模拟量化操作,让模型学会在低精度下保持准确性。Google 这次推出的 QAT 检查点有两个版本:

  1. Q4_0 格式:面向消费级 GPU(笔记本、台式机),兼容 llama.cpp 和 vLLM 等主流推理框架
  2. 移动端专用格式:面向手机和平板,专门为移动处理器量身定制

内存占用有多低?

官方给出的近似内存需求:

模型原始 BF16QAT Q4_0QAT 移动格式
Gemma 4 E2B (2.6B)~5GB~1.9GB<1GB
Gemma 4 E4B (9B)~18GB~5.4GB~3.9GB
Gemma 4 12B~24GB~6.7GB
Gemma 4 26B MoE~52GB~14.6GB

最令人印象深刻的是 E2B 的移动格式版本,不到 1GB 的显存 —— 意味着可以轻松塞进手机。而 12B 模型 Q4_0 仅需 6.7GB VRAM,HN 用户实测在 RTX 5060(8GB)上运行流畅。

移动端专属量化优化

Google 针对移动处理器做了三层底层优化:

预计算缩放因子:普通量化在推理时需要动态计算缩放参数。Google 将这些参数在训练阶段就预先计算好,推理时直接复用,减少移动芯片的计算负担。

数据结构适配移动加速器:将压缩后的数据排列成与移动端 NPU/GPU 原生格式对齐,避免每次计算前都需要格式转换。手机可以直接”原生”运行这些张量运算。

2-bit 生成层压缩 + 高精度推理层:对模型输出层采用 2-bit 极致压缩,而核心推理层保留较高精度。模型输出速度几乎不受影响,但总存储大幅下降。

此外,Embedding 和 KV Cache 也做了针对性优化 —— 词汇表和短期记忆部分被压缩到极致,长对话场景下不会因 KV Cache 膨胀耗尽内存。如果不需要视觉/音频能力,可只部署文本模块,E2B 纯文本模型可进一步压到 1GB 以下。

生态支持

Google 这次和整个推理生态做了深度合作:

  • llama.cpp / Ollama:GGUF 格式 QAT 检查点
  • vLLM:压缩张量格式,适合高效服务部署
  • MLX:Apple Silicon 优化
  • LiteRT:轻量级运行时,适合边缘设备部署
  • MediaPipe:移动端 Web 部署
  • Hugging Face Transformers:直接微调
  • Unsloth:第三方量化工具,声称其 QAT 精度超越官方

Simon Willison 在 HN 上演示了一行命令运行:

uvx litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --prompt="Generate an SVG of a pelican riding a bicycle"

实战:用 Ollama 运行 Gemma 4 12B QAT

ollama pull hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0
ollama run hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0

对硬件要求更低的 E2B 版本:

ollama pull hf.co/google/gemma-4-E2B-it-qat-q4_0-gguf:Q4_0
ollama run hf.co/google/gemma-4-E2B-it-qat-q4_0-gguf:Q4_0

值得关注的启示

  1. MTP + QAT 组合:Google 提供了 MTP QAT 检查点,可以同时享受 MTP 的 3x 推理加速和 QAT 的内存优化。这可能是目前边缘部署性价比最高的方案。
  1. 社区量化工具反超官方:Unsloth 的 QAT GGUF 版本在多项指标上接近 BF16 原始模型的 100% 精度,甚至超越了官方 QAT 版本。
  1. WWDC 前的时机:发布紧挨着 WWDC 2026,Apple 刚宣布基于 Google 模型的 Siri 改进。Google 在 Apple 大会前展现实力的意图明显。

总结

Gemma 4 QAT 是一次务实的更新:不改变模型架构,不增加参数规模,而是通过量化感知训练把模型压缩到可部署的状态。12B 模型 6.7GB、E2B 不到 1GB 的显存需求,让本地大模型不再是高端硬件的专利

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。