AI 2026年6月6日 2 分钟阅读

Google Gemma 4 QAT 模型发布：1GB 跑 E2B，量化感知训练让移动端 AI 部署更高效

tinyash 0 条评论

文章信息

发布时间 2026年6月6日
作者 tinyash
阅读时长 2 分钟阅读

6 月 5 日，Google DeepMind 团队发布了 Gemma 4 系列的 QAT（Quantization-Aware Training，量化感知训练） 检查点，将旗舰模型的显存需求大幅降低——E2B 模型压缩至最低 1GB，12B 版本仅需 6.7GB。这不是普通的量化版本，而是一次从训练阶段就深度优化的模型压缩方案。

之前发布的 Gemma 4 12B（encoder-free 多模态模型）已经让开发者能在笔记本上运行 12B 级模型，但 QAT 版本更进一步——它不仅让模型更小，还让质量损失降到最低。

QAT 与 PTQ：为什么这次不一样

大多数开源模型的量化都是 PTQ（Post-Training Quantization）——训练完成后，把权重从 FP16/BF16 压缩到 INT4 或 INT8。这种做法简单快捷，但精度损失不可控，尤其在小模型上的表现差异明显。

QAT 则是在训练过程中就模拟量化误差，让模型自己学会「适应」压缩后的精度。Google 的 QAT 检查点相比标准 PTQ 基线，在质量上更进一步。

简单对比：

方案	精度损失	部署复杂度	适用场景
BF16（原始）	无	高（需 16GB+）	服务器、研究
PTQ Q4_0	较低	低	通用笔记本
QAT Q4_0	更低	低	笔记本、消费级 GPU
QAT 移动格式	可控	低	手机、平板

显存需求一览

Google 给出的 QAT 模型大致显存需求（Q4_0 格式）：

模型	QAT Q4_0 显存	原始 BF16 显存	节省比例
Gemma 4 E2B	~1 GB	~4 GB	75%
Gemma 4 E4B	~2 GB	~8 GB	75%
Gemma 4 12B	~6.7 GB	~24 GB	72%
Gemma 4 26B MoE	~13 GB	~50 GB	74%

对于只有 8GB 显存的 RTX 4070 或 M 系列 16GB 统一内存的 MacBook，现在可以流畅运行 Gemma 4 12B QAT，甚至在手机端运行 E2B。

移动端专用量化方案

Google 没有简单套用 Q4_0 到移动端，而是重新设计了移动芯片专用的量化格式：

预计算缩放因子：标准量化需要在推理时实时计算反量化参数，这对移动芯片的算力是额外的负担。QAT 版本在训练阶段就把缩放因子固化下来，移动端推理时直接使用，省去动态计算步骤。

计算单元对齐：压缩后的数据结构与手机 NPU/GPU 的原生计算单元对齐，避免额外的数据重排，让推理过程保持原生速度。

分层精度：Token 生成层用 2-bit 高度压缩，核心推理层保持更高精度——这种「刀法」让存储大幅缩减，同时不影响模型的「智商」。

Embedding 和 KV Cache 优化：词汇表（词汇量大的部分通常占参数量的 10-15%）和短期记忆（KV Cache）是显存消耗大户。QAT 版本在这两个模块上做了针对性压缩，长对话的显存增长明显放缓。

如果你只需要文本能力（不需要视觉编码器），Gemma 4 E2B 的纯文本版本甚至能压到 1GB 以下。

快速上手：本地部署

Google 已与生态工具深度合作，QAT 检查点发布即支持主流框架。

llama.cpp（推荐）

Q4_0 GGUF 格式已经可用：

wget https://huggingface.co/google/gemma-4-12b-qat-Q4_0-GGUF/resolve/main/gemma-4-12b-q4_0.gguf

llama-cli -m gemma-4-12b-q4_0.gguf \
  -p "用三句话解释什么是 Quantization-Aware Training" \
  -n 256

配合 MTP 加速（Multi-Token Prediction），即使量化后的模型也能保持两倍以上的推理加速。Google 特别提供了 MTP QAT 检查点，让量化版本仍能利用 MTP 加速能力。

vLLM

vLLM 也直接支持 QAT 压缩张量格式：

vllm serve google/gemma-4-12b-qat \
  --dtype auto \
  --max-model-len 8192

Ollama

Ollama 用户可以通过自定义 Modelfile 导入 GGUF：

FROM ./gemma-4-12b-q4_0.gguf
TEMPLATE "{{ .Prompt }}"
PARAMETER num_ctx 8192

实战场景：移动端 Agent

QAT 的最大意义不是让桌面端再快一点，而是让 手机能跑 Agent。

Gemma 4 E2B QAT（1GB）配合 Apple Core ML 或 Android NNAPI，可以在手机上实现：

本地代码补全：配合手机端的编辑器（如 Working Copy / Code Editor），离线完成函数补全和简单重构
隐私敏感的数据分析：医疗、金融数据不需要上传云端，手机本地完成分类和摘要
低延迟语音助手：本地推理的响应延迟在百毫秒级别，不需要等待云端的网络往返

import coremltools as ct
import numpy as np

model = ct.models.MLModel("Gemma4_E2B_QAT.mlpackage")

prompt = "Classify this transaction: $47.99 at Starbucks"
output = model.predict({"input": tokenize(prompt)})
print(decode(output))  # "Food & Drink"

Unsloth 社区表现

HN 社区中已有开发者用 Unsloth 测试了 QAT 版本——Unsloth 的量化方案在质量上甚至超过 Google 官方 QAT。在 E2B 和 E4B 上，Unsloth 的量产版本能达到 接近 BF16 原始模型的 100% 精度，而 Google 官方 QAT 版本虽然在压缩上更激进（1GB vs Unsloth 的 ~1.5GB），但精度略低。

如果你更看重质量而不是极致压缩，可以关注 Unsloth 的 Gemma 4 QAT 版本。

注意事项

GGUF 可用性问题：有 HN 用户反馈，部分 QAT 检查点的 GGUF 格式可能尚未完全就绪——Google 承诺了 GGUFs 支持，但实际仓库中可能还未上传。如果遇到 model file not found，可以稍等 24-48 小时等待同步，或先使用 Hugging Face Transformers 直接加载 PyTorch 版本。
手机端优化仍在迭代：移动专用量化格式目前主要面向 Android（Google 自家的生态），iOS 的 Core ML 支持需要社区适配，预计 1-2 周内会有社区 PR。

总结

Gemma 4 QAT 是 Google 在「让模型真正跑在普通硬件上」这条路上迈出的重要一步。相比 PTQ 的「压缩后凑合用」，QAT 从源头设计就考虑到了压缩——结果是 1GB 跑 E2B、6.7GB 跑 12B，且质量损失可控。对于需要本地部署 AI Agent、隐私敏感场景或移动端推理的开发者来说，这是目前性价比最高的选择之一。

模型权重下载：Hugging Face – google/gemma-4-qat Google 原博客：Gemma 4 with Quantization-Aware Training HN 讨论：Gemma 4 QAT models

AI AI 工具 AI新闻 development tutorial local deployment model optimization 开源教程