AI 2026年6月12日 1 分钟阅读

Google 发布 Gemma 4 QAT：量化和训练优化让大模型在手机上只需 1GB 内存

tinyash 0 条评论

文章信息

发布时间 2026年6月12日
作者 tinyash
阅读时长 1 分钟阅读

就在 Gemma 4 12B 和 MTP（多 Token 预测）发布不久，Google 又放出了新大招 —— 专门为边缘设备优化的 Gemma 4 QAT（Quantization-Aware Training，量化感知训练）版本。这次更新的核心是：通过将量化过程融入训练阶段，大幅减少模型内存占用，让 Gemma 4 能在普通消费级 GPU 和手机上流畅运行。

QAT 是什么？为什么比传统量化更强？

通常的量化做法是 Post-Training Quantization（PTQ，训练后量化）：先把模型训练好，再拿工具去压缩它。这种方式虽然简单，但精度损失明显 —— 模型在训练时完全不知道后面会被量化。

QAT 的思路正好相反：在训练过程中模拟量化操作，让模型学会在低精度下保持准确性。Google 这次推出的 QAT 检查点有两个版本：

Q4_0 格式：面向消费级 GPU（笔记本、台式机），兼容 llama.cpp 和 vLLM 等主流推理框架
移动端专用格式：面向手机和平板，专门为移动处理器量身定制

内存占用有多低？

官方给出的近似内存需求：

模型	原始 BF16	QAT Q4_0	QAT 移动格式
Gemma 4 E2B (2.6B)	~5GB	~1.9GB	<1GB
Gemma 4 E4B (9B)	~18GB	~5.4GB	~3.9GB
Gemma 4 12B	~24GB	~6.7GB	–
Gemma 4 26B MoE	~52GB	~14.6GB	–

最令人印象深刻的是 E2B 的移动格式版本，不到 1GB 的显存 —— 意味着可以轻松塞进手机。而 12B 模型 Q4_0 仅需 6.7GB VRAM，HN 用户实测在 RTX 5060（8GB）上运行流畅。

移动端专属量化优化

Google 针对移动处理器做了三层底层优化：

预计算缩放因子：普通量化在推理时需要动态计算缩放参数。Google 将这些参数在训练阶段就预先计算好，推理时直接复用，减少移动芯片的计算负担。

数据结构适配移动加速器：将压缩后的数据排列成与移动端 NPU/GPU 原生格式对齐，避免每次计算前都需要格式转换。手机可以直接”原生”运行这些张量运算。

2-bit 生成层压缩 + 高精度推理层：对模型输出层采用 2-bit 极致压缩，而核心推理层保留较高精度。模型输出速度几乎不受影响，但总存储大幅下降。

此外，Embedding 和 KV Cache 也做了针对性优化 —— 词汇表和短期记忆部分被压缩到极致，长对话场景下不会因 KV Cache 膨胀耗尽内存。如果不需要视觉/音频能力，可只部署文本模块，E2B 纯文本模型可进一步压到 1GB 以下。

生态支持

Google 这次和整个推理生态做了深度合作：

llama.cpp / Ollama：GGUF 格式 QAT 检查点
vLLM：压缩张量格式，适合高效服务部署
MLX：Apple Silicon 优化
LiteRT：轻量级运行时，适合边缘设备部署
MediaPipe：移动端 Web 部署
Hugging Face Transformers：直接微调
Unsloth：第三方量化工具，声称其 QAT 精度超越官方

Simon Willison 在 HN 上演示了一行命令运行：

uvx litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --prompt="Generate an SVG of a pelican riding a bicycle"

实战：用 Ollama 运行 Gemma 4 12B QAT

ollama pull hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0
ollama run hf.co/google/gemma-4-12B-it-qat-q4_0-gguf:Q4_0

对硬件要求更低的 E2B 版本：

ollama pull hf.co/google/gemma-4-E2B-it-qat-q4_0-gguf:Q4_0
ollama run hf.co/google/gemma-4-E2B-it-qat-q4_0-gguf:Q4_0

值得关注的启示

MTP + QAT 组合：Google 提供了 MTP QAT 检查点，可以同时享受 MTP 的 3x 推理加速和 QAT 的内存优化。这可能是目前边缘部署性价比最高的方案。

社区量化工具反超官方：Unsloth 的 QAT GGUF 版本在多项指标上接近 BF16 原始模型的 100% 精度，甚至超越了官方 QAT 版本。

WWDC 前的时机：发布紧挨着 WWDC 2026，Apple 刚宣布基于 Google 模型的 Siri 改进。Google 在 Apple 大会前展现实力的意图明显。

总结

Gemma 4 QAT 是一次务实的更新：不改变模型架构，不增加参数规模，而是通过量化感知训练把模型压缩到可部署的状态。12B 模型 6.7GB、E2B 不到 1GB 的显存需求，让本地大模型不再是高端硬件的专利。

AI AI 工具 LLM model optimization ollama 开源教程