AI 2026年6月9日 1 分钟阅读

Gemma 4 QAT 发布：将 Google 最新模型压缩至 1GB，跑在手机和笔记本上

tinyash 0 条评论

文章信息

发布时间 2026年6月9日
作者 tinyash
阅读时长 1 分钟阅读

Google 在 I/O 2026 发布 Gemma 4 两周后，今天推出了 QAT（Quantization-Aware Training，量化感知训练） 版本。这不是简单的后训练量化——它在训练阶段就把量化过程整合进去，把 Gemma 4 E2B 的内存占用压到 不到 1GB，真正让这套模型能在手机和消费级 GPU 上本地运行。

为什么需要 QAT？

量化（Quantization）是让大模型跑在消费级硬件上的关键技术。标准做法是后训练量化（PTQ）——训练完成后再压缩权重。但 PTQ 在把精度从 16-bit 降到 4-bit 时，质量损失有时不可忽略。QAT 的做法是在训练过程中模拟量化行为，让模型自己学会在低精度下保持准确。

Google 的博客数据对比很清楚：QAT 版本在 Q4_0 格式下的质量比标准 PTQ 更高——差距虽然不大，但对需要在边缘设备上做推理的生产环境来说，这点差距可能影响结果可靠性。

内存对比（近似值）：

模型	BF16（未量化）	Q4_0 QAT
Gemma 4 2B	~4 GB	~1.6 GB
Gemma 4 E2B（文本版）	~9 GB	<1 GB
Gemma 4 12B	~24 GB	~7 GB

E2B 文本版压到 1GB 以下是最亮眼的数据——这意味着主流手机（8GB+ 内存）可以本地运行 Gemma 4 级别的多模态模型。

移动端专属量化方案

Google 没有直接套用 Q4_0 通用格式了事——他们为边缘设备做了一套专门的量化 schema，包含以下优化：

预计算缩放因子：通常在推理时，处理器需要实时计算如何反量化数据。QAT 版本在训练阶段预计算好这些参数，手机芯片直接复用，省掉这个计算开销。

对齐移动加速器的数据布局：压缩后的张量布局适配了手机端 ML 加速器的原生数据格式，避免运行时做格式转换。这个”慢操作”的消除对端到端延迟影响显著。

分层精度策略：生成 token 的部分（LM Head）压缩到 2-bit，核心推理层保持更高精度。翻译成人话：模型”说话”的部分极度压缩，”思考”的部分保持准确。

Embedding & KV Cache 优化：词汇表和短期记忆（KV Cache）是内存占用的主要来源。QAT 版本重点压缩这两个区域，让长对话不因内存耗尽而中断。

如何上手

Google 已经和主流推理框架做了对接。几种最直接的上手方式：

llama.cpp（GGUF 格式）

llama-cli -m gemma-4-E2B-it-q4_0.gguf \
  -p "Write a Python script to parse JSON logs" \
  -n 512

Google LiteRT（移动端部署）

uvx litert-lm run \
  --from-huggingface-repo=litert-community/gemma-4-E2B-it-litert-lm \
  gemma-4-E2B-it.litertlm \
  --backend=gpu \
  --prompt="Explain quantum computing in simple terms"

这个来自 Simon Willison 的 HN 评论——他已经在 Mac 上成功运行了 QAT 版本。LiteRT 是 Google 针对移动和边缘设备优化过的推理运行时。

vLLM

vllm serve google/gemma-4-2B-Q4_0 \
  --dtype auto \
  --max-model-len 8192

MTP（多 Token 预测）+ QAT 组合

MTP（Multi-Token Prediction）是 Gemma 4 的一个关键特性——每一步预测多个 token 来加速推理。QAT 版本也包含 MTP QAT checkpoints，让你在量化模型的同时保留 MTP 的加速效果。这对边缘部署的意义很大：量化省内存，MTP 提速度，两者同时生效时，手机上的推理体验才有可能和云端接近。

Unsloth 社区的表现

HN 评论区中 satvikpendem 提到了 Unsloth 的量化版本，声称在部分基准上比 Google 官方 QAT 更接近 BF16 无损质量。如果你已经在用 Unsloth 微调 Gemma 4，可以直接用他们的 QAT 转换工具输出移动端兼容格式，不需要改 workflow。

适用场景总结

手机端 AI 应用：E2B 文本版 <1GB，可以在旗舰手机上离线运行多模态推理
消费级 GPU 推理：12B QAT 版本仅需 ~7GB VRAM，RTX 4070（12GB）即可运行
边缘设备 Agent：QAT 版本的 Gemma 4 可以嵌入到 AI Agent 的边缘运行层，减少云端依赖
MTP 加速 + QAT 省内存同时生效的组合适合实时性要求高的场景（语音助手、实时翻译）

所有模型权重已上传 Hugging Face，格式涵盖 GGUF（llama.cpp）、压缩张量（vLLM）和未量化 checkpoint（自定义量化）。Google 还提供了 Keras 和 MLX 的集成教程，Apple Silicon 用户可以直接跑。

总结

Gemma 4 QAT 的发布不是简单的模型更新——它实际定义了”移动端 AI 模型应该怎么做”的一条新路径：在训练阶段就考虑部署时的量化约束。配合 MTP 加速和 LiteRT 运行时，2026 年下半年我们可能会看到更多完全本地运行的 AI Agent 出现在手机上。

AI AI 工具 AI 编程 local deployment model optimization 开源教程