Google Cloud 第八代 TPU 发布:开发者该如何看待 AI 芯片新格局
Google 在 Google Cloud Next ’26 大会上发布了第八代 TPU(张量处理单元),这次的做法和以往不太一样——不再是一颗芯片打天下,而是拆成了两颗专用芯片:TPU 8t 专注模型训练,TPU 8i 专注模型推理。
这对开发者意味着什么?简单说:AI 训练和推理的成本曲线可能又要往下走一截了。
两颗芯片,两条赛道
TPU 8t:训练专用
TPU 8t 面向模型训练场景。Google 给出的数据是比上一代快 3 倍。对于正在训练大模型或者做 fine-tuning 的团队来说,这意味着同样的模型训练时间可以缩短到原来的三分之一。
# 使用 TPU 8t 训练的典型流程(JAX 示例)
import jax
import jax.numpy as jnp
from jax import random
# TPU 设备自动检测
devices = jax.devices()
print(f"可用 TPU 设备数: {len(devices)}")
# 数据并行训练
@jax.pmap
def train_step(params, batch):
# 你的训练逻辑
grads = jax.grad(loss_fn)(params, batch)
return jax.lax.pmean(grads, 'batch')
# TPU 8t 支持百万级设备集群
# 大规模训练时自动分配跨节点通信
TPU 8i:推理专用
TPU 8i 面向推理场景,也就是模型上线后处理用户请求的阶段。Google 宣称推理性能每美元提升 80%。如果你的应用已经跑在 Google Cloud 上,这个数字直接对应着账单上的节省。
# 使用 TPU 8i 部署推理服务(简化示例)
from google.cloud import aiplatform
# 部署模型到 TPU 推理端点
endpoint = aiplatform.Endpoint.create(
display_name="my-tpu-inference-endpoint",
machine_type="ct4pp-hightpu-4t", # TPU 8i 实例
min_replica_count=1,
max_replica_count=10,
)
# 发送推理请求
response = endpoint.predict(
instances=[{"text": "你的输入文本"}]
)
一个集群,百万级 TPU
Google 这次还强调了一个架构能力:TPU 8 代芯片可以组成 100 万+ 颗 TPU 的单一集群。这不是给个人开发者用的,但对企业级训练来说意义重大——更大的集群意味着可以训练更大的模型,而不需要跨集群管理带来的通信开销。
和 Nvidia 的关系:合作多于竞争
这是整件事最值得关注的部分。Google 并没有把 TPU 定位为 Nvidia 的替代品。相反:
- Google Cloud 将继续提供 Nvidia 最新的 Vera Rubin 芯片
- Google 和 Nvidia 正在合作优化 Falcon 网络协议(Google 2023 年开源的数据中心网络技术)
- 两者是互补关系,不是替代关系
┌─────────────────────────────────────────┐ │ Google Cloud AI 基础设施 │ ├──────────────┬──────────────────────────┤ │ TPU 8t │ Nvidia Vera Rubin │ │ (训练) │ (训练 + 推理) │ ├──────────────┼──────────────────────────┤ │ TPU 8i │ Nvidia H200/B200 │ │ (推理) │ (推理) │ ├──────────────┴──────────────────────────┤ │ Falcon 网络层 (RDMA over Falcon) │ └─────────────────────────────────────────┘
开发者该怎么选?
面对这么多选项,实际选择逻辑并不复杂:
选择 TPU 8t 的场景:
- 使用 JAX 或 TensorFlow 训练模型
- 需要大规模分布式训练
- 对训练成本敏感
选择 TPU 8i 的场景:
- 部署推理服务,追求每美元性能
- 工作负载相对标准化(如文本生成、图像分类)
- 已经在 Google Cloud 生态内
选择 Nvidia 的场景:
- 使用 PyTorch 生态(TPU 原生支持 JAX/TensorFlow)
- 需要特定的 CUDA 算子或库
- 模型架构比较新,TPU 上还没有优化
# 快速对比:同一模型在不同硬件上的推理延迟
# TPU 8i
gcloud ai endpoints predict \
--endpoint=YOUR_TPU_ENDPOINT \
--region=us-central1 \
--instance='{"text": "Hello"}'
# Nvidia Vera Rubin(预计 2026 下半年可用)
gcloud ai endpoints predict \
--endpoint=YOUR_NVIDIA_ENDPOINT \
--region=us-central1 \
--instance='{"text": "Hello"}'
对 AI 基础设施格局的影响
Google、Amazon(Trainium)、Microsoft 都在自建 AI 芯片,这是一个清晰的信号:云厂商不想被 Nvidia 的定价权完全控制。
但短期来看,Nvidia 的地位依然稳固。正如芯片分析师 Patrick Moorhead 调侃的——他从 2016 年就开始说 TPU 会威胁 Nvidia,结果 Nvidia 现在市值接近 5 万亿美元。
对开发者的实际影响是:多了一个性价比选项,而不是一个替代方案。如果你的团队已经在 Google Cloud 上跑 AI 工作负载,TPU 8 代值得纳入成本评估。如果你们深度绑定 PyTorch + CUDA 生态,短期内迁移到 TPU 的收益可能不足以覆盖迁移成本。
总结
Google 第八代 TPU 的核心信息很清晰:
- 训练和推理分芯片设计,各自优化,不再一刀切
- 性能提升明显:训练 3 倍速,推理每美元提升 80%
- 和 Nvidia 互补而非替代,短期内共存是主旋律
- 百万级集群能力为企业级训练铺路
- 开发者选型逻辑不变:看生态、看成本、看迁移代价
AI 芯片的竞争才刚刚开始,但对开发者来说,多一个选择总是好事。