2026年4月26日 1 分钟阅读

Google Cloud 第八代 TPU 发布:开发者该如何看待 AI 芯片新格局

tinyash 0 条评论

Google 在 Google Cloud Next ’26 大会上发布了第八代 TPU(张量处理单元),这次的做法和以往不太一样——不再是一颗芯片打天下,而是拆成了两颗专用芯片:TPU 8t 专注模型训练,TPU 8i 专注模型推理。

这对开发者意味着什么?简单说:AI 训练和推理的成本曲线可能又要往下走一截了。

两颗芯片,两条赛道

TPU 8t:训练专用

TPU 8t 面向模型训练场景。Google 给出的数据是比上一代快 3 倍。对于正在训练大模型或者做 fine-tuning 的团队来说,这意味着同样的模型训练时间可以缩短到原来的三分之一。

# 使用 TPU 8t 训练的典型流程(JAX 示例)
import jax
import jax.numpy as jnp
from jax import random

# TPU 设备自动检测
devices = jax.devices()
print(f"可用 TPU 设备数: {len(devices)}")

# 数据并行训练
@jax.pmap
def train_step(params, batch):
    # 你的训练逻辑
    grads = jax.grad(loss_fn)(params, batch)
    return jax.lax.pmean(grads, 'batch')

# TPU 8t 支持百万级设备集群
# 大规模训练时自动分配跨节点通信

TPU 8i:推理专用

TPU 8i 面向推理场景,也就是模型上线后处理用户请求的阶段。Google 宣称推理性能每美元提升 80%。如果你的应用已经跑在 Google Cloud 上,这个数字直接对应着账单上的节省。

# 使用 TPU 8i 部署推理服务(简化示例)
from google.cloud import aiplatform

# 部署模型到 TPU 推理端点
endpoint = aiplatform.Endpoint.create(
    display_name="my-tpu-inference-endpoint",
    machine_type="ct4pp-hightpu-4t",  # TPU 8i 实例
    min_replica_count=1,
    max_replica_count=10,
)

# 发送推理请求
response = endpoint.predict(
    instances=[{"text": "你的输入文本"}]
)

一个集群,百万级 TPU

Google 这次还强调了一个架构能力:TPU 8 代芯片可以组成 100 万+ 颗 TPU 的单一集群。这不是给个人开发者用的,但对企业级训练来说意义重大——更大的集群意味着可以训练更大的模型,而不需要跨集群管理带来的通信开销。

和 Nvidia 的关系:合作多于竞争

这是整件事最值得关注的部分。Google 并没有把 TPU 定位为 Nvidia 的替代品。相反:

  • Google Cloud 将继续提供 Nvidia 最新的 Vera Rubin 芯片
  • Google 和 Nvidia 正在合作优化 Falcon 网络协议(Google 2023 年开源的数据中心网络技术)
  • 两者是互补关系,不是替代关系
┌─────────────────────────────────────────┐
│           Google Cloud AI 基础设施       │
├──────────────┬──────────────────────────┤
│   TPU 8t     │      Nvidia Vera Rubin   │
│   (训练)     │      (训练 + 推理)        │
├──────────────┼──────────────────────────┤
│   TPU 8i     │      Nvidia H200/B200    │
│   (推理)     │      (推理)              │
├──────────────┴──────────────────────────┤
│        Falcon 网络层 (RDMA over Falcon)  │
└─────────────────────────────────────────┘

开发者该怎么选?

面对这么多选项,实际选择逻辑并不复杂:

选择 TPU 8t 的场景:

  • 使用 JAX 或 TensorFlow 训练模型
  • 需要大规模分布式训练
  • 对训练成本敏感

选择 TPU 8i 的场景:

  • 部署推理服务,追求每美元性能
  • 工作负载相对标准化(如文本生成、图像分类)
  • 已经在 Google Cloud 生态内

选择 Nvidia 的场景:

  • 使用 PyTorch 生态(TPU 原生支持 JAX/TensorFlow)
  • 需要特定的 CUDA 算子或库
  • 模型架构比较新,TPU 上还没有优化
# 快速对比:同一模型在不同硬件上的推理延迟
# TPU 8i
gcloud ai endpoints predict \
    --endpoint=YOUR_TPU_ENDPOINT \
    --region=us-central1 \
    --instance='{"text": "Hello"}'

# Nvidia Vera Rubin(预计 2026 下半年可用)
gcloud ai endpoints predict \
    --endpoint=YOUR_NVIDIA_ENDPOINT \
    --region=us-central1 \
    --instance='{"text": "Hello"}'

对 AI 基础设施格局的影响

Google、Amazon(Trainium)、Microsoft 都在自建 AI 芯片,这是一个清晰的信号:云厂商不想被 Nvidia 的定价权完全控制。

但短期来看,Nvidia 的地位依然稳固。正如芯片分析师 Patrick Moorhead 调侃的——他从 2016 年就开始说 TPU 会威胁 Nvidia,结果 Nvidia 现在市值接近 5 万亿美元。

对开发者的实际影响是:多了一个性价比选项,而不是一个替代方案。如果你的团队已经在 Google Cloud 上跑 AI 工作负载,TPU 8 代值得纳入成本评估。如果你们深度绑定 PyTorch + CUDA 生态,短期内迁移到 TPU 的收益可能不足以覆盖迁移成本。

总结

Google 第八代 TPU 的核心信息很清晰:

  1. 训练和推理分芯片设计,各自优化,不再一刀切
  2. 性能提升明显:训练 3 倍速,推理每美元提升 80%
  3. 和 Nvidia 互补而非替代,短期内共存是主旋律
  4. 百万级集群能力为企业级训练铺路
  5. 开发者选型逻辑不变:看生态、看成本、看迁移代价

AI 芯片的竞争才刚刚开始,但对开发者来说,多一个选择总是好事。


参考资料:Google Cloud Next ’26 基础设施公告TechCrunch 报道

发表评论

你的邮箱地址不会被公开,带 * 的为必填项。