谷歌推出第八代TPU：最高提升2.8倍训练推理首次拆分

快科技 4 月 23 日消息，谷歌云 2026 Next 大会召开，谷歌正式发布了第八代张量处理器（TPU）。这是谷歌史上首次将 AI 训练与推理任务拆分至两款独立芯片——专为模型训练设计的 TPU 8t 与专为推理优化的 TPU 8i，标志着其 AI 硬件战略的重大调整。

这一战略转变的根本原因在于 AI 计算负载的日益分化。谷歌 AI 与基础设施高级副总裁兼首席技术官 Amin Vahdat 在官方博客中指出：" 随着 AI 智能体的兴起，我们确信业界将受益于针对训练和推理需求分别进行专门优化的芯片。"

具体而言，训练任务追求极致的吞吐量与规模扩展能力，需要芯片具备最高的计算密度和内存带宽，以在数周甚至数月内处理万亿级参数。

而推理任务则对延迟和并发更为敏感——当数百万个 AI 智能体同时运行时，响应速度至关重要，而对峰值算力的要求相对较低。

TPU 8t 由谷歌与博通共同设计，是谷歌为超大规模 AI 模型训练打造的旗舰芯片。单个超级计算节点最多可集成 9600 块 TPU 8t 芯片，配备 2 PB 高带宽内存，每 Pod 计算性能达 121 exaflops（FP4 精度），较上一代 Ironwood 提升约 3 倍，同等价格下性能提升 2.8 倍。通过 JAX 与 Pathways 框架，可将分布式训练扩展至单一集群超过 100 万块芯片。

TPU 8i 首次由谷歌与联发科合作设计，专注于 AI 推理场景，旨在消除 " 等待室效应 " ——即用户请求被有意排队或延迟以实现硬件利用率最大化的情况。单个 Pod 可扩展至 1152 块芯片，提供 11.6 exaflops FP8 计算性能，较 Ironwood 同等价格下性能提升 80%，每瓦性能较上一代提升 117%。

两款第八代 TPU 芯片均搭载了谷歌自研的 Arm 架构 Axion CPU 作为主控，彻底解决数据预处理延迟导致的主机算力瓶颈。芯片采用台积电 2nm 制程工艺制造，目标在 2027 年底量产，并由谷歌第四代液冷技术支持散热。

在软件生态方面，第八代 TPU 支持 JAX、PyTorch、Keras 及 vLLM 等主流框架，原生 PyTorch 支持现已进入预览阶段，用户可直接迁移模型而无需修改代码。

除了硬件，谷歌还发布了 Gemini Enterprise Agent Platform 及一系列 AI 代理工具。新增的 Memory Bank 和 Memory Profile 功能，可以帮助 AI 代理记住与用户的过往互动；Agent Simulation 则能让开发者在工具发布前测试其运行情况。谷歌的核心目标是帮助企业实现任务自动化，让 AI 代理真正成为企业的 " 数字员工 "。

AI 代理是当前 AI 应用的重要方向。与传统的聊天机器人不同，AI 代理可以自主完成复杂任务，比如预订行程、管理日程、处理邮件等。谷歌的这一系列工具将大大降低企业部署 AI 代理的门槛。

宙世代

一起剪

相关标签