今天," 全球大模型第一股 " 智谱(02513.HK)盘中涨幅一度突破 30%,收盘报 1282 港元,全天涨幅超过 26%,市值达到 5715.7 亿港元,再度创下历史新高。触发这场暴涨的,是一个具体的技术指标:每秒 400 字输出。
5 月 22 日,智谱正式面向企业客户开放 GLM-5.1 高速版 API(GLM-5.1-highspeed),核心参数只有一个——模型输出速度达到每秒 400 个词元,刷新全球大模型厂商 API 速度上限。

每秒 400 词元是什么概念?模型每秒能生成大约 200 个汉字,相当于一个专业作家一分钟的高强度产出,被压缩到了一秒钟之内。一名工程师埋头 3 天才能完成的系统重构任务,它能在喝一杯咖啡的时间里跑完。
速度历来是 AI 模型竞争中最容易被忽视的维度。过去三年,大模型军备竞赛集中在两条赛道:参数规模(模型更大更聪明)和价格战(词元更便宜更普惠)。" 快 ",从来不是主角。
这是因为,过去的 " 快 " 通常是通过缩小模型参数来实现的。要提速,就必须用更小更精简的模型,代价是能力缩水。GLM-5.1 高速版这次的意义在于,它在保留旗舰级全尺寸基座能力的同时,将速度推上了每秒 400 词元。" 旗舰能力 " 与 " 极致低延迟 " 第一次做到了不妥协。
为什么速度突然变得关键?因为 AI 的主战场正在发生根本性的迁移。当 AI 从 ChatBot 进入 Agent 时代,问答已经不是主要场景,而 Agent 要完成一个任务,往往需要模型进行数十轮甚至上百轮的自我调用:写代码、调接口、搜信息、调用工具……
在这种工作模式下,每一轮调用之间的延迟会被无情地累加放大。一个需要 50 轮调用的任务,如果每次节省 1 秒,整个任务就快了将近 1 分钟。对于 AI 编程助手、语音交互、商业决策系统来说,这种差距是可以决定生死的。
从更深层面来说,在固定时间预算内,更快的推理意味着模型可以完成更深的推理路径、更多轮次的自我验证。速度,正在从系统指标变成智能上限本身。
那么行业里目前什么水平?头部厂商中,OpenAI 的 GPT-4o 约在 100 – 150 词元 / 秒,Anthropic 的 Claude Sonnet 系列约在 80 – 120 词元 / 秒,国内主流旗舰模型 API 大多在 50 – 100 词元 / 秒区间。每秒 400 词元大约是行业平均水平的 3 到 5 倍。
更关键的是,这个差距并不是投入更多算力就能弥补的。一台搭载 8 块 H200 显卡的服务器,理论上每秒能搬运高达 38TB 的数据。对于 GLM-5.1,单次生成一个词元只需读取约 42GB 的激活参数,纯理论上推算,应该能接近 1000 词元 / 秒。
但现实系统往往只能跑出几十词元 / 秒——这是一个数量级的鸿沟。GPU 不是不够快,而是大量时间都被浪费在了等待、空转和无效调度上。
智谱这次在推理引擎、并行策略、网络架构三个层面同时创新,实现了对最终速度的突破。
第一层是推理引擎 TileRT。传统方式里,大模型被分解成一个个独立算子,每个算子单独启动一次计算核心(kernel),计算完就停下,同步等待,再启动下一个。在训练阶段,每次计算动辄几秒乃至几分钟,这些开销可以忽略。但推理时,单次生成一个词元可能只需要几十微秒,启动和等待的开销就变得不可忽视。
TileRT 的核心思路:把整个模型编译成一个持续运行的引擎,一次启动,永不停歇。它在代码编译阶段提前把模型所有计算逻辑静态展开成一条连续流水线,运行时 GPU 始终保持高速运转,计算、数据搬运、通信并行推进,中间结果尽量留在 GPU 内部高速缓存里,不再反复写回慢速显存再重新读取。
这里有一个关键设计:Warp 专门化。GPU 内部有成千上万个相对简单的计算单元,以 32 个为一组捆绑在一起,这一组就叫 Warp。同一个 Warp 里的 32 个单元必须始终同步行动、执行同一条指令。传统框架里,所有 Warp 执行同一套指令序列;TileRT 让不同 Warp 组承担不同职责:一部分专门负责把下一批数据提前搬运进来,一部分专门负责数学计算,一部分专门负责与其他 GPU 通信。三组人同时工作、流水配合,互不等待。
第二层是多卡并行策略。行业通行做法是张量并行(Tensor Parallel):把模型的权重矩阵切分成若干份,每块 GPU 负责其中一份,各自计算完毕后通过高速互联(NVLink)汇总结果。这套方案对矩阵乘法这类规整的密集计算效果很好,是目前几乎所有大模型推理框架的标准多卡方案。
GLM-5.1 采用 MLA 注意力架构,其核心计算不再是标准的矩阵乘法,而是带有复杂数据依赖的访存密集型操作。传统张量并行在这种场景下效率骤降,因为大量时间消耗在跨卡同步等待上。智谱针对性设计了 " 计算 - 通信重叠 " 策略:当一块 GPU 还在计算当前步骤时,另一块 GPU 已经开始预取下一步所需的数据,把等待时间压缩到极限。
第三层是网络架构革新。多卡推理时,GPU 之间需要频繁交换中间结果。传统方案依赖 NVLink 和 InfiniBand,虽然带宽高,但延迟通常在微秒级。智谱引入了基于 FPGA 的自定义网络协议栈,把通信延迟从微秒级降到纳秒级,同时优化了数据包调度算法,避免网络拥塞导致的突发延迟。
三层技术叠加,最终让 GLM-5.1 高速版逼近了硬件物理极限。这不是简单的工程优化,而是对 " 大模型推理 " 这件事的重新理解:从离散算子到连续流水线,从同步等待到全异步并行,从通用网络到专用协议。
资本市场用 26% 的涨幅投票,本质上是在押注一个判断:Agent 时代,速度就是生产力,而生产力决定估值。


登录后才可以发布评论哦
打开小程序可以发布评论哦