智谱(02513)推出GLM-5.1高速版API 400 tokens/s刷新全球速度上限

5 月 22 日，智谱 ( 02513 ) 宣布面向部分企业客户开放 GLM-5.1 高速版 API ( GLM-5.1-highspeed ) ，模型输出速度达 400 tokens/s，刷新全球大模型厂商 API 速度上限，且首次在国产大模型中实现旗舰级能力与极致低延迟的双重突破。

此次发布的高速版打破行业 " 快即小 " 的固有认知，无需为响应速度牺牲模型质量。在 Coding 等速度敏感场景中，其优势尤为显著：Coding Agent 任务常需数十轮模型调用，高速版可实现 " 即问即答 "，彻底改变传统模型多轮调用耗时久的痛点，让模型开始真正成为实时协作伙伴。

实测数据显示，高速版能力突出：代码生成效率提升约 10 倍，可同步理解工程上下文并输出方案 ;3D 场景建模可实现文字输入与场景实时联动 ; 还能即时生成匹配需求的工具与交互，具备新型操作系统雏形。

该 API 由智谱 GLM 团队与 TileRT 团队联合打造，经推理引擎、调度系统、基础设施三层优化：重写核心推理路径提升单卡吞吐 ; 动态批处理与 KV 缓存调度降低尾延迟 ; 集群与网络协同优化，确保 400 tokens/s 稳定可用。其核心突破在于 TileRT 引擎，通过编译期静态编排与 Tile 级微任务调度，消除冗余开销，逼近硬件物理极限。

目前，GLM-5.1 高速版已适配 AI 编程、实时交互、商业决策、实时语音等高敏感场景，在智谱 MaaS 平台定向开放。未来智谱将持续优化推理引擎，扩大高速服务覆盖，为企业提供低延迟、高智能的生产级 AI 能力，巩固国产大模型在全球技术前沿的领先地位。

宙世代

一起剪

相关标签