5 月 22 日,智谱 ( 02513 ) 宣布面向部分企业客户开放 GLM-5.1 高速版 API ( GLM-5.1-highspeed ) ,模型输出速度达 400 tokens/s,刷新全球大模型厂商 API 速度上限,且首次在国产大模型中实现旗舰级能力与极致低延迟的双重突破。
此次发布的高速版打破行业 " 快即小 " 的固有认知,无需为响应速度牺牲模型质量。在 Coding 等速度敏感场景中,其优势尤为显著:Coding Agent 任务常需数十轮模型调用,高速版可实现 " 即问即答 ",彻底改变传统模型多轮调用耗时久的痛点,让模型开始真正成为实时协作伙伴。
实测数据显示,高速版能力突出:代码生成效率提升约 10 倍,可同步理解工程上下文并输出方案 ;3D 场景建模可实现文字输入与场景实时联动 ; 还能即时生成匹配需求的工具与交互,具备新型操作系统雏形。
该 API 由智谱 GLM 团队与 TileRT 团队联合打造,经推理引擎、调度系统、基础设施三层优化:重写核心推理路径提升单卡吞吐 ; 动态批处理与 KV 缓存调度降低尾延迟 ; 集群与网络协同优化,确保 400 tokens/s 稳定可用。其核心突破在于 TileRT 引擎,通过编译期静态编排与 Tile 级微任务调度,消除冗余开销,逼近硬件物理极限。
目前,GLM-5.1 高速版已适配 AI 编程、实时交互、商业决策、实时语音等高敏感场景,在智谱 MaaS 平台定向开放。未来智谱将持续优化推理引擎,扩大高速服务覆盖,为企业提供低延迟、高智能的生产级 AI 能力,巩固国产大模型在全球技术前沿的领先地位。


登录后才可以发布评论哦
打开小程序可以发布评论哦