智谱 GLM-5.1 高速版 API 上线,输出速度达 400 tokens/s

2026年05月22日 由 alex 发表 4873 0

5月22日消息,智谱今日宣布面向部分企业客户开放GLM-5.1高速版API,接口名称为"GLM-5.1-highspeed",该模型输出速度达到400 tokens/s,刷新当前全球大模型厂商API的速度上限。


1779417493500


GLM-5.1高速版API“GLM-5.1-highspeed”由智谱GLM团队与TileRT团队联合打造,在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化:


  • 推理引擎层:针对GLM-5.1的架构特点,重写了核心推理路径,有效提升了单卡吞吐能力;


  • 调度系统层:通过动态批处理、请求合并和KV缓存调度优化,显著降低高并发场景下的尾延迟;


  • 基础设施层:围绕推理集群部署、网络链路、负载均衡进行协同优化,确保400 TPS不是一个“峰值”数字,而是稳定可用的生产级能力。


GLM-5.1高速版目前面向智谱MaaS平台部分企业客户开放,定位为对响应延迟要求较高的场景,包括AI编程、实时交互、实时语音和商业决策等。官方暂未公布面向更广泛用户开放的时间计划。

文章来源:http://www.aipress.com.cn/news/details?id=77572
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消