智谱AI的GLM-5.1可以重新思考其数百次迭代的编码策略

2026年04月10日 由 alex 发表 426 0

Zhipu-AI-Linux-Desktop-VS-055


智谱AI已发布其新GLM-5.1模型,授权为MIT授权。据报道,该模型在处理编码任务时,可以经过数百次迭代不断完善自身方法。


智谱AI推出了GLM-5.1,一款专为长期运行的基于代理的编程任务设计的开权重模型。核心论点是:现有模型,包括志浦的前身GLM-5,在复杂问题上过快就没有新思路。他们采用熟悉的策略,早期取得进展,然后遇到瓶颈。给问题投入更多计算量也无济于事。


GLM-5.1 本应通过反复审视自身策略、识别死胡同并尝试新方法来解决这个问题。智谱AI描述了“数百轮和数千次工具调用”的优化。


公司用三种情景来演示这一点,尽管这些场景均在内部进行。目前还没有独立评估。


GLM-5.1 在任务中途自动切换策略

在第一种情景中,GLM-5.1 需要优化向量数据库——一个搜索大量数据集并寻找相似条目的系统。目标是:在不丢失准确性的情况下,每秒尽可能多地回答搜索查询。根据Zhipu AI的数据,在一次50轮的标准测试运行中,Claude Opus 4.6保持了3,547次查询/秒的最高得分。


相反,智谱AI给予GLM-5.1无限次尝试。模特自行决定何时提交新版本以及下一步尝试什么。经过600多次迭代和6000多次工具调用,公司表示,查询量达到了每秒21,500次——大约是之前最佳水平的六倍。


智谱表示,该模型在运行期间多次根本性地改变了策略。大约在第90次迭代时,它从对所有数据进行穷尽搜索转向了更高效的聚类方法。大约在第240次迭代时,它引入了两级流水线,先进行粗略的预排序,然后进行精确过滤。公司在整个播出过程中识别出六个此类结构性转变,每一次均由模型自身引发。


GPU优化显示了进步,但没有达到顶峰

在第二种情景中,模型必须重写现有的机器学习代码以加快GPU运行速度。据智谱AI称,GLM-5.1实现了基线实现的3.6倍加速,并在后续阶段持续取得进展。相比之下,GLM-5则更早就达到了瓶颈。


zhipu-ai-glm-5-1-benchmarks-20260407-235121-scaled


Claude Opus 4.6在本次测试中明显领先,速度提升了4.2倍,且末期仍有提升空间。GLM-5.1相比前代延长了生产时间,但并未缩短与最强竞争对手的差距。


一个基于单一提示的Linux桌面

第三种情景最为罕见。GLM-5.1被要求构建一个完整的Linux桌面环境,作为一个网页应用——没有起始代码,没有中间指令。大多数型号提供一个基础外壳,带有任务栏和几个占位窗口,然后就完成任务,Zhipu AI表示。




GLM-5.1被放入一个循环,每轮后会回顾自己的输出,决定哪些还缺失或需要改进。经过八小时的开发,最终呈现了一个功能齐全的桌面环境,配备了文件浏览器、终端、文本编辑器、系统显示器、计算器和游戏,公司表示。


编程强,推理较弱

除了这三个演示,智谱AI还发布了一张基准表,描绘了更为细致的画面。在编码方面,GLM-5.1在多个测试中领先或匹敌竞争对手。在软件工程基准测试SWE-Bench Pro上,该测试得分为58.4%,是所有测试的免费模型中最高,略高于GPT-5.4(57.7%)和Claude Opus 4.6(57.3%)。在网络安全基准测试CyberGym上,它以68.7分获得最高分。不过,智谱AI也承认,Gemini 3.1 Pro和GPT-5.4出于安全原因拒绝执行部分任务,这很可能拉低了它们的得分。


在知识测试“人类最后考试”中,该模型得分为31%,落后于45分的Gemini 3.1 Pro和39.8分的GPT-5.4。在科学问题(GPQA-Diamond)方面,它同样以86.2分落后于Gemini 3.1 Pro的94.3分和GPT-5.4的92分。


基于代理的任务结果也参差不齐。在《自动售货台2》中,一名模型需要操作模拟自动售货机业务,GLM-5.1最终剩下的余额为5,634美元。Claude Opus 4.6的售价达到8,018美元——远高于此。在存储库生成(NL2Repo)方面,Claude Opus 4.6 也明显领先,49.8 版本对 GLM-5.1 的 42.7。


在人工智能分析指数中,该模型目前仅次于Anthropic的Claude 4.6 Sonnet。


智谱AI公开指出了剩余的挑战:模型需要更早识别死胡同,在数千次工具调用中保持一致性,并且在没有明确指标的情况下可靠地自我评估任务。公司表示,GLM-5.1是朝这个方向迈出的“第一步”。


该模型在 HUGGING Face 和 ModelScope 上以 MIT 许可发布,可以通过 API 平台 api.z.ai 和 BigModel.cn 访问。它与 Claude Code 和 OpenClaw 等编码代理集成。本地部署方面,智谱AI支持推理框架 vLLM 和 SGLang,GitHub 仓库中有设置指南。Z.ai 聊天界面的访问预计将在未来几天内上线。


智谱AI正在迅速扩展其模型阵容

智谱AI最近推出了GLM-5V-Turbo,这是一种多模态编码模型,能够直接从图像和视频生成代码。在此之前,公司于二月发布了GLM-5,这是一款拥有7440亿参数的开放权重模型,旨在与领先的专有模型在编码任务上竞争。GLM-5.1很可能在两者基础上发展,并增加了志浦AI希望将其区别于中国竞争对手的远远未来能力。竞争依然激烈:除了智谱AI,Moonshot AI的Kimi K2.5和阿里巴巴的Qwen3.5也在积极进军自主编码代理市场。


智谱AI并不是唯一押注长期AI代理的公司。2026年初,Cursor让数百名GPT-5.2代理花了一周时间构建一个网页浏览器。根据软件改进小组的分析,超过三百万行的Rust代码几乎无法维护,排名在所有评估软件系统中排名倒数5%。

文章来源:https://the-decoder.com/zhipu-ais-glm-5-1-can-rethink-its-own-coding-strategy-across-hundreds-of-iterations/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消