智谱AI的GLM-5.1可以重新思考其数百次迭代的编码策略

2026年04月10日由 alex 发表 3325 0

Zhipu-AI-Linux-Desktop-VS-055

智谱AI已发布其新GLM-5.1模型，授权为MIT授权。据报道，该模型在处理编码任务时，可以经过数百次迭代不断完善自身方法。

智谱AI推出了GLM-5.1，一款专为长期运行的基于代理的编程任务设计的开权重模型。核心论点是：现有模型，包括志浦的前身GLM-5，在复杂问题上过快就没有新思路。他们采用熟悉的策略，早期取得进展，然后遇到瓶颈。给问题投入更多计算量也无济于事。

GLM-5.1 本应通过反复审视自身策略、识别死胡同并尝试新方法来解决这个问题。智谱AI描述了“数百轮和数千次工具调用”的优化。

公司用三种情景来演示这一点，尽管这些场景均在内部进行。目前还没有独立评估。

GLM-5.1 在任务中途自动切换策略

在第一种情景中，GLM-5.1 需要优化向量数据库——一个搜索大量数据集并寻找相似条目的系统。目标是：在不丢失准确性的情况下，每秒尽可能多地回答搜索查询。根据Zhipu AI的数据，在一次50轮的标准测试运行中，Claude Opus 4.6保持了3,547次查询/秒的最高得分。

相反，智谱AI给予GLM-5.1无限次尝试。模特自行决定何时提交新版本以及下一步尝试什么。经过600多次迭代和6000多次工具调用，公司表示，查询量达到了每秒21,500次——大约是之前最佳水平的六倍。

智谱表示，该模型在运行期间多次根本性地改变了策略。大约在第90次迭代时，它从对所有数据进行穷尽搜索转向了更高效的聚类方法。大约在第240次迭代时，它引入了两级流水线，先进行粗略的预排序，然后进行精确过滤。公司在整个播出过程中识别出六个此类结构性转变，每一次均由模型自身引发。

GPU优化显示了进步，但没有达到顶峰

在第二种情景中，模型必须重写现有的机器学习代码以加快GPU运行速度。据智谱AI称，GLM-5.1实现了基线实现的3.6倍加速，并在后续阶段持续取得进展。相比之下，GLM-5则更早就达到了瓶颈。

zhipu-ai-glm-5-1-benchmarks-20260407-235121-scaled

Claude Opus 4.6在本次测试中明显领先，速度提升了4.2倍，且末期仍有提升空间。GLM-5.1相比前代延长了生产时间，但并未缩短与最强竞争对手的差距。

一个基于单一提示的Linux桌面

第三种情景最为罕见。GLM-5.1被要求构建一个完整的Linux桌面环境，作为一个网页应用——没有起始代码，没有中间指令。大多数型号提供一个基础外壳，带有任务栏和几个占位窗口，然后就完成任务，Zhipu AI表示。

GLM-5.1被放入一个循环，每轮后会回顾自己的输出，决定哪些还缺失或需要改进。经过八小时的开发，最终呈现了一个功能齐全的桌面环境，配备了文件浏览器、终端、文本编辑器、系统显示器、计算器和游戏，公司表示。

编程强，推理较弱

除了这三个演示，智谱AI还发布了一张基准表，描绘了更为细致的画面。在编码方面，GLM-5.1在多个测试中领先或匹敌竞争对手。在软件工程基准测试SWE-Bench Pro上，该测试得分为58.4%，是所有测试的免费模型中最高，略高于GPT-5.4（57.7%）和Claude Opus 4.6（57.3%）。在网络安全基准测试CyberGym上，它以68.7分获得最高分。不过，智谱AI也承认，Gemini 3.1 Pro和GPT-5.4出于安全原因拒绝执行部分任务，这很可能拉低了它们的得分。

在知识测试“人类最后考试”中，该模型得分为31%，落后于45分的Gemini 3.1 Pro和39.8分的GPT-5.4。在科学问题（GPQA-Diamond）方面，它同样以86.2分落后于Gemini 3.1 Pro的94.3分和GPT-5.4的92分。

基于代理的任务结果也参差不齐。在《自动售货台2》中，一名模型需要操作模拟自动售货机业务，GLM-5.1最终剩下的余额为5,634美元。Claude Opus 4.6的售价达到8,018美元——远高于此。在存储库生成（NL2Repo）方面，Claude Opus 4.6 也明显领先，49.8 版本对 GLM-5.1 的 42.7。

在人工智能分析指数中，该模型目前仅次于Anthropic的Claude 4.6 Sonnet。

智谱AI公开指出了剩余的挑战：模型需要更早识别死胡同，在数千次工具调用中保持一致性，并且在没有明确指标的情况下可靠地自我评估任务。公司表示，GLM-5.1是朝这个方向迈出的“第一步”。

该模型在 HUGGING Face 和 ModelScope 上以 MIT 许可发布，可以通过 API 平台 api.z.ai 和 BigModel.cn 访问。它与 Claude Code 和 OpenClaw 等编码代理集成。本地部署方面，智谱AI支持推理框架 vLLM 和 SGLang，GitHub 仓库中有设置指南。Z.ai 聊天界面的访问预计将在未来几天内上线。

智谱AI正在迅速扩展其模型阵容

智谱AI最近推出了GLM-5V-Turbo，这是一种多模态编码模型，能够直接从图像和视频生成代码。在此之前，公司于二月发布了GLM-5，这是一款拥有7440亿参数的开放权重模型，旨在与领先的专有模型在编码任务上竞争。GLM-5.1很可能在两者基础上发展，并增加了志浦AI希望将其区别于中国竞争对手的远远未来能力。竞争依然激烈：除了智谱AI，Moonshot AI的Kimi K2.5和阿里巴巴的Qwen3.5也在积极进军自主编码代理市场。

智谱AI并不是唯一押注长期AI代理的公司。2026年初，Cursor让数百名GPT-5.2代理花了一周时间构建一个网页浏览器。根据软件改进小组的分析，超过三百万行的Rust代码几乎无法维护，排名在所有评估软件系统中排名倒数5%。

文章来源：https://the-decoder.com/zhipu-ais-glm-5-1-can-rethink-its-own-coding-strategy-across-hundreds-of-iterations/

标签：

智谱AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌 Gemini 现在可以生成交互式可视化图表，你能直接在对话中进行调整和探索

下一篇 Meta与CoreWeave签署新的210亿美元AI云协议，合作总额扩大至350亿美元

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术