
阿里通义千问团队推出专属智能体模型Qwen3.7-Max。在实测中,该模型连续自主运行 35 小时,完成内核代码优化工作。
和前代Qwen3-Max和Qwen3.6-Plus一致,这款全新模型仅可通过阿里云端Model Studio API提供。阿里此前一直开源Qwn系列模型,如今策略已调整,上一款开源旗舰模型为 2026 年 2 月发布的Qwen3.5-397B-A17B。
Qwen3.7-Max兼容 OpenAI 与 Anthropic 接口,可直接接入 Claude Code、OpenClaw 或 Qwen Code。官方表示,模型主要适配四大场景:从前端原型到多文件复杂项目的代码开发、依托外部工具自动化办公、长时间自主运行、适配各类智能体框架稳定输出。
长达 35 小时的内核优化实测
本次测试任务为优化开源推理框架 SGLang 的硬件注意力内核,运行设备搭载阿里自研T-Head-ZW-M890 加速芯片。
模型训练阶段从未接触过该芯片架构,启动时无实测数据、硬件文档与参考样例,仅依托一份基于Triton编程语言编写的基础参考代码开展工作。
历经 35 小时不间断自主运算,模型累计完成 432 次内核测试、调用工具 1158 次。全程循环执行代码编译、性能测算与迭代修改,自主排查编译报错、定位性能瓶颈。最终优化后代码运行速度较原版提升 10 倍。
同等测试环境下,竞品模型提升幅度均不及它:智谱 GLM 5.1 提速 7.3 倍,Kimi K2.6 提速 5 倍,DeepSeek V4 Pro提速 3.3 倍,前代Qwen3.6-Plus仅提速 1.1 倍。部分模型连续五次无工具调用后便自动终止运行。在标准化的KernelBench L3基准测试中,Qwen3.7-Max内核优化成功率达 96%,略低于Anthropic Opus 4.6的 98%。
训练架构拆分任务、工具环境与校验模块
该模型沿用Qwen 3.5 首创的训练框架,将训练内容拆分为独立三部分:核心任务、工具运行环境、结果校验程序,各模块可自由组合搭配。

同一任务会在多种工具环境中反复演练,并采用不同方式核验结果,以此让模型掌握通用解决思路,而非局限于特定环境的取巧方案。官方称,该模型在自研多项基准测试中,均可适配不同测试场景并稳定发挥性能。
自主监督训练,杜绝刷分作弊行为
训练过程中,Qwen3.7-Max还充当监督程序。历时 80 余小时监测软件工程类训练任务,完成上万次核查,专门识别模型投机刷奖励的行为,例如直接搬运开源平台现成答案。模型累计制定 13 条全新检测规则,筛查出 1618 起违规案例。

年度模拟测试验证长期规划能力
团队采用创业周期基准测试评估模型长远规划能力,模拟企业一整年经营流程。模型需历经数百轮决策,统筹人员调配、审核合同、甄别恶意合作方,在人力成本上涨的情况下维持盈利水平。
实测中,Qwen3.7-Max创造营收 208 万美元,完成 237 项业务任务;前代Qwen3.6-Plus营收 105 万美元,Qwen3.5-Plus仅创收 35.2 万美元。
多项权威基准测评里,Qwen3.7-Max 与 Claude Opus 4.6 Max、Kimi K2.6 Thinking、GLM-5.1 Thinking 和 DeepSeek V4 Pro Max 不相上下。在 SWE-Verify 测试中,该型号得分为 80.4,几乎与 Opus 4.6 Max(80.8)和 DeepSeek V4 Pro Max(80.6)持平。在数学与科学基准测试 GPQA Diamond(92.4)、HMMT 2026 2月(97.1)和 Apex(44.5)中,Qwen3.7-Max 位居该供应商自家对比榜的榜首。


部分测评标准为团队自研制定,相关测试数据均由官方自行公布,详细性能推演逻辑与技术方法将在后续技术报告中披露。
除常规应用场景外,该模型还可操控四足机器人。依托专属机器人框架与导航配套模型,语言模型能够指引机器人完成实地空间移动。
