Anthropic 正式发布 Claude Sonnet 5。多项基准测试结果显示,该模型性能逼近更高规格的 Opus 4.8,部分项目甚至实现反超。目前模型已上线,并推出首发优惠定价。
Anthropic 表示,这是智能自主能力最强的一代 Sonnet 模型:它能够自主制定执行方案,调用浏览器、终端等工具独立完成复杂任务,而这种能力在数月之前还只有体量更大、售价更高的旗舰模型才能实现。Sonnet 5 的核心目标就是抹平中端模型与高端旗舰之间的性能鸿沟。
基准测试:相比 Sonnet 4.6 实现全方位跃升
官方公布的测评数据显示,Sonnet 5 在所有测试项目中全面超越前代 Sonnet 4.6,同时不断追平高价的 Opus 4.8。在智能自主代码能力测试 SWE-bench Pro 中,Sonnet 5 得分达到 63.2%,高于 Sonnet 4.6 的 58.1%;Opus 4.8 分值为 69.2%。在 Terminal-Bench 2.1 终端操作测试里,Sonnet 5 拿到 80.4%,远超上一代的 67.0%。在跨学科综合推理测评《人类终局考试》中,开启工具调用后该模型得分 57.4%,几乎追上 Opus 4.8 的 57.9%。
在操作系统实操测试 OSWorld-Verified 上,Sonnet 5 取得 81.2% 的成绩,高于旧版的 78.5%。

在面向真实业务知识场景的测评 GDPval-AA v2 中,Sonnet 5 实现了对大号模型 Opus 4.8 的反超,分值 1618 分,优于对方的 1615 分。来自早期合作客户的实测反馈也印证了这一结论:Sonnet 5 的自主行动能力远优于旧版本,在信息检索等任务上表现尤为突出。

网络安全风险已做好管控
近期 Anthropic 接连因为模型上线受阻登上新闻。出于网络安全考量,美国政府叫停了该公司两款最强模型 Mythos 5 与 Fable 5 的发布,这一背景也给本次 Sonnet 5 的面世蒙上一层阴影。为此,Anthropic 提前打消外界的安全顾虑。官方称,该模型没有针对网络安全类任务进行专项训练;在编写漏洞利用程序等高风险能力测试中,得分远远低于 Opus 4.8 和 Mythos 5。

不过在这类高危任务上,Sonnet 5 的分值还是略高于前代产品。因此厂商默认开启了网络安全防护机制,能够实时识别并拦截网络攻击类请求,防护等级与 Claude Opus 4.7、4.8 保持一致。这套风控规则比 Fable 5 的宽松不少 ——Fable 5 严苛的限制刚一上线就遭到大量用户吐槽。Anthropic 评估认为,Sonnet 5 整体网络安全风险处于较低水平。
在内容安全层面,相比 Sonnet 4.6,新版本更擅长拒绝恶意指令,抵御提示词注入攻击。模型幻觉问题、一味盲从用户的讨好式应答问题也得到明显改善。
首发特惠价有效期至 2026 年 8 月
Claude Sonnet 5 现已面向所有套餐开放:免费版与专业版用户将默认使用该模型,高阶会员、团队版与企业版订阅者同样可以调用。开发者可将其接入 Claude Code 与 Claude 开发平台,API 调用名称为 claude-sonnet-5。模型训练数据截止至 2026 年 1 月,上下文窗口最高支持 100 万令牌。
2026 年 8 月 31 日前为优惠期:输入令牌每百万词仅收取 2 美元,输出令牌每百万词收取 10 美元。优惠结束后价格将上调至输入 3 美元 / 百万令牌、输出 15 美元 / 百万令牌,与旧款 Sonnet 定价持平。
实际使用成本或许会更高:由于模型自主执行能力更强,单次任务会消耗更多令牌。即便单令牌单价不变,Sonnet 5 的整体运行开销依然可能高于前代。Opus 从 4.6 版本升级到 4.7 版本时,就出现过同样的成本上涨情况。
