Anthropic 全新 Claude Sonnet 5 大幅缩小与高价 Opus 系列模型的性能差距

2026年07月01日由 alex 发表 2976 0

Anthropic 正式发布 Claude Sonnet 5。多项基准测试结果显示，该模型性能逼近更高规格的 Opus 4.8，部分项目甚至实现反超。目前模型已上线，并推出首发优惠定价。

Anthropic 表示，这是智能自主能力最强的一代 Sonnet 模型：它能够自主制定执行方案，调用浏览器、终端等工具独立完成复杂任务，而这种能力在数月之前还只有体量更大、售价更高的旗舰模型才能实现。Sonnet 5 的核心目标就是抹平中端模型与高端旗舰之间的性能鸿沟。

基准测试：相比 Sonnet 4.6 实现全方位跃升

官方公布的测评数据显示，Sonnet 5 在所有测试项目中全面超越前代 Sonnet 4.6，同时不断追平高价的 Opus 4.8。在智能自主代码能力测试 SWE-bench Pro 中，Sonnet 5 得分达到 63.2%，高于 Sonnet 4.6 的 58.1%；Opus 4.8 分值为 69.2%。在 Terminal-Bench 2.1 终端操作测试里，Sonnet 5 拿到 80.4%，远超上一代的 67.0%。在跨学科综合推理测评《人类终局考试》中，开启工具调用后该模型得分 57.4%，几乎追上 Opus 4.8 的 57.9%。

在操作系统实操测试 OSWorld-Verified 上，Sonnet 5 取得 81.2% 的成绩，高于旧版的 78.5%。

sonnet_5_benchmarks-scaled-1

在面向真实业务知识场景的测评 GDPval-AA v2 中，Sonnet 5 实现了对大号模型 Opus 4.8 的反超，分值 1618 分，优于对方的 1615 分。来自早期合作客户的实测反馈也印证了这一结论：Sonnet 5 的自主行动能力远优于旧版本，在信息检索等任务上表现尤为突出。

sonnet_5_agentic_search-scaled-1

网络安全风险已做好管控

近期 Anthropic 接连因为模型上线受阻登上新闻。出于网络安全考量，美国政府叫停了该公司两款最强模型 Mythos 5 与 Fable 5 的发布，这一背景也给本次 Sonnet 5 的面世蒙上一层阴影。为此，Anthropic 提前打消外界的安全顾虑。官方称，该模型没有针对网络安全类任务进行专项训练；在编写漏洞利用程序等高风险能力测试中，得分远远低于 Opus 4.8 和 Mythos 5。

sonnet5_firefox_exploits-3840x2160-1-scaled-1

不过在这类高危任务上，Sonnet 5 的分值还是略高于前代产品。因此厂商默认开启了网络安全防护机制，能够实时识别并拦截网络攻击类请求，防护等级与 Claude Opus 4.7、4.8 保持一致。这套风控规则比 Fable 5 的宽松不少 ——Fable 5 严苛的限制刚一上线就遭到大量用户吐槽。Anthropic 评估认为，Sonnet 5 整体网络安全风险处于较低水平。

在内容安全层面，相比 Sonnet 4.6，新版本更擅长拒绝恶意指令，抵御提示词注入攻击。模型幻觉问题、一味盲从用户的讨好式应答问题也得到明显改善。

首发特惠价有效期至 2026 年 8 月

Claude Sonnet 5 现已面向所有套餐开放：免费版与专业版用户将默认使用该模型，高阶会员、团队版与企业版订阅者同样可以调用。开发者可将其接入 Claude Code 与 Claude 开发平台，API 调用名称为 claude-sonnet-5。模型训练数据截止至 2026 年 1 月，上下文窗口最高支持 100 万令牌。

2026 年 8 月 31 日前为优惠期：输入令牌每百万词仅收取 2 美元，输出令牌每百万词收取 10 美元。优惠结束后价格将上调至输入 3 美元 / 百万令牌、输出 15 美元 / 百万令牌，与旧款 Sonnet 定价持平。

实际使用成本或许会更高：由于模型自主执行能力更强，单次任务会消耗更多令牌。即便单令牌单价不变，Sonnet 5 的整体运行开销依然可能高于前代。Opus 从 4.6 版本升级到 4.7 版本时，就出现过同样的成本上涨情况。

文章来源：https://the-decoder.com/anthropics-new-claude-sonnet-5-closes-the-gap-to-the-pricier-opus-model-series/

标签：

Anthropic

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌 NotebookLM 新增功能：把你的研究资料做成抖音竖版短视频

下一篇谷歌推出 Nano Banana 2 Lite 极速 AI 图像模型，并开放支持视频创作的 Gemini Omni Flash 接口

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术