
周一,Anthropic宣布推出其旗舰模型的最新版本Opus 4.5。这是Anthropic 4.5系列中最后一个发布的模型,之前在9月发布了Sonnet 4.5,10月发布了Haiku 4.5。
正如预期的那样,新的Opus版本在一系列基准测试中表现出色,包括编码基准测试(SWE-Bench和Terminal-bench)、工具使用(tau2-bench和MCP Atlas)以及一般问题解决(ARC-AGI 2,GPQA Diamond)。
值得注意的是,Opus 4.5是第一个在SWE-Bench验证中得分超过80%的模型,这是一项备受推崇的编码基准测试。
Anthropic还强调了Opus在计算机使用和电子表格功能方面的表现,并推出了一系列并行产品,以展示模型在这些环境中的应用。与Opus 4.5一起,Anthropic将推出Chrome版Claude和Excel版Claude这些产品——之前处于试点阶段——将更广泛地提供。Chrome扩展将对所有Max用户开放,而专注于Excel的模型将对Max、团队和企业用户开放。
Opus 4.5在长上下文操作的内存方面也进行了改进,这需要对模型的内存管理方式进行重大调整。
“我们在Opus 4.5的训练中对长上下文的整体质量进行了改进,但仅靠上下文窗口本身是不够的,”Anthropic研究产品管理负责人Dianne Na Penn告诉TechCrunch。“知道要记住哪些细节非常重要,这与仅仅拥有更长的上下文窗口相辅相成。”
这些更改还为付费Claude用户启用了长期请求的“无尽聊天”功能,当模型达到其上下文窗口时,聊天可以不间断地进行。相反,模型将在不提醒用户的情况下压缩其上下文内存。
许多升级都是针对代理使用场景,特别是Opus作为主代理指挥一组由Haiku驱动的子代理的场景。管理这些任务需要强大的工作记忆,这正是Penn所描述的内存改进真正显示其价值的地方。
“这就是像内存这样的基本要素变得非常重要的地方,”Penn说,“因为Claude需要能够探索代码库和大型文档,还需要知道何时回溯和重新检查某些内容。”
