Anthropic推出Claude 4系列和Claude Code

2025年06月03日 由 佚名 发表 224 0

Anthropic发布了Claude Opus 4和Sonnet 4,这是他们Claude系列LLM的最新版本。两个模型都支持扩展思维、工具使用和记忆力提升,Claude 4 Opus在编码基准测试中表现优于其他LLM。


Anthropic在他们的与Claude一起编程活动中宣布了发布。Claude 4模型是“混合”模型:它们可以快速回答问题,也可以进行扩展思维。这些模型可以在扩展思维模式下使用诸如网络搜索的工具,平行执行多个工具,并使用本地文件进行记忆。Claude Opus 4在SWE-bench上得分72.5%,在Terminal-bench编码基准测试中得分43.2%,优于所有其他编码模型。Anthropic还宣布了Claude Code的全面可用性,这是Anthropic的编码代理,带有与JetBrains和VS Code集成的测试版扩展。根据Anthropic的说法,


这些模型是向虚拟协作者迈出的重要一步——保持完整的上下文,专注于更长的项目,并推动变革性影响。它们经过广泛的测试和评估,以最大限度地降低风险和提高安全性,包括实施更高的AI安全级别措施,如ASL-3。我们期待看到你们的创造。

Claude 4在之前的迭代版本上有多项改进。Anthropic声称Claude 4“减少了65%”使用“捷径”来完成代理任务的可能性。它还通过使用本地文件存储数据,在记忆能力上“显著优于所有以前的模型”。在思维模式下,思维链输出约“5%的时间”被总结,以减少显示所需的空间。


Claude 4 Coding Benchmark Comparison


图片来源:Anthropic的Claude 4公告


在Hacker News讨论中的用户想知道新模型是否改进到足以“证明完整版本增量的合理性。”一位用户回复:


我是开发者,我尝试用AI来编写应用程序代码已经两年了。这是我第一次能够在没有每一步都进行重大手动干预的情况下编写应用程序代码。并不是说它是完美的,或者我会在没有人工审核的情况下完全信任它,但我确实在不到24小时内编写了一个可以接受支付的生产就绪iOS/Android/网页应用程序,几乎不需要手动干预,除了告诉它我接下来想做什么。

开源开发者Simon Willison实时记录了发布会。他还深入研究了Claude 4系统卡,其中记录了Anthropic安全测试的几个场景和结果。


Anthropic的系统卡总是值得一看,这次的新Opus 4和Sonnet 4的系统卡有一些特别有趣的内容。它也有120页长——几乎是Claude 3.7 Sonnet系统卡长度的三倍!如果你在寻找一些有趣的硬科幻……这份文件绝对能满足你的需求。

Anthropic的测试显示,其模型在某些情况下会采取“极端行动”,虽然“罕见且难以引发,但仍比早期模型更常见。”作为其负责任的扩展政策(RSP)的一部分,随着Claude 4的发布,Anthropic决定激活其AI安全级别3(ASL-3)部署和安全标准,其中包括加强内部安全以帮助防止模型权重被盗。


文章来源:https://www.infoq.com/news/2025/06/anthropic-claude-4/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消