Anthropic 发布 “全球最佳编程模型” Claude 4,连干七小时性能稳定

2025年05月23日 由 佚名 发表 173 0

屏幕截图2025-05-23094230

简要概述

  • 经过长时间的延迟,Claude 4终于发布,并在SWE-bench编码基准测试中击败了GPT-4.1和Gemini 2.5 Pro。
  • 新模型可以自主编码长达7小时,并处理接近100万个令牌的上下文窗口。
  • Anthropic为Claude Opus 4定价每百万输出令牌75美元——比开源替代品如DeepSeek R1贵25倍。

Anthropic终于在周四发布了期待已久的Claude 4 AI模型家族,此前该发布曾被搁置数月之久。这家总部位于旧金山的公司是竞争激烈的AI行业中的重要参与者,估值超过610亿美元,声称其新模型在编码性能和自主任务执行方面达到了顶级基准。

今天发布的模型取代了Claude家族中最强大的两个模型:Opus,一个在理解复杂任务方面表现出色的先进模型,以及Sonnet,一个适合日常任务的中型模型。Claude最小且最有效的模型Haiku未被更动,仍为v3.5版本。

Claude Opus 4在SWE-bench Verified上取得了72.5%的得分,显著超越了竞争对手在编码基准测试中的表现。OpenAI的GPT-4.1在同一测试中仅获得54.6%,而谷歌的Gemini 2.5 Pro达到了63.2%。在推理任务中,Opus 4在GPQA Diamond(基本上是一个常识基准)上得分74.9%,而GPT-4.1为66.3%。

该模型还在其他测量代理任务、数学和多语言查询能力的基准测试中击败了竞争对手。

Anthropic在打磨Opus 4时考虑到了开发者,特别关注持续的自主工作会话。

乐天的AI团队报告称,该模型在一个复杂的开源项目中独立编码了近七小时,其总经理Yusuke Kaji称之为“AI能力的巨大飞跃,让团队惊叹不已”,根据Anthropic分享的声明。Decrypt。这种持久性远远超过了以前AI模型的典型任务持续时间限制。

Claude 4的两个模型作为混合系统运行,提供即时响应或复杂推理的延时思考模式——这一概念接近OpenAI计划在GPT-5m中实现的目标,当它将“o”和“GPT”家族合并为一个模型时。

Opus 4支持多达128,000个输出令牌用于扩展分析,并在思考阶段整合工具使用,允许其暂停推理以搜索网络或访问数据库后再继续。这些模型处理的完整上下文窗口接近100万个令牌。

Anthropic定价Claude Opus 4的价格为每百万输入令牌15美元和每百万输出令牌75美元。Claude Sonnet 4的价格为每百万输入令牌3美元和每百万输出令牌15美元。公司通过提示缓存提供高达90%的成本节省,并通过批处理提供50%的减少,尽管基本费率仍然比一些竞争对手高出很多。

然而,与开源选项如DeepSeek R1相比,这仍然是一个巨大的价格水平,后者每百万输出令牌的成本不到3美元。Claude 4的Haiku版本——应该便宜得多——尚未公布。

又一个AI之年

Anthropic的发布恰逢Claude Code的全面可用性,这是一个代理命令行工具,使开发者能够直接从终端界面委派大量工程任务。该工具可以搜索代码库、编辑文件、编写测试并在保持开发者监督的情况下提交更改到GitHub。

GitHub宣布Claude Sonnet 4将成为其GitHub Copilot新编码代理的基础模型。CEO Thomas Dohmke报告称,与之前的Sonnet版本相比,早期内部评估显示提高了多达10%,这得益于他所称的“自适应工具使用、精确的指令遵循和强大的编码直觉。”

这使得Anthropic直接与OpenAI和谷歌最近宣布的发布形成竞争。上周,OpenAI推出了Codex,一个基于云的软件工程代理,而本周谷歌预览了Jules及其新的Gemini模型家族,这些模型也旨在进行广泛的编码会话。

几家企业客户提供了具体的用例验证。Triple Whale的CEO AJ Orbach表示Opus 4“在文本到SQL的用例中表现出色——在内部基准测试中被评为我们尝试过的最佳模型。”Snowflake的AI负责人Baris Gultekin强调了该模型在数据分析应用中的“自定义工具指令和高级多跳推理”。

Anthropic的财务表现支持其高端定位。公司报告在2025年第一季度的年化收入为20亿美元,比之前的时期翻了一番。年消费超过10万美元的客户增加了八倍,同时公司获得了一条25亿美元的五年期信贷额度以资助持续开发。

与Anthropic的任何发布一样,这些模型保持了公司的安全导向方法,经过包括儿童安全组织Thorn在内的外部专家的广泛测试。公司继续其未经明确许可不使用用户数据进行训练的政策,这使其在受监管行业中与一些竞争对手有所不同。

这两个模型都具有20万个令牌的上下文窗口和多模态能力,可以处理文本、图像和代码。它们通过Claude的网络界面、Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台提供。发布包括新的API功能,如代码执行工具、MCP连接器和Files API,以增强开发者集成。

文章来源:https://decrypt.co/321648/claude-4-obliterates-ai-rivals-budgets-too
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消