Anthropic 发布 “全球最佳编程模型” Claude 4，连干七小时性能稳定

2025年05月23日由佚名发表 1154 0

屏幕截图2025-05-23094230

简要概述

经过长时间的延迟，Claude 4终于发布，并在SWE-bench编码基准测试中击败了GPT-4.1和Gemini 2.5 Pro。
新模型可以自主编码长达7小时，并处理接近100万个令牌的上下文窗口。
Anthropic为Claude Opus 4定价每百万输出令牌75美元——比开源替代品如DeepSeek R1贵25倍。

Anthropic终于在周四发布了期待已久的Claude 4 AI模型家族，此前该发布曾被搁置数月之久。这家总部位于旧金山的公司是竞争激烈的AI行业中的重要参与者，估值超过610亿美元，声称其新模型在编码性能和自主任务执行方面达到了顶级基准。

今天发布的模型取代了Claude家族中最强大的两个模型：Opus，一个在理解复杂任务方面表现出色的先进模型，以及Sonnet，一个适合日常任务的中型模型。Claude最小且最有效的模型Haiku未被更动，仍为v3.5版本。

Claude Opus 4在SWE-bench Verified上取得了72.5%的得分，显著超越了竞争对手在编码基准测试中的表现。OpenAI的GPT-4.1在同一测试中仅获得54.6%，而谷歌的Gemini 2.5 Pro达到了63.2%。在推理任务中，Opus 4在GPQA Diamond（基本上是一个常识基准）上得分74.9%，而GPT-4.1为66.3%。

该模型还在其他测量代理任务、数学和多语言查询能力的基准测试中击败了竞争对手。

Anthropic在打磨Opus 4时考虑到了开发者，特别关注持续的自主工作会话。

乐天的AI团队报告称，该模型在一个复杂的开源项目中独立编码了近七小时，其总经理Yusuke Kaji称之为“AI能力的巨大飞跃，让团队惊叹不已”，根据Anthropic分享的声明。Decrypt。这种持久性远远超过了以前AI模型的典型任务持续时间限制。

Claude 4的两个模型作为混合系统运行，提供即时响应或复杂推理的延时思考模式——这一概念接近OpenAI计划在GPT-5m中实现的目标，当它将“o”和“GPT”家族合并为一个模型时。

Opus 4支持多达128,000个输出令牌用于扩展分析，并在思考阶段整合工具使用，允许其暂停推理以搜索网络或访问数据库后再继续。这些模型处理的完整上下文窗口接近100万个令牌。

Anthropic定价Claude Opus 4的价格为每百万输入令牌15美元和每百万输出令牌75美元。Claude Sonnet 4的价格为每百万输入令牌3美元和每百万输出令牌15美元。公司通过提示缓存提供高达90%的成本节省，并通过批处理提供50%的减少，尽管基本费率仍然比一些竞争对手高出很多。

然而，与开源选项如DeepSeek R1相比，这仍然是一个巨大的价格水平，后者每百万输出令牌的成本不到3美元。Claude 4的Haiku版本——应该便宜得多——尚未公布。

又一个AI之年

Anthropic的发布恰逢Claude Code的全面可用性，这是一个代理命令行工具，使开发者能够直接从终端界面委派大量工程任务。该工具可以搜索代码库、编辑文件、编写测试并在保持开发者监督的情况下提交更改到GitHub。

GitHub宣布Claude Sonnet 4将成为其GitHub Copilot新编码代理的基础模型。CEO Thomas Dohmke报告称，与之前的Sonnet版本相比，早期内部评估显示提高了多达10%，这得益于他所称的“自适应工具使用、精确的指令遵循和强大的编码直觉。”

这使得Anthropic直接与OpenAI和谷歌最近宣布的发布形成竞争。上周，OpenAI推出了Codex，一个基于云的软件工程代理，而本周谷歌预览了Jules及其新的Gemini模型家族，这些模型也旨在进行广泛的编码会话。

几家企业客户提供了具体的用例验证。Triple Whale的CEO AJ Orbach表示Opus 4“在文本到SQL的用例中表现出色——在内部基准测试中被评为我们尝试过的最佳模型。”Snowflake的AI负责人Baris Gultekin强调了该模型在数据分析应用中的“自定义工具指令和高级多跳推理”。

Anthropic的财务表现支持其高端定位。公司报告在2025年第一季度的年化收入为20亿美元，比之前的时期翻了一番。年消费超过10万美元的客户增加了八倍，同时公司获得了一条25亿美元的五年期信贷额度以资助持续开发。

与Anthropic的任何发布一样，这些模型保持了公司的安全导向方法，经过包括儿童安全组织Thorn在内的外部专家的广泛测试。公司继续其未经明确许可不使用用户数据进行训练的政策，这使其在受监管行业中与一些竞争对手有所不同。

这两个模型都具有20万个令牌的上下文窗口和多模态能力，可以处理文本、图像和代码。它们通过Claude的网络界面、Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台提供。发布包括新的API功能，如代码执行工具、MCP连接器和Files API，以增强开发者集成。

文章来源：https://decrypt.co/321648/claude-4-obliterates-ai-rivals-budgets-too

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI的下一个大赌注不会是可穿戴设备

下一篇 Anthropic首席执行官声称AI模型比人类更少出现幻觉

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体