Anthropic 正式推出旗舰模型 Claude Opus 4.8

2026年05月29日由 alex 发表 5867 0

Claude Opus 4.8 是 Anthropic 最新的旗舰模型，不仅在多数评测榜单中领跑，还优化了自检能力，能更主动地正视自身错误。

Anthropic 表示，在绝大多数测试项目里，Opus 4.8 的表现均超越前代模型，同时领先 OpenAI 的 GPT-5.5 与谷歌的 Gemini 3.1 专业版。在智能代码任务评测（SWE-Bench 专业版）中，该模型得分达69.2%，相较 Opus 4.7 的 64.3%、GPT-5.5 的 58.6% 实现明显提升。在跨学科推理测试（人类终极能力测评）中，不调用工具时得分 49.8%，启用工具后升至 57.9%，创下该领域新高。

anthropic_opus48_benchmarks-scaled-1

减少不实输出，提升回答真实性

官方将模型真实性提升视作本次最突出的优化之一。以往人工智能模型常急于下定论、给出经不起推敲的结论，这是行业普遍存在的问题。

Anthropic 介绍：早期测试用户反馈，Opus 4.8 更愿意主动标注存疑内容，也更少做出缺乏依据的断言。内部代码测试结果也印证了这一点：该模型无提示遗漏代码漏洞的概率，相比 Opus 4.7 降低至原来的四分之一。

同时，模型在尊重用户自主意愿等正向行为维度再创新高，诱导欺骗等偏离安全对齐要求的行为发生率，已达到Claude Mythos 系列模型水准。官方透露，待全部安全措施部署完毕后，首批 Mythos 级别模型将在未来数周内向所有用户全面推送。

动态工作流与算力档位成最大亮点

相较于模型本身 “小幅但扎实” 的迭代，本次同步上线的全新功能更受关注。

其中核心亮点为动态工作流：模型可先完成整体任务规划，再在单次会话中调用数百个并行子智能体协同工作。搭载 Opus 4.8 的Claude代码助手，如今可处理数十万行代码的全项目迁移工作，从方案规划到代码合并全程落地。该功能现已面向企业版、团队版及高级版用户开放。

在 claude.ai 网页端与协作工具 Cowork 中，模型选择栏旁新增算力档位调节功能，用户可自主控制模型的运算投入程度。调高档位，模型会进行深度思考、输出质量更佳；调低档位则响应更快，同时减少额度消耗。

Opus 4.8 默认使用高算力档位。面对复杂难题，官方建议选择超高档位（在Claude代码助手中标注为 xhigh）或极限档位。这类档位会消耗更多令牌，但平台已为代码助手用户上调额度上限，以此平衡使用成本。官方建议用户可根据实际任务灵活选择档位。

接口定价维持不变，极速模式费用下调

极速模式可让 Opus 4.8 实现2.5 倍提速，当前资费降至旧版模型的三分之一：输入令牌每百万个收费 10 美元，输出令牌每百万个收费 50 美元。

标准模式定价与 Opus 4.7 保持一致：每百万输入令牌 5 美元，每百万输出令牌 25 美元。而前代 Opus 4.7 在实际使用中，相较 4.6 版本成本已上浮 30% 至 40%—— 该版本令牌消耗更高，但在多数日常任务中并未带来显著性能提升。

Opus 4.8 实际使用成本有望降低

第三方评测机构 Artificial Analysis 指出，Opus 4.8 有望缓解 4.7 版本成本偏高的问题。在面向真实办公场景的 GDPval-AA 评测中，该模型单任务运算轮次较 Opus 4.7 减少 15%，输出令牌量更是降低 35%。

这意味着用户实际使用成本将明显下降。不过对比第二名 GPT-5.5，Opus 4.8 的整体运算轮次仍高出约 30%。

在极限算力档位下，Opus 4.8 在 GDPval-AA 评测中斩获 1890 分，超出 Opus 4.7 137 分、领先 GPT-5.5 121 分；在同场景一对一比拼中，胜率约为 67%。

文章来源：https://the-decoder.com/anthropic-ships-claude-opus-4-8-as-a-modest-but-tangible-improvement-that-tops-gpt-5-5-in-most-benchmarks/

标签：

Anthropic Claude

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果iOS 27或将Siri引入动态岛，成为常驻AI助手

下一篇埃隆·马斯克澄清SpaceX与Anthropic的Colossus AI租赁协议仅为六个月

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体