Anthropic 正式推出旗舰模型 Claude Opus 4.8

2026年05月29日 由 alex 发表 4336 0

Claude Opus 4.8 是 Anthropic 最新的旗舰模型,不仅在多数评测榜单中领跑,还优化了自检能力,能更主动地正视自身错误。


Anthropic 表示,在绝大多数测试项目里,Opus 4.8 的表现均超越前代模型,同时领先 OpenAI 的 GPT-5.5 与谷歌的 Gemini 3.1 专业版。在智能代码任务评测(SWE-Bench 专业版)中,该模型得分达69.2%,相较 Opus 4.7 的 64.3%、GPT-5.5 的 58.6% 实现明显提升。在跨学科推理测试(人类终极能力测评)中,不调用工具时得分 49.8%,启用工具后升至 57.9%,创下该领域新高。


anthropic_opus48_benchmarks-scaled-1


减少不实输出,提升回答真实性


官方将模型真实性提升视作本次最突出的优化之一。以往人工智能模型常急于下定论、给出经不起推敲的结论,这是行业普遍存在的问题。


Anthropic 介绍:早期测试用户反馈,Opus 4.8 更愿意主动标注存疑内容,也更少做出缺乏依据的断言。内部代码测试结果也印证了这一点:该模型无提示遗漏代码漏洞的概率,相比 Opus 4.7 降低至原来的四分之一。


同时,模型在尊重用户自主意愿等正向行为维度再创新高,诱导欺骗等偏离安全对齐要求的行为发生率,已达到Claude Mythos 系列模型水准。官方透露,待全部安全措施部署完毕后,首批 Mythos 级别模型将在未来数周内向所有用户全面推送。


动态工作流与算力档位成最大亮点


相较于模型本身 “小幅但扎实” 的迭代,本次同步上线的全新功能更受关注。


其中核心亮点为动态工作流:模型可先完成整体任务规划,再在单次会话中调用数百个并行子智能体协同工作。搭载 Opus 4.8 的Claude代码助手,如今可处理数十万行代码的全项目迁移工作,从方案规划到代码合并全程落地。该功能现已面向企业版、团队版及高级版用户开放。


在 claude.ai 网页端与协作工具 Cowork 中,模型选择栏旁新增算力档位调节功能,用户可自主控制模型的运算投入程度。调高档位,模型会进行深度思考、输出质量更佳;调低档位则响应更快,同时减少额度消耗。


Opus 4.8 默认使用高算力档位。面对复杂难题,官方建议选择超高档位(在Claude代码助手中标注为 xhigh)或极限档位。这类档位会消耗更多令牌,但平台已为代码助手用户上调额度上限,以此平衡使用成本。官方建议用户可根据实际任务灵活选择档位。


接口定价维持不变,极速模式费用下调


极速模式可让 Opus 4.8 实现2.5 倍提速,当前资费降至旧版模型的三分之一:输入令牌每百万个收费 10 美元,输出令牌每百万个收费 50 美元。


标准模式定价与 Opus 4.7 保持一致:每百万输入令牌 5 美元,每百万输出令牌 25 美元。而前代 Opus 4.7 在实际使用中,相较 4.6 版本成本已上浮 30% 至 40%—— 该版本令牌消耗更高,但在多数日常任务中并未带来显著性能提升。


Opus 4.8 实际使用成本有望降低


第三方评测机构 Artificial Analysis 指出,Opus 4.8 有望缓解 4.7 版本成本偏高的问题。在面向真实办公场景的 GDPval-AA 评测中,该模型单任务运算轮次较 Opus 4.7 减少 15%,输出令牌量更是降低 35%。

这意味着用户实际使用成本将明显下降。不过对比第二名 GPT-5.5,Opus 4.8 的整体运算轮次仍高出约 30%。


在极限算力档位下,Opus 4.8 在 GDPval-AA 评测中斩获 1890 分,超出 Opus 4.7 137 分、领先 GPT-5.5 121 分;在同场景一对一比拼中,胜率约为 67%。

文章来源:https://the-decoder.com/anthropic-ships-claude-opus-4-8-as-a-modest-but-tangible-improvement-that-tops-gpt-5-5-in-most-benchmarks/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消