Claude Fable 5 在前沿数学难题测试中,得分超越 GPT-5.5 达 13 分

2026年06月15日 由 alex 发表 561 0

Anthropic 全新模型 Claude Fable 5 在前沿数学基准测试(FrontierMath)中取得最高分。据 Epoch AI 数据显示,该模型在 1 至 3 难度层级的答题准确率为 87%,在难度最高的第四层级(第二版)准确率更是达到 88%。


frontier_math_fable5


近期,Anthropic 旗下模型的数学能力实现跨越式提升。就在 2026 年初,其上一代模型 Opus 4.5 在第四层级测试中的准确率还不足 10%。OpenAI 的 GPT-5.5 在该层级的准确率约为 75%,大幅落后于 Fable 5,目前 OpenAI 已着手研发 GPT-5.6。


本次所有模型均在 Epoch AI 标准测试框架下开启满强度推理模式。FrontierMath 被公认为衡量人工智能数学推理能力难度最高的评测基准之一。模型数学能力的进步不只体现在测试成绩上,实际应用案例也不断涌现。近期,OpenAI 一款模型成功攻克了一道长期悬而未决的厄多斯难题,而 Claude Mythos 模型同样完成了这一挑战。

文章来源:https://the-decoder.com/claude-fable-5-outpaces-gpt-5-5-by-13-points-on-frontiermaths-toughest-problems/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消