Anthropic 全新模型 Claude Fable 5 在前沿数学基准测试(FrontierMath)中取得最高分。据 Epoch AI 数据显示,该模型在 1 至 3 难度层级的答题准确率为 87%,在难度最高的第四层级(第二版)准确率更是达到 88%。

近期,Anthropic 旗下模型的数学能力实现跨越式提升。就在 2026 年初,其上一代模型 Opus 4.5 在第四层级测试中的准确率还不足 10%。OpenAI 的 GPT-5.5 在该层级的准确率约为 75%,大幅落后于 Fable 5,目前 OpenAI 已着手研发 GPT-5.6。
本次所有模型均在 Epoch AI 标准测试框架下开启满强度推理模式。FrontierMath 被公认为衡量人工智能数学推理能力难度最高的评测基准之一。模型数学能力的进步不只体现在测试成绩上,实际应用案例也不断涌现。近期,OpenAI 一款模型成功攻克了一道长期悬而未决的厄多斯难题,而 Claude Mythos 模型同样完成了这一挑战。
