Anthropic 发布 Claude Fable 5 与 Mythos 5,代码与科学能力大幅提升

2026年06月10日 由 alex 发表 2270 0

fable_5_logo-scaled


Anthropic 推出第五代 Claude 系列两款全新大模型。Claude Fable 5 在几乎所有评测基准中登顶,而已结束预览阶段的 Claude Mythos 5 目前仍仅对特定合作方开放。


两款模型基于同一基础架构开发。Fable 5 配备偏向保守的安全防护机制,面向通用场景使用;Mythos 5 则在网络安全等领域解除了相关限制,仅面向少数合作群体提供服务。


Anthropic 表示,Fable 5 性能超越该公司以往所有面向大众的模型,在绝大多数测试基准中均达到业界顶尖水平,且在处理长文本、复杂任务时,性能优势会进一步扩大。


在SWE-Bench Pro(基于 GitHub 公开代码库、模拟真实软件工程难题的评测基准)中,Fable 5 得分达 80.3%;Claude Opus 4.8 为 69.2%,GPT 5.5 为 58.6%,Gemini 3.1 Pro 则为 54.2%。


在Cognition 推出的FrontierCode基准测试(对标企业生产标准、考核高难度编程任务)里,Fable 5 得分 29.3%,Claude Opus 4.8 为 13.4%,GPT 5.5 仅 5.7%。


claude_fable_benchmarks-scaled-1


Anthropic 称,Fable 5 的令牌使用效率也优于前代 Claude 模型。在中等难度任务下,它在 FrontierCode 榜单中位列所有前沿模型第一。支付服务企业 Stripe 反馈,Fable 5 将原本耗时五个月的工程工作压缩至数日完成。面对一份 5000 万行代码的 Ruby 代码库,该模型仅用一天就完成了代码迁移,而这项工作原本需要完整团队耗时两个多月。


claude_fable_benchmarks_agentic_coding-scaled-1


知识处理、视觉能力与长上下文记忆能力全面升级


据 Anthropic 介绍,Fable 5 在复杂分析类任务中同样表现拔尖。在 Hebbia 金融评测基准(模拟资深金融分析师的逻辑推理能力)中,它拿下所有模型里的最高分,文档推理、图表解读能力均有显著提升。交易机构 IMC 表示,Fable 5 几乎通过了其全部交易分析类测评。


视觉任务方面,Fable 5 成为当前性能最强的模型。它能从精细的科学插图中提取精准数据,仅凭截图就能还原网页应用的完整源代码。官方演示中,该模型仅依靠游戏截图就通关了《宝可梦:火红》;而前代模型必须借助复杂辅助框架、额外工具以及地图等游戏数据才能实现。


Anthropic 还提到,Fable 5 可稳定处理数百万令牌长度的内容,还能通过自主记录要点优化输出效果,官方暂未公布相关具体评测数据。


助力药物研发与自主基因组学研究


Anthropic 内部蛋白质设计团队表示,Mythos 5 将部分药物研发流程的效率提升了 10 倍。在一项测试中,该模型搭配蛋白质设计与生物信息学工具,全程无需人工干预,最终成果媲美甚至超越资深专业人员。


它能够独立完成科研人员的全套操作:筛选结合位点、启动并运行蛋白质设计工具、自行排查修复错误。本次测试的 14 个蛋白质靶点中,有 9 个产出了优质候选药物分子,目前相关成果已进入深入研究阶段。


Anthropic 重点指出,Mythos 5 是首个能够持续产出新颖、具备科学价值假说的大模型 —— 这也是当前主流大语言模型领域颇具争议的能力。在盲测对比中,该公司科研人员对 Mythos 5 提出的分子生物学假说认可度,较同等级的 Opus 系列模型高出约 80%。其中一项针对大肠杆菌蛋白质的全新作用机理假说,也得到了独立研究的佐证。


基因组学领域,Mythos 5 曾连续自主运行一周以上。它整理了来自 138 种动物、数百万个单细胞的数据集,并自主搭建、训练机器学习模型,用于识别不同远缘生物体内功能相同的细胞。据悉,该模型体量比近期发表于《科学》期刊的同类模型小 100 倍,但性能更优。Anthropic 计划在未来数月公布完整研究成果。


Mythos 5 现阶段仅限网络安全防护人员使用


Claude Mythos 5 将继续依托与美国政府合作的 “玻璃翼计划” 对外提供服务,接替此前的 Claude Myth 预览版。Anthropic 将其称作全球最强网络安全大模型。在漏洞利用评测基准 ExploitBench 中,它的得分达到 78%,相较于预览版的 69%、Opus 4.8 的 40% 实现大幅增长。


所有原 Myth 预览版用户均可升级至 Mythos 5,后续使用权限将在美方协调下逐步放开。此外,Anthropic 还计划推出生物领域可信访问计划:部分特邀科研人员可使用移除生物、化学安全限制的 Fable 5,但网络安全相关防护规则仍会保留。


定价近乎翻倍,Fable 5 不再纳入常规订阅套餐


两款新模型统一定价:输入令牌每百万个收费 10 美元,输出令牌每百万个收费 50 美元。Anthropic 称该价格虽不足前代 Myth 预览版的一半,但远高于现行的 Claude Opus 系列。实际使用成本,取决于不同任务的令牌消耗量。在 Claude 官网套餐中,调用这两款新模型会按两倍用量计算(目前暂未明确该用量统计是否完全等同于令牌消耗)。


屏幕截图2026-06-10091834


目前 Fable 5 已通过 Claude 应用程序接口(API)及按用量计费的企业版套餐上线。Pro、Max、团队版、席位制企业版等订阅套餐将分阶段开放权限:6 月 22 日前,使用 Fable 5 无需额外付费;6 月 23 日起,调用该模型需消耗专用点数。Anthropic 表示,待服务承载力充足后,会重新将 Fable 5 整合进常规订阅套餐。


危险请求自动降级至 Opus,强化风险管控


Anthropic 坦言,Mythos 系列模型能力极强,存在被用于网络攻击、生物武器研发等高危场景的风险。为此 Fable 5 搭载了全新 AI 识别分类器,一旦检测到危险请求,会自动将任务转接至安全性更高的 Claude Opus 4.8 处理,超 95% 的正常对话不会受到影响。


识别管控主要覆盖三大方向:网络安全、生物与化学、模型能力窃取(即第三方尝试提取模型核心能力,也是欧美主流 AI 企业普遍关注的问题)。


在网页端与客户端使用时,系统触发降级后会向用户发出提示;在消息 API 接口中,高危请求默认直接拦截,开发者可手动开启服务端降级功能。官方称,多项网络攻防测试显示,Fable 5 在攻击性任务中成功率为 0,外部测试人员累计测试超 1000 小时,也未能找到通用的破解绕过方式。


模型还增设了用户无感知的深层防护机制:针对搭建前沿大模型相关的请求(如预训练流程搭建、分布式训练架构、AI 加速芯片设计等)不会直接拦截,而是通过改写提示词、引导向量、参数高效微调(PEFT)等方式削弱其输出效果。


Anthropic 也承认,当前过滤规则偏严格,会误拦截部分正常请求。同时,所有 Mythos 系列模型新增30 天数据留存机制,用于追踪新型攻击手段。

文章来源:https://the-decoder.com/anthropic-releases-claude-fable-5-and-mythos-5-with-major-gains-in-coding-and-science/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消