Anthropic发布了Claude Opus 4.6，支持100万标记的上下文

2026年02月06日由 alex 发表 495 0

opus_46_claude

Anthropic发布了Claude Opus 4.6，这是其新的旗舰机型。Opus 模型首次具备一百万个令牌上下文窗口。该公司表示，它比以往的模型更可靠地在大型文档中定位相关信息。

Anthropic发布了Claude Opus 4.6，这是对之前旗舰作品Opus 4.5的升级版。Opus模型首次能够处理一百万个令牌的上下文窗口，目前处于测试阶段。

然而，较大的上下文窗口存在一个已知问题：模型需要处理的信息越多，其性能就越差。研究人员称之为“情境腐烂”。Anthropic表示，他们通过改进模型本身，以及新增一个“压缩”功能，能在窗口填满前自动总结旧上下文。

在MRCR v2测试中，该测试旨在衡量模型在大量文本中发现隐藏信息的能力，Opus 4.6在一百万个令符下得分为76%。较小的Sonnet 4.5在相同条件下仅得18.5%。

该模型可在 claude.ai、API及主要云平台上使用。标准定价为每百万输入令牌5美元，输出令牌25美元。对于超过20万个令牌的提示，适用高级费率：输入10美元，输出每百万个令牌37.50美元。

Opus 4.6在知识工作基准测试中优于GPT-5.2

在GDPval-AA测试中，该测试包括金融和法律等领域的知识工作，作品4.6获得了1606的Elo分数。这比OpenAI的GPT-5.2（1462）高出144个Elo点，比Opus 4.5（1416）高出190个点。

在“人类最后考试”这一多学科推理测试中，该模型在工具方面得分为53.1%，领先所有竞争者。Opus 4.6 在基于代理的编码基准测试 Terminal-Bench 2.0 上也获得了 65.4% 的得分。在BrowseComp中，该模型衡量在线难以找到信息的能力，达到了84%。一如既往，基准测试只能粗略反映真实性能。

公司还致力于该模型的编程能力。据Anthropic介绍，Opus 4.6在规划更为周密，自主任务工作时间更长，并且在大型代码库中运行更为可靠。在SWE的bench上，Opus 4.6搭配标准提示音并不比Opus 4.5好。通过快速定制，评分略高（81.42%）。

opus_46_benchmarks

模型往往会过度思考简单的任务。Opus 4.6更频繁地核对其结论，研究者称之为过度思考，这可能导致简单查询的成本更高和响应时间更长。对于较简单的任务，Anthropic建议将努力参数从“高”调降至“中”。

新的API功能和办公集成

Anthropic 正在添加多个 API 功能。“适应性思维”让模型决定何时需要更深层的推理。“压缩”自动总结了当对话接近窗口限制时的旧语境。最大输出现为128,000枚代币。在 Claude Code 中，用户现在可以使用“代理团队”，即多个 AI 代理并行完成任务。该专题已进入研究预览阶段。

对于办公用户，Anthropic更新了Excel集成，并发布了PowerPoint集成作为研究预览。公司表示，在Excel中，Claude现在可以处理非结构化数据，确定正确的结构，并在一次内完成多层次的更改。

提示注入漏洞依然存在

Anthropic表示，性能提升并未影响安全性。在自动化行为审计中，Opus 4.6显示出低比例的欺骗或帮助滥用等问题行为。然而，Opus 4.6比前代更易受到间接提示注入的影响，这对代理型AI应用尤其令人担忧。

opus46_indirect_prompt_injection

值得注意的是，Anthropic 不再报告直接即时注射的结果，而 Opus 4.5 在众多较差的结果中表现最佳。公司表示，取消该指标是因为直接注入“涉及恶意用户，而本节重点关注劫持用户原始意图的第三方威胁”。这意味着模型的安全性可能低于图所示。

文章来源：https://the-decoder.com/claude-opus-4-6-brings-one-million-token-context-window-to-anthropics-flagship-model/

标签：

Anthropic

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇亚马逊下月将测试用于影视制作的AI工具

下一篇 OpenAI推出Frontier代理管理平台和全新GPT-5.3-Codex模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术