OpenAI和Anthropic PBC,这两家领先的人工智能模型提供商,今天都推出了新的大型语言模型,这些模型专为推理任务进行了优化。
OpenAI的新算法gpt-oss-120b和gpt-oss-20b在开源许可下发布。Anthropic则推出了其专有的Claude Opus 4大型语言模型的升级版本。更新提升了LLM的编码能力,公司声称其性能已经超越了竞争对手。
OpenAI表示,gpt-oss-120b和gpt-oss-20b在多个推理任务中表现优于同等规模的开源模型。前者算法拥有1170亿个参数,而后者则包括210亿个参数。它们都可以运行代码,与数据库等外部系统交互,并根据任务的复杂性优化所花费的时间。
“专有API的护城河正在缩小;企业现在可以在内部运行和优化模型,”评论道theCUBE Research的联合创始人兼首席分析师Dave Vellante说。“在我们看来,差异化现在上升到工具、RL循环、护栏,最重要的是数据。”
运行gpt-oss-20b需要一张16GB内存的显卡。这意味着该模型足够紧凑,可以在某些消费设备上运行。OpenAI研究人员在博客文章中写道,该模型“非常适合设备上的使用场景、本地推理或无需昂贵基础设施的快速迭代”。
公司的另一个新模型gpt-oss-120b在硬件效率上有所妥协,以换取更高的输出质量。它可以在一张80GB内存的显卡上运行。该算法提供了与o4-mini相当的性能,o4-mini是OpenAI最新和最先进的专有推理模型之一。
gpt-oss-120b和gpt-oss-20b都基于专家混合架构。专家混合模型由多个神经网络组成,每个网络都针对一组狭窄的任务进行了优化。当接收到提示时,模型只激活最适合生成答案的神经网络。
OpenAI的新模型具有两种性能优化功能,称为分组多查询注意力和旋转位置嵌入。前者技术减少了算法注意力机制的内存使用,该机制用于解释用户提示。旋转位置嵌入则使语言模型在处理长输入时表现更好。两个模型都支持128,000个标记的上下文窗口。
OpenAI通过多步骤过程开发了gpt-oss-120b和gpt-oss-20b。首先,它们在一个主要由关于科学和技术主题的英文文本组成的数据集上进行了训练。然后,OpenAI进行了两次额外的训练,分别使用监督微调和强化学习。
监督微调使用包含注释的训练数据集来解释其内容。而强化学习则不使用注释。后者技术可能更具成本效益,因为它减少了开发人员必须花费在组织数据集上的时间。
“无论OpenAI的意图如何,开放权重推理模型使前沿模型能力民主化,但将价值对话推向企业代理、专有数据、RL反馈效率和业务背景,”Vellante表示。“在我们看来,构建数字孪生能力的企业将编程出最有价值的代理;其他人将争夺越来越便宜的API的更薄切片。”
在OpenAI最新产品更新的背景下,竞争对手Anthropic推出了一款名为Claude 4.1 Opus的新专有LLM。这是公司旗舰Claude 4 Opus推理模型的升级版本。Anthropic在5月推出时将后者LLM描述为“世界上最好的编码模型”。
Claude Opus 4在SWE-bench Verified上得分72.5%,这是衡量LLM编码能力的基准。新的Claude Opus 4.1模型达到了74.5%。此外,Anthropic还改进了LLM的研究和数据分析能力。
Claude Opus 4.1今天在公司的Claude AI助手的付费版本中提供,也可以通过其应用程序接口、Amazon Bedrock和Google Cloud的Vertex AI服务使用。此次更新是Anthropic计划的一系列LLM增强中的首次。公司预计将在未来几周内发布其他升级,描述为“显著更大”。