
OpenAI集团PBC今天宣布推出GPT-5.6,这是一个全新的大型语言模型系列,据称在某些编码任务上可以超越Claude Mythos 5。
该系列中最先进的算法被称为Sol。它与一个中档选项Terra和一个入门级模型Luna一起提供。
这三款人工智能模型都包含两个在GPT-5.5中未包含的模式。第一个是“最大化”设置,增加GPT-5.6在任务上的时间以提高推理质量。此外,OpenAI开发了一种“超”模式,可以启动多个子代理并行工作。
公司将Sol描述为迄今为止其构建的最强大的LLM。该模型在一个名为TerminalBench-2.1的流行AI基准测试中得分88.8%,该测试包括89个复杂的编程任务。当公司启用“超”设置时,Sol的得分提高到91.9%。Anthropic PBC的旗舰Claude Mythos 5模型得分为88%。
Claude Mythos 5之前的模型称为Mythos Preview,于四月首次亮相。根据Anthropic的说法,后者LLM已识别出超过10,000个高严重性和关键的软件漏洞。OpenAI表示,Sol在一个名为ExploitBench的网络安全研究基准测试中几乎与Mythos Preview的表现相匹配。
GPT-5.6系列还带来了效率改进。OpenAI让Sol处理GeneBench v1,这是一个科学数据分析任务集合,于四月发布。该模型使用更少的tokens匹配了公司之前的旗舰LLM的表现。
Sol包含旨在防止其支持恶意活动的防护措施,例如开发黑客活动。如果控制措施未能阻止LLM生成有害输出,一个专门的大型推理模型会在响应到达用户之前过滤提示响应。
OpenAI表示,GPT-5.6系列不仅可以阻止风险请求,还可以抵御网络攻击。公司进行了一系列红队演习,以寻找通用越狱方法,这些方法可以用于创建多个恶意提示。
其中一些测试是使用“700,000个A100等效GPU小时”自动进行的。OpenAI利用测试结果来提高其新模型系列的安全性。
与Sol一起推出的两个低端GPT-5.6模型Terra和Luna在输出质量上有所妥协,以提高成本效益。Sol的定价为每百万输入tokens 5美元和每百万输出tokens 30美元。Terra的成本是其一半,而Luna的价格则低80%。
应美国政府的要求,OpenAI在发布时将GPT-6.5的访问限制在“少数可信合作伙伴”中。公司计划在几周内将LLM系列推向普遍可用性。此外,OpenAI将把Sol带到新公开的Cerebras Systems Inc.的WSE-3晶圆尺寸AI芯片。
