
OpenAI于周四推出了GPT-5.5,主要定位为面向代理计算机使用的模型。它可以编写和调试代码、浏览网页、填写电子表格,并在无需人类监督的情况下完成多步骤任务。
OpenAI表示,该版本今天已经在ChatGPT和Codex中向Plus、Pro、Business和Enterprise订阅用户推出。
“我们正在发布GPT-5.5,这是我们迄今为止最智能、最直观的模型,也是实现计算机工作新方式的下一步。”OpenAI在公告中说道。“在代理编码、计算机使用、知识工作和早期科学研究方面的进步尤其显著——这些领域的进展依赖于跨上下文推理和随时间采取行动。
OpenAI的重大新闻:GPT-5.5比其前身GPT-5.4明显更智能——而且速度不慢。在实际服务中匹配GPT-5.4的每令牌延迟,同时在基准测试中获得更高分数,这种效率改进通常不会发生。更大的模型在相同硬件下运行时往往更慢。
在Terminal-Bench 2.0上,测试模型如何处理需要规划和迭代工具使用的复杂命令行工作流程,GPT-5.5得分82.7%。Claude Opus 4.7得分69.4%,而Gemini 3.1 Pro得分68.5%。这不是一个微小的领先。
在GDPval上,一个测试跨44个真实职业的知识工作的基准——从金融到法律研究到产品管理——GPT-5.5在84.9%的比较中匹配或超过行业专业人士。

正如预期的那样,它也是一个相当不错的编码器。在Expert-SWE上,一个用于长时间编码任务的内部基准,估计人类完成时间中位数为20小时,GPT-5.5表现优于GPT-5.4。在SWE-Bench Pro上,评估真实世界GitHub问题解决,它达到58.6%。Claude Opus 4.7得分更高,为64.3%,但OpenAI声称这可能是因为“Anthropic报告了一些问题的记忆迹象”
此次发布正值代理AI繁荣以来市场快速发展之际。GPT-5.4在GPT-5.3之后仅两天推出,而小米从MiMo-V2-Pro到MiMo 2.5 Pro——具有完整的多模态能力——大约用了五周时间。GPT-5.4和GPT-5.5之间的间隔约为七周。这就是现在的节奏。
但对于那些并不总是在编写下一个大项目的日常用户来说,这个模型会有什么不同吗?如果你是免费用户,不会:GPT-5.5不会向免费用户推出。如果你每月支付20美元的Plus,它今天就会推出。我们尝试在我们的Pro账户下测试它,但模型并未立即可用。

更重要的可能是GPT-5.5在Codex内部的表现——OpenAI的代理编码环境——它被证明更强大。“这真的感觉像是在与更高的智能合作,几乎有一种尊重感,”MagicPath的CEO Pietro Schirano在OpenAI分享的引言中说道。
GPT-5.5 Pro,专为更难、更高精度的工作设计,正在ChatGPT中单独向Pro、Business和Enterprise用户推出。在BrowseComp上,测试模型在网络上追踪难以找到的信息的能力,GPT-5.5 Pro得分90.1%,领先于Gemini 3.1 Pro的85.9%。
根据人工分析指数,该模型也是平均最智能的。GPT 5.5报告了更高效和更有用的令牌使用,通常产生更好的结果。

然而,定价可能会让一些用户感到震惊。API推出时将收取每百万输入令牌5美元和每百万输出令牌30美元的费用,OpenAI表示即将推出。API中的GPT-5.5 Pro将花费每百万输入令牌30美元和每百万输出令牌180美元。
这些数字高于GPT-5.4——每百万输入令牌2.50美元和每百万输出令牌15.00美元——而GPT-5.5 Pro的定价与GPT-5.4 Pro相同。
