
星期四,OpenAI发布了GPT-5.4。这是一款全新的基础模型,被誉为“我们最强大且高效的专业工作前沿模型。”除了标准版,GPT-5.4还提供推理模型(GPT-5.4思考版)和优化为高性能的专业版(GPT-5.4专业版)。
该模型的API版本将提供高达100万个标记的上下文窗口,这是OpenAI迄今为止提供的最大上下文窗口。
OpenAI还强调了改进的标记效率,称GPT-5.4能够用显著更少的标记解决与其前代相同的问题。
新模型在基准测试中取得了显著的进步,包括在计算机使用基准测试OSWorld-Verified和WebArena Verified中创下记录。在OpenAI的GDPval知识工作任务测试中,新模型也创下了83%的记录分数。
GPT-5.4还在Mercor的APEX-Agents基准测试中表现出色,该测试旨在评估法律和金融领域的专业技能。据Mercor首席执行官Brendan Foody的声明。
Foody在声明中表示,“[GPT-5.4]在创建长期交付物方面表现出色,如幻灯片、财务模型和法律分析,提供顶级性能,同时运行速度更快且成本低于竞争对手的前沿模型。”
GPT-5.4继续公司在减少幻觉和事实错误方面的努力。OpenAI表示,与GPT 5.2相比,新模型在单个声明中出错的可能性降低了33%,整体响应中包含错误的可能性降低了18%。
作为发布的一部分,OpenAI重新设计了GPT-5.4的API版本如何管理工具调用,引入了一个名为工具搜索的新系统。以前,系统提示会在调用模型时列出所有可用工具的定义——随着可用工具数量的增加,这一过程可能会消耗大量标记。新系统允许模型在需要时查找工具定义,从而在拥有许多可用工具的系统中实现更快和更经济的请求。
OpenAI还引入了一个新的安全评估来测试其模型的思维链,即模型在多步骤任务中展示思维过程的运行评论。AI安全研究人员长期以来担心推理模型可能会误导其思维链,测试显示在某些情况下可能会发生。
OpenAI的新评估显示,在GPT-5.4的思考版中,欺骗发生的可能性较小,“这表明模型缺乏隐藏其推理的能力,思维链监控仍然是一个有效的安全工具。”
