OpenAI推出了o3-pro,这是其最先进模型的新版本,旨在为复杂任务提供更可靠、深思熟虑的响应。现在,o3-pro已在ChatGPT的专业版和团队版用户以及API中可用,取代了早期的o1-pro。
基于o3架构,o3-pro保留了Python、文件分析、网页浏览和图像解读等工具的访问权限,使其能够处理多方面的问题。该模型专为优先考虑正确性和深度而非速度的用户设计。OpenAI警告称,o3-pro的响应生成时间可能比轻量级模型更长。
专家和学术评估显示出改进。OpenAI报告称,在“4/4可靠性”测试中——模型必须连续四次正确回答同一问题——o3-pro的表现优于o1-pro和基础o3。它在清晰度、指令遵循和特定领域的强度上得分更高,特别是在STEM、写作和商业环境中。
一些用户认为o3-pro是一个实用的升级。一位评论总结道:
这就像是o1-pro的升级版o3……虽然不是革命性的变化,但可能在之前略显不足的任务上跨过门槛,从而带来巨大的生产力提升。
然而,早期测试者也提出了担忧。较慢的性能是一个缺点:
在算法问题上表现不错,但耗时过长……Android和MacOS应用程序经常超时。
其他人对幻觉问题是否得到解决表示怀疑:
对我来说,完整的o3曾让我惊叹了一段时间,但最近我意识到它的幻觉问题很严重,这成了一个大问题。我怀疑o3-pro能否解决这个问题。我在ChatGPT的自定义指令中要求在提出主张时总是引用来源,包括直接引用,因为我希望这能减少幻觉,但并没有。我经常查询医疗方面的内容,它经常会编造数字或不存在的直接引用。
这种挫败感在一篇更广泛的批评中得到了呼应::
在这一点上,我不需要更聪明的通用模型来工作。我需要的是不会产生幻觉、更快/更便宜、在特定领域表现更好的模型。我认为这将是我们未来看到改进的地方。
值得注意的是,由于技术限制,o3-pro目前不支持图像生成、Canvas或临时聊天。这些功能仍可通过其他模型如GPT-4o和o4-mini访问。