OpenAI推出o3-pro模型,专注于可靠性,用户反馈褒贬不一

2025年06月18日 由 佚名 发表 35 0

OpenAI推出了o3-pro,这是其最先进模型的新版本,旨在为复杂任务提供更可靠、深思熟虑的响应。现在,o3-pro已在ChatGPT的专业版和团队版用户以及API中可用,取代了早期的o1-pro。

基于o3架构,o3-pro保留了Python、文件分析、网页浏览和图像解读等工具的访问权限,使其能够处理多方面的问题。该模型专为优先考虑正确性和深度而非速度的用户设计。OpenAI警告称,o3-pro的响应生成时间可能比轻量级模型更长。

专家和学术评估显示出改进。OpenAI报告称,在“4/4可靠性”测试中——模型必须连续四次正确回答同一问题——o3-pro的表现优于o1-pro和基础o3。它在清晰度、指令遵循和特定领域的强度上得分更高,特别是在STEM、写作和商业环境中。


一些用户认为o3-pro是一个实用的升级。一位评论总结道:


这就像是o1-pro的升级版o3……虽然不是革命性的变化,但可能在之前略显不足的任务上跨过门槛,从而带来巨大的生产力提升。


然而,早期测试者也提出了担忧。较慢的性能是一个缺点:


在算法问题上表现不错,但耗时过长……Android和MacOS应用程序经常超时。


其他人对幻觉问题是否得到解决表示怀疑:


对我来说,完整的o3曾让我惊叹了一段时间,但最近我意识到它的幻觉问题很严重,这成了一个大问题。我怀疑o3-pro能否解决这个问题。我在ChatGPT的自定义指令中要求在提出主张时总是引用来源,包括直接引用,因为我希望这能减少幻觉,但并没有。我经常查询医疗方面的内容,它经常会编造数字或不存在的直接引用。


这种挫败感在一篇更广泛的批评中得到了呼应::


在这一点上,我不需要更聪明的通用模型来工作。我需要的是不会产生幻觉、更快/更便宜、在特定领域表现更好的模型。我认为这将是我们未来看到改进的地方。


值得注意的是,由于技术限制,o3-pro目前不支持图像生成、Canvas或临时聊天。这些功能仍可通过其他模型如GPT-4o和o4-mini访问。


文章来源:https://www.infoq.com/news/2025/06/openai-o3-pro/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消