OpenAI发布o3-pro,升级为其“最智能模型”

2025年06月12日 由 佚名 发表 64 0

屏幕截图2025-06-13092554


OpenAI正式推出了o3-pro,这是其o系列产品线中最新和最先进的模型。该模型家族的早期版本在标准AI基准测试中一直表现出色,尤其是在数学、编程和科学任务中,而o3-pro在这些优势的基础上进一步提升。


该OpenAI的o3-pro发布说明部分内容为:“与o1-pro一样,o3-pro是我们最智能模型o3的一个版本,旨在进行更长时间的思考并提供最可靠的响应。自o1-pro发布以来,用户在数学、科学和编程等领域更倾向于使用该模型——o3-pro在学术评估中继续在这些领域表现出色。”


o3-pro模型目前在ChatGPT和其API中对专业和团队用户开放,预计下周将按照与之前模型类似的发布计划向教育和企业账户开放。


比较评估


在发布基准数据之前,OpenAI让人类测试者有机会试用o3-pro,并将其与o3的结果进行比较。这些人类测试者中的大多数在关键领域更喜欢o3-pro,包括:


  • 所有查询(64%)
  • 科学分析(64.9%)
  • 个人写作(66.7%)
  • 计算机编程(62.7%)
  • 数据分析(64.3%)


Pass@1准确性和效率基准

常用于衡量现代AI模型的效率,pass@1基准测试强调模型在第一次尝试中生成准确响应的能力。不出所料,o3-pro在各种基准测试中表现优于o3和o1-pro。


竞赛数学(AIME 2024)博士级科学(GPQA Diamond)竞赛编程(Codeforces)
o3-pro93%84%2748
o390%81%2517
o1-pro86%79%1707


4/4可靠性基准

OpenAI的团队对其AI模型进行了4/4可靠性基准测试。在这些评估中,AI模型只有在四次尝试中提供正确响应才能成功。任何失败的尝试都会导致4/4可靠性基准的自动失败。


竞赛数学(AIME 2024)博士级科学(GPQA Diamond)竞赛编程(Codeforces)
o3-pro90%76%2301
o380%67%2011
o1-pro80%74%1423


o3-pro的局限性

需要考虑的o3-pro局限性包括:


  • 在撰写本文时,o3-pro的临时聊天功能暂时被禁用,OpenAI团队正在解决技术问题。
  • o3-pro不支持图像生成。需要图像生成功能的用户被建议使用GPT-4o、OpenAI o3或OpenAI o4-mini。
  • o3-pro不支持OpenAI的Canvas界面。目前尚不清楚是否会在以后添加支持。


权衡o3-pro的优缺点

尽管OpenAI承认o3-pro在某些情况下比o1-pro运行得更慢,但这是最新版本中附加功能的结果。正如TechnologyAdvice的执行编辑Corey Noles在TechRepublic姐妹网站The Neuron的用户指南中写道,“o3-Pro不是你日常的聊天伙伴——它是当准确性胜过速度时你召唤的智者。”


凭借实时搜索互联网、执行复杂数据分析、基于视觉提示提供推理等能力,o3-pro在整体功能性方面无疑是赢家。



文章来源:https://www.techrepublic.com/article/news-openai-o3-pro/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消