OpenAI发布o3-pro，升级为其“最智能模型” | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

屏幕截图2025-06-13092554

OpenAI正式推出了o3-pro，这是其o系列产品线中最新和最先进的模型。该模型家族的早期版本在标准AI基准测试中一直表现出色，尤其是在数学、编程和科学任务中，而o3-pro在这些优势的基础上进一步提升。

该OpenAI的o3-pro发布说明部分内容为：“与o1-pro一样，o3-pro是我们最智能模型o3的一个版本，旨在进行更长时间的思考并提供最可靠的响应。自o1-pro发布以来，用户在数学、科学和编程等领域更倾向于使用该模型——o3-pro在学术评估中继续在这些领域表现出色。”

o3-pro模型目前在ChatGPT和其API中对专业和团队用户开放，预计下周将按照与之前模型类似的发布计划向教育和企业账户开放。

比较评估

在发布基准数据之前，OpenAI让人类测试者有机会试用o3-pro，并将其与o3的结果进行比较。这些人类测试者中的大多数在关键领域更喜欢o3-pro，包括：

所有查询（64%）
科学分析（64.9%）
个人写作（66.7%）
计算机编程（62.7%）
数据分析（64.3%）

Pass@1准确性和效率基准

常用于衡量现代AI模型的效率，pass@1基准测试强调模型在第一次尝试中生成准确响应的能力。不出所料，o3-pro在各种基准测试中表现优于o3和o1-pro。

	竞赛数学（AIME 2024）	博士级科学（GPQA Diamond）	竞赛编程（Codeforces）
o3-pro	93%	84%	2748
o3	90%	81%	2517
o1-pro	86%	79%	1707

4/4可靠性基准

OpenAI的团队对其AI模型进行了4/4可靠性基准测试。在这些评估中，AI模型只有在四次尝试中提供正确响应才能成功。任何失败的尝试都会导致4/4可靠性基准的自动失败。

	竞赛数学（AIME 2024）	博士级科学（GPQA Diamond）	竞赛编程（Codeforces）
o3-pro	90%	76%	2301
o3	80%	67%	2011
o1-pro	80%	74%	1423

o3-pro的局限性

需要考虑的o3-pro局限性包括：

在撰写本文时，o3-pro的临时聊天功能暂时被禁用，OpenAI团队正在解决技术问题。
o3-pro不支持图像生成。需要图像生成功能的用户被建议使用GPT-4o、OpenAI o3或OpenAI o4-mini。
o3-pro不支持OpenAI的Canvas界面。目前尚不清楚是否会在以后添加支持。

权衡o3-pro的优缺点

尽管OpenAI承认o3-pro在某些情况下比o1-pro运行得更慢，但这是最新版本中附加功能的结果。正如TechnologyAdvice的执行编辑Corey Noles在TechRepublic姐妹网站The Neuron的用户指南中写道，“o3-Pro不是你日常的聊天伙伴——它是当准确性胜过速度时你召唤的智者。”

凭借实时搜索互联网、执行复杂数据分析、基于视觉提示提供推理等能力，o3-pro在整体功能性方面无疑是赢家。