OpenAI正式推出了o3-pro,这是其o系列产品线中最新和最先进的模型。该模型家族的早期版本在标准AI基准测试中一直表现出色,尤其是在数学、编程和科学任务中,而o3-pro在这些优势的基础上进一步提升。
该OpenAI的o3-pro发布说明部分内容为:“与o1-pro一样,o3-pro是我们最智能模型o3的一个版本,旨在进行更长时间的思考并提供最可靠的响应。自o1-pro发布以来,用户在数学、科学和编程等领域更倾向于使用该模型——o3-pro在学术评估中继续在这些领域表现出色。”
o3-pro模型目前在ChatGPT和其API中对专业和团队用户开放,预计下周将按照与之前模型类似的发布计划向教育和企业账户开放。
比较评估
在发布基准数据之前,OpenAI让人类测试者有机会试用o3-pro,并将其与o3的结果进行比较。这些人类测试者中的大多数在关键领域更喜欢o3-pro,包括:
- 所有查询(64%)
- 科学分析(64.9%)
- 个人写作(66.7%)
- 计算机编程(62.7%)
- 数据分析(64.3%)
Pass@1准确性和效率基准
常用于衡量现代AI模型的效率,pass@1基准测试强调模型在第一次尝试中生成准确响应的能力。不出所料,o3-pro在各种基准测试中表现优于o3和o1-pro。
竞赛数学(AIME 2024) | 博士级科学(GPQA Diamond) | 竞赛编程(Codeforces) | |
---|---|---|---|
o3-pro | 93% | 84% | 2748 |
o3 | 90% | 81% | 2517 |
o1-pro | 86% | 79% | 1707 |
4/4可靠性基准
OpenAI的团队对其AI模型进行了4/4可靠性基准测试。在这些评估中,AI模型只有在四次尝试中提供正确响应才能成功。任何失败的尝试都会导致4/4可靠性基准的自动失败。
竞赛数学(AIME 2024) | 博士级科学(GPQA Diamond) | 竞赛编程(Codeforces) | |
---|---|---|---|
o3-pro | 90% | 76% | 2301 |
o3 | 80% | 67% | 2011 |
o1-pro | 80% | 74% | 1423 |
o3-pro的局限性
需要考虑的o3-pro局限性包括:
- 在撰写本文时,o3-pro的临时聊天功能暂时被禁用,OpenAI团队正在解决技术问题。
- o3-pro不支持图像生成。需要图像生成功能的用户被建议使用GPT-4o、OpenAI o3或OpenAI o4-mini。
- o3-pro不支持OpenAI的Canvas界面。目前尚不清楚是否会在以后添加支持。
权衡o3-pro的优缺点
尽管OpenAI承认o3-pro在某些情况下比o1-pro运行得更慢,但这是最新版本中附加功能的结果。正如TechnologyAdvice的执行编辑Corey Noles在TechRepublic姐妹网站The Neuron的用户指南中写道,“o3-Pro不是你日常的聊天伙伴——它是当准确性胜过速度时你召唤的智者。”
凭借实时搜索互联网、执行复杂数据分析、基于视觉提示提供推理等能力,o3-pro在整体功能性方面无疑是赢家。