OpenAI发布了一项新的基准测试,周四发布的这项基准测试评估了其AI模型在多个行业和工作中与人类专业人士的表现对比。该测试名为GDPval,是OpenAI初步尝试了解其系统在经济价值工作中超越人类的程度。这也是公司创立使命的一部分,即开发通用人工智能(AGI)。
OpenAI表示,其研究发现GPT-5模型和Anthropic的Claude Opus 4.1“已经接近行业专家所产生的工作质量。”
这并不意味着OpenAI的模型会立即取代人类的工作。尽管一些CEO预测AI将在短短几年内取代人类的工作,OpenAI承认GDPval目前仅涵盖人们在实际工作中执行的非常有限的任务。然而,这是公司衡量AI在这一里程碑上进展的最新方式之一。
GDPval基于对美国国内生产总值贡献最大的九个行业,包括医疗、金融、制造和政府等领域。该基准测试评估AI模型在这些行业中44个职业的表现,从软件工程师到护士再到记者。
在OpenAI的第一个版本测试GDPval-v0中,OpenAI要求有经验的专业人士比较AI生成的报告与其他专业人士制作的报告,然后选择最佳的。例如,一个提示要求投资银行家为最后一英里配送行业创建竞争者格局,并与AI生成的报告进行比较。OpenAI然后平均计算AI模型在所有44个职业中相对于人类报告的“胜率”。
对于GPT-5-high,一个增强计算能力的GPT-5版本,公司表示AI模型在40.6%的时间里被评为优于或与行业专家相当。
OpenAI还测试了Anthropic的Claude Opus 4.1模型,该模型在49%的任务中被评为优于或与行业专家相当。OpenAI表示,Claude得分如此之高是因为其倾向于制作令人愉悦的图形,而不仅仅是性能。
值得注意的是,大多数工作专业人士的职责远不止于向老板提交研究报告,而这正是GDPval-v0所测试的全部内容。OpenAI承认这一点,并表示计划在未来创建更强大的测试,以涵盖更多行业和互动工作流程。
尽管如此,公司认为GDPval的进展值得关注。
“由于模型在某些方面变得越来越好,”Chatterji说,“这些工作中的人们现在可以利用模型的能力,逐渐将部分工作转移出去,专注于潜在更高价值的事情。”
OpenAI的评估负责人Tejal Patwardhan说道,她对GDPval的进展速度感到鼓舞。OpenAI的GPT-4o模型仅得分13.7%(与人类的胜利和平局),大约在15个月前发布。现在GPT-5的得分几乎是其三倍,Patwardhan预计这一趋势将继续。
硅谷有广泛的基准测试用于衡量AI模型的进展,并评估某个模型是否是最先进的。其中最受欢迎的包括AIME 2025(一个竞争性数学问题的测试)和GPQA Diamond(一个博士水平科学问题的测试)。然而,几个AI模型在这些基准测试上接近饱和,许多AI研究人员提到了需要更好的测试来衡量AI在现实世界任务中的熟练程度。
像GDPval这样的基准测试可能在这一讨论中变得越来越重要,因为OpenAI证明其AI模型对广泛行业的价值。但OpenAI可能需要更全面的测试版本来明确表示其AI模型可以超越人类。