OpenAI称GPT-5在多领域工作中表现媲美人类

2025年09月26日 由 佚名 发表 73 0


OpenAI发布了一项新的基准测试,周四发布的这项基准测试评估了其AI模型在多个行业和工作中与人类专业人士的表现对比。该测试名为GDPval,是OpenAI初步尝试了解其系统在经济价值工作中超越人类的程度。这也是公司创立使命的一部分,即开发通用人工智能(AGI)。


OpenAI表示,其研究发现GPT-5模型和Anthropic的Claude Opus 4.1“已经接近行业专家所产生的工作质量。”


这并不意味着OpenAI的模型会立即取代人类的工作。尽管一些CEO预测AI将在短短几年内取代人类的工作,OpenAI承认GDPval目前仅涵盖人们在实际工作中执行的非常有限的任务。然而,这是公司衡量AI在这一里程碑上进展的最新方式之一。


GDPval基于对美国国内生产总值贡献最大的九个行业,包括医疗、金融、制造和政府等领域。该基准测试评估AI模型在这些行业中44个职业的表现,从软件工程师到护士再到记者。


在OpenAI的第一个版本测试GDPval-v0中,OpenAI要求有经验的专业人士比较AI生成的报告与其他专业人士制作的报告,然后选择最佳的。例如,一个提示要求投资银行家为最后一英里配送行业创建竞争者格局,并与AI生成的报告进行比较。OpenAI然后平均计算AI模型在所有44个职业中相对于人类报告的“胜率”。


对于GPT-5-high,一个增强计算能力的GPT-5版本,公司表示AI模型在40.6%的时间里被评为优于或与行业专家相当。


OpenAI还测试了Anthropic的Claude Opus 4.1模型,该模型在49%的任务中被评为优于或与行业专家相当。OpenAI表示,Claude得分如此之高是因为其倾向于制作令人愉悦的图形,而不仅仅是性能。


来源:OpenAI


值得注意的是,大多数工作专业人士的职责远不止于向老板提交研究报告,而这正是GDPval-v0所测试的全部内容。OpenAI承认这一点,并表示计划在未来创建更强大的测试,以涵盖更多行业和互动工作流程。


尽管如此,公司认为GDPval的进展值得关注。


“由于模型在某些方面变得越来越好,”Chatterji说,“这些工作中的人们现在可以利用模型的能力,逐渐将部分工作转移出去,专注于潜在更高价值的事情。”


OpenAI的评估负责人Tejal Patwardhan说道,她对GDPval的进展速度感到鼓舞。OpenAI的GPT-4o模型仅得分13.7%(与人类的胜利和平局),大约在15个月前发布。现在GPT-5的得分几乎是其三倍,Patwardhan预计这一趋势将继续。


硅谷有广泛的基准测试用于衡量AI模型的进展,并评估某个模型是否是最先进的。其中最受欢迎的包括AIME 2025(一个竞争性数学问题的测试)和GPQA Diamond(一个博士水平科学问题的测试)。然而,几个AI模型在这些基准测试上接近饱和,许多AI研究人员提到了需要更好的测试来衡量AI在现实世界任务中的熟练程度。


像GDPval这样的基准测试可能在这一讨论中变得越来越重要,因为OpenAI证明其AI模型对广泛行业的价值。但OpenAI可能需要更全面的测试版本来明确表示其AI模型可以超越人类。


文章来源:https://techcrunch.com/2025/09/25/openai-says-gpt-5-stacks-up-to-humans-in-a-wide-range-of-jobs/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消