OpenAI称GPT-5在多领域工作中表现媲美人类

2025年09月26日由佚名发表 557 0

OpenAI发布了一项新的基准测试，周四发布的这项基准测试评估了其AI模型在多个行业和工作中与人类专业人士的表现对比。该测试名为GDPval，是OpenAI初步尝试了解其系统在经济价值工作中超越人类的程度。这也是公司创立使命的一部分，即开发通用人工智能（AGI）。

OpenAI表示，其研究发现GPT-5模型和Anthropic的Claude Opus 4.1“已经接近行业专家所产生的工作质量。”

这并不意味着OpenAI的模型会立即取代人类的工作。尽管一些CEO预测AI将在短短几年内取代人类的工作，OpenAI承认GDPval目前仅涵盖人们在实际工作中执行的非常有限的任务。然而，这是公司衡量AI在这一里程碑上进展的最新方式之一。

GDPval基于对美国国内生产总值贡献最大的九个行业，包括医疗、金融、制造和政府等领域。该基准测试评估AI模型在这些行业中44个职业的表现，从软件工程师到护士再到记者。

在OpenAI的第一个版本测试GDPval-v0中，OpenAI要求有经验的专业人士比较AI生成的报告与其他专业人士制作的报告，然后选择最佳的。例如，一个提示要求投资银行家为最后一英里配送行业创建竞争者格局，并与AI生成的报告进行比较。OpenAI然后平均计算AI模型在所有44个职业中相对于人类报告的“胜率”。

对于GPT-5-high，一个增强计算能力的GPT-5版本，公司表示AI模型在40.6%的时间里被评为优于或与行业专家相当。

OpenAI还测试了Anthropic的Claude Opus 4.1模型，该模型在49%的任务中被评为优于或与行业专家相当。OpenAI表示，Claude得分如此之高是因为其倾向于制作令人愉悦的图形，而不仅仅是性能。

值得注意的是，大多数工作专业人士的职责远不止于向老板提交研究报告，而这正是GDPval-v0所测试的全部内容。OpenAI承认这一点，并表示计划在未来创建更强大的测试，以涵盖更多行业和互动工作流程。

尽管如此，公司认为GDPval的进展值得关注。

“由于模型在某些方面变得越来越好，”Chatterji说，“这些工作中的人们现在可以利用模型的能力，逐渐将部分工作转移出去，专注于潜在更高价值的事情。”

OpenAI的评估负责人Tejal Patwardhan说道，她对GDPval的进展速度感到鼓舞。OpenAI的GPT-4o模型仅得分13.7%（与人类的胜利和平局），大约在15个月前发布。现在GPT-5的得分几乎是其三倍，Patwardhan预计这一趋势将继续。

硅谷有广泛的基准测试用于衡量AI模型的进展，并评估某个模型是否是最先进的。其中最受欢迎的包括AIME 2025（一个竞争性数学问题的测试）和GPQA Diamond（一个博士水平科学问题的测试）。然而，几个AI模型在这些基准测试上接近饱和，许多AI研究人员提到了需要更好的测试来衡量AI在现实世界任务中的熟练程度。

像GDPval这样的基准测试可能在这一讨论中变得越来越重要，因为OpenAI证明其AI模型对广泛行业的价值。但OpenAI可能需要更全面的测试版本来明确表示其AI模型可以超越人类。

文章来源：https://techcrunch.com/2025/09/25/openai-says-gpt-5-stacks-up-to-humans-in-a-wide-range-of-jobs/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇埃隆·马斯克的xAI以42美分向联邦政府提供Grok

下一篇 Databricks整合OpenAI模型，投资1亿美元推动企业应用

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体