Gemini 3 Pro 与 GPT-5 在专为真实科学研究设计的复杂物理任务上,目前仍无法胜任

2025年11月24日 由 alex 发表 1255 0

llm_physics


一项名为“CritPt”的新物理基准测试,在早期博士研究阶段测试领先的人工智能模型。结果显示,即使是像Gemini 3 Pro和GPT-5这样的顶级系统,也远远无法发挥自主科学家的作用。

来自30多个机构的50多位物理学家共同构建了“CritPt”基准,以探讨人工智能是否真的能帮助研究人员突破现代物理的边界。他们的目标远不止于教科书记忆的考验。基准要求模型解决原创、未发表的研究问题,这些问题类似于一位有能力的研究生开始独立项目。

早期结果为我树立了一个令人警醒的基准。根据Artificial Analysis的独立评估,谷歌的“Gemini 3 Pro预览版”准确率仅为9.1%,且使用了比OpenAI的“GPT-5.1(高)”少10%的令牌,后者以4.9%排名第二。即使在排行榜顶端,系统也会错过绝大多数任务。

gemini_benchmark_physics_AA-1-scaled-1

博士层面的推理能力依然是一个重大障碍
CritPt包含来自11个物理领域的71项完整研究挑战,如量子物理、天体物理、高能物理和生物物理。为防止猜测或检索,所有题目均基于未公开的材料。团队还将每个挑战拆分为190个较小的“检查点”,以衡量部分进度。

这些发现给人现实的检验:当前的大语言模型缺乏独立解决开放式物理问题所需的严谨性、创造性和精确性。尽管如此,模型显示在更简单、明确的子任务上有可测量的改进,这表明有针对性的支持角色可能更为现实。

checkpoint_benchmark

团队还使用一个更严格的指标“一致性解答率”测试一致性,该指标要求模型在五次中给出四次正确答案。在这一要求下,性能全面崩溃,显示出即使在有时解决的任务中,模型推理依然脆弱。

reliability_benchmark

这种缺乏稳健性给研究工作流程带来了严峻挑战。这些模型常常给出看似令人信服但存在难以发现的细微错误,容易误导研究人员,并需要耗时的专家审查。

研究人员认为,在可预见的未来,更现实的目标不是“人工智能科学家”取代人类专家,而是“研究助理”自动化特定工作流程步骤。这与当前行业计划相符:OpenAI计划于2026年9月推出研究实习系统,并于2028年3月交付完全自主的研究员。该公司声称,GPT-5已经为研究人员节省了时间。
文章来源:https://the-decoder.com/gemini-3-pro-and-gpt-5-still-fail-at-complex-physics-tasks-designed-for-real-scientific-research/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消