Gemini 3 Pro 与 GPT-5 在专为真实科学研究设计的复杂物理任务上，目前仍无法胜任

2025年11月24日由 alex 发表 1635 0

llm_physics

一项名为“CritPt”的新物理基准测试，在早期博士研究阶段测试领先的人工智能模型。结果显示，即使是像Gemini 3 Pro和GPT-5这样的顶级系统，也远远无法发挥自主科学家的作用。

来自30多个机构的50多位物理学家共同构建了“CritPt”基准，以探讨人工智能是否真的能帮助研究人员突破现代物理的边界。他们的目标远不止于教科书记忆的考验。基准要求模型解决原创、未发表的研究问题，这些问题类似于一位有能力的研究生开始独立项目。

早期结果为我树立了一个令人警醒的基准。根据Artificial Analysis的独立评估，谷歌的“Gemini 3 Pro预览版”准确率仅为9.1%，且使用了比OpenAI的“GPT-5.1（高）”少10%的令牌，后者以4.9%排名第二。即使在排行榜顶端，系统也会错过绝大多数任务。

博士层面的推理能力依然是一个重大障碍

CritPt包含来自11个物理领域的71项完整研究挑战，如量子物理、天体物理、高能物理和生物物理。为防止猜测或检索，所有题目均基于未公开的材料。团队还将每个挑战拆分为190个较小的“检查点”，以衡量部分进度。

这些发现给人现实的检验：当前的大语言模型缺乏独立解决开放式物理问题所需的严谨性、创造性和精确性。尽管如此，模型显示在更简单、明确的子任务上有可测量的改进，这表明有针对性的支持角色可能更为现实。

团队还使用一个更严格的指标“一致性解答率”测试一致性，该指标要求模型在五次中给出四次正确答案。在这一要求下，性能全面崩溃，显示出即使在有时解决的任务中，模型推理依然脆弱。

这种缺乏稳健性给研究工作流程带来了严峻挑战。这些模型常常给出看似令人信服但存在难以发现的细微错误，容易误导研究人员，并需要耗时的专家审查。

研究人员认为，在可预见的未来，更现实的目标不是“人工智能科学家”取代人类专家，而是“研究助理”自动化特定工作流程步骤。这与当前行业计划相符：OpenAI计划于2026年9月推出研究实习系统，并于2028年3月交付完全自主的研究员。该公司声称，GPT-5已经为研究人员节省了时间。

文章来源：https://the-decoder.com/gemini-3-pro-and-gpt-5-still-fail-at-complex-physics-tasks-designed-for-real-scientific-research/

标签：

gpt gemini

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Salesforce推出用于代理AI的深度可观测性工具

下一篇 Meta计划进军电力交易领域

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体

Grok 4.5登场：编码与长程智能体再升级

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

OpenAI首款推理芯片亮相，年底开始部署

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市

OpenAI GPT-Live：实时语音模型再升级