OpenAI的最新模型在2025年国际数学奥林匹克竞赛中取得了金牌级别的成绩。在考试条件下,它回答了六道题中的五道,总得分为42分中的35分。
国际数学奥林匹克竞赛被认为是全球最负盛名且最具挑战性的高中生数学竞赛。今年只有大约10%的参赛者获得了金牌,而许多菲尔兹奖得主曾在过去赢得过这项比赛。每位参赛者有两个4.5小时的时间段来完成六道题,不能使用互联网或任何工具。
AI模型在解决数学问题上的成功与挑战
人工智能模型并不以擅长复杂数学问题而闻名因为它们可能难以理解逻辑。然而,最近,Gemini 2.5 Pro和OpenAI的o3在美国邀请数学考试中分别取得了86.7%和88.9%的成绩,这是AI模型的一个重要数学基准。相比之下,在2024年9月,o1 在国际奥林匹克竞赛的资格考试中仅得到了83%的成绩。而Grok 4据报道在AIME(数学奥林匹克问题)中获得了满分100%。
“IMO问题要求比过去的基准更高水平的持续创造性思维,”OpenAI研究员Alexander Wei在X上发布在宣布未发布模型的里程碑后。他的同事Noam Brown表示,就在去年,AI实验室还在使用小学数学作为基准,指的是GSM8K测试。
OpenAI首席执行官Sam Altman表示,实验模型是“一个进行数学运算的大型语言模型,而不是一个特定的正式数学系统”如AlphaGeometry,表明公司在实现通用智能的道路上进展顺利。
《科学美国人》德语版的编辑Manon Bischoff在2024年1月预测,AI模型可能需要“几年”才能在国际数学奥林匹克竞赛中竞争;然而,AI模型正在迅速改进。当时,Bischoff宣布发布数学专用模型AlphaGeometry,该模型可以解决过去25年中比赛中包含的54%的几何问题。到2月,第二代版本可以解决其中的84%。
关于OpenAI在IMO中获得金牌的问题出现
并不是所有人都相信OpenAI在数学能力上的巨大进步。
根据谷歌DeepMind研究员Thang Luong和OpenAI的前首席技术官Mikhail Samin的说法,OpenAI的模型并不是根据国际数学奥林匹克竞赛的官方指南评分的,因此其声称获得金牌的说法是无法验证的。Wei在X上表示,“三位前IMO奖牌获得者独立评分了模型提交的证明”并对他们的分数达成“一致共识”。
在评估其模型的数学能力方面,OpenAI的声誉并不是最强的。今年4月,负责FrontierMath基准的独立研究机构Epoch AI发现,o3模型只能正确回答大约10%的高级问题,这与OpenAI在2024年12月最初声称的超过25%的准确率相比大幅下降。
在奥林匹克竞赛中参与的实验模型发布之前,任何人都很难进行同等水平的独立验证。不幸的是,Wei确认OpenAI不“计划在几个月内”发布具有这种数学能力的任何东西,并且随着GPT-5即将“很快”发布,这个实验系统不太可能成为该版本的一部分。