Sam Altman的OpenAI o3模型——在上周末随着GPT-5的发布被弃用——在周四的四场比赛中连续击败了Elon Musk的Grok 4,赢得了谷歌的Kaggle比赛。
你可能会认为这是一场高科技巨头们将其推理能力推向极限的超级复杂盛会,但作为开胃菜,让我们提到世界冠军马格努斯·卡尔森。将两个机器人比作“一个不知道棋子如何移动的有才华的孩子。”
这场为期三天的比赛于8月5日至7日举行,迫使通用聊天机器人——是的,就是那些帮助你写电子邮件并声称接近人类智能的机器人——在没有任何专业训练的情况下下棋。没有国际象棋引擎,没有查找走法,只是它们从互联网上随机吸收的国际象棋知识。
结果就像你强迫一个语言模型玩棋盘游戏时所期望的那样优雅。卡尔森在解说决赛时估计,两个AI的水平相当于刚学会规则的休闲玩家——大约800 ELO。作为对比,他可能是有史以来最好的国际象棋选手,ELO为2839分。这些AI下棋的样子就像是从一个损坏的PDF中学来的。
“它们在非常非常好的走法和无法理解的序列之间摇摆不定,”卡尔森在比赛后的直播中说道。在某个时刻,在看到Grok直接将其国王置于危险之中后,他开玩笑说它可能认为他们在玩山丘之王而不是国际象棋。
实际的比赛就像是一堂如何不下国际象棋的大师课,即使是那些不懂棋的人。在第一场比赛中,Grok基本上免费送掉了一个重要棋子,然后在已经落后的情况下通过交换更多棋子使情况更糟。
第二场比赛变得更加奇怪。Grok试图执行国际象棋玩家称之为“毒兵”的策略——这是一种冒险但合法的策略,你抓住一个看似免费的敌方兵,但实际上并非如此。然而,Grok抓错了兵,那个兵显然是有防守的。它的皇后(棋盘上最强大的棋子)被困住并立即被捕获。
到第三场比赛时,Grok建立了看似稳固的局面——良好的位置控制,没有明显的危险,基本上是可以帮助你赢得比赛的设置。然而在中局,它基本上将球直接传给了对手。它接连失去棋子。
这实际上很奇怪,因为在与o3的比赛之前,Grok是一个相当强劲的竞争者,表现出很大的潜力,以至于国际象棋特级大师Hikaru Nakamura称赞它。“Grok是迄今为止最好的,只是客观地说,绝对是最好的。”
第四场(也是最后一场)比赛提供了唯一真正的悬念。OpenAI的o3在比赛初期犯了一个重大错误,这在任何合理的比赛中都是一个大危险。Nakamura在直播比赛时说,尽管处于劣势,o3仍然有“几个小技巧”。
他是对的——o3奋力夺回了它的皇后,并慢慢挤出胜利,而Grok的残局表现如同湿纸板般崩溃。
“Grok在这些比赛中犯了很多错误,但OpenAI没有,”Nakamura在他的直播中说道。这与本周早些时候的情况完全相反。
对于Elon Musk来说,时机再糟糕不过了。在Grok的早期强劲表现后,他在X上发帖称他的AI的国际象棋能力只是一个“副产品”,并且xAI“几乎没有在国际象棋上花费精力。”事实证明,这是一种轻描淡写。
在这次“官方”国际象棋锦标赛之前,国际大师Levy Rozman今年早些时候举办了自己的比赛使用较不先进的模型。他尊重所有聊天机器人推荐的走法,整个情况最终变得一团糟,有非法走法、棋子召唤和错误计算。专为国际象棋设计的AI Stockfish最终在比赛中击败了ChatGPT。Altman的AI在半决赛中与Musk的AI对阵,Grok输了。所以Sam以2-0领先。
然而,这次比赛有所不同。每个机器人有四次机会做出合法走法——如果他们四次失败,他们将自动输掉。这不是假设。在早期回合中,AI试图将棋子传送到棋盘上,复活死去的棋子,并像他们自己发明的某种梦幻版国际象棋一样横向移动兵。
他们被取消资格。
谷歌的Gemini通过击败另一个OpenAI模型获得了第三名,为比赛组织者挽回了一些尊严。那场铜牌赛中有一场特别荒谬的平局,双方AI在不同时间都处于完全胜利的局面,但无法找到结束比赛的方法。
卡尔森指出,AI在计算被捕获的棋子方面比实际将对手将死要好——它们理解物质优势,但不知道如何赢得比赛。这就像擅长收集食材但不会做饭。
这些就是科技公司高管声称接近人类智能、威胁白领工作并革新我们工作方式的同样AI模型。然而,它们无法在不作弊或忘记规则的情况下玩一个存在了1500年的棋盘游戏。
所以可以说我们暂时是安全的,AI不会控制人类,至少现在不会。