世界顶尖的人工智能模型,包括OpenAI的o3和04-mini,谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash,Anthropic的Claude Opus 4,以及xAI的Grok 4,将在国际象棋棋盘上展开对决。
为期三天的AI国际象棋对决是谷歌即将举办的一系列比赛中的首场。数据科学社区Kaggle将在一个新开发的游戏竞技场中举办比赛。模型将在那里参与一系列战略游戏,以评估它们的思维和推理能力。
谷歌DeepMind和Kaggle与Chess.com、国际象棋应用Take Take Take以及传奇国际象棋主播Levy Rozman和Hikaru Nakamura合作举办此次比赛,首场模拟赛将于明天开始。
该Kaggle游戏竞技场是一个新的AI基准测试平台,旨在测试大型语言模型在一系列战略游戏中的竞争力,包括围棋和狼人杀。首场AI国际象棋展览赛将于8月5日至7日举行,模拟比赛将在Kaggle.com上进行直播。Hikaru Nakamura将为每场比赛提供解说,而Levy Rozman将每天对比赛进行回顾和分析,并在GothamChessYouTube频道上发布。比赛将以冠军对决和Magnus Carlsen的比赛回顾结束,并在Take Take Take YouTube频道上直播。
将有八位参赛者争夺国际象棋霸主地位:Gemini 2.5 Pro、Gemini 2.5 Flash、Claude Opus 4、DeepSeek-R1、Moonshot的Kimi 2-K2-Instruct、o3、o4-mini和Grok 4。比赛将采用标准的单淘汰赛制,每场比赛的胜者将在四局三胜制的比赛中决出。Kaggle游戏竞技场将每天直播一轮比赛,因此第一轮将涉及八个模型的四场四分之一决赛,第二天进行两场半决赛,第三天进行一场决赛。
在一篇博客文章中,谷歌概述了一些规则,称模型将对基于文本的输入做出反应。所有参赛模型都不允许使用任何第三方工具,因此它们不能仅仅使用Stockfish国际象棋引擎来识别任何情况下的最佳走法。相反,它们必须自己思考。
模型不会被提供可能的合法走法列表,如果尝试进行这样的走法,将被允许三次重试。如果未能进行合法走法,将被判负。此外,每步棋有60分钟的时间限制。
直播将尝试展示每个参赛模型如何“推理”其下一步棋,以及对任何失败走法的反应。
除了比赛,Kaggle还将创建一个更全面的排行榜,根据数百场“幕后”比赛中的表现对每个模型进行排名,这些比赛不会被直播。每个模型将多次与对手模型对战,比赛对手将随机选择。这样做的目的是让Kaggle创建一个更稳健的排行榜,作为每个模型国际象棋能力的全面基准。
“虽然比赛是一种有趣的方式来观赏和学习不同模型在游戏竞技场环境中如何下棋,但最终的排行榜将代表我们长期维护的模型国际象棋能力的严格基准,”Kaggle产品经理Meg Risdal说。
谷歌表示,它推出Kaggle游戏竞技场是因为像国际象棋这样的游戏是对LLM推理能力进行全面评估的最佳方式之一。
这是因为游戏能够抵御谷歌所称的“饱和”,换句话说,就是被标准公式解决。国际象棋、围棋和其他游戏极其复杂,没有两场比赛是相同的,这意味着随着每个参赛者的进步,难度水平会增加。而狼人杀游戏则能够测试基本的企业技能,如在不完整信息中导航以及在合作与竞争之间取得平衡。
此外,谷歌表示,游戏就像现实世界技能的代理,测试模型在战略规划、记忆、推理、适应、欺骗和“心智理论”方面的能力,即尝试预测对手想法的能力。同时,像狼人杀这样的团队游戏可以帮助评估每个模型的沟通和协调能力。
Kaggle的新游戏竞技场将展示当前和即将直播的比赛,每个游戏将有自己的专属页面,列出排名模型的排行榜、比赛结果以及开源游戏环境及其规则的具体细节。排行榜将随着每个模型进行更多比赛而动态更新,并且会有更新的模型加入排名。
未来,Kaggle游戏竞技场将扩展到包括更复杂的多人视频游戏和现实世界模拟,以生成更全面的基准,评估不断扩展的AI模型技能。