AI公司正在争夺行业主导地位,但有时它们也在宝可梦道馆中一较高下。
当谷歌和Anthropic都在研究他们最新的AI模型如何在早期宝可梦游戏中导航时,结果既有趣又发人深省——这次,谷歌DeepMind在报告中写道Gemini 2.5 Pro在其宝可梦濒临死亡时会表现出惊慌。根据报告,这可能导致AI的表现出现“在模型推理能力上的显著退化”。
AI基准测试——即比较不同AI模型性能的过程——是一种不太可靠的艺术通常提供很少的背景信息关于给定模型的实际能力。但一些研究人员认为研究AI模型如何玩电子游戏可能是有用的(或者至少有点搞笑)。
在过去的几个月里,两位与谷歌和Anthropic无关的开发者分别设立了Twitch直播,名为“Gemini玩宝可梦”和“Claude玩宝可梦”,任何人都可以实时观看AI如何尝试导航一个超过25年的儿童电子游戏。
每个直播展示了AI的“推理”过程——即AI如何评估问题并得出回应的自然语言翻译——让我们深入了解这些模型的工作方式。
虽然这些AI模型的进展令人印象深刻,但它们在玩宝可梦方面仍然不太擅长。Gemini需要数百小时来推理完成一个孩子可以在极短时间内完成的游戏。
观看AI导航宝可梦游戏的有趣之处不在于其完成时间,而在于其过程中表现出的行为。
“在游戏过程中,Gemini 2.5 Pro会遇到各种情况,导致模型模拟‘惊慌’,”报告中说。
这种“惊慌”状态可能导致模型表现变差,因为AI可能会突然停止使用其可用的某些工具进行一段时间的游戏。虽然AI不会思考或体验情感,但其行为模仿了人在压力下可能做出糟糕、仓促决定的方式——这是一种既令人着迷又令人不安的反应。
“这种行为在足够多的独立实例中发生,以至于Twitch聊天的成员们积极注意到它的发生,”报告中说。
Claude在其穿越关东的旅程中也表现出一些奇怪的行为。在一个实例中,AI注意到当所有宝可梦失去生命值时,玩家角色会“白屏”并返回宝可梦中心的模式。
当Claude被困在月见山洞时,它错误地假设如果故意让所有宝可梦晕倒,那么它将被传送到下一个城镇的宝可梦中心。
然而,这并不是游戏的工作方式。当你的所有宝可梦死亡时,你会返回最近使用的宝可梦中心,而不是地理上最近的。观众们惊恐地看着AI在游戏中试图自杀。
尽管存在不足之处,AI在某些方面可以超越人类玩家。自Gemini 2.5 Pro发布以来,AI能够以惊人的准确性解决难题。
在一些人类帮助下,AI创建了代理工具——针对特定任务的Gemini 2.5 Pro实例——来解决游戏的巨石谜题并找到到达目的地的高效路线。
“仅凭描述巨石物理和如何验证有效路径的提示,Gemini 2.5 Pro能够一次性解决这些复杂的巨石谜题,这些谜题是通过胜利之路所必需的,”报告中说。
由于Gemini 2.5 Pro在创建这些工具方面做了很多工作,谷歌推测当前模型可能在没有人类干预的情况下创建这些工具。谁知道呢,也许Gemini会自我疗愈,创建一个“不要惊慌”模块。