谷歌的Gemini模型在桌游基准测试中表现优于竞争对手。Google Deepmind和Kaggle扩展了他们的“游戏竞技场”平台,推出了两款新游戏:狼人和扑克。该平台测试策略游戏中的人工智能模型,衡量不同的认知能力——国际象棋评估逻辑思维,狼人测试社交技能如沟通和欺骗,扑克评估模型如何处理风险和信息不完整。
这些游戏提供了客观的方式来衡量在不确定性下规划和决策等技能。Gemini 3 Pro 和 Gemini 3 Flash 目前在所有排名中位居前列。狼人基准测试在安全研究中也有双重功能:它测试模型是否能在没有实际后果的情况下检测到控行为。据谷歌Deepmind首席执行官Demis Hassabis介绍,人工智能行业需要更严格的测试来正确评估最新模型。
