Gemini模型主导了战略桌游的新AI排名

2026年02月04日 由 alex 发表 2582 0

谷歌的Gemini模型在桌游基准测试中表现优于竞争对手。Google Deepmind和Kaggle扩展了他们的“游戏竞技场”平台,推出了两款新游戏:狼人和扑克。该平台测试策略游戏中的人工智能模型,衡量不同的认知能力——国际象棋评估逻辑思维,狼人测试社交技能如沟通和欺骗,扑克评估模型如何处理风险和信息不完整。





这些游戏提供了客观的方式来衡量在不确定性下规划和决策等技能。Gemini 3 Pro 和 Gemini 3 Flash 目前在所有排名中位居前列。狼人基准测试在安全研究中也有双重功能:它测试模型是否能在没有实际后果的情况下检测到控行为。据谷歌Deepmind首席执行官Demis Hassabis介绍,人工智能行业需要更严格的测试来正确评估最新模型。

文章来源:https://the-decoder.com/gemini-models-dominate-new-ai-rankings-for-strategic-board-games/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消