谷歌DeepMind今天推出了Genie 3,这是一种全新的通用“世界模型”,能够从简单的文本提示中生成沉浸式、互动的虚拟环境。Genie 3支持720p分辨率和每秒24帧的实时导航,生成的世界在视觉和物理上可以保持一致性数分钟。相比之下,其前身Genie 2仅支持10到20秒的低分辨率短暂互动。
一个名为“可提示的世界事件”的功能允许用户在生成后调整场景——例如添加雨天效果、生成动物或即时引入物体。这使得Genie 3从一个静态世界转变为一个可变的、响应的环境,非常适合探索。谷歌博客文章中展示的片段显示了令人印象深刻的逼真场景。
DeepMind将Genie 3视为具身AI代理(与周围环境互动的机器人和虚拟助手)的基础。研究总监Shlomi Fruchter称该模型为“第一个实时互动的通用世界模型”,适用于训练模拟代理在仓库中导航或执行复杂指令等任务。目前,Genie 3作为受控研究预览版正在向少数学者和创作者推出,这让DeepMind有机会评估安全性、解决偏见并完善功能。
通过使AI能够生成可探索、可修改和可记忆的世界,Genie 3向真正的具身AI迈出了一步——这种AI可以在模拟中进行推理、实验和计划,然后再在现实世界中行动。对于AGI研究人员来说,它提供了一个强大的新工具。对于终端用户——特别是创作者、教育工作者和游戏设计师——Genie 3开启了新的可能性。例如,教育工作者可以用它创建沉浸式教学环境;艺术家和游戏开发者可以即时原型化关卡、角色或场景;普通用户可以通过简单描述生成个性化的虚拟空间——无论是骑马在新西兰还是观海。模型对实时提示的响应能力使其成为任何对数字创意、故事讲述或互动学习感兴趣的人的强大工具。
“今天我们宣布Genie 3,这是一种通用世界模型,可以生成前所未有多样性的互动环境。给定一个文本提示,Genie 3可以生成动态世界,您可以以每秒24帧的速度实时导航,并在720p分辨率下保持一致性数分钟,”谷歌在博客文章中宣布。“在谷歌DeepMind,我们在模拟环境研究方面已经开创了十多年,从训练代理掌握实时战略游戏到开发用于开放式学习和机器人技术的模拟环境。这项工作激励了我们开发世界模型,这些AI系统可以利用其对世界的理解来模拟其各个方面,使代理能够预测环境将如何演变以及他们的行动将如何影响它。”
DeepMind已经使用Genie 3训练了其SIMA代理(可扩展可指导多世界代理),完成了如在虚拟仓库中导航到特定物体等多步骤任务。尽管世界模型并不“知道”目标,SIMA通过在自洽的模拟中规划取得了成功。然而,限制仍然存在。代理动作的范围仍然狭窄,模拟持续时间限制在几分钟内,并且模拟多个代理之间的互动仍然是一个挑战。此外,除非在提示中明确包含,否则环境中的文本渲染不够精确。