我在谷歌的新AI世界生成器中建造了棉花糖城堡

2026年01月30日由佚名发表 358 0

谷歌DeepMind正在开放Project Genie的访问权限，这是一款可以通过文本提示或图像创建互动游戏世界的AI工具。

从周四开始，美国的Google AI Ultra订阅用户可以试用这个实验性研究原型，它由谷歌最新的世界模型驱动。Genie 3，其图像生成模型Nano Banana Pro和Gemini。

在Genie 3的研究预览发布五个月后，此举是为了在DeepMind加速开发更强大的世界模型时收集用户反馈和训练数据。

世界模型是生成环境内部表示的AI系统，可以用于预测未来结果和规划行动。包括DeepMind在内的许多AI领导者认为，世界模型是实现通用人工智能（AGI）的关键一步。但在短期内，像DeepMind这样的实验室设想的市场计划是从视频游戏和其他娱乐形式开始，然后扩展到在模拟中训练具身代理（即机器人）。

DeepMind发布Project Genie之际，世界模型的竞争开始升温。去年年底，李飞飞的World Labs发布了其首款商业产品Marble。AI视频生成初创公司Runway也最近推出了一个世界模型。前Meta首席科学家Yann LeCun的初创公司AMI Labs也将专注于开发世界模型。

“我认为能够让更多人访问并给我们反馈是令人兴奋的，”DeepMind的研究总监Shlomi Fruchter在通过视频采访讲到时，脸上洋溢着对Project Genie发布的兴奋。

DeepMind研究人员坦率地承认该工具的实验性质。它可能不一致，有时能令人印象深刻地生成可玩的世界，有时则产生令人困惑的结果。以下是它的工作原理。

你从提供环境和主角的文本提示开始创建“世界草图”，之后你可以在第一人称或第三人称视角中操控主角。Nano Banana Pro根据提示创建图像，理论上你可以在Genie使用图像作为互动世界的起点之前进行修改。修改大多有效，但模型偶尔会出错，比如当你要求绿色头发时给你紫色头发。

你也可以使用真实照片作为模型构建世界的基础，这同样是有时成功有时失败。（稍后会详细介绍。）

一旦你对图像满意，Project Genie会在几秒钟内创建一个可探索的世界。你还可以通过在现有提示上构建来重新混合现有世界，或通过画廊或随机工具探索策划的世界以获得灵感。然后你可以下载你刚刚探索过的世界的视频。

DeepMind目前仅提供60秒的世界生成和导航，部分原因是预算和计算限制。因为Genie 3是一个自回归模型，需要大量专用计算资源，这限制了DeepMind能够提供给用户的数量。

“我们限制为60秒的原因是因为我们想让更多用户使用它，”Fruchter说。“基本上，当你使用它时，有一个芯片是专属于你的，并且专用于你的会话。”

他补充说，延长超过60秒会降低测试的增量价值。

“环境很有趣，但由于其互动水平，环境的动态性在某种程度上是有限的。不过，我们认为这是一个我们希望改进的限制。”

奇思妙想有效，现实主义无效

当我使用该模型时，安全防护措施已经启动。我无法生成任何类似裸露的内容，也无法生成任何与迪士尼或其他受版权保护的材料相关的世界。（在12月，迪士尼向谷歌发出停止侵权通知，指控该公司的AI模型通过训练迪士尼的角色和知识产权生成未经授权的内容等行为侵犯版权。）我甚至无法让Genie生成美人鱼探索水下幻想世界或冰雪女王在她们的冬季城堡中的世界。

尽管如此，演示还是令人印象深刻。我建造的第一个世界是尝试实现一个小小的童年幻想，在其中我可以探索一个由棉花糖构成的云中城堡，周围有巧克力酱河流和糖果树。（是的，我小时候是个胖孩子。）我要求模型以粘土动画风格呈现，它交付了一个童年时的我会喜欢的奇幻世界；城堡的粉彩和白色尖塔和塔楼看起来蓬松而美味，仿佛可以撕下一块浸入巧克力护城河中。（视频如上。）

话虽如此，Project Genie仍有一些问题需要解决。

模型在基于艺术提示创建世界方面表现出色，比如使用水彩画、动漫风格或经典卡通美学。但在生成逼真或电影化的世界时往往失败，通常看起来更像是视频游戏而不是现实中的人和场景。

当给它真实照片时，它也不总是响应良好。当我给它一张我办公室的照片并要求它基于照片创建一个世界时，它给了我一个有我办公室一些相同家具的世界——一个木桌、植物、一张灰色沙发——但布局不同。看起来很冷淡，数字化，不真实。

当我给它一张我桌子上有一个毛绒玩具的照片时，Project Genie动画化了玩具在空间中导航，甚至在它经过时其他物体偶尔会有反应。

这种互动性是DeepMind正在努力改进的。有几次我的角色直接穿过墙壁或其他实物。

当DeepMind最初发布Genie 3时，研究人员强调模型的自回归架构意味着它可以记住它生成的内容，所以我想通过返回它已经生成的环境部分来测试这一点，看看是否会相同。大多数情况下，模型成功了。在一个案例中，我生成了一只猫探索另一个桌子，只有一次当我转回桌子的右侧时，模型生成了第二个杯子。

我发现最令人沮丧的部分是使用箭头键环顾四周，空格键跳跃或上升，以及W-A-S-D键移动的导航方式。我不是一个游戏玩家，所以这对我来说并不自然，但这些键经常没有响应，或者会把你送到错误的方向。试图从房间的一侧走到另一侧的门口经常变成一个混乱的锯齿运动，就像试图操控一个轮子坏掉的购物车。

Fruchter向我保证，他的团队意识到这些缺点，再次提醒我Project Genie是一个实验性原型。他说，未来团队希望增强现实感并改进互动能力，包括让用户对动作和环境有更多控制。

“我们不认为[Project Genie]是一个人们可以每天使用的端到端产品，但我们认为已经有了一些有趣和独特的东西，是其他方式无法实现的，”他说。

文章来源：https://techcrunch.com/2026/01/29/i-built-marshmallow-castles-in-googles-new-ai-world-generator-project-genie/

标签：

谷歌

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Lorikeet推出Coach：提升AI客户支持的分析助手

下一篇音乐出版商因“公然盗版”2万部作品起诉Anthropic索赔30亿美元

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

Meta Muse Spark 1.1：百万上下文瞄准多智能体